미스뷰를 활용한 결측치 처리 [KNIME 데이터 전처리] 4.5

KNIME 기능 설명 – Missing V alue KNIME 데이터 전처리 기능 설명 Missing Value를 활용한 결측치 처리

이번 포스트는, KNIME 데이터의 전처리 기능 가운데, 미스 바 기능 및 사용법을 설명합니다.missball 노드는 데이터 셋 내의 결측치를 제거 또는 치환해 주는 노드입니다.

파일은 서울시 공공데이터 “서울특별시 공공자전거 이용정보”를 활용하여 KNIME 데이터의 전처리 노드 Missing Value 기능을 설명합니다.

먼저 CSV Reader에서 파일을 읽고 Missing Value 노드를 읽습니다.

Missing Value 옵션 설정을 보면 String, Numeric에 대한 설정을 할 수 있는데 첫 번째 탭은 Default 값을 설정하는 탭이고 설정 시 데이터셋에 들어 있는 해당 속성의 Missing Value를 모두 변경합니다.

String 설정은 5종류가 있습니다.FixValue: 지정된 텍스트 값으로 변경하는 Most Frequent Value: 가장 많은 값을 가진 텍스트로 변경 Next Value: 행을 기준으로 다음 행에 있는 값으로 변경 Previous Value: 행을 기준으로 이전 행에 있는 값으로 변경 Remultio Row: 결측값이 있는 행을 삭제하고 Notvious Value: 행 기준으로 이전 행에 있는 값으로 변경됨) 설정하지 않아도 괜찮고 설정은 Defa입니다.

두 번째 탭에서는 컬럼 별로 Missing Value 처리 방법을 지정할 수 있습니다.좌측으로 컬럼을 선택하고 지정된 옵션에 따라 지정할 수 있습니다.

첫 번째 “연령별” Missing Value 치환, 첫 번째 “연령별” Missing Value 치환해 봅시다.

[가정] 연령대별 결측값은 80대가 떨어져 있으므로 연령대별 Missing Value 값을 치환해 줍니다.

옵션의 두 번째 탭에서 “연대별”을 선택하고 Missing Value 값을 80으로 표시합니다.

Missing Value 노드에 느낌표가 표시되는 이유는 전체 Missing Value를 해결하지 않았다는 Warning이기 때문에 무시하셔도 됩니다.

옵션 설정을 완료하고 V alue Counter에서 값을 확인하면 결측값(Missing Value) 값 14,150개가 80대로 변경됨을 확인할 수 있습니다.전체 데이터 셋에서 모든 결측치를 치환하는 두 번째는 전체 데이터 셋에서 모든 결측치를 치환하는 방법입니다.

  1. 첫 번째 탭에서 Default Stri ng에 80대를 입력한 후 실행시킵니다.2) 두 번째 탭은 아무런 조건도 입력하지 않는다

첫 번째 탭옵션을 설정한 후에 실행하면 전체 데이터셋에서 모든 결측치를 80대로 전환합니다.이 경우 대여 번호나 대여 결측치를 80대로 바꾸어 주기 때문에 데이터에 오류가 발생할 소지가 있습니다.

만약 첫 번째 탭에서는 데폴트 설정값을 지정하고 두 번째 탭에서는 컬럼을 설정하여 Missing Value처리를 하게 되면 두 번째 탭이 우선적으로 실행되고 나머지 Missing Value는 기본 설정값을 따릅니다.

현재 데이터 셋에는 숫자(Numeric)에 대한 미스킹 Value가 없는데, 만약 분석하고 싶은 데이터 안에 숫자의 미스킹 Value가 있다면 아까 String과 똑같이 진행을 하셔야 되겠습니다.

다른 부분에서 숫자는 기초 통계치를 치환값으로 사용할 수 있습니다.

평균값, 이동평균값, 최빈값, 중앙값, 최소값, 최대값 등으로 미스바를 치환해 줍니다.* KNIME Missing Value(결측치 처리) Workflow 공유* 이상에서 KNIME 데이터의 전처리 노드인 Missing Value 기능의 설명을 마칩니다.

감사합니다

error: Content is protected !!