우선, 중복 값이 무엇인지 설명해 드리겠습니다. 중복 값이란 이름에서 알 수 있듯이 중복 데이터입니다. 두 가지 유형의 중복 데이터가 있습니다. 첫 번째는 동일한 데이터 값을 가진 여러 데이터 레코드입니다. 다른 하나는 데이터 본문이 동일하지만 일치하는 고유 속성 값이 다르다는 것입니다. 이 두 가지 상황 중 하나는 중복 데이터입니다. 그렇다면 어떻게 중복 데이터를 제거할 수 있을까요? 일반적으로 중복 데이터를 처리하는 방법에는 두 가지가 있습니다. 첫 번째 경우 솔루션은 중복 제거이고, 두 번째 경우 솔루션은 중복 제거입니다.
둘째, 이탈치가 무엇인지 말씀드리겠습니다. 여기서 말하는 이상치 값은 테스트 값 세트의 평균 편차가 표준 편차의 두 배를 초과하는 측정치입니다. 평균값의 3 배 표준 편차에서 벗어나는 측정치를 높이 이상값이라고 합니다. 이탈값에 대하여 우리는 일반적으로 처리하지 않는다. 물론 이 전제는 알고리즘이 이상값에 민감하지 않다는 것이다. 알고리즘이 이상값에 민감하면 어떻게 처리합니까? 그렇다면 우리는 평균으로 대체하거나 이상값으로 처리해야 한다. 이렇게 하면 이상데이터 값의 발생을 줄일 수 있다.
누락된 값은 데이터 분석에서 정리해야 할 객체이기도 합니다. 누락된 값이란 정보가 누락되어 데이터를 그룹화하는 것입니다. 누락된 값을 누락된 값이라고 합니다. 누락된 값 데이터의 데이터 중 하나 또는 일부가 불완전하여 데이터 분석에 영향을 줍니다. 따라서 누락 된 값을 정리해야합니다. 누락 된 값을 정리하는 방법은 무엇입니까? 큰 샘플의 누락 된 값은 직접 삭제할 수 있으며 작은 샘플은 최종 분석 결과에 영향을 줄 수 있으므로 직접 삭제할 수 없습니다. 작은 샘플의 경우, 우리는 예상을 통해서만 정리할 수 있다.
데이터 분석에는 명확한 데이터가 필요합니다. 이 문서에서 설명하는 중복 값, 예외 값 및 누락 값입니다. 데이터를 정리할 때 이러한 쓸모없는 데이터에주의를 기울여야합니다. 그래야만 데이터 분석을 잘 할 수 있다. 마지막으로, 데이터를 정리하기 전에 반드시 자신의 원시 데이터를 잘 보존하여 우리가 데이터를 백업할 수 있도록 해야 한다는 것을 일깨워 주십시오. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 데이터명언) 기억하세요, 기억하세요.