원칙적으로 데이터 마이닝은 데이터베이스, 데이터 웨어하우스, 데이터 마트, 트랜잭션 데이터베이스, 공간 데이터베이스 (예: 지도), 엔지니어링 설계 데이터 (예: 건축 설계), 멀티미디어 데이터 (예: 텍스트, 이미지, 비디오, 오디오) 등 모든 유형의 저장소 및 임시 데이터 (예: 데이터 흐름) 에 적용할 수 있습니다 따라서 데이터 마이닝은 다음과 같은 특징을 가지고 있습니다.
(1) 데이터 세트가 크고 불완전합니다.
데이터 마이닝에 필요한 데이터 세트는 매우 큽니다. 데이터 세트가 클수록 얻은 법칙이 정확한 실제 법칙에 가까울수록 결과가 더 정확해집니다. 또한 데이터는 종종 불완전합니다.
(2) 부정확하다
데이터 마이닝이 정확하지 않습니다. 주로 소음 데이터로 인해 발생합니다. 예를 들어, 상업적으로 사용자는 거짓 데이터를 제공 할 수 있습니다. 공장 환경에서는 정상적인 데이터가 전자기 또는 방사선에 의해 방해를 받아 데이터 예외가 발생하는 경우가 많습니다. 이러한 비정상적이고 절대적으로 불가능한 데이터를 소음이라고 하며, 이로 인해 데이터 마이닝이 부정확해질 수 있습니다.
(3) 모호성과 무작위성
데이터 마이닝은 모호함과 무작위성을 가지고 있습니다. 이곳의 모호성은 부정확성과 관련이 있을 수 있다. 데이터가 정확하지 않기 때문에, 우리는 전체적으로 데이터를 관찰할 수 있을 뿐 아니라, 개인 정보가 일부 구체적인 내용을 알 수 없기 때문이다. 이때 관련 분석 작업을 하려면 일반적인 분석만 할 뿐 정확한 판단은 할 수 없다.
데이터의 무작위성에는 두 가지 설명이 있습니다. 하나는 얻은 데이터가 무작위라는 것입니다. 우리는 사용자가 무엇을 채웠는지 알 수 없다. 두 번째는 분석 결과가 무작위라는 것이다. 자료를 기계에 넘겨 판단하고 공부하기 때문에 모든 조작은 회색 상자 조작에 속한다.