정보기술이 급속히 발전하면서 데이터가 폭발적으로 증가하기 시작했다. 큰 데이터의 데이터는 더 이상 몇 기가바이트나 테라바이트가 아니라 페타바이트 (1000 t), EB( 1 만 t) 또는 ZB (1 억 t) 로 측정됩니다
2. 다양성
다양성은 주로 데이터 소스가 많고, 데이터 유형이 많으며, 데이터 간의 연관성이 높다는 세 가지 측면에 반영됩니다.
데이터 출처가 매우 많은데, 기업이 직면한 전통 데이터는 주로 거래 데이터이다. 인터넷과 사물인터넷의 발전은 소셜네트워크서비스, 센서와 같은 다양한 출처의 데이터를 가져왔다.
데이터는 서로 다른 응용 시스템 및 다른 장치에서 온 것이기 때문에 큰 데이터 형식의 다양성을 결정합니다. 일반적으로 세 가지 범주로 나눌 수 있습니다. 하나는 재무 시스템 데이터, 정보 관리 시스템 데이터, 의료 시스템 데이터 등과 같은 구조화된 데이터입니다. , 데이터 간의 인과 관계가 강한 것이 특징이다. 둘째, 비디오, 사진, 오디오 등과 같은 구조화되지 않은 데이터입니다. , 데이터 사이에 인과 관계가 없다는 것이 특징입니다. 셋째, HTML 문서, 메일, 웹 페이지 등과 같은 반정형 데이터입니다. , 데이터 간의 인과 관계가 약하다는 것이 특징입니다.
데이터 유형이 많고 구조화되지 않은 데이터가 주요 데이터입니다. 전통적인 기업에서는 데이터가 표 형식으로 저장됩니다. 70 ~ 85% 의 대용량 데이터는 사진, 오디오, 비디오, 웹 로그, 링크 정보 등 구조화되지 않은 반정형 데이터입니다.
데이터와 잦은 상호 작용에는 강한 상관관계가 있다. 예를 들어 여행객이 여행 과정에서 올린 사진과 일지, 관광객의 위치, 여행 등 정보와 강한 상관관계가 있다.
3. 고속
이것은 기존 데이터 마이닝과 큰 데이터의 가장 두드러진 특징입니다. 큰 데이터와 대량 데이터의 중요한 차이점은 두 가지 측면에 있습니다. 한편으로는 큰 데이터의 데이터 크기가 더 큽니다. 반면, 대용량 데이터는 데이터 처리에 대한 응답 속도가 더욱 엄격합니다. 배치 분석 대신 실시간 분석을 통해 데이터 입력, 처리, 폐기가 즉각적이며 지연이 거의 없습니다. 데이터의 증가 속도와 처리 속도는 빅데이터 고속의 중요한 구현이다.
4. 가치
비록 기업은 대량의 데이터를 가지고 있지만, 극히 일부만이 가치가 있다. 빅 데이터 뒤에 숨겨진 가치는 엄청납니다. 큰 데이터에서 가치 있는 데이터의 비율이 작기 때문에 큰 데이터의 진정한 가치는 다양한 유형의 관련되지 않은 데이터에 반영됩니다. 미래 동향 및 패턴 예측 분석에 가치 있는 데이터를 발굴하고 기계 학습 방법, 인공 지능 방법 또는 데이터 마이닝 방법을 통해 심도 있는 분석을 수행하여 농업 금융 의료 등에 적용하여 더 큰 가치를 창출합니다.