데이터 수집은 RFID 무선 주파수 데이터, 센서 데이터, 소셜 네트워크 상호 작용 데이터, 모바일 인터넷 데이터를 통해 얻을 수 있는 다양한 유형의 구조화, 반구조화 (또는 약한 구조화) 및 구조화되지 않은 대량 데이터를 말합니다. 대규모 데이터 지식 서비스 모델의 기초입니다. 초점은 분산 고속, 고 신뢰성 데이터 수집 또는 수집, 고속 데이터 전체 이미지 등 데이터 수집 기술을 돌파하는 것입니다. 고속 데이터 분석, 변환, 로드 등의 데이터 통합 기술을 돌파합니다. 품질 평가 모델을 설계하고 데이터 품질 기술을 개발하다.
대용량 데이터의 저장 및 관리에는 수집된 데이터를 저장하고 적절한 데이터베이스를 구축하며 관리 및 호출하는 메모리가 필요합니다. 복잡한 정형, 반정형, 비정형 대용량 데이터 관리 및 처리 기술에 중점을 둡니다. 대용량 데이터의 저장 가능성, 표현 가능성, 처리 가능성, 안정성 및 효과적인 전송과 같은 몇 가지 주요 문제를 주로 해결합니다. 신뢰할 수 있는 분산 파일 시스템 (DFS), 에너지 효율적인 최적화 스토리지, 컴퓨팅 통합 스토리지, 대용량 데이터 중복 제거 및 효율적이고 저렴한 대용량 데이터 스토리지 기술 개발 분산 비관계형 대형 데이터 관리 및 처리 기술, 이기종 데이터의 데이터 융합 기술, 데이터 조직 기술, 대형 데이터 모델링 기술 연구 빅 데이터 인덱싱 기술 혁신 대형 데이터 이동, 백업, 복제 및 기타 기술을 혁신하십시오. 빅 데이터 시각화 기술을 개발하다.
빅 데이터 분석 기술. 기존 데이터 마이닝 및 기계 학습 기술을 향상시킵니다. 데이터 네트워크 마이닝, 특수 그룹 마이닝, 맵 마이닝 등의 새로운 데이터 마이닝 기술 개발 객체 기반 데이터 연결, 유사성 연결 등의 데이터 융합 기술을 돌파합니다. 사용자 관심 분석, 네트워크 행동 분석, 감정 의미 분석 등 영역 지향 대형 데이터 마이닝 기술을 돌파하다.
빅 데이터 기술은 대량의 데이터에 숨겨진 정보와 지식을 발굴하여 인류의 사회경제 활동에 대한 근거를 제공하여 각 분야의 운영 효율을 높이고 전체 사회경제의 집약화 정도를 크게 높일 수 있다.