대용량 데이터 기술에는 데이터 수집, 데이터 액세스, 인프라, 데이터 처리, 통계 분석, 데이터 마이닝, 모델 예측, 결과 프레젠테이션 1, 데이터 수집 등이 포함됩니다. 데이터 수집은 대용량 데이터 수명주기의 첫 번째 단계입니다. MapReduce 가 데이터를 생성하는 응용 시스템 분류에 따르면, 큰 데이터를 수집하는 출처에는 관리 정보 시스템, 웹 정보 시스템, 물리적 정보 시스템, 과학 실험 시스템 등 네 가지가 있습니다. 2. 데이터 액세스: 대용량 데이터의 저장은 서로 다른 기술 노선을 채택하여 크게 세 가지 범주로 나눌 수 있다. 1 클래스는 주로 대규모 구조화된 데이터를 대상으로 합니다. 두 번째 범주는 주로 반 구조화 된 데이터와 구조화되지 않은 데이터에 직면 해 있습니다. 세 번째 범주는 구조화 된 데이터와 구조화되지 않은 대용량 데이터에 직면 해 있습니다. 인프라: 클라우드 스토리지, 분산 파일 스토리지 등 4. 데이터 처리: 데이터 세트마다 파일, XML 트리, 관계형 테이블 등 구조와 패턴이 다를 수 있습니다. , 이것은 데이터의 이질성을 보여줍니다. 여러 이기종 데이터 세트의 경우 추가 통합 처리 또는 통합 처리가 필요합니다. 서로 다른 데이터 세트의 데이터를 수집, 정리, 정리 및 변환한 후 새 데이터 세트를 생성하여 후속 쿼리 및 분석 처리를 위한 일관된 데이터 뷰를 제공합니다. 5. 통계 분석: 가설 검사, 중요도 검사, 차이 분석, 상관 분석, T 검사, 분산 분석, 카이 제곱 분석, 부분 상관 분석, 거리 분석, 회귀 분석, 단순 회귀 분석, 다중 회귀 분석, 단계적 회귀, 회귀 예측 및 잔차 분석, 릿지 회귀; 6. 데이터 마이닝: 현재 사용 가능한 데이터 마이닝 및 기계 학습 기술을 개선해야 합니다. 데이터 네트워크 마이닝, 특수 그룹 마이닝, 맵 마이닝 등의 새로운 데이터 마이닝 기술 개발 객체 기반 데이터 연결, 유사성 연결 등의 데이터 융합 기술을 돌파합니다. 사용자 관심 분석, 네트워크 행동 분석, 감정 의미 분석 등 영역 지향 대형 데이터 마이닝 기술을 돌파하다. 모델 예측: 예측 모델, 기계 학습, 모델링 및 시뮬레이션 8. 결과 프레젠테이션: 클라우드 컴퓨팅, 태그 클라우드, 다이어그램 등