큰 데이터에는 무엇이 포함되어 있습니까?

대용량 데이터 기술에는 데이터 수집, 데이터 액세스, 인프라, 데이터 처리, 통계 분석, 데이터 마이닝, 모델 예측, 결과 프레젠테이션 1, 데이터 수집 등이 포함됩니다. 데이터 수집은 대용량 데이터 수명주기의 첫 번째 단계입니다. MapReduce 가 데이터를 생성하는 응용 시스템 분류에 따르면, 큰 데이터를 수집하는 출처에는 관리 정보 시스템, 웹 정보 시스템, 물리적 정보 시스템, 과학 실험 시스템 등 네 가지가 있습니다. 2. 데이터 액세스: 대용량 데이터의 저장은 서로 다른 기술 노선을 채택하여 크게 세 가지 범주로 나눌 수 있다. 1 클래스는 주로 대규모 구조화된 데이터를 대상으로 합니다. 두 번째 범주는 주로 반 구조화 된 데이터와 구조화되지 않은 데이터에 직면 해 있습니다. 세 번째 범주는 구조화 된 데이터와 구조화되지 않은 대용량 데이터에 직면 해 있습니다. 인프라: 클라우드 스토리지, 분산 파일 스토리지 등 4. 데이터 처리: 데이터 세트마다 파일, XML 트리, 관계형 테이블 등 구조와 패턴이 다를 수 있습니다. , 이것은 데이터의 이질성을 보여줍니다. 여러 이기종 데이터 세트의 경우 추가 통합 처리 또는 통합 처리가 필요합니다. 서로 다른 데이터 세트의 데이터를 수집, 정리, 정리 및 변환한 후 새 데이터 세트를 생성하여 후속 쿼리 및 분석 처리를 위한 일관된 데이터 뷰를 제공합니다. 5. 통계 분석: 가설 검사, 중요도 검사, 차이 분석, 상관 분석, T 검사, 분산 분석, 카이 제곱 분석, 부분 상관 분석, 거리 분석, 회귀 분석, 단순 회귀 분석, 다중 회귀 분석, 단계적 회귀, 회귀 예측 및 잔차 분석, 릿지 회귀; 6. 데이터 마이닝: 현재 사용 가능한 데이터 마이닝 및 기계 학습 기술을 개선해야 합니다. 데이터 네트워크 마이닝, 특수 그룹 마이닝, 맵 마이닝 등의 새로운 데이터 마이닝 기술 개발 객체 기반 데이터 연결, 유사성 연결 등의 데이터 융합 기술을 돌파합니다. 사용자 관심 분석, 네트워크 행동 분석, 감정 의미 분석 등 영역 지향 대형 데이터 마이닝 기술을 돌파하다. 모델 예측: 예측 모델, 기계 학습, 모델링 및 시뮬레이션 8. 결과 프레젠테이션: 클라우드 컴퓨팅, 태그 클라우드, 다이어그램 등

上篇: 광시 교통 직업 기술 대학 계획 下篇: 기업 온라인 연간 검사 비밀번호를 분실하면 어떻게 합니까?