빅 데이터 분석 사용자는 빅 데이터 분석 전문가 및 일반 사용자를 포함 하지만, 빅 데이터 분석에 대 한 가장 기본적인 요구 사항은 시각화 분석입니다, 시각화 분석은 빅 데이터의 특성을 시각적으로 나타낼 수 있기 때문에, 또한 독자가 쉽게 받아들일 수 있기 때문에, 그림을 보고 말하는 것 처럼.
2. 데이터 마이닝 알고리즘
빅 데이터 분석의 이론적 핵심은 데이터 마이닝 알고리즘입니다. 다양한 데이터 마이닝 알고리즘은 다양한 데이터 유형 및 형식을 기반으로 데이터 자체의 특징을 보다 과학적으로 표현할 수 있습니다. 이는 전 세계 통계학자들이 인정한 다양한 통계 방법 (진리라고 할 수 있음) 으로 인해 데이터에 깊이 들어가 공인된 가치를 발굴할 수 있기 때문입니다. 다른 한편으로는 이러한 데이터 마이닝 알고리즘이 큰 데이터를 더 빨리 처리할 수 있기 때문입니다. 만약 알고리즘이 몇 년이 걸려야 결론을 도출할 수 있다면, 큰 데이터의 가치는 말할 수 없다.
3. 예측 분석
큰 데이터 분석의 최종 응용 분야 중 하나는 큰 데이터에서 특징을 발굴하는 예측 분석입니다. 과학적 모델링을 통해 모델을 통해 새로운 데이터를 가져와 미래의 데이터를 예측할 수 있습니다.
4. 의미 엔진
구조화되지 않은 데이터의 다양성은 데이터 분석에 새로운 과제를 야기합니다. 데이터를 체계적으로 분석하고 정제할 수 있는 도구 세트가 필요합니다. 의미 엔진은 충분한 인공지능을 설계하여 데이터에서 능동적으로 정보를 추출해야 한다.
5. 데이터 품질 및 데이터 관리 빅 데이터 분석은 데이터 품질 및 데이터 관리와 불가분의 관계에 있습니다. 학술 연구든 상업 응용이든, 고품질의 데이터와 효과적인 데이터 관리는 분석 결과의 진실성과 가치를 보장할 수 있다.
빅 데이터 분석의 기초는 위의 다섯 가지 측면이다. 물론, 빅 데이터 분석에 깊이 들어가면 더 특색 있고, 더 깊고, 전문적인 빅 데이터 분석 방법이 많이 있습니다.
빅 데이터 기술
데이터 수집: ETL 도구는 관계형 데이터, 플랫 데이터 파일 등과 같은 분산 이기종 데이터 소스의 데이터를 임시 중간 계층으로 추출하여 청소, 변환 및 통합하고 결국 데이터 웨어하우스 또는 데이터 마트에 로드하여 온라인 분석 처리 및 데이터 마이닝의 기초가 됩니다.
데이터 액세스: 관계형 데이터베이스, NOSQL, SQL 등
인프라: 클라우드 스토리지, 분산 파일 스토리지 등
데이터 처리: NLP (자연어 처리) 는 인간-컴퓨터 상호 작용의 언어 문제를 연구하는 분야입니다. 자연어 처리의 관건은 컴퓨터가 자연어를 "이해" 하게 하는 것이기 때문에 자연어 처리는 자연어 이해 및 계산언어학이라고도 한다. 한편으로는 언어 정보 처리의 한 분야이고, 다른 한편으로는 인공지능의 핵심 과제 중 하나이다.
통계 분석: 가정 검사, 중요도 검사, 차이 분석, 상관 분석, T 검사, 분산 분석, 카이 제곱 분석, 부분 상관 분석, 거리 분석, 회귀 분석, 단순 회귀 분석, 다중 회귀 분석, 단계적 회귀, 회귀 예측 및 잔차 분석, 릿지 회귀, 로지스트
데이터 마이닝: 분류, 추정, 예측, 친화력 그룹화 또는 연관 규칙, 클러스터링, 설명 및 시각화, 설명 및 시각화, 복잡한 데이터 유형 마이닝 (텍스트, 웹, 그래픽 이미지, 비디오, 오디오 등). ).
모델 예측: 예측 모델, 기계 학습, 모델링 및 시뮬레이션
제시된 결과: 클라우드 컴퓨팅, 태그 클라우드, 다이어그램 등
빅 데이터 처리
1. 빅 데이터 처리 중 하나: 수집
대용량 데이터 수집은 여러 데이터베이스를 사용하여 클라이언트 (웹, App, 센서 등) 로부터 데이터를 수신하는 것을 말합니다. ), 사용자는 이러한 데이터베이스를 통해 간단한 쿼리 및 처리를 수행할 수 있습니다. 예를 들어, 전자 상거래 회사는 MySQL 및 Oracle 과 같은 기존 관계형 데이터베이스를 사용하여 각 거래에 대한 데이터를 저장합니다. 또한 Redis, MongoDB 와 같은 NoSQL 데이터베이스도 데이터 수집에 자주 사용됩니다.
대용량 데이터 수집 과정에서 주요 특징과 과제는 높은 동시성입니다. 예를 들어 기차표 발권 사이트와 타오바오와 같은 수천 명의 사용자가 동시에 액세스하고 운영할 수 있기 때문입니다. 동시 방문이 최고조에 달할 때 수백만 명에 이를 수 있기 때문에 채집측에 대량의 데이터베이스를 배치하여 지원해야 합니다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 성공명언) 이러한 데이터베이스 간에 로드 밸런싱 및 조각화를 수행하는 방법은 심층적인 사고와 설계가 필요합니다.
대용량 데이터 처리 II: 가져오기/전처리
수집 터미널 자체에는 많은 데이터베이스가 있지만 이러한 방대한 데이터를 효과적으로 분석하려면 프런트 엔드에서 중앙 집중식 대형 분산 데이터베이스 또는 분산 스토리지 클러스터로 데이터를 가져와야 합니다. 가져오기를 기반으로 간단한 정리 및 사전 처리를 수행할 수 있습니다. 가져오는 동안 Twitter 의 Storm 을 사용하여 일부 비즈니스의 실시간 컴퓨팅 요구 사항을 충족하기 위해 데이터를 스트리밍하는 사용자도 있습니다.
가져오기 및 사전 처리 프로세스의 특징과 과제는 주로 가져오는 데이터의 양이 많으며, 종종 초당 100 조, 심지어 기가비트 수준에 도달한다는 것입니다.
빅 데이터 처리 III: 통계/분석
통계 분석은 주로 분산 데이터베이스 또는 분산 컴퓨팅 클러스터를 활용하여 저장된 대량의 데이터를 분석하여 대부분의 일반적인 분석 요구 사항을 충족하는 것입니다. 이와 관련하여 일부 실시간 요구 사항에는 EMC 의 GreenPlum, Oracle 의 Exadata, MySQL 기반 Infobright, 일부 배치 처리 또는 반정형 데이터 요구 사항이 Hadoop 을 사용할 수 있습니다.
통계 및 분석의 주요 특징 및 과제는 분석에 관련된 데이터의 양이 많고 시스템 자원, 특히 I/O 를 많이 차지한다는 것입니다.
빅 데이터 처리 IV: 마이닝
이전 통계 및 분석 프로세스와 달리 데이터 마이닝은 일반적으로 사전 설정된 주제를 가지고 있지 않으며, 주로 다양한 알고리즘을 기반으로 기존 데이터를 계산하여 예측 효과를 달성하여 높은 수준의 데이터 분석 요구 사항을 달성합니다. 일반적인 알고리즘에는 클러스터링을 위한 Kmeans, 통계 학습을 위한 SVM 및 분류를 위한 NaiveBayes 가 포함됩니다. 사용 된 주요 도구는 Hadoop 의 Mahout 입니다. 이 프로세스의 특징과 과제는 마이닝을 위한 알고리즘이 매우 복잡하며 관련된 데이터의 양과 계산량이 매우 크다는 것입니다. 일반적으로 사용되는 데이터 마이닝 알고리즘은 주로 단일 스레드입니다.
전체 대형 데이터 처리의 일반적인 프로세스는 비교적 완전한 대형 데이터 처리를 계산하려면 최소 4 단계를 충족해야 합니다.