세 가지 방향에서 빅데이터 발전의 미래 동향을 예측
기술의 발전으로 인해 세상은 빅데이터라는 개념이 제시된 것처럼 끊임없이 데이터를 생성하게 된다. 점차 산업으로 발전해 꾸준히 사랑받고 있습니다. 그렇다면 앞으로 빅데이터 산업의 발전은 어떻게 될까요? 빅데이터 기술의 향후 발전 추세를 세 가지 방향으로 예측한다.
(1) 소셜 네트워크와 사물 인터넷 기술은 데이터 수집 기술 채널을 확대했다
산업 정보화 건설, 의료, 교통을 통해 , 금융 및 기타 분야는 많은 내부 데이터를 축적하여 빅 데이터 자원의 "재고"를 형성했으며 모바일 인터넷과 사물 인터넷의 발전으로 외부 소셜 네트워크를 포함한 빅 데이터 수집 채널이 크게 풍부해졌습니다. 웨어러블 기기, 차량 인터넷, 사물 인터넷 등 인터넷과 정부 공공 정보 플랫폼의 데이터는 빅데이터 증분 데이터 자원의 주체가 될 것입니다. 현재 모바일 인터넷의 높은 인기는 빅데이터 애플리케이션을 위한 풍부한 데이터 소스를 제공하고 있습니다.
게다가 빠르게 발전하는 사물인터넷도 점점 더 중요한 빅데이터 자원 제공자가 될 것입니다. 지저분하고 가치밀도가 낮은 기존 인터넷 데이터에 비해 웨어러블, 차량인터넷 등 다양한 데이터 수집 단말을 통해 타겟화된 방식으로 수집된 데이터 자원의 가치는 더욱 크다. 예를 들어, 수년간의 개발을 거쳐 스마트 팔찌, 손목밴드, 시계 등 스마트 웨어러블 디바이스가 성숙해지고 있으며, 스마트 키체인, 자전거, 젓가락 등의 디바이스가 해외는 물론 국내에서도 속속 등장하고 있다. Baidu, JD.com, Xiaomi 등은 계획을 가지고 있습니다.
기업 내부 데이터는 여전히 빅데이터의 주요 소스이지만, 외부 데이터에 대한 수요는 점점 더 강해지고 있습니다. 현재 기업의 32%가 외부 구매를 통해 데이터를 얻고 있으며, 정부 공개 데이터를 사용하는 기업은 18%에 불과합니다. 빅데이터 자원의 구축을 촉진하고, 데이터 품질을 개선하며, 국경 간 통합 및 유통을 촉진하는 방법은 빅데이터 애플리케이션의 추가 개발을 촉진하는 핵심 문제 중 하나입니다.
일반적으로 모든 산업계는 새로운 데이터 수집을 위한 기술 채널을 적극적으로 확장하고 기존 자원을 활용하여 점진적인 자원을 개발하는 데 전념하고 있습니다. 소셜 미디어, 사물 인터넷 등은 데이터 수집을 위한 잠재적인 채널을 크게 풍부하게 만들었습니다. 이론적으로 데이터 수집은 점점 더 쉬워질 것입니다.
(2) 분산 스토리지 및 컴퓨팅 기술은 빅데이터 처리의 기술적 기반을 확고히 합니다.
빅데이터 스토리지 및 컴퓨팅 기술은 전체 빅데이터 시스템의 기반입니다.
스토리지 측면에서는 2000년경 구글 등이 제안한 파일시스템(GFS)과 후속 하둡 분산 파일 시스템인 HDFS(Hadoop Distributed File System)가 빅데이터 스토리지 기술의 기반을 마련했다.
기존 시스템과 비교하여 GFS/HDFS는 컴퓨팅 및 스토리지 노드를 물리적으로 결합하여 데이터 집약적인 컴퓨팅에서 쉽게 발생하는 I/O 처리량 제약을 방지하는 동시에 이러한 유형의 배포 파일 시스템입니다. 기존 스토리지 시스템도 분산 아키텍처를 채택하여 높은 동시 액세스 기능을 달성할 수 있습니다.
컴퓨팅 측면에서 구글이 2004년 공개한 맵리듀스(MapReduce) 분산병렬컴퓨팅 기술은 새로운 분산컴퓨팅 기술의 대표적인 기술이다. MapReduce 시스템은 저렴한 범용 서버로 구성되며, 서버 노드를 추가함으로써 시스템의 전체 처리 용량을 선형적으로 확장(Scale Out)할 수 있어 비용과 확장성에 큰 이점이 있습니다.
(3) 심층신경망 등 신기술이 빅데이터 분석 기술의 새로운 시대를 열어간다
빅데이터 데이터 분석 기술은 크게 온라인 분석처리(OLAP, Online)로 나누어진다. 분석 처리) 및 데이터 마이닝에는 두 가지 주요 범주가 있습니다.
OLAP 기술은 일반적으로 일련의 사용자 가정을 기반으로 하며 다차원 데이터 세트에 대한 대화형 데이터 세트 쿼리, 상관 관계 및 기타 작업(일반적으로 SQL 문 사용)을 수행하여 이러한 가정을 확인합니다. 연역적 추론 방법.
데이터 마이닝 기술은 일반적으로 대용량 데이터에서 모델을 적극적으로 탐색하고 데이터에 숨겨진 패턴을 자동으로 개발하는 귀납적 사고 방식을 나타냅니다.
기존 데이터 마이닝 알고리즘에는 주로 다음이 포함됩니다.
(1) 그룹 분석이라고도 알려진 클러스터링은 (샘플 또는 지표) 분류 문제를 연구하기 위한 통계 분석 방법입니다. 데이터에서는 데이터 세트를 범주로 나눕니다. 동일한 카테고리에 속하는 데이터 간의 유사성은 매우 크지만, 서로 다른 카테고리에 속하는 데이터 간의 유사성은 매우 작으며, 카테고리 간 데이터의 상관관계는 매우 낮습니다. 기업은 클러스터 분석 알고리즘을 사용하여 고객을 그룹화하고, 고객 그룹의 행동 특성을 명확히 하지 않고 다양한 차원의 고객 데이터를 그룹화한 후 그룹화된 고객의 특징을 추출 및 분석하여 고객 특성을 파악하고 해당 상품 및 서비스를 추천할 수 있습니다.
(2) 분류, 클러스터링과 유사하지만 목적이 다릅니다. 분류는 클러스터링을 통해 미리 생성된 모델을 사용하거나 경험적 데이터를 사용하여 데이터 개체 그룹의 가장 공통적인 지점을 찾을 수 있습니다. , 데이터를 여러 카테고리로 나누어 분류 모델을 통해 데이터 항목을 특정 카테고리에 매핑하는 것이 목적입니다. 대표적인 알고리즘은 CART(Classification and Regression Tree)입니다. 기업은 사용자, 제품, 서비스 등의 비즈니스 데이터를 분류하고 분류 모델을 구축한 후 새로운 데이터에 대한 예측 분석을 수행하여 기존 카테고리로 분류할 수 있습니다. 분류 알고리즘은 상대적으로 성숙하고 분류 정확도가 상대적으로 높습니다. 이는 정확한 고객 포지셔닝, 마케팅 및 서비스에 대한 예측 기능이 매우 뛰어나며 기업이 의사 결정을 내리는 데 도움이 됩니다.
(3) 회귀분석은 데이터의 속성값의 특성을 반영하고, 데이터 매핑의 관계를 표현하는 함수를 사용하여 속성값 간의 관계를 한눈에 알아낸다. 이는 데이터 시퀀스의 예측 및 상관 연구에 적용할 수 있습니다. 기업은 회귀 모델을 사용하여 시장 판매를 분석 및 예측하고 적시에 상응하는 전략적 조정을 수행할 수 있습니다. 위험 예방 및 사기 방지 측면에서 회귀 모델은 조기 경고에도 사용될 수 있습니다.
전통적인 OLAP 기술이든 데이터 마이닝 기술이든 전통적인 데이터 방법으로는 빅데이터 문제에 대처하기 어렵습니다. 첫 번째는 실행 효율성이 낮다는 것입니다. 기존의 데이터 마이닝 기술은 중앙 집중식 기반 소프트웨어 아키텍처를 기반으로 개발되었으며 병렬화가 어렵기 때문에 테라바이트 수준 이상의 데이터를 처리하는 데는 비효율적입니다. 둘째, 특히 비정형 데이터를 다루는 경우에는 데이터 양이 증가함에 따라 데이터 분석의 정확도가 향상되기 어렵습니다.
모든 인간의 디지털 데이터 중 수치 데이터 중 아주 작은 부분(전체 데이터 양의 약 1%를 차지)만이 심층 분석 및 마이닝(회귀, 분류, 클러스터링 등)을 거쳤습니다. , 대규모 인터넷 기업은 웹페이지 색인 등 반정형 데이터와 음성, 사진, 동영상 등의 비정형 데이터에 대해 얕은 분석(정렬 등)을 수행하는데, 이는 음성, 사진, 동영상 등 전체 데이터의 약 60%를 차지합니다. 전체를 효과적으로 분석하기는 어렵습니다.
따라서 빅데이터 분석 기술의 발전은 첫째, 대용량의 정형 및 반정형 데이터에 대한 효율적이고 심도 있는 분석을 통해 암묵적 지식을 이해하고 식별하는 등 두 가지 측면에서 획기적인 발전이 필요합니다. 두 번째는 자연어로 구성된 텍스트 웹페이지에서 의미, 감정, 의도 등을 분석하고, 대용량의 복잡하고 다중 소스의 음성, 이미지, 영상 데이터를 기계가 인식할 수 있고 명확한 의미 정보로 변환하여 유용한 정보를 추출하는 것입니다. 그것으로부터 지식.
현재 심층신경망 등 신흥 기술로 대표되는 빅데이터 분석 기술은 어느 정도 발전을 이뤘다.
신경망은 자체 처리, 분산 저장 및 높은 내결함성을 갖춘 고급 인공 지능 기술로, 비선형 처리와 모호하고 불완전하며 부정확한 지식 또는 데이터를 처리하는 데 매우 적합합니다. 빅데이터 마이닝 문제를 해결하는 데 매우 적합합니다.
일반적인 신경망 모델은 주로 세 가지 범주로 나뉩니다. 첫 번째 범주는 분류 예측 및 패턴 인식에 사용되는 피드포워드 신경망 모델이며, 주요 대표자는 기능적 네트워크와 퍼셉트론입니다. 연상기억과 최적화 알고리즘에 사용되는 피드백 신경망 모델로 Hopfield의 이산모델과 연속모델로 대표됩니다. 세 번째 범주는 ART 모델로 표현되는 클러스터링을 위한 자체 구성 매핑 방법입니다.
그러나 신경망에는 다양한 모델과 알고리즘이 있지만 특정 분야의 데이터 마이닝에 어떤 모델과 알고리즘을 사용할지에 대한 통일된 규칙이 없으며 사람들이 네트워크의 학습 및 의사 결정 과정을 이해하기 어렵습니다. .
인터넷과 전통 산업의 통합이 증가함에 따라 웹 데이터의 마이닝 및 분석은 수요 분석 및 시장 예측의 중요한 부분이 되었습니다. 웹 데이터 마이닝은 문서 구조 및 사용 모음에서 숨겨진 입력-출력 매핑 프로세스를 발견하는 포괄적인 기술입니다.
PageRank 알고리즘은 현재 연구되고 있으며 더 자주 적용되고 있습니다. PageRank는 Google 알고리즘의 중요한 부분으로 2001년 9월 미국 특허를 취득했으며 Google 창립자 중 한 명인 Larry Page의 이름을 따서 명명되었습니다. PageRank는 외부 및 내부 링크의 수와 품질을 기반으로 웹사이트의 가치를 측정합니다. 이 개념은 논문이 자주 인용될수록 일반적으로 그 권위와 품질이 더 높게 평가된다는 학술 연구 현상에서 영감을 얻었습니다.
데이터 마이닝 및 분석은 강력한 산업 및 기업 특성을 가지고 있으며, 가장 기본적인 데이터 분석 도구 외에도 현재는 대상이 지정된 일반 모델링 및 분석 도구가 부족하다는 점을 지적해야 합니다. 다양한 산업과 기업은 자신의 비즈니스를 기반으로 특정 데이터 모델을 구축해야 합니다. 데이터 분석 모델을 구축하는 능력은 다양한 기업이 빅데이터 경쟁에서 승리하는 열쇠가 되었습니다.