첫 번째 단계는 큰 데이터가 무엇인지 알아내는 것입니다. 단순한 대량 데이터나 대량 데이터가 아니라 4V 특징을 가진 데이터 금광입니다. 그는 우리 기업에 기회와 도전을 가져다 줄 것이다.
둘째, 빅 데이터의 특성에 따라 엔터프라이즈 빅 데이터 플랫폼이 빅 데이터의 과제를 해결할 수 있는 기능을 분석합니다.
세 번째 부분은 대용량 데이터 플랫폼의 요구 사항에 따라 엔터프라이즈 대용량 데이터에 대한 기술 솔루션을 제시하고 이 솔루션이 대용량 데이터 문제를 해결하는 방법에 대해 설명합니다.
마지막으로, 빅 데이터 응용 프로그램의 현재 문제와 앞으로 어떻게 발전할 것인지 살펴보겠습니다.
큰 데이터란 무엇입니까?
데이터상으로 볼 때, 큰 데이터는 단순한 것이 아니라 훨씬 크다. 큰 데이터는 부르고, 귀로 물들지만, 4V 의 특성을 가지고 있다. 간단히 말하면 부피가 크고, 디자인이 많고, 속도가 빠르고, 가치가 낮다는 것이다.
대용량 데이터: 최근 연구에 따르면 전 세계 데이터 사용량은 2020 년까지 35.2ZB 로 44 배 증가할 것으로 예상되며, 빅 데이터에 대해 이야기할 때 일반 엔터프라이즈 데이터의 양은 페타바이트급에 도달해야 빅 데이터라고 할 수 있습니다.
스타일 많음: 대용량 데이터뿐 아니라 구조화 데이터와 구조화되지 않은 데이터, 이메일, Word, 그림, 오디오 정보, 비디오 정보 등 다양한 유형의 데이터가 포함되어 있어 이전의 관계형 데이터베이스에서 더 이상 해결할 수 없습니다.
속도: 여기서 말하는 것은 데이터 수집 속도입니다. 전자 상거래, 모바일 오피스, 웨어러블 장비, 사물인터넷, 스마트 커뮤니티 등이 발전함에 따라 데이터 생성 속도가 초급으로 진화했습니다. 기업은 실시간 데이터 수집 및 실시간 의사 결정이 필요합니다.
낮은 가치: 가치 밀도를 의미합니다. 전체 데이터의 가치는 갈수록 높아지지만, 데이터의 양이 증가함에 따라 데이터의 가치 밀도도 그에 따라 낮아지고, 가치가 없는 데이터는 대부분 차지하기 때문에 기업은 대량 업무에서 가치를 찾아야 합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 가치명언)
개발자의 관점에서 볼 때, 큰 데이터는 이전의 데이터베이스 기술 및 데이터웨어 하우스 기술과 다릅니다. 그것은 Hadoop 과 Spark 를 비롯한 일련의 신기술을 대표한다.
이 기술의 두드러진 특징은 분산과 메모리 계산이다.
분산: 간단히 말해서 분산은 복잡하고 시간이 많이 걸리는 작업을 여러 개의 작은 작업으로 나누어 병렬로 처리하는 것입니다. 여기에는 데이터 수집, 데이터 저장 및 데이터 처리가 포함됩니다.
메모리 계산: 기본적으로 CPU 는 하드 드라이브가 아닌 메모리에서 직접 데이터를 읽고 데이터를 계산하고 분석합니다. 메모리 계산은 대용량 데이터 및 실시간 결과가 필요한 데이터를 처리하는 데 적합합니다. 예를 들어, 한 기업의 최근 10 년간의 재무, 마케팅, 시장 등의 데이터는 거의 한 번에 메모리에 저장할 수 있으며 이를 바탕으로 데이터를 분석할 수 있습니다.
데이터 마이닝: 사실 큰 데이터의 핵심에는 통계학과 밀접한 관련이 있는 데이터 마이닝 기술도 포함되어야 합니다. 크게 분류, 클러스터, 예측, 연관의 네 가지 범주로 나눌 수 있습니다. 그것은 수학적인 방법으로 대량의 불완전하고 모호한 데이터에서 잠재적 법칙이나 지식을 추출할 수 있다.
대용량 데이터 플랫폼 요구 사항
큰 데이터의 능력은 데이터 수집, 데이터 저장소, 데이터 계산 또는 처리, 데이터 마이닝 및 데이터 렌더링의 다섯 가지 측면으로 나뉩니다.
데이터 수집: 방대한 양의 데이터와 실시간 데이터를 수집하는 기능이 데이터 활용의 첫 번째 단계입니다.
데이터 스토리지: 대용량 데이터의 특징에 대응하려면 대용량, 내결함성, 효율적인 스토리지 기능이 필요합니다. 이것이 데이터 활용의 기초입니다.
데이터 컴퓨팅: 강력하고 저렴하며 빠른 데이터 처리 및 화물 컴퓨팅 기능이 필요합니다. 강력한 데이터는 대량의 큰 데이터에 해당하며, 저렴한 데이터의 저가치 밀도는 큰 데이터에 해당하며, 빠른 대응은 큰 데이터에 해당하며, 이것이 큰 데이터 발전의 관건이다.
데이터 마이닝: 모든 각도, 모든 방향에서 데이터 가치를 분석 및 마이닝하고, 데이터 마이닝을 활용하고, 데이터를 가치로 변환하는 것이 데이터 활용의 핵심입니다.
데이터 렌더링: 다중 채널, 직관적이고 풍부한 데이터 렌더링 형식은 데이터의 외부 이미지이며, 데이터 응용 프로그램의 하이라이트이며 사용자가 인식할 수 있는 창입니다.
이것은 대형 데이터 플랫폼이 해결해야 할 문제이며, 반드시 갖추어야 할 능력, 데이터 수요이다.
기술 솔루션
엔터프라이즈 대용량 데이터 솔루션은 데이터 처리 프로세스에서 데이터 수집 계층, 데이터 스토리지 계층, 데이터 컴퓨팅 계층, 데이터 마이닝 계층 및 데이터 표현 계층으로 나뉘며, 각 계층은 대용량 데이터에 필요한 주요 문제를 해결합니다. 노란색 부분은 전통적인 데이터 처리 기술입니다.
데이터 수집 계층:
데이터 수집 기술은 실시간 수집과 타이밍 수집으로 나뉜다. 실시간 수집은 Oracle GoldenGate 와 같은 도구를 사용하여 실시간으로 증분적으로 데이터를 수집하여 데이터의 적시성을 보장합니다. 정시 수집은 SAP 데이터 서비스를 다른 도구와 결합하여 정기적으로 데이터를 추출하고, 주로 대량의 비시간 데이터에 사용됩니다. Kettle, sqoop 등의 분산 ETL 도구 추가, 다양한 데이터 추출 서비스, Kafka 서비스 추가, 실시간 데이터 통합, 대량의 실시간 데이터 처리
데이터 스토리지 계층:
데이터 저장소에는 기존 Oracle 을 기반으로 분산 파일 시스템, 분산 열 데이터베이스, 메모리 파일 시스템, 메모리 데이터베이스, 전체 텍스트 검색 등의 모듈이 추가되었습니다. 여기서 분산 파일 시스템 ceph 는 균형 잡힌 데이터 분포와 높은 병렬 처리로 인해 구조화되지 않은 데이터를 저장하는 데 사용됩니다. 분산 파일 시스템 Hdfs 는 확장성과 호환성이 뛰어나 다른 구조화된 데이터를 저장하는 데 사용됩니다. 열 저장소 데이터베이스 hbase 는 주로 작업 및 쿼리 서비스에 대한 특정 요구 사항이 있는 대량 데이터를 저장하는 데 사용됩니다.
데이터 계산 계층:
계산 계층은 표준 SQL 쿼리, 전체 텍스트 검색, 대화형 분석 스파크, 실시간 데이터 처리 스트림, 오프라인 배치, Graph X 등의 기술을 사용하여 구조화된 데이터, 구조화되지 않은 데이터, 실시간 데이터 및 대량 데이터를 계산하고 처리합니다.
스파크 메모리 컴퓨팅 엔진 이점, 코어 컴퓨팅 모드;
경량급 빠른 처리.
사용하기 쉽고 스파크는 여러 언어를 지원합니다.
복잡한 쿼리를 지원합니다.
실시간 흐름 처리.
Hadoop 및 기존 Hadoop 데이터와 통합할 수 있습니다.
하이브와 융합할 수 있나요?
데이터 마이닝 계층: Spark_Mllib, r, Mhout 등의 분석 도구를 사용하여 모델 분석 엔진에서 모델 및 알고리즘 라이브러리를 생성합니다. 모델은 모델 알고리즘 라이브러리에서 훈련하여 모델 인스턴스를 생성합니다. 마지막으로 모델 인스턴스에 따라 실시간 및 오프라인 의사 결정을 수행합니다.
데이터 프레젠테이션 계층: 포털 디스플레이, 데이터 차트, 이메일, 사무용 소프트웨어 등의 데이터 분석 방법을 제공하여 대형 화면, 컴퓨터 데스크탑, 모바일 단말기 등을 지원합니다.
끝말
고성능 컴퓨터와 대용량 데이터 스토리지 관리 프로세스가 지속적으로 최적화됨에 따라 기술로 해결할 수 있는 문제는 결국 문제가 되지 않습니다. 빅 데이터 개발 애플리케이션의 병목 현상을 실제로 제한하거나 형성하는 세 가지 링크가 있습니다.
첫째, 데이터 수집 및 추출의 합법성, 데이터 개인 정보 보호 및 데이터 개인 정보 보호 응용 프로그램의 균형.
어떤 기업사업단위라도 인파에서 프라이버시 데이터를 추출할 때 사용자는 알 권리가 있으며, 자신의 프라이버시 데이터를 이용하여 상업활동을 할 때 사용자의 동의를 받아야 한다. 그러나 현재 중국은 물론 전 세계적으로 사용자의 프라이버시를 보호하는 방법, 비즈니스 규칙을 만드는 방법, 사용자의 프라이버시를 침해하는 사람을 처벌하는 방법, 법적 규범을 제정하는 방법 등 일련의 관리 문제가 큰 데이터의 발전 속도에 뒤처져 있다. 앞으로 많은 대형 데이터 업무가 발전 초기에 회색 지대를 배회할 것이다. 상업 운영이 형성되기 시작하고 대량의 소비자와 회사에 영향을 미치기 시작하면 관련 법규와 시장 규범은 어쩔 수 없이 제정을 가속화할 것이다. 큰 데이터 기술의 응용은 무한히 넓을 수 있지만, 데이터 수집의 한계로 인해 비즈니스 응용 프로그램 및 서비스 데이터에 사용할 수 있으며, 이론적으로 큰 데이터를 수집하고 처리할 수 있는 데이터보다 훨씬 적습니다. 데이터 소스 수집 제한 * * 대용량 데이터의 비즈니스 응용 프로그램을 제한합니다.
둘째, 빅데이터의 협동은 산업 체인의 각 부분을 필요로 하는 기업들이 경쟁과 협력 사이에 균형을 이룬다.
빅데이터는 생태계를 바탕으로 기업에 더 많은 협력 요구를 제기했다. 전체 산업 체인에 대한 거시적 파악이 없다면, 개별 기업은 자신의 독립적인 데이터를 바탕으로 산업 체인의 각 부분에 대한 데이터 간의 관계를 이해할 수 없고, 소비자에 대한 판단과 영향도 매우 제한적이다. 은행, 보험 등 정보 비대칭이 뚜렷한 일부 업종에서는 기업 간 데이터 공유에 대한 수요가 더욱 절실하다. 예를 들어, 은행, 보험업계는 회원들에게 개인 사용자의 신용 기록을 알리고 보증인과 소비자 간의 정보 비대칭을 제거하여 거래가 순조롭게 진행될 수 있도록 업계 전용 데이터베이스를 구축해야 하는 경우가 많습니다. 그러나 많은 경우 정보를 즐겨야 하는 기업들 간의 경쟁과 협력의 관계는 동시에 존재한다. 기업은 데이터를 즐기기 전에 장단점을 따져보고 데이터를 즐기면서 경쟁 우위를 잃지 않도록 해야 한다. 또 많은 상인들이 협력할 때 판매자 연맹을 형성하기 쉬우므로 소비자의 이익이 손상되고 경쟁의 형평성에 영향을 미칠 수 있다. 빅 데이터의 가장 상상력 있는 발전 방향은 서로 다른 업종의 데이터를 통합하고, 전방위적인 3D 데이터 그리기를 제공하고, 시스템 관점에서 사용자의 요구를 이해하고 개조하는 것이다. 그러나 업종 간 데이터 공유는 너무 많은 기업의 이익을 균형 있게 해야 한다. 모든 참여 기업 간의 관계를 조율하는 중립적인 제 3 자 기관이 없다면, 데이터의 * * * * 에 대한 규칙을 정하면 대용량 데이터의 사용이 제한될 것이다. 권위가 부족한 제 3 자 중립기구는 큰 데이터가 최대한의 잠재력을 발휘하도록 제한할 수 있다.
셋째, 빅 데이터 결론의 해석과 적용.
큰 데이터는 데이터 분석 수준에서 변수 간의 가능한 상관 관계를 밝힐 수 있지만, 데이터 수준의 상관 관계는 산업 관행에 어떻게 반영됩니까? 실행 가능한 시나리오에서 큰 데이터를 적용한다는 결론을 어떻게 도출할 수 있습니까? 이러한 문제는 임원들이 큰 데이터를 해석할 수 있어야 할 뿐만 아니라 산업 발전의 다양한 요소들 사이의 관계도 이해해야 한다. 이 링크는 빅 데이터 기술의 발전에 기반을 두고 있지만 관리, 실행 등 다양한 요소도 관련되어 있다. 이 과정에서 인간의 요소가 성공의 관건이 되었다. 기술적인 관점에서 볼 때, 경영진은 빅 데이터 기술을 이해하고 빅 데이터 분석의 결론을 해석할 수 있어야 합니다. 업계의 관점에서, 수행자는 업계의 각 생산 과정의 프로세스 간 관계와 다양한 요소 간의 가능한 상관 관계를 잘 이해하고, 큰 데이터의 결론을 업계의 구체적인 실행 절차와 일치시켜야 한다. 관리 관점에서 볼 때 수행자는 문제에 대한 실행 가능한 해결책을 개발해야 하며, 이 솔루션이 관리 프로세스와 충돌하지 않고 문제를 해결하는 동시에 새로운 문제를 일으키지 않도록 해야 합니다. 이러한 요구 사항은 수행자가 기술에 정통해야 할 뿐만 아니라 복잡한 시스템의 관점에서 빅 데이터와 산업의 관계를 볼 수 있는 체계적인 사고를 가진 훌륭한 관리자여야 합니다. 이런 인재의 희소성은 큰 데이터의 발전을 제약할 것이다.