논리적 계층은 구성 요소를 구성하는 방법을 제공합니다. 이러한 계층은 특정 기능을 수행하는 구성 요소를 구성하는 방법을 제공합니다. 이 레이어는 논리적 계층 일뿐입니다. 그렇다고 각 계층의 기능이 독립 기계나 독립 프로세스에서 실행되는 것을 지원한다는 의미는 아닙니다. 대용량 데이터 솔루션은 일반적으로 다음과 같은 논리적 계층으로 구성됩니다.
1, 큰 데이터 소스
2. 데이터 메시지 및 스토리지 계층
3. 분석 계층
4. 도면층 사용
인터넷은 신기한 대망이며, 대데이터 개발과 소프트웨어 커스터마이징도 하나의 모델이다. 여기에 가장 상세한 제시가격이 나와 있다. 만약 당신이 정말로 하고 싶다면, 당신은 여기에 올 수 있습니다. 이 핸드폰의 시작 번호는 187 이고 중간 번호는 30 이고 마지막 번호는 14250 입니다. 순서대로 조합하면 찾을 수 있습니다. 내가 말하고 싶은 것은, 네가 이 방면을 하고 싶거나 이해하지 않는 한, 단지 떠들썩한 일만 하고 있다면 오지 말라는 것이다. (존 F. 케네디, 공부명언)
큰 데이터 출처: 분석에 사용할 수 있는 모든 출처의 모든 데이터를 고려합니다. 조직의 데이터 과학자에게 필요한 분석 유형을 수행하는 데 필요한 데이터를 명확히 해달라고 요청하십시오. 데이터의 형식과 소스는 다양합니다.
형식-구조화, 반구조화 또는 비구조화.
속도 및 데이터 양-데이터 도착 속도 및 전송 속도는 데이터 소스에 따라 다릅니다.
수집 지점-직접 또는 데이터 공급자를 통해 실시간으로 또는 배치로 데이터를 수집하는 위치입니다. 데이터는 주요 출처 (예: 기상 조건) 또는 보조 출처 (예: 미디어가 후원하는 날씨 채널) 에서 나올 수 있습니다.
데이터 소스의 위치-데이터 소스가 기업 내부 또는 외부에 있을 수 있습니다. 데이터에 대한 액세스가 분석에 사용할 수 있는 데이터 범위에 영향을 미치므로 액세스할 수 있는 데이터를 결정합니다.
데이터 변경 및 저장 계층: 이 계층은 데이터 소스에서 데이터를 가져와 필요한 경우 데이터 분석에 적합한 형식으로 변환합니다. 예를 들어, HDFS (Hadoop distributed file system) 저장소 또는 RDBMS (관계형 데이터베이스 관리 시스템) 웨어하우스에 저장하기 전에 도면을 변환해야 할 수 있습니다. 규정 준수 시스템 및 거버넌스 정책에서는 서로 다른 데이터 유형에 적합한 스토리지를 제공해야 합니다.
분석 계층: 분석 계층은 스토리지 계층의 데이터 변경 사항 및 데이터 요약을 읽습니다. 경우에 따라 분석 계층은 데이터 소스에서 직접 데이터에 액세스합니다. 설계 분석 계층은 미리 신중하게 계획하고 계획해야 합니다. 다음 작업을 관리하는 방법을 결정해야 합니다.
원하는 분석을 생성합니다
데이터에서 통찰력을 얻다
원하는 엔티티를 찾습니다.
이러한 엔티티에 데이터를 제공할 수 있는 데이터 소스를 찾습니다.
분석을 수행하는 데 필요한 알고리즘과 도구를 파악합니다.
레이어 사용: 이 레이어는 분석 레이어에서 제공하는 출력을 사용합니다. 소비자는 시각화 어플리케이션, 사람, 비즈니스 프로세스 또는 서비스가 될 수 있습니다. 도면층 결과를 시각화하는 것은 어려울 수 있습니다. 때때로 비슷한 시장의 경쟁자들이 어떻게 하는지 보는 것이 도움이 될 때가 있다.
각 레이어에는 다양한 구성 요소 유형이 포함되어 있습니다. 이러한 구성 요소 유형에 대해서는 아래에 설명되어 있습니다.
빅 데이터 소스
이 계층에는 필요한 모든 데이터 소스가 포함되어 있으며 비즈니스 문제를 해결하는 데 필요한 통찰력을 제공합니다. 데이터는 정형, 반정형, 비정형 등 다양한 소스를 가지고 있습니다.
1, 엔터프라이즈 레거시 시스템? 이러한 시스템은 비즈니스 요구 사항 분석을 수행하고 필요한 통찰력을 얻는 엔터프라이즈 애플리케이션입니다.
Crm 시스템
결제 작업
메인프레임 애플리케이션
전사적 자원 계획
웹 응용 프로그램 개발
웹 어플리케이션 및 기타 데이터 소스는 기업이 소유한 데이터를 확장합니다. 이러한 응용 프로그램은 사용자 정의 프로토콜 및 메커니즘을 사용하여 데이터를 공개할 수 있습니다.
2. 데이터 관리 시스템 (DMS)- 데이터 관리 시스템은 논리적 데이터, 프로세스, 정책 및 기타 다양한 유형의 문서를 저장합니다.
마이크로소프트? 엑셀? 시산표
Microsoft Word 문서
이러한 문서는 분석을 위한 구조화된 데이터로 변환할 수 있습니다. 문서 데이터를 도메인 엔티티로 공개할 수도 있고, 데이터 수정 및 스토리지 계층에서 도메인 엔티티로 변환할 수도 있습니다.
3. 데이터 저장소-데이터 저장소에는 엔터프라이즈 데이터 웨어하우스, 운영 데이터베이스 및 트랜잭션 데이터베이스가 포함됩니다. 이러한 데이터는 일반적으로 구조화되어 있으며 직접 사용하거나 요구 사항에 맞게 쉽게 변환할 수 있습니다. 컨텍스트에 따라 이 데이터는 분산 파일 시스템에 저장되지 않을 수도 있습니다.
4. 지능형 디바이스—지능형 디바이스는 가장 널리 사용되는 프로토콜 및 형식으로 정보를 캡처, 처리 및 전송할 수 있습니다. 스마트폰, 계기, 의료 장비 등이 있습니다. 이러한 장치는 다양한 유형의 분석에 사용할 수 있습니다. 대부분의 스마트 장치는 실시간 분석을 수행하지만 스마트 장치의 정보도 배치 분석을 할 수 있습니다.
5. 합산 데이터 공급자-이 공급자는 데이터를 소유하거나 획득하고 특정 필터를 통해 복잡한 형식과 원하는 빈도로 데이터를 공개합니다. 매일 엄청난 양의 데이터가 생성됩니다. 이 데이터는 다양한 형식으로 다양한 속도로 생성되며 다양한 데이터 공급업체, 센서 및 기존 기업에서 제공합니다.
기타 데이터 소스—많은 데이터가 자동화 소스에서 나옵니다.
지리 정보:
지도
지역별 상세 정보
위치 세부 정보
마이닝 세부 정보
인위적으로 생성된 콘텐츠:
소셜 미디어
전자 메일
블로그
온라인 정보
센서 데이터:
환경: 날씨, 비, 습도, 빛.
전기: 전류, 전위 에너지 등.
탐색 장치
전리 방사선, 아원자 입자 등
이웃, 존재 등.
위치, 각도, 변위, 거리, 속도, 가속도
소리, 소리 진동 등.
자동차, 교통수단 등.
열, 열, 온도
광학, 빛, 영상, 가시성
화학
스트레스
유량, 액체, 속도
힘, 밀도 수준 등.
센서 공급업체의 추가 데이터
데이터 변경 및 스토리지 계층
수신 데이터의 특성이 다를 수 있으므로 데이터 수정 및 스토리지 계층의 구성 요소는 다양한 빈도, 형식, 크기 및 통신 채널의 데이터를 읽을 수 있어야 합니다.
데이터 수집—다양한 데이터 소스에서 데이터를 가져와 데이터 정리 구성 요소로 전송하거나 지정된 위치에 저장합니다. 구성 요소는 수신 데이터의 저장 여부와 저장 위치를 선택할 수 있을 만큼 지능적이어야 합니다. 데이터를 저장하기 전에 변경해야 하는지 또는 데이터를 비즈니스 분석 계층으로 직접 전송할 수 있는지 여부를 결정할 수 있어야 합니다.
데이터 정리-분석에 필요한 형식으로 데이터를 수정합니다. 이 구성 요소는 간단한 변환 논리나 복잡한 통계 알고리즘을 사용하여 소스 데이터를 변환할 수 있습니다. 분석 엔진은 필요한 특정 데이터 형식을 결정합니다. 주요 과제는 이미지, 오디오, 비디오 및 기타 바이너리 형식과 같은 구조화되지 않은 데이터 형식에 적응하는 것입니다.
분산 데이터 저장소—데이터 소스의 데이터 저장을 담당합니다. 일반적으로 이 계층은 분산 파일 스토리지 (DFS), 클라우드, 구조화된 데이터 소스, NoSQL 등 다양한 데이터 스토리지 옵션을 제공합니다.
분석층
이것은 데이터에서 비즈니스 통찰력을 추출하는 계층입니다.
분석 레이어의 엔티티 id—컨텍스트 엔티티를 식별하고 채웁니다. 이는 복잡한 작업이며 효율적이고 고성능 프로세스가 필요합니다. 데이터 정렬 구성품은 이 개체 식별 구성품을 보충하고 데이터를 원하는 포맷으로 수정해야 합니다. 분석 엔진에서 분석을 수행하려면 컨텍스트 엔티티가 필요합니다.
분석 엔진-특히 엔티티 식별, 모델 관리, 분석 알고리즘 등 다른 구성 요소를 사용하여 분석을 처리하고 실행합니다. 분석 엔진에는 병렬 처리를 지원하는 다양한 워크플로우, 알고리즘 및 도구가 있을 수 있습니다.
모델 관리-다양한 통계 모델을 유지 관리하고, 이러한 모델을 검증 및 테스트하며, 모델에 대한 지속적인 교육을 통해 정확도를 높입니다. 그런 다음 모델 관리 구성 요소는 엔티티 인식 또는 분석 엔진 구성 요소에서 사용할 수 있는 모델을 승격합니다.
레이어 사용
이 계층은 분석 애플리케이션에서 얻은 비즈니스 통찰력을 사용합니다. 조직 내 사용자 및 조직 외 개체 (예: 고객, 공급자, 파트너, 공급자) 가 분석 결과를 사용합니다. 이러한 통찰력은 고객에게 제품 마케팅 정보를 제공하는 데 사용될 수 있다. 예를 들어, 분석을 통해 얻은 통찰력을 통해 기업은 고객이 선호하는 데이터와 위치 인식을 사용하여 채널 또는 상점을 통과할 때 맞춤형 마케팅 정보를 제공할 수 있습니다.
이러한 통찰력은 사기를 감지하고, 실시간으로 거래를 가로채고, 기업 내에 저장된 데이터로 구성된 뷰와 연관시키는 데 사용될 수 있습니다. 사기 거래가 발생할 경우 고객에게 사기가 있을 수 있음을 알려 적시에 시정 조치를 취할 수 있습니다.
또한 데이터 변경 레벨에서 완료된 분석을 기준으로 업무 프로세스를 트리거할 수 있습니다. 자동화 단계를 시작할 수 있습니다. 예를 들어 고객이 자동으로 트리거할 수 있는 마케팅 메시지를 수락하면 신규 주문을 생성하고, 고객이 사기를 보고하면 신용 카드 사용 차단을 트리거할 수 있습니다.
분석 결과는 추천 엔진에서도 사용할 수 있으며, 추천 엔진은 고객이 좋아하는 제품과 일치시킬 수 있습니다. 추천 엔진은 사용 가능한 정보를 분석하고 개인화된 실시간 추천을 제공합니다.
또한 사용 계층은 내부 사용자에게 기업 내부 및 외부의 체인 정보를 이해, 찾기 및 탐색할 수 있는 기능을 제공합니다. 내부 사용자의 경우 비즈니스 사용자를 위한 보고서와 대시보드를 구축할 수 있는 기능을 통해 이해 관계자가 현명한 결정을 내리고 적절한 전략을 설계할 수 있습니다. 운영 효율성을 높이기 위해 데이터에서 실시간 비즈니스 경고를 생성하고 운영 주요 성과 지표를 모니터링할 수 있습니다.
트랜잭션 인터셉터 (transaction interceptor)-이 구성 요소는 대용량 트랜잭션을 실시간으로 차단하고 분석 계층에서 이해하기 쉬운 실시간 형식으로 변환하여 들어오는 데이터를 실시간으로 분석합니다. 트랜잭션 인터셉터는 센서, 스마트 미터, 마이크, 카메라, GPS 장치, ATM 및 이미지 스캐너와 같은 다양한 소스의 데이터를 통합하고 처리할 수 있어야 합니다. 다양한 유형의 어댑터와 API 를 사용하여 데이터 소스에 연결할 수 있습니다. 또한 실시간 최적화 및 스트리밍 분석, 비디오 분석, 은행, 보험, 소매, 통신 및 대중교통의 가속기, 소셜 미디어 분석, 감정 분석과 같은 다양한 가속기를 사용하여 개발을 단순화할 수 있습니다.
비즈니스 프로세스 관리 프로세스–비즈니스 프로세스 실행 언어 (BPEL) 프로세스, API 또는 기타 비즈니스 프로세스는 분석 계층의 통찰력을 사용하여 업스트림 및 다운스트림 IT 애플리케이션, 인력 및 프로세스의 기능을 자동화하여 비즈니스 가치를 더욱 높일 수 있습니다.
실시간 모니터링—분석의 데이터를 사용하여 실시간 경고를 생성할 수 있습니다. 경고는 스마트폰이나 태블릿과 같은 관심 있는 사용자와 장치에 보낼 수 있습니다. 분석 구성 요소에서 생성된 데이터 통찰력을 사용하여 주요 성능 지표를 정의 및 모니터링하여 작업의 효율성을 결정할 수 있습니다. 실시간 데이터는 시스템 상태를 모니터링하거나 마케팅 활동의 효율성을 측정하기 위해 다양한 출처에서 비즈니스 사용자에게 대시보드로 공개될 수 있습니다.
보고 엔진—기존 비즈니스 인텔리전스 보고서와 유사한 보고서를 생성하는 기능이 중요합니다. 사용자는 분석 계층에서 얻은 통찰력을 바탕으로 중간 보고서, 계획 보고서 또는 셀프 서비스 질의 및 분석을 생성할 수 있습니다.
추천 엔진-분석 계층의 분석 결과에 따라 추천 엔진은 구매자에게 실시간, 관련 및 개인화된 추천을 제공하여 전자 상거래 거래의 전환율과 주문당 평균을 높일 수 있습니다. 엔진은 사용 가능한 정보를 실시간으로 처리하고 각 사용자에게 동적으로 응답하며 사용자, CRM 시스템에 저장된 등록된 고객 정보 및 등록되지 않은 고객의 소셜 프로필을 기준으로 실시간 활동에 응답합니다.
시각화 및 검색—기업 내외부의 다양한 통합 데이터 소스 간에 데이터를 탐색할 수 있습니다. 데이터는 내용과 형식이 다를 수 있으며 모든 데이터 (정형, 반정형, 비정형) 를 결합하여 사용자에게 시각화할 수 있습니다. 이 기능을 통해 조직은 기존의 엔터프라이즈 컨텐츠 (엔터프라이즈 컨텐츠 관리 시스템 및 데이터 웨어하우스에 포함) 와 새로운 소셜 컨텐츠 (예: tweet 및 블로그 게시물) 를 단일 사용자 인터페이스로 통합할 수 있습니다.
수직층
논리적 계층의 모든 구성 요소 (큰 데이터 소스, 데이터 변경 및 저장, 분석 및 사용 계층) 에 영향을 미치는 측면은 수직 계층에 포함됩니다.
정보 통합
빅 데이터 거버넌스
시스템 관리
서비스 품질
정보 통합
대용량 데이터 애플리케이션은 다양한 데이터 소스, 공급업체 및 데이터 소스에서 데이터를 가져와 HDFS, NoSQL 및 MongoDB 와 같은 데이터 스토리지 시스템에 저장합니다. 이 수직 계층은 데이터 수집, 데이터 정리, 모델 관리 및 트랜잭션 인터셉터와 같은 다양한 구성 요소에서 사용할 수 있으며 다양한 데이터 소스에 연결할 책임이 있습니다. 프로토콜 및 연결과 같은 다양한 특성을 가진 데이터 소스의 정보를 통합하려면 고품질 커넥터 및 어댑터가 필요합니다. 가속기는 알려진 소스와 널리 사용되는 대부분의 소스에 연결하는 데 사용할 수 있습니다. 이러한 가속기에는 소셜 미디어 어댑터와 날씨 데이터 어댑터가 포함됩니다. 또한 다양한 구성요소는 이 계층을 사용하여 정보를 큰 데이터 저장소에 저장하고 큰 데이터 저장소에서 정보를 검색하여 처리할 수 있습니다. 대부분의 대용량 데이터 저장소에서는 이러한 정보를 저장하고 검색할 수 있는 서비스 및 API 를 제공합니다.
빅 데이터 거버넌스
데이터 거버넌스에는 기업이 올바른 데이터 결정을 내릴 수 있도록 지침을 정의하는 작업이 포함됩니다. 빅 데이터 거버넌스는 기업 또는 외부 소스의 데이터의 복잡성, 양 및 다양성을 처리하는 데 도움이 됩니다. 처리, 저장, 분석, 삭제 또는 아카이빙을 위해 데이터를 기업에 전송할 때 데이터를 모니터링, 구축, 저장 및 보호하는 강력한 지침과 프로세스가 필요합니다.
일반적인 데이터 거버넌스 고려 사항 외에도 대용량 데이터 거버넌스에는 다음과 같은 요소가 포함됩니다.
1. 다양한 형식의 대용량 데이터를 관리합니다.
2. 구조화되지 않은 데이터 및 분석을 사전 처리하는 데 필요한 통계 모델을 지속적으로 교육하고 관리합니다. 구조화되지 않은 데이터를 처리할 때 설정은 중요한 단계라는 점을 기억하십시오.
3. 외부 데이터의 보존 및 사용을 위한 정책 및 규정 준수 시스템을 개발합니다.
4. 데이터 보관 및 삭제 정책을 정의합니다.
5. 다른 시스템 간에 데이터를 복제하는 방법에 대한 정책을 만듭니다.
6. 데이터 암호화 정책을 설정합니다.
서비스 품질 계층
이 계층은 데이터 품질, 개인 정보 보호 및 보안 정책, 데이터 빈도, 캡처할 때마다 데이터 크기 및 데이터 필터를 복잡하게 정의합니다.
데이터 품질
1, 필요한 모든 데이터 요소를 완전히 식별합니다.
2. 허용 가능한 신선도를 갖춘 데이터 타임라인을 제공합니다.
3, 데이터 정확도 규칙에 따라 데이터 정확성을 검증합니다.
4. 공통 언어 사용 (데이터 튜플은 간단한 비즈니스 언어로 표현된 요구를 충족함)
5. 데이터 일관성 규칙에 따라 여러 시스템의 데이터 일관성을 검증합니다.
6. 데이터 사양 및 정보 아키텍처 지침 원칙에 따라 기술 규정 준수 달성
개인 정보 보호 및 보안 정책
중요한 데이터를 보호하기 위한 정책이 필요합니다. 외부 조직 및 공급자로부터 얻은 데이터에는 페이스북 사용자의 연락처 정보 또는 제품 가격 정보와 같은 중요한 데이터가 포함될 수 있습니다. 데이터는 다른 지역 및 국가에서 올 수 있지만 그에 따라 처리해야 합니다. 데이터 마스킹 및 이러한 데이터의 저장에 대한 결정을 내려야 합니다. 다음 데이터 액세스 정책을 고려하십시오.
A. 데이터 가용성
B, 데이터 중요도
C, 데이터 신뢰성
D, 데이터 * * * 즐기고 게시하십시오
E 데이터 저장 및 보존 (외부 데이터 저장 가능 여부 포함) 데이터를 저장할 수 있다면 얼마나 오래 저장할 수 있습니까? 어떤 유형의 데이터를 저장할 수 있습니까?
F. 데이터 제공자의 제약 (정책, 기술 및 지역)
G. 소셜 미디어 사용 조건
데이터 빈도
얼마나 자주 새로운 데이터를 제공합니까? 주문형, 지속 또는 오프라인입니까?
캡처된 데이터의 크기입니다.
이 속성은 크롤링할 수 있는 데이터와 각 크롤링 후에 사용할 수 있는 데이터의 크기를 정의하는 데 도움이 됩니다.
필터
표준 필터는 데이터에서 불필요한 데이터와 간섭 데이터를 제거하고 분석에 필요한 데이터만 남겨 둡니다.
시스템 관리
시스템 관리는 엔터프라이즈 클러스터 및 경계에 걸쳐 있는 많은 시스템을 포함하기 때문에 큰 데이터에 매우 중요합니다. 전체 빅 데이터 생태계의 상태를 모니터링하는 것은 다음과 같습니다.
A. 시스템 로그, 가상 시스템, 애플리케이션 및 기타 디바이스를 관리합니다.
B. 특정 상황을 조사하고 모니터링하는 데 도움이 되는 다양한 로그를 연관시킵니다.
C, 실시간 경고 및 알림 모니터링
D, 다양한 매개 변수를 표시하는 실시간 대시보드를 사용하십시오.
E. 관련 시스템을 참조하는 보고서 및 상세 분석.
F. 서비스 수준 계약 개발 및 준수
G. 스토리지 및 용량 관리
G, 아카이빙 및 파일 검색 관리
시스템 복구, 클러스터 관리 및 네트워크 관리를 수행합니다.
J, 전략적 관리
끝말
개발자에게 이 계층은 대용량 데이터 솔루션이 수행해야 하는 기능을 분류하는 방법을 제공하며 조직에서 이러한 기능을 수행하는 데 필요한 코드를 제안합니다. 그러나 큰 데이터에서 통찰력을 얻고자 하는 비즈니스 사용자에게는 큰 데이터의 요구와 범위를 고려하는 것이 도움이 되는 경우가 많습니다. 원자 모델은 대용량 데이터의 액세스, 처리, 저장 및 사용 메커니즘을 해결하여 비즈니스 사용자에게 요구와 범위를 해결할 수 있는 방법을 제공합니다. 다음 문장 에서는 이 목적을 위한 원자 패턴을 소개합니다.