1. 데이터 수집 및 사전 처리: FlumeNG 실시간 로그 수집 시스템으로, 로그 시스템에서 데이터 수집을 위해 다양한 데이터 전송자를 사용자 정의할 수 있습니다. Zookeeper 는 데이터 동기화 서비스를 제공하는 분산 오픈 소스 분산 애플리케이션 조정 서비스입니다.
2. 데이터 저장소: Hadoop 는 오픈 소스 프레임워크로서 오프라인 및 대규모 데이터 분석을 위해 특별히 설계되었으며, HDFS 는 핵심 스토리지 엔진으로 데이터 스토리지에 널리 사용되고 있습니다. HBase 는 HDFS 캡슐화로 간주할 수 있는 분산형 열 지향 오픈 소스 데이터베이스로, 본질적으로 데이터 저장소 및 NoSQL 데이터베이스입니다.
3. 데이터 정리: MapReduce 는 대규모 데이터 세트의 병렬 컴퓨팅을 위한 Hadoop 의 쿼리 엔진입니다.
4. 데이터 쿼리 분석: Hive 의 핵심 업무는 SQL 문을 MR 프로그램으로 변환하는 것입니다. MR 프로그램은 구조화된 데이터를 데이터베이스 테이블에 매핑하고 HQL(HiveSQL) 쿼리 기능을 제공합니다. Spark 는 대화식 쿼리를 제공할 뿐만 아니라 반복 워크로드를 최적화하는 메모리 분산 데이터 세트를 지원합니다.
5. 데이터 시각화: 일부 BI 플랫폼의 경우 분석된 데이터를 시각화하여 의사 결정 서비스를 안내합니다.