큰 데이터 분석 시스템 해돔을 만드는 데 필요한 소프트웨어는 무엇입니까?

1, ApacheMesos

코드 호스팅 주소: ApacheSVN

Mesos 는 분산 애플리케이션 및 프레임워크 전반에 걸쳐 효율적인 리소스 격리 및 * * * 공유, Hadoop 지원,

Mesos 는 Apache 인큐베이터의 오픈 소스 프로젝트로, ZooKeeper 를 사용하여 내결함성 복제를 수행하고, LinuxContainers 를 사용하여 작업을 격리하며, 다양한 리소스 계획 할당 (메모리 및 CPU) 을 지원합니다. Java, Python 및 C++APIs 를 제공하여 새로운 병렬 응용 프로그램을 개발하고 클러스터 상태 보기를 위한 웹 기반 사용자 인터페이스를 제공합니다.

2, HadoopYARN

코드 호스팅 주소: MapReduce2. 이라고도 하는 ApacheSVN

YARN 은 Mesos 를 통해 자원 격리 솔루션 Container 를 제안했지만 아직

MapReduce1.x 에 비해 YARN 아키텍처는 클라이언트에서 크게 변경되지 않았으며 호출 API 및 인터페이스에서도 대부분의 호환성을 유지하지만 YARN 에서는 개발자가 ResourceManager, ApplicationMaster 및 node 를 사용합니다 여기서 ResourceManager 는 각 작업이 속한 ApplicationMaster 를 예약, 시작 및 ApplicationMaster 의 존재를 모니터링하는 중앙 서비스입니다. 노드 관리자는 컨테이너 상태 유지 관리를 담당하고 RM 에 하트비트를 유지합니다. ApplicationMaster 는 이전 프레임의 Job tracker 와 마찬가지로 작업 수명 주기 동안 모든 작업을 담당합니다.

Hadoop 의 실시간 솔루션 < P > 앞서 말씀드린 바와 같이, 인터넷 회사의 비즈니스 논리 요구 사항에 따라 기업들은 검색 업무에 종사하는 회사: 웹 색인 작성용 MapReduce, 자연어 처리용 Spark 등과 같은 다양한 컴퓨팅 프레임워크를 채택하는 경우가 많습니다.

3, ClouderaImpala

코드 호스팅 주소: GitHub

Impala 는 오픈 소스 MPP (massivelyparallelprocessing) 인 Cloudera 에서 개발되었습니다 Hive 와 동일한 메타데이터, SQL 구문, ODBC 드라이버 및 사용자 인터페이스 (HueBeeswax) 는 HDFS 또는 HBase 에서 직접 빠르고 대화식 SQL 쿼리를 제공합니다. Impala 는 Dremel 의 영감을 받아 개발되었으며, 첫 번째 버전은 212 년 말에 발표되었습니다.

Impala 는 더 이상 느린 Hive+MapReduce 배치를 사용하지 않고 QueryPlanner, QueryCoordinator 및 QueryExecEngine 의 세 부분으로 구성된 상용 병렬 관계형 데이터베이스와 유사한 분산 쿼리 엔진을 통해 hive 에서 직접

4, Spark

코드 호스팅 주소: Apache

Spark 는 캘리포니아 대학 버클리 분교 AMPLab 에서 개발한 오픈 소스 데이터 분석 클러스터 컴퓨팅 프레임워크로 HDFS 를 기반으로 합니다. Spark 는 Hadoop 과 마찬가지로 대규모, 지연 시간이 짧은 데이터 분석 애플리케이션을 구축하는 데 사용됩니다. Spark 는 Scala 언어로 구현되고 Scala 를 응용 프로그램 프레임워크로 사용합니다.

Spark 는 반복적인 워크로드와 대화형 쿼리를 최적화하는 메모리 기반 분산 데이터 세트를 사용합니다. Hadoop 과는 달리 Spark 와 Scala 는 긴밀하게 통합되어 로컬 collective 객체를 관리하는 것처럼 분산 데이터 세트를 관리합니다. Spark 는 분산 데이터 세트에서 반복 작업을 지원하며 실제로 Hadoop 파일 시스템에서 Hadoop 과 함께 실행할 수 있습니다 (YARN, Mesos 등을 통해 수행).

5, Storm

코드 호스팅 주소: GitHub

Storm 은 BackType 에서 개발한 후 Twitter 에 의해 캡처되는 분산 내결함성 실시간 컴퓨팅 시스템입니다. Storm 은 실시간 계산 및 데이터베이스 업데이트에 주로 사용되는 스트림 처리 플랫폼입니다. Storm 은 연속 계산 (continuouscomputation) 에도 사용할 수 있으며, 데이터 흐름에 대한 연속 질의를 수행하여 계산 시 사용자에게 결과를 스트림으로 출력할 수 있습니다. 또한 분산 RPC 에서 고가의 연산을 병렬로 실행하는 데도 사용할 수 있습니다.

Hadoop 의 다른 솔루션 < P > 앞서 언급했듯이 실시간 비즈니스 요구 사항에 따라 각 랩은 Storm, Impala, Spark, Samza 등의 스트리밍 실시간 처리 도구를 개발했습니다. 이 섹션에서는 Shark, Phoenix, ApacheAccumulo, ApacheDrill, ApacheGiraph, ApacheHama, aapache HAMA 등 성능, 호환성, 데이터 유형 연구를 기반으로 하는 실험실의 오픈 소스 솔루션을 공유합니다

6, Shark

코드 호스팅 주소: GitHub

Shark ("HiveonSpark" 를 나타냄), Spark 를 위해 특별히 제작된 대규모 데이터 웨어하우스 시스템인 ApacheHive 호환 기존 데이터나 쿼리를 수정하지 않고도 1 배 빠른 속도로 HiveQL 을 실행할 수 있습니다.

Shark 는 Hive 쿼리 언어, 메타 스토리지, 직렬화 형식 및 사용자 지정 기능을 지원하며 기존 Hive 배포와 완벽하게 통합되어 더욱 빠르고 강력한 대안입니다.

7, Phoenix

코드 호스팅 주소: GitHub

Phoenix 는 ApacheHBase 를 기반으로 구축된 SQL 중간 계층으로 Java 로 완벽하게 작성되며 클라이언트 포함 가능한 JDBC 드라이버를 제공합니다. Phoenix 쿼리 엔진은 SQL 쿼리를 하나 이상의 HBasescan 으로 변환하고 실행을 구성하여 표준 JDBC 결과 세트를 생성합니다. HBaseAPI, 공동 작업 프로세서 및 사용자 지정 필터를 직접 사용합니다. 간단한 쿼리의 경우 성능 에너지 수준은 밀리초이고 백만 레벨 행 수의 경우 성능 에너지 수준은 초입니다. Phoenix 는 GitHub 위에 완전히 호스팅되어 있습니다.

Phoenix 의 주목할만한 특징은 1, 내장 JDBC 드라이버, 메타데이터 API 를 포함한 대부분의 java.sql 인터페이스 구현, 2, 여러 행 키 또는 키/값 셀을 통해 열을 모델링할 수 있습니다. 3, DDL 지원 ： 4, 버전 지정 모드 창고; 5, DML 지원 ： 5, 클라이언트 배치를 통한 제한된 트랜잭션 지원 6, ANSISQL 표준 바로 다음에.

8, ApacheAccumulo

코드 호스팅 주소: ApacheSVN

ApacheAccumulo 는 셀 액세스 제어 및 맞춤형 정렬 분산 키 스토리지 솔루션입니다 ApacheHadoop, Zookeeper, Thrift 를 기반으로 한 GoogleBigTable 디자인 아이디어를 사용합니다. Accumulo 는 NSA 에서 최초로 개발한 후 아파치 재단에 기부되었다. < P > GoogleBigTable 에 비해 Accumulo 는 주로 단위 기반 액세스 및 서버측 프로그래밍 메커니즘을 향상시켰으며, 이후 수정을 통해 Accumulo 는 데이터 처리 중 어느 지점에서든 키 값 쌍을 수정할 수 있습니다.

9, ApacheDrill

코드 호스팅 주소: GitHub

본질적으로 ApacheDrill 은 GoogleDremel 의 오픈 소스 구현으로, 본질적으로 SQL 을 지원하는 분산 MPP 쿼리 계층입니다 현재 Drill 은 하나의 프레임워크만 포함할 수 있으며, Drill 비전의 초기 기능만 포함되어 있습니다.

Drill 의 목적은 광범위한 데이터 소스, 데이터 형식 및 쿼리 언어를 지원하는 것입니다. PB 바이트 데이터의 빠른 스캔 (약 몇 초 이내) 을 통해 관련 분석을 수행할 수 있습니다. 대규모 데이터 세트를 대화식으로 분석하기 위한 분산 시스템이 될 것입니다.

1, ApacheGiraph

코드 호스팅 주소: GitHub

ApacheGiraph 는 BSP(bulksynchronousparallel) 에서 영감을 받은 확장 가능한 분산 반복 그래프 처리 시스템입니다

Giraph 처리 플랫폼은 페이지 순위, * * * 링크 즐기기, 개인화된 순위 기반 등 대규모 논리 컴퓨팅을 실행하는 데 적합합니다. Giraph 는 소셜그래프 계산에 중점을 두고 페이스북이 OpenGraph 도구의 핵심으로 몇 분 안에 수조 명의 사용자와 그 행동 사이의 연결을 처리하고 있다. (윌리엄 셰익스피어, 페이스북, 페이스북, 페이스북, 페이스북, 페이스북, 페이스북, 페이스북, 페이스북)

11, ApacheHama

코드 호스팅 주소: GitHub

ApacheHama 는 Hadoop 에 구축된 BSP(BulkSynchronousParallel) 기반 계산 프레임워크입니다 대규모 과학 계산, 특히 행렬 및 그래프 계산을 처리하는 데 사용됩니다. 클러스터 환경의 시스템 아키텍처는 bsp master/groom server (computation engine), Zookeeper(DistributedLocking), HDFS/h base (storation

12, ApacheTez

코드 호스팅 주소: GitHub

ApacheTez 는 HadoopYarn 기반 DAG (DirectedAcyclicGraph) 입니다 Map/Reduce 프로세스를 여러 하위 프로세스로 분할하고 여러 Map/Reduce 작업을 하나의 큰 DAG 작업으로 결합하여 Map/Reduce 간의 파일 저장소를 줄입니다. 동시에 하위 프로세스를 합리적으로 결합하여 작업 실행 시간을 줄입니다. Hortonworks 에서 개발하여 주요 지원을 제공합니다.

13, ApacheAmbari

코드 호스팅 주소: ApacheSVN

ApacheAmbari 는 직관적인 운영 도구와 강력한 ha 를 제공하는 ApacheHadoop 클러스터를 공급, 관리 및 모니터링하는 오픈 소스 프레임워크입니다

ApacheAmbari 는 현재 Apache 의 최고 프로젝트로 211 년 8 월 Hortonworks 가 Ambari 를 ApacheIncubator 프로젝트로 도입하여 Hadoop cluster 의 매우 간단한 관리에 대한 비전을 마련했습니다. 2 년여의 개발 커뮤니티에서 크게 성장하여 작은 팀에서 Hortonworks 의 다양한 조직의 기여자로 성장했습니다. Ambari 사용자 기반은 꾸준히 성장하고 있으며, 많은 기관들이 Ambari 에 의존하여 대규모 데이터 센터에서 Hadoop 클러스터를 대규모로 배포하고 관리합니다.

현재 ApacheAmbari 에서 지원하는 Hadoop 구성 요소에는 HDFS, MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig, Sqoop 등이 있습니다

上篇: Yunzhu.com 의 인보이스는 어떻게 발행합니까 下篇: 어머니의 날 활동 설계