인터넷이 발달하면서 점점 더 많은 정보가 인터넷에 넘쳐나는데, 빅데이터는 이러한 정보를 수집, 분류, 요약하여 우리에게 필요한 정보를 분류하고 이를 활용하는 것이다. 정보 일부 작업을 수행하는 데 필요한 기술입니다.
현재 회룡관 컴퓨터 교육은 주로 빅데이터 기술 수준을 분석하는 데 중점을 두고 있습니다.
모바일 인터넷 시대를 맞이하여 데이터의 양은 기하급수적으로 증가했으며, 그 중 텍스트, 오디오, 비디오 등 비정형 데이터가 85% 이상을 차지하고 있으며 앞으로도 더욱 증가할 것입니다. Hadoop 아키텍처의 분산 파일 시스템, 분산 데이터베이스 및 분산 병렬 컴퓨팅 기술은 대규모 멀티 소스 이기종 데이터의 저장, 관리 및 처리 문제를 해결합니다.
2006년 4월 첫 번째 Apache Hadoop 버전이 출시된 이후 Hadoop은 대용량 데이터 저장, 관리 및 계산이 가능한 오픈 소스 기술로 v2.7.2 안정 버전으로 반복되었으며, 전통적인 트로이카 HDFS, MapReduce 및 HBase 커뮤니티는 데이터 저장, 실행 엔진, 프로그래밍 및 데이터 액세스 프레임워크 등을 포함하여 60개 이상의 관련 구성 요소로 구성된 거대한 생태계로 발전했습니다. 생태계는 버전 1.0의 3계층 아키텍처에서 현재의 4계층 아키텍처로 진화했습니다.
하위 계층 - 저장 계층
이제 인터넷 데이터 양이 PB에 도달했습니다. 수준에서 전통적인 스토리지 방식은 효율적인 IO 성능 및 비용 요구 사항을 충족할 수 없었지만 Hadoop의 분산 데이터 스토리지 및 관리 기술은 이 문제를 해결합니다. HDFS는 이제 빅 데이터 디스크 스토리지의 사실상 표준이 되었으며, BI 데이터 분석 및 기계 학습 애플리케이션과 같은 더 많은 애플리케이션 시나리오에 적응하기 위해 상위 계층에 점점 더 많은 파일 형식 패키지(예: Parquent)가 등장하고 있습니다. 앞으로도 HDFS는 새로운 스토리지 미디어 및 서버 아키텍처에 대한 지원을 계속 확장할 것입니다. 반면에 일반적으로 사용되는 Tachyon 또는 Ignite와 달리 신흥 분산 메모리 파일 시스템 Arrow는 열 기반 메모리 저장소의 처리 및 상호 작용에 대한 사양을 제공하며 많은 개발자 및 업계 거대 기업으로부터 지원을 받았습니다.
기존의 관계형 데이터베이스와 달리 HBase는 비정형 데이터 저장에 적합합니다. 2023년 10월 Cloudera가 발표한 분산 관계형 데이터베이스 Kudu는 차세대 분석 플랫폼의 중요한 구성 요소가 될 것으로 예상됩니다. Kudu의 등장으로 Hadoop 시장은 기존 데이터 웨어하우스 시장에 더욱 가까워질 것입니다.
중간 계층 - 관리 및 제어 계층
관리 및 제어 계층은 Hadoop 클러스터의 효율적이고 안정적인 리소스 및 데이터 관리를 수행합니다. MapReduce1.0에서 탄생한 YARN은 Hadoop2.0의 보편적인 자원 관리 플랫폼이 되었습니다. 컨테이너 기술과 긴밀하게 통합하는 방법과 예약 기능, 세분화된 제어 및 다중 테넌트 지원을 개선하는 방법은 YARN이 추가로 해결해야 할 문제입니다. 반면 Hortonworks의 Ranger, Cloudera의 Sentry 및 RecordService 구성 요소는 데이터 수준에서 보안 제어를 구현합니다.