빅데이터는 IT 업계에서 가장 인기 있는 트렌드 중 하나로, 대량의 데이터를 일괄 처리하는 신기술을 탄생시켰다고 할 수 있다. 신기술은 이니셜, 기술 용어, 제품명 등 새로운 핫어를 가져왔다. 심지어' 빅 데이터' 라는 단어 자체도 혼란스럽다. 많은 사람들이' 큰 데이터' 를 들을 때' 대량의 데이터' 를 의미하는 것으로 생각하는데, 큰 데이터의 의미는 단지 데이터의 양만이 아니다.
다음은 우리가 네가 잘 알고 있어야 한다고 생각하는 유행어들이 알파벳순으로 배열되어 있다.
신
ACID 의 전체 이름은 원자성, 일관성, 격리 및 지속성이며 실제로 요구 사항 또는 속성 세트입니다. 이러한 네 가지 측면을 준수하면 처리 중 데이터베이스 트랜잭션의 데이터 무결성을 보장할 수 있습니다. ACID 는 한동안 존재해 왔지만 빠르게 증가하는 거래 데이터는 대용량 데이터를 처리할 때 ACID 요구 사항을 충족하는 데 더 많은 관심을 기울이고 있습니다.
빅 데이터의 세 가지 요소
오늘날의 IT 시스템은 수량, 속도 및 종류의 "방대한" 데이터를 생성하고 있습니다.
양: IDC 는 올해 전 세계 정보량이 2.7 태바이트 (27 억 태바이트) 에 이를 것으로 예상하고 있으며, 2 년마다 두 배로 증가할 것으로 예상하고 있습니다.
속도: IT 관리자에게 골치 아픈 것은 데이터량뿐 아니라 금융 시스템, 소매 시스템, 웹 사이트, 센서, RFID 칩, 페이스북, 트위터 등 소셜네트워크서비스의 데이터 증가율입니다.
범주: 5 년 전으로 돌아가거나 10 년 전 IT 직원이 주로 영숫자 데이터를 처리했다면 관계형 데이터베이스의 행과 열에 쉽게 저장할 수 있습니다. 이제 상황은 더 이상 그렇지 않다. 오늘날 트위터와 페이스북의 게시물, 각종 문서, 웹 콘텐츠 등 구조화되지 않은 데이터는 모두 빅데이터 조합의 일부이다.
열 데이터베이스
일부 차세대 데이터베이스 (예: 오픈 소스 Cassandra 및 HP 의 Vertica 데이터베이스) 는 기존 SQL 데이터베이스처럼 행별로 데이터를 저장하는 것이 아니라 열별로 데이터를 저장하도록 설계되었습니다. 이 설계는 디스크 액세스 속도를 높이고 대용량 데이터를 처리할 때 성능을 향상시킵니다. 기둥 데이터베이스는 데이터 집약적인 비즈니스 분석 애플리케이션 시스템에 특히 인기가 있습니다.
데이터 웨어하우스
데이터웨어 하우스의 개념은 약 25 년 동안 존재 해 왔으며, 특히 비즈니스 분석 응용 프로그램 시스템을 위해 여러 운영 IT 시스템의 데이터를 보조 오프라인 데이터베이스로 복제하는 것을 의미합니다.
그러나 데이터 양이 급속히 증가함에 따라 데이터 웨어하우스 시스템도 빠르게 변화하고 있습니다. 더 많은 데이터와 더 많은 종류의 데이터를 저장해야 하므로 데이터 웨어하우스 관리는 큰 문제가 됩니다. 10 또는 20 년 전, 매주 또는 매월 데이터를 데이터 웨어하우스 시스템에 복제할 수 있습니다. 요즘 데이터 웨어하우스 업데이트는 훨씬 더 빈번하고, 어떤 것은 심지어 실시간 업데이트까지 한다.
추출, 변환, 대상에 로드 (extract-transform-load 의 약어)
ETL 소프트웨어는 한 데이터베이스 (예: 은행 애플리케이션 트랜잭션 처리 시스템을 지원하는 데이터베이스) 에서 다른 데이터베이스 (예: 업무 분석을 위한 데이터 웨어하우스 시스템) 로 데이터를 전송하는 데 필요합니다. 한 데이터베이스에서 다른 데이터베이스로 데이터를 전송할 때 일반적으로 데이터의 형식을 다시 지정하고 정리해야 합니다.
급속한 데이터 증가로 인해 데이터 처리 속도가 크게 빨라지고 ETL 도구에 대한 성능 요구 사항이 크게 향상되었습니다.
수로
Flume 은 Apache Hadoop 제품군에 속한 기술입니다 (기타 기술로는 HBase, Hive, Oozie, Pig, Whirr). 이 프레임워크는 Hadoop 에 대한 데이터를 채우는 데 사용됩니다. 이 기술은 응용 프로그램 서버, 웹 서버, 모바일 장치 등에 분산되어 있는 소프트웨어 에이전트를 사용하여 데이터를 수집하고 Hadoop 시스템으로 전송합니다.
예를 들어, 회사는 웹 서버에서 실행되는 Apache Flume 을 사용하여 Twitter 게시물에서 데이터를 수집하여 분석할 수 있습니다.
지리공간 분석
빅 데이터 트렌드를 추진하는 트렌드 중 하나는 오늘날의 IT 시스템에서 점점 더 많은 지형 공간 데이터를 생성하고 수집하는 것입니다. 한 장의 사진 정보량이 1000 자에 달한다는 말이 있다. 따라서 점점 더 많은 지리적 위치 기반 지도, 차트, 사진 및 기타 콘텐츠가 오늘날 빅 데이터의 폭발적인 증가의 주요 동인입니다.
지형 공간 분석은 데이터 시각화의 특수한 형태 (아래 "시각화" 항목 참조) 로, 지리 지도 위에 데이터를 중첩하여 큰 데이터 분석의 결과를 더 잘 이해할 수 있도록 합니다.
하닷컴
Hadoop 은 분산 및 데이터 집약형 응용 프로그램을 개발하기 위한 오픈 소스 플랫폼입니다. 아파치 소프트웨어 재단 (Apache software foundation) 이 관리합니다.
Hadoop 의 발명가는 Doug Cutting, 야후의 개발자입니다! 그는 구글 연구소의 MapReduce 개념을 바탕으로 Hadoop 을 개발했는데, 구글 실험실은 그의 아들의 장난감 코끼리의 이름을 따서 명명되었다.
또한 HBase 는 Hadoop 프로젝트의 일부로 개발된 비관계형 데이터베이스입니다. HDFS (Hadoop distributed file system) 는 Hadoop 의 핵심 구성 요소입니다. Hive 는 Hadoop 기반 데이터 웨어하우스 시스템입니다.
메모리 데이터베이스
컴퓨터가 트랜잭션을 처리하거나 쿼리를 수행할 때 일반적으로 디스크 드라이브에서 데이터를 가져옵니다. 그러나 IT 시스템이 큰 데이터를 처리할 때 이 과정은 너무 느릴 수 있습니다.
메모리 데이터베이스 시스템은 컴퓨터의 주 메모리를 사용하여 자주 사용하는 데이터를 저장함으로써 처리 시간을 크게 단축합니다. 메모리 데이터베이스 제품에는 SAP HANA 및 Oracle Timeten 메모리 데이터베이스가 포함됩니다.
자바 언어 (특히 웹 사이트를 만드는 데 사용되는 컴퓨터 언어)
Java 는 Oracle 의 자회사인 손개발 프로그래밍 언어로 1995 에 발표되었습니다. Hadoop 과 같은 많은 대형 데이터 기술은 Java 를 사용하여 개발되었으며 여전히 대형 데이터 분야의 주요 개발 기술입니다.
카프카
Kafka 는 원래 LinkedIn 에서 개발한 처리량이 높은 분산 메시징 시스템으로, 활동 흐름 (웹 사이트 사용에 대한 데이터) 및 운영 서비스 웹 사이트의 데이터 처리 파이프 (서버 구성 요소 성능에 대한 데이터) 를 관리하는 데 사용되었습니다.
Kafka 는 대량의 스트리밍 데이터를 처리하는 데 매우 효과적이며, 이는 많은 대형 데이터 컴퓨팅 환경에서 중요한 문제입니다. 트위터가 개발한 Storm 은 또 다른 유행하는 스트리밍 기술이다.
아파치 소프트웨어 재단 (Apache Software Foundation) 은 카푸카를 오픈 소스 프로젝트로 나열했습니다. 그러니 결함이 있는 소프트웨어라고 생각하지 마세요.
지연 시간
지연은 데이터가 한 지점에서 다른 지점으로 전송되는 지연 또는 한 시스템 (예: 애플리케이션) 이 다른 시스템에 응답하는 지연 시간입니다.
지연은 새로운 명사가 아니지만, 데이터 양이 증가함에 따라 IT 시스템은 속도를 따라잡기 위해 노력하고 있습니다. 이제 이 용어를 더 자주 듣게 될 것입니다. 간단히 말해서,' 낮은 지연' 은 좋은 것이고,' 높은 지연' 은 나쁜 것이다.
매핑/단순화
Map/Reduce 는 복잡한 질문을 더 작은 부분으로 나누어 여러 컴퓨터에 배포하고 마지막으로 하나의 답으로 재결합하는 방법입니다.
구글의 검색 시스템은 MapReduce 라는 프레임워크를 가진 매핑/단순화 개념을 사용합니다.
구글이 2004 년에 발표한 백서에서는 매핑/단순화 사용에 대해 설명합니다. Hadoop 의 아버지 더그 카틴 (Doug Catin) 은 그 잠재력을 충분히 인식하고 매핑/단순화 개념을 차용한 최초의 Hadoop 버전을 개발했다.
NoSQL 데이터베이스
Oracle 데이터베이스, Microsoft SQL 서버와 같은 대부분의 주요 데이터베이스는 관계형 아키텍처를 기반으로 하며 SQL (Structured Query Language) 을 사용하여 개발 및 데이터 관리를 수행합니다.
그러나' NoSQL' 이라는 차세대 데이터베이스 시스템 (현재' SQL' 이라고 불림) 은 지지자가 대용량 데이터 처리에 더 적합하다고 생각하는 아키텍처를 기반으로 하고 있다.
일부 NoSQL 데이터베이스는 확장성과 유연성을 높이도록 설계되었으며 다른 데이터베이스는 문서 및 기타 구조화되지 않은 데이터를 처리하는 데 효과적입니다. 일반적인 NoSQL 데이터베이스에는 Hadoop/H 베이스, Cassandra, MongoDB, CouchDB 등이 있으며 Oracle 등 유명 개발자들도 자체 NoSQL 제품을 출시했습니다.
코끼리 조련사
Apache Oozie 는 Hadoop 지향 처리를 관리하는 데 도움이 되는 오픈 소스 워크플로우 엔진입니다. Oozie 를 사용하면 Pig 및 MapReduce 와 같은 여러 언어로 일련의 작업을 정의한 다음 서로 연결할 수 있습니다. 예를 들어 운영 응용 프로그램에서 데이터를 수집하는 작업이 완료되면 프로그래머는 데이터 분석 및 쿼리 작업을 시작할 수 있습니다.
돼지
Pig 는 아파치 소프트웨어 재단의 또 다른 프로젝트입니다. 이 플랫폼은 방대한 데이터 세트를 분석하는 데 쓰인다. 기본적으로 Pig 는 Hadoop 에서 실행되는 병렬 컴퓨팅 쿼리를 개발하는 데 사용할 수 있는 프로그래밍 언어입니다.
정량 데이터 분석
정량 데이터 분석이란 복잡한 수학 또는 통계 모델을 사용하여 금융 및 비즈니스 행동을 해석하고 향후 행동을 예측하는 것을 말합니다.
오늘날 수집되는 데이터의 양이 급격히 증가함에 따라 정량 데이터 분석이 더욱 복잡해졌습니다. 그러나, 만약 회사가 대량의 데이터를 어떻게 사용하는지 알고, 더 나은 가시성을 얻고, 회사의 업무를 더 깊이 이해하고, 시장 추세를 통찰한다면, 더 많은 데이터가 데이터 분석에 더 많은 기회를 가져올 것으로 예상된다.
한 가지 문제는 이런 분석 능력을 가진 인재가 심각하게 부족하다는 것이다. 유명 컨설팅업체인 맥킨지는 미국만 해도 6 만 5438+0 만 5000 명의 대규모 데이터 분석 기술을 갖춘 분석가와 경영진이 필요하다고 밝혔다.
관계형 데이터베이스
관계형 데이터베이스 관리 시스템 (RDBM) 은 IBM 의 DB2, Microsoft 의 SQL 서버 및 Oracle 데이터베이스를 포함하여 오늘날 가장 널리 사용되는 데이터베이스입니다. 은행 애플리케이션 시스템, 소매점의 판매점 시스템에서 재고 관리 애플리케이션 소프트웨어에 이르기까지 대부분의 엔터프라이즈 트랜잭션 처리 시스템은 RDBM 에서 실행됩니다.
그러나 관계형 데이터베이스가 데이터의 양과 유형의 폭발적인 증가를 따라잡지 못할 수도 있다는 시각도 있다. 예를 들어, RDBM 은 처음에 영숫자 데이터를 처리하도록 설계되었지만 구조화되지 않은 데이터를 처리할 때 똑같이 효과적이지는 않습니다.
몇 부분으로 나누다
데이터베이스가 커지면서 처리하기가 점점 어려워지고 있습니다. 분할은 데이터베이스를 더 작고 관리하기 쉬운 부분으로 나누는 데이터베이스 분할 기술입니다. 특히 데이터베이스는 수평으로 분할되어 데이터베이스 테이블의 서로 다른 행을 별도로 관리합니다.
조각화 방법을 사용하면 방대한 데이터베이스 조각을 여러 서버에 분산할 수 있어 데이터베이스의 전체 실행 속도와 성능을 향상시킬 수 있습니다.
또한 Sqoop 는 관계형 데이터베이스와 같은 비 Hadoop 소스에서 Hadoop 환경으로 데이터를 전송하는 오픈 소스 도구입니다.
텍스트 분석
빅데이터 문제를 일으키는 요인 중 하나는 트위터나 페이스북 등 소셜미디어 사이트, 외부 뉴스 출처, 심지어 내부 회사까지 점점 더 많은 텍스트를 수집하여 분석하는 것이다. 텍스트가 구조화되지 않은 데이터 (일반적으로 관계형 데이터베이스에 저장되는 구조화된 데이터와 다름) 로 인해 주요 비즈니스 분석 도구는 텍스트를 대면할 때 종종 속수무책이다.
텍스트 분석은 일련의 방법 (키워드 검색, 통계 분석, 언어 연구 등) 을 사용합니다. ) 텍스트 기반 데이터에서 통찰력을 얻을 수 있습니다.
구조화되지 않은 데이터
얼마 전까지만 해도 대부분의 데이터는 구조화된 데이터였으며, 판매 거래의 재무 데이터와 같은 영숫자 정보는 관계형 데이터베이스에 쉽게 저장되고 비즈니스 인텔리전스 도구로 분석되었습니다.
하지만 오늘날 2.7 기가바이트의 저장된 데이터 중 상당수는 텍스트 기반 문서, Twitter 메시지, Flickr 에 게시된 사진, YouTube 에 게시된 비디오 등 구조화되지 않은 데이터입니다. (흥미롭게도 분당 35 시간의 동영상 콘텐츠가 유튜브에 업로드됩니다. 이러한 모든 복잡한 비정형 데이터를 처리, 저장 및 분석하는 것은 오늘날 IT 시스템의 당면 과제입니다.
형상화
데이터가 증가함에 따라 정적 차트와 그래픽으로 데이터를 이해하기가 점점 어려워지고 있습니다. 이로 인해 차세대 데이터 시각화 및 분석 도구가 개발되어 새로운 방식으로 데이터를 제공하여 사람들이 방대한 정보를 이해할 수 있게 되었습니다.
이러한 도구에는 색상 코딩된 핫 맵, 3D 그래픽, 시간 경과에 따른 애니메이션 시각화, 지리 지도에 데이터를 오버레이하는 지형 공간 프레젠테이션 등이 포함됩니다. 오늘날의 고급 데이터 시각화 도구도 사용자가 데이터 하위 세트를 확대하고 보다 자세히 검사할 수 있도록 하는 등 더욱 상호 작용적입니다.
외침
Apache Whirr 는 대용량 데이터 클라우드 서비스를 실행하는 Java 클래스 라이브러리 세트입니다. 보다 구체적으로 아마존 탄성 컴퓨팅 클라우드 (EC2) 및 Rackspace 와 같은 가상 인프라에서 Hadoop 클러스터를 개발하는 프로세스를 가속화합니다.
확장 가능한 마크 업 언어
XML (extensible markup language) 은 데이터를 전송 및 저장하는 데 사용됩니다 (데이터를 표시하는 데 사용되는 HTML 과 혼동하지 마십시오). XML 의 도움으로 프로그래머는 범용 데이터 형식을 만들고 인터넷을 통해 정보와 형식을 즐길 수 있습니다.
XML 문서는 매우 크고 복잡할 수 있으므로 IT 부서가 큰 데이터 문제를 겪게 될 수 있습니다.
야우베트
Yottabyte 는 1000 zeta 바이트와 동등한 데이터 저장소 측정 단위입니다. 유명 조사기관인 IDC 에 따르면 올해 전 세계에 저장된 데이터 총량은 2.7 zebytes 로 20 1 1 보다 48% 증가할 것으로 전망된다. 그래서 Yaobyte 관문에 도달하기 위해서는 아직 갈 길이 멀지만, 현재 빅 데이터의 성장률을 보면 그날이 우리가 생각했던 것보다 더 일찍 올 수 있을 것이다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 성공명언)
참 1 zebytes 는 102 1 바이트 데이터와 같습니다. 1000 EB, 1000 10 메가바이트 (PB), 1000 억 테라바이트 (TB) 에 해당합니다.
동물원 관리인
ZooKeeper 는 Apache Software Foundation 에서 만든 서비스로, Hadoop 사용자가 분산 네트워크를 통해 Hadoop 노드를 관리하고 조정할 수 있도록 설계되었습니다.
ZooKeeper 는 HBase 와 긴밀하게 결합되며 h base 는 Hadoop 관련 데이터베이스입니다. ZooKeeper 는 구성 정보, 이름 지정 서비스, 분산 동기화 및 기타 그룹 서비스를 유지 관리하는 중앙 집중식 서비스입니다. IT 관리자는 이를 사용하여 신뢰할 수 있는 메시징 메커니즘, 동기화 프로세스 실행 및 중복 서비스를 구현합니다.