일반적인 데이터 처리 소프트웨어에는 Apache Hive, SPSS, Excel, Apache Spark 및 Jaspersoft BI 제품군이 포함됩니다.
1. Apache Hive
Hive는 Hadoop을 기반으로 구축된 오픈소스 데이터 웨어하우스 인프라로, Hive를 통해 쉽게 데이터 ETL을 수행하고, 빅데이터를 쿼리하고 처리할 수 있습니다. Hadoop의 파일. Hive는 SQL 언어에 익숙한 사용자가 편리하게 데이터를 쿼리할 수 있도록 SQL과 유사한 간단한 쿼리 언어인 HiveQL을 제공합니다.
2. SPSS
Windows 소프트웨어용 SPSS는 여러 기능 모듈로 구분됩니다. 자신의 분석 요구 사항과 컴퓨터의 실제 구성에 따라 유연하게 선택할 수 있습니다. SPSS는 초보자, 숙련된 사용자 및 숙련된 사용자에게 적합합니다. 그리고 많은 그룹은 간단한 운영 분석만 마스터하면 되며 대부분 SPSS를 선호합니다.
3. 엑셀
엑셀은 다양한 데이터 처리, 통계 분석, 보조 의사결정 업무를 수행할 수 있으며 경영, 통계 및 금융, 금융 등 다양한 분야에서 널리 사용되고 있다. . Excel은 또한 조작이 가장 간단한 고급 쿼리 기능을 제공합니다. 그 중 자동 요약 기능은 간단하고 유연합니다. Excel에서는 하나 또는 두 개의 함수만으로 고급 수학 계산을 쉽게 처리할 수 있습니다.
4. Apache Spark
Apache Spark는 Hadoop 오픈 소스 생태계의 새로운 구성원입니다. Hadoop의 HDFS 서비스에 의존하지 않고 자체 데이터 처리 프레임워크에 의존하기 때문에 Hive보다 빠른 쿼리 엔진을 제공합니다. 동시에 이벤트 스트림 처리, 실시간 쿼리 및 기계 학습에도 사용됩니다.
5. Jaspersoft BI Suite
Jaspersoft 패키지는 데이터베이스 열을 통해 보고서를 생성하는 오픈 소스 소프트웨어입니다. 업계 리더들은 Jaspersoft 소프트웨어가 동급 최고라고 생각하며, 많은 기업에서는 이 소프트웨어를 사용하여 SQL 테이블을 PDF로 변환하여 모든 사람이 회의에서 검토할 수 있도록 했습니다. 또한 JasperReports는 HBase에 대한 연결 하이브 대안을 제공합니다.
데이터 분석 및 처리 방법:
수집
빅데이터를 수집하는 과정에서 가장 큰 특징이자 과제는 동시성이 높다는 것입니다. 기차표 판매 웹사이트, Taobao 등 수천 명의 사용자가 액세스하고 운영할 수 있으며 동시 방문 수가 최고조에 달하므로 이를 지원하려면 수집 측에 많은 수의 데이터베이스를 배포해야 합니다.
그리고 이러한 데이터베이스 간의 로드 밸런싱과 샤딩을 수행하는 방법에는 심층적인 사고와 설계가 필요합니다.
통계/분석
통계 및 분석은 주로 분산 데이터베이스 또는 분산 컴퓨팅 클러스터를 사용하여 여기에 저장된 대량의 데이터에 대한 일반적인 분석, 분류 및 요약을 수행하여 대부분의 요구 사항을 충족합니다. 이와 관련하여 일부 실시간 요구 사항에서는 EMC의 GreenPlum, Oracle의 Exadata 및 MySQL 기반 컬럼 스토리지 Infobright를 사용합니다.
반구조화된 데이터를 기반으로 하는 일부 일괄 처리 또는 요구 사항은 Hadoop을 사용할 수 있습니다. 통계 및 분석 부분의 주요 특징이자 과제는 분석에 많은 양의 데이터가 포함되어 많은 시스템 리소스, 특히 I/O를 소비한다는 것입니다.
가져오기/전처리
컬렉션 엔드 자체에는 많은 데이터베이스가 있지만 이러한 대량의 데이터를 효과적으로 분석하려면 프런트 엔드에서 데이터를 가져와야 합니다. a 중앙 집중식 대규모 분산 데이터베이스 또는 분산 스토리지 클러스터이며 가져오기를 기반으로 몇 가지 간단한 정리 및 전처리 작업을 수행할 수 있습니다.
일부 사용자는 일부 비즈니스의 실시간 컴퓨팅 요구 사항을 충족하기 위해 가져올 때 데이터에 대한 스트리밍 계산을 수행하기 위해 Twitter의 Storm을 사용할 수도 있습니다. 가져오기 및 전처리 프로세스의 특징과 과제는 주로 가져오는 데이터의 양이 많고 초당 가져오는 데이터의 양이 수백 메가바이트 또는 심지어 기가바이트에 달하는 경우가 많습니다.