오픈 refine
이 도구는 다양한 분석 관련 작업에 적합한 인기 있는 데이터 분석 도구입니다. 즉, 모든 사람이 서로 다른 데이터 유형과 이름을 가지고 있더라도 이 도구는 강력한 클러스터링 알고리즘을 사용하여 프로젝트 그룹화를 완료할 수 있습니다. 클러스터링이 완료되면 분석을 시작할 수 있습니다.
하닷컴
큰 데이터와 하닷op 은 불가분의 관계입니다. 이 소프트웨어 라이브러리와 프레임워크는 간단한 프로그래밍 모델을 사용하여 컴퓨터 클러스터 간에 대규모 데이터 세트를 배포할 수 있습니다. 특히 대규모 데이터를 처리하고 로컬 장치에 제공하는 데 능숙합니다. Hadoop 의 개발자로서, Apache 는 이 도구를 지속적으로 강화하여 그것의 실제 효과를 높이고 있다.
폭풍우
Apache 의 Storm 은 또 다른 위대한 실시간 컴퓨팅 시스템으로, 무한 데이터 스트림의 처리 효과를 크게 향상시킵니다. 또한 분산 RPC, 연속 처리, 온라인 기계 학습, 실시간 분석 등 대용량 데이터와 관련된 많은 다른 작업을 수행하는 데도 사용할 수 있습니다. Storm 사용의 또 다른 이점은 대량의 다른 기술을 통합하여 대용량 데이터 처리의 복잡성을 더욱 줄일 수 있다는 것입니다.
Plotly
JaScript, MATLAB, Python, R 과 호환되는 데이터 시각화 도구인 Plotly 는 코드 작성 기술이나 시간이 없는 사용자가 동적 시각화 프로세스를 수행할 수 있도록 지원합니다. 이 도구는 대규모 데이터에 대한 이해와 분석을 신속하게 수행할 수 있는 비즈니스 개발 플랫폼에 속하기 때문에 차세대 데이터 과학자들이 자주 사용합니다.
빠른 채광기
Rapidminer 는 큰 데이터 처리를 위한 또 다른 필수 도구로서 오픈 소스 데이터 과학 플랫폼이며 시각화 프로그래밍 메커니즘을 통해 작동합니다. 그 기능으로는 모델 수정, 분석 및 생성, 업무 프로세스에 결과 신속한 통합 등이 있습니다. Rapidminer 는 많은 유명 데이터 과학자들이 생각하는 신뢰할 수 있는 도구가 되었습니다.
카산드라
ApacheCassandra 는 대규모 데이터를 효율적이고 효율적으로 관리할 수 있는 또 다른 주목할만한 도구입니다. 확장 가능한 NoSQL 데이터베이스로, 여러 데이터 센터의 데이터를 모니터링할 수 있으며, 이미 인터넷 비행, 이베이 등 유명 기업에서 사용되고 있습니다.
HadoopMapReduce
이는 사용자가 대규모 데이터를 안정적으로 동시에 처리하는 응용 프로그램을 작성할 수 있는 소프트웨어 프레임워크입니다. MapReduce 응용 프로그램은 주로 다양한 데이터 처리 결과를 제공하는 제도 및 사양이라는 두 가지 작업을 수행합니다. 이 도구는 원래 구글에서 개발한 것이다.
산경
이 시각화 프레임워크의 주요 목표는 대규모 데이터 스트림의 상호 작용을 향상시키기 위해 정교하고 간결한 그래픽 처리 결과를 제공하는 것입니다. 파이썬 언어 전용입니다.
울프램 알파
이는 사용자가 필요한 컴퓨팅 자료 또는 기타 콘텐츠를 검색할 수 있도록 설계된 검색 엔진 세트입니다. 예를 들어, "페이스북" 을 입력하면 HTML 요소 구조, 입력 설명, 가상 호스트 정보, 네트워크 통계, 하위 도메인 이름, Alexa 추정, 웹 정보 등 페이스북과 관련된 많은 콘텐츠를 얻을 수 있습니다.