현재 위치 - 회사기업대전 - 정보화 관리 자문 - 시도해 볼 만한 4 대 데이터 도구!

시도해 볼 만한 4 대 데이터 도구!

컴파일 | 해리스 출처 | 기계실 360

오늘날 기업은 여러 소스의 증가하는 스토리지 데이터를 처리해야 하기 때문에 대용량 데이터가 점점 더 중요해지고 있습니다.

큰 데이터를 채택하면 완벽한 폭풍이라고 할 수 있다. 저렴한 스토리지와 정형/비정형 데이터의 대거 유입으로 인해 많은 대규모 데이터 도구가 개발되어 고객 기록에서 제품 성능 결과에 이르기까지 누적된 데이터를 "잠금 해제" 할 수 있게 되었습니다.

기존의 비즈니스 인텔리전스 (BI) 와 마찬가지로 이러한 새로운 대용량 데이터 도구는 과거의 추세를 분석하고 기업이 특정 판매 추세와 같은 중요한 모델을 식별하는 데 도움을 줍니다. 많은 대형 데이터 툴은 이제 차세대 예측 및 규제 통찰력과 엔터프라이즈 데이터 센터에 묻힌 모든 데이터를 제공합니다.

연구기관인 Gartner 의 분석가 더그 라니 (Doug Laney) 는 사람들이 직면한 도전에 대해 확장된 인프라를 사용하여 모든 데이터를 처리하는 것이 아니라 다양한 데이터를 직접 처리해야 한다고 말했다.

"실제 과제의 경우 기업은 자신과 고객의 거래 데이터를 처리 및 통합하고 * * * 입력, 파트너 및 공급업체의 데이터, 소셜 미디어의 오픈 데이터 및 통합 데이터와 같은 일부 외생 데이터를 작성 및 이해합니다." 레니는 이메일에서 말했다.

빅 데이터는 큰 문제입니다. 네트워크가 준비되었습니까?

Gartner 의 고객은 2 대 1 비율로 다양한 데이터가 더 큰 문제라는 것을 보여주지만, 데이터 증가 속도가 빨라지면서 데이터 처리 업체들은 더 많은 자금과 더 빠른 솔루션을 계속 제공할 것입니다.

ConstellationResearch 의 분석가 더그 헨센드 (Doug Hensend) 는 빅 데이터 솔루션이 계속 발전하고 있을 것이라고 말했다.

"제 책에서 20 14 는 SQLHadoop 이 발표한 해였지만, 한 해 동안 기업과 공급업체는 빅데이터의 기회가 전통적인 BI 와 데이터베이스를 확장하는 것만이 아니라는 것을 깨닫기 시작했습니다." Hensend 는 "따라서 ApacheSpark 오픈 소스 프레임워크 및 기타 분석 시나리오는 20 15 에서 SQL 을 능가했습니다. 20 15 년 동안 수백 개의 공급업체와 대기업이 아파치 스파크 오픈 소스 프레임워크를 채택하기 시작했습니다. IIBM 은 다른 분석 옵션을 가장 분명하게 주장하는 공급업체를 받아들였으며, 데이터 통합 및 대규모 데이터 플랫폼에 주력하는 다른 많은 기업들도 이 대열에 동참했습니다. "

사실, 빅데이터의 물결이 다가오고 있는 것 같습니다. 매일 공급업체는 좀 더 포괄적인 설계를 포함한 다양한 솔루션을 출시합니다. 전체 목록을 얻기는 어렵지만 이 네 가지 도구는 사용자의 응용 프로그램 목록에 나타나야 합니다.

데이터 과학자 (1) H2O.ai

H2O.ai 는 창업회사 Oxdata 가 20 14 년 말 내놓은 독립 오픈 소스 기계 학습 플랫폼으로, 주로 데이터 과학자와 개발자에게 서비스를 제공하여 그들의 응용에 빠른 기계 학습 엔진을 제공한다. Oxdata 는 Hadoop, SQL 과 같은 모든 소스의 데이터를 상용 하드웨어에서 처리하고 분석할 수 있으며, 수천 개의 네트워크 노드 또는 아마존의 AWS 클라우드에서도 실행할 수 있다고 말합니다. 개인은 무료로 시험해 보고 H2O.ai 를 계속 사용할 수 있습니다. Oxdata 는 기업 사용자의 비용을 청구합니다.

"많은 기업들이 Hadoop 의 단시간 메모리 대신 Spark 를 사용합니다. 마치 큰 데이터의 메모리처럼요." H2O 의 마케팅 및 성장 담당 부사장인 Oleg Rogesco 는 "단기 기억을 읽는 데 있어 h20.ai 는 Spark 를 능가하는 기능을 갖추고 있어 기본적으로 초고속 분석 능력을 제공한다" 고 말했다.

Rogesco 에 따르면 H2O.ai 는 예측 분석을 제공하기 위한 새로운 데이터 도구입니다. 그는 SQL 이 설명 데이터 분석 또는 "무슨 일이 일어났는지 알려주세요" 의 초기 단계에서 제품을 홍보하는 데 도움을 준 다음 "예측 기간" 을 통해 무슨 일이 일어나는지 살펴보고 고객이 앞으로 어떤 일이 일어날지 예측할 수 있도록 도와주려고 했다고 지적했다 (예: 재고 소진이나 제품 돌파).

"앞으로 몇 년 동안, 우리는 세 번째 단계가 강제 단계라는 것을 알게 될 것이다. 시스템은' 이것이 나의 교훈이다. 나는 미래에 무슨 일이 일어날 것이라고 생각하는데, 너는 너의 목표를 극대화해야 한다. 로저코의 말에 따르면, 구글 지도가 대체 노선을 자발적으로 제안하는 능력은 규범적인 해결책의 한 예이다.

H20.ai 는 다양한 업계 데이터 과학자들이 사용하는 예측 도구와' 상자' 로 자신을 포지셔닝합니다. 예를 들어, 인터넷 거물인 Cisco 는 구매 결정을 예측하는 6 만 개의 모델을 보유하고 있으며, 이 회사는 H2O.ai 를 사용하여 이러한 모델을 평가합니다. 씨스코 수석 데이터 과학자는 "결과가 아주 좋다" 고 말했다. 우리는 H2O.ai 의 성능이 우리 동종 제품보다 3 ~ 7 배 낫다는 것을 보았다. 개인 모델링 점수로 볼 때 h2o.ai 환경은 10 에서 15 배까지 올라갑니다. "

(2) 사고 지점 3-빅 데이터 애플리케이션

구글과 같은 검색 엔진의 도움으로 인터넷에서 사용자가 필요로 하는 소셜 데이터와 네트워크 데이터를 쉽게 찾을 수 있지만, 기업 데이터는 일반적으로 찾기 어렵고 사용하기도 어렵다. 이를 위해 7 명의 엔지니어 * * * 가 ThoughtSpot 을 설립하여 구글과 같은 검색 엔진을 개발하여 비즈니스 데이터를 찾는 것을 목표로 하고 있습니다.

이 회사는 구글 설립 초기에 하드웨어 장비를 제공하고 기업이 방화벽을 활성화한 후 초고속 검색 기능을 제공한다. ThoughtSpot 은 빠른 메모리 데이터베이스를 통해 방대한 정보를 검색하는 새로운 검색 엔진의 응용 프로그램을 결합합니다. 이 회사는 또한 클라우드 기반 서비스를 제공할 계획이다.

Thinking Spot 3 는 9 만 달러부터 시작하는데, 데이터 과학자들이 기업을 위해 큰 데이터를 빠르게 찾는 도구이다. "기업에서 이 제품을 사용하는 데이터 과학자의 수가 증가하고 있는 것을 보았습니다." ThoughtSpot 마케팅 부사장인 스콧 홀던은 "20 억 명이 수색을 하고 있지만, 우리는 여전히 데이터 전문가에게 의존하고 있다" 고 말했다.

Holden 은 California 본사 PaloAlto 에서 친숙한 검색 표시줄 인터페이스와 어떻게 작동하는지 시연했습니다. 방금 발표된 ThoughtSpot3.0 에는 구글의 PageRank 및 typeahead 와 유사한 "DataRank" 의 작동 패턴을 포함한 몇 가지 새로운 기능이 있습니다. 이 소프트웨어는 기계 학습 알고리즘에서 권장하는 키워드를 사용하여 고객을 검색하여 프로세스 속도를 높입니다.

Popcharts 는 의심할 여지없이 가장 멋진 새로운 기능이다. "동해안 판매 ......" 를 입력하면 검색 상자에 ThoughtSpot 이 쿼리 관련성에 따라 즉시 그림을 만들고 기계 학습을 통해 10 개 이상의 그림을 선택할 수 있습니다.

또 다른 "라이브" 기능인 AutoJoins 는 수백 개의 데이터 소스가 있는 기업을 탐색하도록 설계되었습니다. AutoJoins 는 ThoughtSpot 의 데이터 인덱스를 사용하여 인덱스 패턴과 기계 학습을 통해 테이블 간의 상관 관계를 파악하고 1 초 이내에 연구 결과를 제시합니다.

홀던은 ThoughtSpot 이 과거 데이터의 전통적인 BI 분석 (매우 빠르고 사용하기 쉬움) 에 더 많은 관심을 기울이고 있으며, 그 예측성과 규범성 분석 기능은 향후 소프트웨어에 반영될 것이라고 밝혔다.

(3) connotation 소프트웨어

Connotate Company 는 American Communications, 로이터 통신, 다우존스 등 대기업을 위해 전 세계 수천 개 사이트의 비정형 데이터를 실시간으로 분류하는 기업입니다. Connotate 소프트웨어는 세계에서 가장 간단하고 가격 대비 성능이 뛰어난 웹 데이터 추출 및 모니터링 솔루션으로, 방대한 양의 데이터를 효율적으로 활용하고, 비즈니스 성장에 중요한 정보를 발굴하며, 확장성이 뛰어난 데이터 모니터링 및 데이터 수집을 수행할 수 있습니다.

Gartner 의 분석가인 더그 레니 (Doug Lenny) 는 Connotate 와 BrightPlanet 이 자신의 빅 데이터 도구 목록에 있다고 밝혔다. 이는 기업 자체의 데이터베이스와 인터넷에서 풍부한 콘텐츠를 수확하고 구축하는 데 도움이 되기 때문이다.

"디지털화와 경제가 성장함에 따라 기업들은 자신의 데이터에만 집중하는 것이 더 이상 만유의 혁신적인 처방이 아니라는 것을 깨닫고 외부 데이터 (즉, 회사 외부의 데이터) 로 전환하는 경우가 많아지고 있습니다." 레니가 말했다.

Connotate 는 웹 페이지에서 콘텐츠를 추출하는 특허 기술이 웹 페이지 캡처 또는 사용자 정의 스크립트보다 훨씬 뛰어나다고 말합니다. 대신, 웹 사이트 작업에서 기계 학습을 사용하는 방법에 대한 직관적인 시각적 이해를 제공합니다. Connotate 에 따르면 컨텐츠 추출은 "정확하고 안정적이며 확장 가능합니다." 라고 합니다.

이 회사에 따르면 Connotate 플랫폼은 수백 개의 웹 사이트와 수백만 메가바이트를 쉽게 처리할 수 있다고 합니다. 비즈니스 관련 대상 정보를 제공합니다. 이 방법은 기존 방법보다 컨텐츠 수집의 평균 비용이 55% 적습니다.

예를 들어, Connotate 는 판매 정보 공급업체가 수천 개의 병원 웹 사이트에서 연락처 정보 (이름, 직책, 전화 번호, 이메일 및 제휴 관계) 를 추출하고 전국 의사 아카이브 데이터베이스를 구축하는 데 도움을 줍니다.

Connotate 에 따르면, 대형 데이터 솔루션은 추가 하드웨어나 IT 자원을 들이지 않고 여러 대형 제약 회사에 판매되었습니다. 빅데이터 추출의 규모는 심지어 50 만 명의 의사의 데이터를 제공할 수 있다.

(4) 밝은 행성 도구

BrightPlanet 은 또한 인터넷에서 데이터를 추출하는데, 인터넷은 그 검색이 이른바' 심층 네트워크' 통찰능력을 가지고 있다고 주장한다. DeEP 웹은 암호로 보호되는 웹 사이트 및 일반적으로 기존 검색 엔진에 의해 색인화되지 않는 기타 웹 사이트의 데이터를 마이닝할 수 있습니다.

BrightPlanet 에 따르면 Twitter 와 뉴스 데이터베이스, 의학 저널의 데이터를 포함한 수백만 개의 데이터 항목을 수집하고 기업의 구체적인 요구 사항과 조건에 따라 필터링할 수 있습니다.

이 회사는 이 소프트웨어를 사용하는 데이터 수집 엔지니어에게 무료 DaaS 컨설팅을 제공하고 그들의 서비스를 소개하는 것이 좋은 선택이다. 컨설팅의 목적은 엔터프라이즈 데이터 센터에서 적절한 수집 데이터를 찾고 올바른 형식을 얻을 수 있도록 지원하여 고객이 프로세스와 결과를 잘 이해할 수 있도록 하는 것입니다.

최종 사용자 또는 고객이 콘텐츠를 얻을 수 있는 웹 사이트를 선택할 수 있습니다. 반대로, BrightPlanet 도 그 내용을 풍부하게 했다. 예를 들어, 소셜 미디어 웹 사이트의 댓글과 같은 구조화되지 않은 데이터는 보다 사용하기 쉬운 클라이언트에 제출할 수 있도록 사용자 정의 형식으로 설계되었습니다.

copyright 2024회사기업대전