빅 데이터 시대의 빅 데이터 마이닝은 이미 모든 업종의 핫스팟으로 알려져 있다. (윌리엄 셰익스피어, 빅 데이터, 빅 데이터, 빅 데이터, 빅 데이터, 빅 데이터, 빅 데이터, 빅 데이터)
첫째, 데이터 마이닝
빅 데이터 시대에 데이터 생성 및 수집은 기본이고, 데이터 마이닝은 핵심이며, 데이터 마이닝은 빅 데이터의 가장 중요하고 기초적인 작업이라고 할 수 있습니다. 일반적으로 데이터 마이닝 (DataMining) 는 데이터 마이닝이라고도 하며, 데이터 마이닝이라고도 하며, 대량의 데이터에서 숨겨진, 이전에는 알려지지 않았지만 잠재적으로 유용한 정보와 패턴을 마이닝하는 엔지니어링 및 체계적인 프로세스를 말합니다.
학자마다 데이터 마이닝을 다르게 이해하지만, 개인적으로 데이터 마이닝의 특징은 주로 다음 네 가지 측면을 포함한다고 생각합니다.
1. 이론과 응용의 결합: 데이터 마이닝은 이론 알고리즘과 응용 실습의 완벽한 조화입니다. 데이터 마이닝은 실제 생산 생활의 애플리케이션 요구 사항에서 비롯되며, 발굴된 데이터는 특정 애플리케이션에서 가져온 것입니다. 동시에, 데이터 마이닝을 통해 발견된 지식은 실제 의사결정을 돕기 위해 실천에 적용되어야 한다. 따라서 데이터 마이닝은 애플리케이션 관행에서 파생되고 서비스됩니다. 데이터는 근본이고, 데이터 마이닝은 데이터 지향적이어야 한다. 관련된 알고리즘의 설계 및 개발은 실제 응용의 필요성을 고려하여 문제를 추상화하고 요약하고, 좋은 알고리즘을 실천에 적용하고, 실천에서 검증해야 한다.
2. 엔지니어링 프로세스: 데이터 마이닝은 여러 단계로 구성된 엔지니어링 프로세스입니다. 데이터 마이닝의 애플리케이션 특성에 따라 데이터 마이닝은 알고리즘 분석 및 애플리케이션뿐만 아니라 데이터 준비 및 관리, 데이터 사전 처리 및 변환, 마이닝 알고리즘 개발 및 적용, 결과 표시 및 검증, 지식 축적 및 사용의 전체 프로세스를 포함합니다. 또한 실제 응용 프로그램에서 일반적인 데이터 마이닝 프로세스는 대화식 루프 프로세스입니다.
기능 모음: 데이터 마이닝은 다양한 기능의 모음입니다. 일반적으로 사용되는 데이터 마이닝 기능에는 데이터 검색 및 분석, 상호 관계 규칙 마이닝, 시계열 패턴 마이닝, 분류 예측, 클러스터 분석, 예외 감지, 데이터 시각화 및 링크 분석이 포함됩니다. 특정 애플리케이션 사례에는 일반적으로 다양한 기능이 포함됩니다. 함수마다 일반적으로 서로 다른 이론 및 기술 기반이 있으며 각 함수마다 다른 알고리즘 지원이 있습니다.
4. 학제 간 분야: 데이터 마이닝은 통계 분석, 패턴 인식, 기계 학습, 인공 지능, 정보 검색 및 데이터베이스와 같은 다양한 분야의 연구 성과 및 학문적 사고를 활용하는 학제 간 분야입니다. 이와 함께 무작위 알고리즘, 정보론, 시각화, 분산 컴퓨팅 및 최적화와 같은 기타 영역도 데이터 마이닝의 발전에 중요한 역할을 합니다. 데이터 마이닝과 이러한 관련 영역의 차이점은 위에서 언급한 데이터 마이닝의 세 가지 기능으로 요약할 수 있으며, 가장 중요한 것은 애플리케이션에 더 중점을 두고 있다는 것입니다.
요약하자면, 응용은 데이터 마이닝의 중요한 특징이며, 이것이 다른 학과와 차별화되는 관건이다. 동시에, 그 응용 특징은 다른 특징들과 상호 작용하여 데이터 마이닝의 연구와 발전을 어느 정도 결정하고, 데이터 마이닝을 배우고 파악하는 방법에 대한 지도적 의견을 제시했다. 예를 들어, R&D 관점에서 볼 때, 실제 응용의 수요는 데이터 마이닝 분야의 많은 방법의 근원이다. 최초 고객 거래 데이터 분석 (장바구니 분석), 멀티미디어 데이터 마이닝 (멀티미디어 데이터 마이닝) 및 개인 정보 보호 데이터 마이닝 (개인 정보 보호 데이터 마이닝), 텍스트 데이터 마이닝 (텍스트 마이닝) 및 웹 마이닝 (웹 마이닝), 소셜 미디어 마이닝 (소셜 미디어 마이닝) 에 이르기까지 애플리케이션 중심 엔지니어링화와 집계화는 데이터 마이닝 연구 내용과 방향의 보편성을 결정한다. 그 중에서도 엔지니어링은 전체 연구 과정의 여러 단계를 데이터 마이닝의 연구 범주에 속하게 한다. 전반적으로 데이터 마이닝은 다양한 기능을 갖추고 있으며, 이러한 기능을 연결하고 결합하는 방법은 데이터 마이닝 연구 방법의 발전에 어느 정도 영향을 미칩니다. 예를 들어, 90 년대 중반에는 데이터 마이닝 연구가 주로 연관 규칙 및 시계열 패턴 마이닝에 초점을 맞추었습니다. 90 년대 말까지 연구원들은 연관 규칙과 시계열 패턴 (예: 연관 기반 분류) 을 기반으로 두 가지 다른 데이터 마이닝 기능을 유기적으로 결합하는 분류 알고리즘을 연구하기 시작했습니다. 20 세기 초, 반 감독 학습과 반 감독 클러스터링은 연구의 핫스팟이었고, 또한 분류와 클러스터링의 두 가지 기능을 유기적으로 결합했다. 최근 몇 년 동안 하위 공간 클러스터 (피쳐 추출 및 클러스터링의 결합) 및 맵 분류 (그림 마이닝 및 분류의 결합) 와 같은 기타 연구 방향도 여러 기능을 연결하고 조합했습니다. 마지막으로, 교차는 연구 아이디어와 방법 설계의 다양화로 이어진다.
앞서 말씀드린 것은 데이터 마이닝의 특징이 연구 개발과 연구 방법에 미치는 영향입니다. 또한 데이터 마이닝의 이러한 특징은 데이터 마이닝을 배우고 파악하는 방법에 대한 지침을 제공하며 대학원생과 학부생을 양성하는 데도 어느 정도 지침이 있습니다. 예를 들어, 데이터 마이닝을 안내 할 때 응용 프로그램에 익숙한 비즈니스 및 요구 사항을 적용하는 것이 데이터 마이닝의 목적입니다. 비즈니스, 알고리즘, 기술의 긴밀한 결합은 매우 중요합니다. 업무를 이해하고 수요를 파악해야만 데이터를 분석하고 그 가치를 발굴할 수 있다. 따라서 실제 응용에 필요한 것은 업무와 데이터 마이닝 알고리즘을 모두 아는 인재이다. 공학은 데이터 마이닝을 파악하는 데 어느 정도의 엔지니어링 능력이 필요하다고 결정했다. 좋은 데이터 마이닝사는 먼저 엔지니어로 대규모 데이터 처리 및 프로토타입 시스템 개발 능력이 뛰어나 데이터 마이닝 엔지니어를 양성할 때 데이터 처리 능력과 프로그래밍 능력의 중요성에 해당한다. 집단성은 데이터 마이닝을 적용할 때 밑바닥에 서로 다른 함수와 다양한 알고리즘을 축적해야 한다. 교집합은 데이터 마이닝을 배울 때 관련 분야의 사상과 기술을 적극적으로 이해하고 배워야 한다는 것을 결정합니다.
따라서 이러한 기능은 데이터 마이닝의 특징이며, 데이터 마이닝은 이 네 가지 기능을 통해 요약되고 학습될 수 있습니다.
둘째, 큰 데이터의 특성
빅데이터 (bigdata) 라는 단어는 정보 폭발 시대에 생성된 방대한 정보를 묘사하고 지칭하는 데 자주 사용된다. 빅데이터 연구의 의의는 정보 내용 및 정보와 정보 간의 관계를 발견하고 이해하는 데 있다. 큰 데이터를 연구하려면 먼저 큰 데이터의 특징과 기본 개념을 명확하게 이해하고 이해해야 큰 데이터를 이해하고 이해할 수 있다.
큰 데이터를 연구하려면 우선 그것의 특징과 기본 개념을 이해해야 한다. 업계에서는 대용량 데이터에 표준 "4V" 기능이 있다고 널리 믿고 있습니다.
1. 양: 엄청난 양의 데이터가 테라바이트급에서 페타바이트급으로 도약했습니다.
2. 다양성: 웹 로그, 비디오, 그림, 지리 정보 등 다양한 데이터 유형이 있습니다.
3. 속도: 처리 속도, 실시간 분석, 기존 데이터 마이닝 기술과 근본적으로 다릅니다.
4. 가치: 가치 밀도가 낮고 효과적인 가치가 높습니다. 저밀도 가치 데이터의 합리적인 활용과 정확하고 정확한 분석은 엄청난 상업적 사회적 가치를 가져올 수 있습니다.
위의 "4V" 기능은 큰 데이터와 과거 샘플링된 "작은 데이터" 의 주요 차이점을 설명합니다. 그러나 실천은 빅데이터의 궁극적인 가치를 반영하는 유일한 방법이다. 실제 애플리케이션 및 대용량 데이터 처리의 복잡성으로 볼 때 대용량 데이터에는 다음과 같은 새로운 "4V" 기능도 있습니다.
5. 가변성: 데이터의 구조와 의미는 장면과 연구 목표에 따라 달라질 수 있습니다. 따라서 실제 연구에서 구체적인 문맥을 고려해야 한다.
6. 진실성: 진실되고 신뢰할 수 있는 데이터를 얻는 것은 분석 결과가 정확하고 효과적임을 보장하는 전제 조건입니다. 진실되고 정확한 데이터만이 진정으로 의미 있는 결과를 얻을 수 있다.
7. 변동성/분산: 데이터 자체에 소음이 포함되어 있기 때문에 분석 프로세스가 불규칙하며, 다른 알고리즘이나 다른 분석 프로세스 및 수단으로 인해 분석 결과가 불안정해질 수 있습니다.
8. 시각화: 큰 데이터 환경에서 데이터 시각화는 데이터의 의미를 보다 직관적으로 해석하여 데이터를 이해하고 결과를 해석하는 데 도움이 됩니다.
요약하면, 위의 "8V" 기능은 빅 데이터 분석 및 데이터 마이닝에서 매우 중요한 지침입니다.
셋째, 빅 데이터 시대의 데이터 마이닝
빅 데이터 시대에 데이터 마이닝은 다음 네 가지 문제를 고려해야 합니다.
빅 데이터 마이닝의 핵심과 본질은 애플리케이션, 알고리즘, 데이터 및 플랫폼의 유기적 결합입니다.
데이터 마이닝은 응용 프로그램 중심 및 실습에서 비롯되기 때문에 응용 프로그램에서 대량의 데이터가 생성됩니다. 특정 애플리케이션 데이터를 기반으로 알고리즘, 도구, 플랫폼을 지원하고, 결국 발견한 지식과 정보를 실천에 적용하여 수량화, 합리적, 실행 가능, 가치 있는 정보를 제공해야 합니다.
큰 데이터에 숨겨진 유용한 정보를 발굴하려면 해당 데이터 마이닝 및 학습 알고리즘을 설계하고 개발해야 합니다. 알고리즘의 설계 및 개발에는 구체적인 애플리케이션 데이터 구동이 필요하며 실제 문제에서 적용 및 검증이 필요합니다. 알고리즘의 구현 및 적용에는 변동 문제를 해결할 수 있는 효율적인 처리 플랫폼이 필요합니다. 대용량 데이터를 효과적으로 분석하고, 여러 데이터를 적시에 통합하고, 강력한 데이터 지원 알고리즘의 구현과 데이터 시각화를 통해 데이터 분석 프로세스를 표준화하는 효율적인 처리 플랫폼입니다.
결론적으로, 응용, 알고리즘, 데이터, 플랫폼을 결합하는 사상은 빅 데이터 시대의 데이터 마이닝의 이해와 지식의 전면적인 정련으로 빅 데이터 시대의 데이터 마이닝의 본질과 핵심을 반영하고 있다. 이 네 가지 측면은 해당 연구의 통합과 아키텍처이기도 합니다. 이 네 가지 아키텍처는 다음 네 가지 수준에서 구체적으로 전개됩니다.
응용 프로그램: 데이터 수집 및 알고리즘 검증과 관련된 주요 문제는 응용 프로그램과 관련된 의미 및 도메인 지식을 이해하는 것입니다.
데이터 계층: 데이터를 효율적으로 사용하는 방법을 포함한 데이터 관리, 저장, 액세스 및 보안.
알고리즘 계층: 주로 데이터 마이닝, 기계 학습, 근사화 알고리즘 등의 알고리즘 설계 및 구현에 관한 것입니다.
플랫폼 계층 (인프라): 데이터 액세스 및 컴퓨팅, 컴퓨팅 플랫폼은 분산된 대규모 데이터를 처리합니다.
요약하자면, 데이터 마이닝의 알고리즘은 여러 계층으로 나뉘어 있으며, 계층마다 연구 내용이 다르다. 데이터 융합 기술을 사용하여 스파스, 이기종, 불확실성, 불완전, 다중 소스 데이터 사전 처리와 같은 현재 데이터 마이닝의 주요 연구 방향을 볼 수 있습니다. 복잡한 동적 데이터 마이닝 로컬 학습 및 모델 통합을 통해 얻은 글로벌 지식을 테스트하고 관련 정보를 사전 처리 단계로 피드백합니다. 데이터를 병렬로 배포하여 효과적인 활용의 목적을 달성하다.
넷째, 대형 데이터 마이닝 시스템 개발
1. 배경 목표
빅 데이터 시대가 다가옴에 따라 데이터의 규모와 복잡성이 폭발적으로 증가하면서 여러 애플리케이션 분야의 데이터 분석가가 데이터 마이닝 기술을 사용하여 데이터를 분석하게 되었습니다. 응용 분야 (예: 의료, 고급 제조, 금융 등) 일반적인 데이터 마이닝 작업에는 일반적으로 복잡한 하위 작업 구성, 다양한 유형의 마이닝 알고리즘 통합 및 분산 컴퓨팅 환경에서의 효율적인 실행이 필요합니다. 따라서 빅 데이터 시대에는 응용 분야의 데이터 분석가가 데이터 분석 작업을 효과적으로 수행할 수 있도록 컴퓨팅 플랫폼과 도구를 개발하고 구축하는 것이 급선무입니다.
앞서 언급했듯이 데이터 마이닝은 여러 작업, 여러 기능 및 다양한 마이닝 알고리즘을 가지고 있으며 효율적인 플랫폼이 필요합니다. 따라서 빅 데이터 시대의 데이터 마이닝 및 응용 프로그램의 시급한 과제는 응용 분야의 데이터 분석가가 데이터 분석 작업을 효과적으로 수행할 수 있도록 컴퓨팅 플랫폼 및 도구를 개발하고 구축하는 것입니다.
2. 관련 제품
기존 데이터 마이닝 도구
Weka, SPSS, SQL 서버가 있어 사용자 분석을 위한 친숙한 인터페이스를 제공합니다. 그러나 이러한 도구는 대규모 데이터 분석에 적합하지 않으므로 사용자가 이러한 도구를 사용할 때 새로운 알고리즘 프로그램을 추가하기가 어렵습니다.
인기 있는 데이터 마이닝 알고리즘 라이브러리
Mahout, MLC++ 및 MILK 와 같은 알고리즘 라이브러리는 많은 데이터 마이닝 알고리즘을 제공합니다. 그러나 이러한 알고리즘 라이브러리에는 작업 구성 및 알고리즘 통합을 위한 고급 프로그래밍 기술이 필요합니다.
최근 등장한 통합 데이터 마이닝 제품.
Radoop 및 BC-PDM 과 같은 친숙한 사용자 인터페이스를 제공하여 데이터 마이닝 작업을 신속하게 구성할 수 있습니다. 하지만 이 제품들은 모두 Hadoop 프레임워크를 기반으로 하며, 비 Hadoop 알고리즘 프로그램에 대한 지원은 매우 제한적입니다. 다중 사용자 멀티태스킹 시 리소스 할당이 명확하게 해결되지 않았습니다.
3. 피우 광부
대규모 데이터 마이닝에서 기존 도구와 제품의 한계를 해결하기 위해 우리 팀은 빠르고 통합되며 사용자 친화적인 분산 환경에서 데이터 마이닝 시스템을 나타내는 새로운 플랫폼인 -FIU-MINER 를 개발했습니다. 분산 환경에서 효율적인 컴퓨팅 및 신속한 통합을 지원하는 사용자 친화적인 데이터 마이닝 시스템입니다. FIU-Miner 는 기존 데이터 마이닝 플랫폼에 비해 데이터 분석가가 다양한 복잡한 데이터 마이닝 작업을 쉽고 효율적으로 수행할 수 있도록 지원하는 새로운 기능을 제공합니다.
기존 데이터 마이닝 플랫폼에 비해 다음과 같은 새로운 기능을 제공합니다.
A. 사용자 친화적이고 인간적이며 신속한 데이터 마이닝 작업 구성 FIU-Miner 는 SaaS (software-as-a-service) 모델을 기반으로 데이터 분석 작업과 무관한 기본 세부 사항을 숨깁니다. FIU-Miner 가 제공하는 인간적인 사용자 인터페이스를 통해 사용자는 코드를 작성하지 않고도 기존 알고리즘을 하나의 워크플로우로 직접 조립하여 복잡한 데이터 마이닝 문제에 대한 작업 구성을 쉽게 수행할 수 있습니다.
B. 유연한 다국어 프로그램 통합 사용자가 가장 앞선 데이터 마이닝 알고리즘을 시스템 알고리즘 라이브러리로 직접 가져와 분석 도구 세트를 확장하고 관리할 수 있습니다. 또한 FIU-Miner 는 적절한 운영 환경을 가진 컴퓨팅 노드에 작업을 올바르게 할당할 수 있으므로 이러한 가져온 알고리즘에는 언어 제한이 없습니다.
C. 이기종 환경에서 효과적인 자원 관리. FIU-Miner 는 그래픽 워크스테이션, 단일 컴퓨터 및 서버를 포함한 이기종 컴퓨팅 환경에서 데이터 마이닝 작업을 실행할 수 있도록 지원합니다. FIU-Miner 는 알고리즘 구현, 서버 로드 밸런싱, 데이터 위치 등 다양한 요소를 종합적으로 고려하여 컴퓨팅 리소스 활용도를 최적화합니다.
D. 효과적인 계획 수립 및 시행.
애플리케이션 아키텍처는 사용자 인터페이스 계층, 작업 및 시스템 관리 계층, 논리적 자원 계층, 이기종 물리적 자원 계층으로 구성됩니다. 이 계층형 아키텍처는 대용량 데이터의 분산 스토리지, 다양한 데이터 마이닝 알고리즘의 통합, 멀티 태스킹 구성 및 시스템 사용자의 제공 기능을 충분히 고려합니다. 일반적인 데이터 마이닝 작업에는 복잡한 마스터 작업 구성이 필요하며 응용 프로그램에 여러 가지 유형의 마이닝 알고리즘이 통합되어 있습니다. 따라서 응용 분야 데이터 분석가의 효과적인 분석을 지원하기 위해 이러한 컴퓨팅 플랫폼과 도구를 개발하고 구축하는 것은 대규모 데이터 마이닝의 중요한 작업입니다.
FIU-Miner 시스템은 하이엔드 제조, 지능형 창고 관리, 공간 데이터 처리 등의 다양한 측면에 사용됩니다. TerraFly GeoCloud 는 다양한 온라인 공간 데이터 분석을 지원하는 terrafly 시스템 기반 플랫폼입니다. SQL 과 같은 공간 데이터 조회 및 마이닝 언어 MapQL 을 제공합니다. 클래스 SQL 문뿐만 아니라 사용자의 다양한 요구에 따라 공간 데이터를 마이닝, 렌더링 및 그릴 수 있습니다. 공간 데이터 분석을 위한 워크플로우를 구축하여 분석 프로세스를 최적화하고 분석 효율성을 높입니다.
제조업이란 원자재를 대량으로 완제품으로 가공하는 공업 생산 과정을 말한다. 고급 제조업은 과학기술 함량이 높고 부가가치가 높으며 경쟁력이 강한 신흥산업을 말한다. 전형적인 하이엔드 제조업으로는 전자반도체 생산, 정밀 기기 제조, 생물제약 등이 있다. 이러한 제조 분야는 종종 엄격한 엔지니어링 설계, 복잡한 조립 라인, 대량의 제어 처리 장비 및 프로세스 매개변수, 정확한 프로세스 제어 및 엄격한 재료 사양을 포함합니다. 생산량과 품질은 프로세스 제어 및 최적화 결정에 크게 좌우됩니다. 이에 따라 제조업체들은 생산 과정을 최적화하고, 통제 매개변수를 최적화하고, 제품 품질과 생산량을 개선하여 기업의 경쟁력을 높이기 위한 다양한 조치를 취하고 있습니다.
공간 데이터 처리와 관련하여 TerraFly GeoCloud 는 다양한 온라인 공간 데이터를 분석합니다. 기존 데이터 분석의 경우 MapQL 문은 쓰기가 어렵고, 작업 간의 관계가 복잡하며, 시퀀스 실행 간의 공간 데이터 공유가 비효율적이라는 점이 문제입니다. FIU-Miner 는 위의 세 가지 어려움을 효과적으로 해결할 수 있습니다.
요약하면, 빅 데이터의 복잡한 특성은 데이터 마이닝의 이론 및 알고리즘 연구에 새로운 요구 사항과 도전을 제기합니다. 빅 데이터는 데이터에 포함 된 잠재적 정보를 발굴하고 작동시키는 것이 핵심입니다. 데이터 마이닝은 이론 기술과 실제 응용의 완벽한 조화이다. 데이터 마이닝은 이론과 실천의 결합의 한 예이다.