데이터 마이닝을 체계적으로 배우는 방법

칼을 갈아도 나무꾼은 틀리지 않는다. 데이터 마이닝을 배우기 전에 다음 사항을 이해해야 합니다.

현재 데이터 마이닝은 국내에서 유행하지 않는다, 마치 용을 도살하는 것과 같다.

초기 데이터 준비는 일반적으로 전체 데이터 마이닝 프로젝트 작업량의 약 70% 를 차지합니다.

데이터 마이닝 자체는 통계, 데이터베이스 및 기계 학습을 결합한 새로운 기술이 아닙니다.

데이터 마이닝 기술은 비즈니스 인력 학습에 더 적합합니다 (기술자보다 업무 효율성 향상)

데이터 마이닝은 기존 비즈니스 인텔리전스 (보고서, OLAP 등) 영역에 적용됩니다. ) 을 (를) 지원할 수 없습니다.

데이터 마이닝 프로젝트는 일반적으로 미숙한 작업을 반복해야 합니다.

만약 당신이 위의 내용이 받아들일 수 있다고 생각한다면, 계속 보세요.

기술을 배우려면 업종에 가까워야 하고, 업종 배경이 없는 기술은 공중 누각과 같다. 기술의 발전, 특히 컴퓨터 분야의 발전은 광범위하고 신속하며 (10 년 전 홈페이지를 설계하면 회사를 설립할 수 있음), 대부분의 사람들은 모든 기술 세부 사항을 전면적으로 파악할 정력과 시간이 없다. 그러나 기술과 산업이 결합되면 독립할 수 있다. 한편으로는 사용자의 통증과 강성 수요를 파악하는 데 유리하다. 반면에 업계 경험을 쌓을 수 있고 인터넷 사유로 국경을 넘나들며 더 쉽게 성공할 수 있다. 기술을 배울 때 모든 것을 다 갖추려고 하지 마라, 이렇게 하면 자신의 핵심 경쟁력을 잃게 된다.

1. 현재 국내 데이터 광부의 작업 분야는 크게 세 가지 범주로 나눌 수 있다.

1) 데이터 분석가: 업계 데이터가 있는 업계에서 비즈니스 컨설팅, 비즈니스 인텔리전스, 전자 상거래, 금융, 통신, 컨설팅 등의 분석 보고서 작성.

2) 데이터 마이닝 엔지니어: 멀티미디어, 전자 상거래, 검색, 소셜 네트워킹 등 데이터 관련 업계에서 기계 학습 알고리즘을 구현하고 분석합니다.

3) 과학 연구 방향: 대학, 과학 연구 단위, 기업 연구소의 효율성 향상과 향후 응용에 새로운 알고리즘을 연구한다.

둘째, 각 업무 분야에서 습득해야 할 기술에 대해 이야기한다.

(1). 데이터 분석가

깊은 수학 통계 기초가 필요하지만 프로그램 개발 능력은 필요하지 않다.

비즈니스 분석 및 비즈니스 인텔리전스 소프트웨어 (SAS), SPSS, EXCEL 등과 같은 주요 데이터 마이닝 (또는 통계 분석) 도구를 능숙하게 사용해야 합니다.

업계와 관련된 모든 핵심 데이터에 대한 심층적인 이해와 어느 정도의 데이터 민감도 교육이 필요합니다.

고전 서적 추천:' 확률과 수학 통계',' 데이비드 프리드먼이 추천한 통계',' 비즈니스 모델링 및 데이터 마이닝',' 데이터 마이닝 소개',' SAS 프로그래밍 및 데이터 마이닝 비즈니스 사례',' 클레만틴 데이터 마이닝 방법 및 애플리케이션',' 엑셀 2007

(2). 데이터 마이닝 엔지니어

주류 기계 학습 알고리즘의 원리와 응용을 이해해야 한다.

파이썬, C, C++, 자바, 델파이 등 하나 이상의 프로그래밍 언어에 익숙합니다.

데이터베이스 원리를 이해하고 하나 이상의 데이터베이스 (Mysql, SQL, DB2, Oracle 등) 를 능숙하게 조작하는 것이 가장 좋습니다. 참고) MapReduce 원리를 이해하고 Hadoop 시리즈 도구를 능숙하게 사용할 수 있습니다.

고전 서적 추천: 데이터 마이닝 개념 및 기술, 기계 학습 실습, 인공 지능 및 애플리케이션, 데이터베이스 시스템 소개, 알고리즘 소개, 웹 데이터 마이닝, 파이썬 표준 라이브러리, 자바의 사고, C++ 의 사고, 데이터 구조 등

(3) 과학 연구 방향

연관 규칙 마이닝 (Apriori 및 FPTree), 분류 알고리즘 (C4.5, KNN, Logistic 회귀, SVM 등 데이터 마이닝의 이론적 기초를 배워야 합니다. ) 및 클러스터링 알고리즘 (Kmeans, 스펙트럼 클러스터링). 목표는 먼저 데이터 마이닝의 10 알고리즘의 사용 및 장단점을 심층적으로 이해할 수 있습니다.

R 언어는 SAS 및 SPSS 보다 통계 계산을 위한 R 프로젝트에 더 적합합니다. R 소프트웨어는 완전히 무료이며 오픈 커뮤니티 환경은 통계 분석 및 연구에 더 적합한 다양한 추가 키트 지원을 제공하기 때문입니다. 현재 국내에서는 인지도가 높지 않지만 강력히 추천합니다.

Hadoop 플랫폼에서 SVM 클라우드 알고리즘 호출 플랫폼 (웹 프로젝트 호출 Hadoop 클러스터) 을 구현하는 것과 같이 메인스트림 알고리즘을 개선하여 빠르고 효율적으로 만들 수 있습니다.

세계적으로 유명한 회의 논문과 핫스팟 추적 기술을 광범위하게 읽어야 한다. KDD, ICML, IJCAI, 인공지능촉진회, ICDM 등 데이터 마이닝과 관련된 저널도 있습니다: ACM transactions on knowledge discovery from data, IEEE transactions on knowledge and data engineering, Journal of machine learning research home page, IEEE xplore: pattern analysis and machine intelligence, IEEE transactions on 등.

데이터 마이닝 대회에 참가하여 각 방면의 실제 문제를 해결할 수 있는 능력을 길러 볼 수 있다. 시그 ·KDD, "카글: 큰 데이터에서 큰 분석에 이르기까지" 등등.

Apache Mahout: Scalable Machine Learning and Data Mining, Myrrix 등과 같은 오픈 소스 프로젝트에 자신의 코드를 기부해 볼 수 있습니다. (SourceForge 나 GitHub 에서 더 흥미로운 항목을 찾을 수 있습니다. ).

고전 서적 추천: "기계 학습", "패턴 분류", "통계 학습 이론의 본질", "통계 학습 방법", "데이터 마이닝의 실용적인 기계 학습 기술", "R 언어 실습", "영어 자질은 과학 연구 인재에게 매우 중요하다" 등 "기계 학습: 1 Terprise miner: 사례 연구 방법, 데이터 분석을 위한 파이썬 등.

셋째, 다음은 통신업계 데이터 마이닝 엔지니어의 업무 감정입니다.

데이터 마이닝 프로젝트 관행에서 볼 때, 의사 소통 능력은 흥미를 발굴하는 데 가장 중요하다. 사랑이 있어야 배울 수 있다. 의사 소통 능력이 좋아야 비즈니스 문제를 정확하게 이해하고, 비즈니스 문제를 발굴 문제로 올바르게 변환하고, 관련 전문가 중에서 자신의 의도와 생각을 분명하게 표현하고, 그들의 이해와 지원을 받을 수 있다. 그래서 저는 의사 소통 능력과 취미가 개인 데이터 마이닝의 핵심 경쟁력이라고 생각합니다. 배우기가 더 어렵습니다. 기타 관련 전문지식을 누구나 배울 수 있는 것은 개인 발전의 핵심 경쟁력이 아니다.

말하자면, 많은 데이터 웨어하우스 전문가, 프로그래머, 통계학자 등이 있다. 벽돌을 던질 수도 있어요. 죄송합니다. 다른 뜻은 없습니다. 너의 전공은 데이터 발굴에 매우 중요하다. 모든 사람은 하나의 전체이지만, 단일 개인으로서 제한된 정력과 시간으로 이러한 분야를 장악할 수는 없다. (아리스토텔레스, 니코마코스 윤리학, 지혜명언) 이 경우 가장 중요한 핵심은 데이터 마이닝 기술과 관련 업무 능력 (다른 극단에서) 이 데이터 웨어하우스를 이해하지 못하지만 간단한 Excel 은 6 만 개의 샘플 데이터 처리에 충분하다는 것입니다. 비록 그는 전문적인 전시 기교를 이해하지 못하지만, 그 자신이 이해할 수만 있다면, 어떤 전시도 필요하지 않다. 앞서 언급했듯이 통계 기술은 한 사람의 미니 프로젝트에 매우 중요합니다. 비록 그는 프로그래밍을 이해하지 못하지만, 그의 전문적인 광산 발굴 도구와 기교는 그가 연습하기에 충분하다. 이렇게 하면 미니 프로젝트에서는 마이닝 기술과 마케팅 업무 능력을 아는 사람이 순조롭게 완성할 수 있고, 심지어 데이터 소스에서도 업무 요구에 따라 끊임없이 다른 프로젝트 아이디어를 발굴할 수 있다. 이 미니 프로젝트, 간단한 데이터 웨어하우스 전문가, 간단한 프로그래머, 간단한 전시 기술자, 심지어 간단한 마이닝 기술 전문가조차도 자격이 없습니다. 이것은 또한 의사 소통 기술이 왜 중요한지 다른 방면에서 설명한다. 이러한 완전히 다른 전문 분야는 효과적인 유기적 통합을 통해 데이터 마이닝 프로젝트 관행을 수행하고자 합니다. 좋은 의사 소통 기술이 없다고 생각하십니까?

데이터 마이닝 능력은 프로젝트 실천의 용광로에서만 승진하고 승화될 수 있기 때문에 프로젝트 학습 발굴을 따르는 것이 가장 효과적인 지름길이다. 외국에서 채굴을 배우는 사람은 처음에는 항상 사장을 따라 프로젝트를 한다. 그들이 처음에는 이해하지 못하더라도 상관없다. 그들은 이해가 적을수록 무엇을 배워야 하는지 더 잘 알고, 빨리 배울수록 효과가 있다. 국내 데이터 마이닝 학생들이 어떻게 배웠는지 모르겠지만, 일부 인터넷 포럼에서 볼 때 많은 사람들이 종이에 대해 이야기하고, 시간을 낭비하고, 비효율적이다.

또 현재 국내에서는 데이터 발굴에 대한 개념이 매우 혼란스럽다. 많은 BI 는 보고서 표시와 간단한 통계 분석에만 국한되어 있지만 데이터 마이닝이라고도 합니다. 한편, 국내에서 실제로 데이터 마이닝을 대규모로 시행하는 업계 (은행, 보험회사, 이동통신) 는 소수에 불과하며, 다른 업종의 응용은 소규모일 수밖에 없다. 예를 들어, 많은 대학들은 관련 발굴 과제와 프로젝트를 가지고 있지만, 비교적 분산되어 있으며, 모두 탐사 단계에 있지만, 나는 데이터 마이닝이 중국에서 반드시 전망이 있을 것이라고 믿는다. 이는 역사 발전의 필연이기 때문이다.

이동의 실제 사례에 대해 말하자면, 만약 당신이 이동한다면, 당신은 국내에 화원 분석이라는 회사가 있다는 것을 분명히 알고 있을 것입니다. (저는 이 회사와 상관없지만, 저는 데이터 발굴자의 관점에서 국내 소위 데이터 마이닝 서비스 회사의 대부분을 분석한 적이 있습니다. 저는 화원이 괜찮다고 생각합니다. 많은 유명무실한 대기업들보다 더 현실적입니다.). (존 F. 케네디, Northern Exposure (미국 TV 드라마), 성공명언 그들의 업무는 현재 국내 대부분의 성급 모바일 회사의 분석 발굴 프로젝트를 포괄하고 있다. 온라인 검색을 통해 자세한 정보를 찾을 수 있어야 합니다. 화원에 대한 분석이 가장 인상 깊었던 것은 2002 년 이 회사가 자수성가했다는 것이다. 자신을 몰라도 괜찮아. 그것은 독학을 하면서 고객을 넓히기 시작했다. 지금은 이미 차이나 모바일 통신 시장에 꽃이 피었다. 나는 정말 탄복한다. 처음에는 EXCEL 로 데이터를 처리하고 육안으로 다른 모델을 비교했습니다. 난이도는 상상할 수 있다.

이동통신에서 데이터 마이닝의 구체적인 응용은 여러 통화료 패키지 개발, 고객 손실 모델, 업무별 교차 판매 모델, 고객 선호도가 다른 유연한 분석, 고객군 세분화 모델, 고객별 라이프사이클 모델, 채널 선택 모델, 악의적인 사기 경보 모델 등 너무 많습니다. 고객의 요구와 실제 문제에서 이동통신은 너무 많은 광산 발굴 프로젝트를 찾을 수 있다는 점을 기억하십시오. 마지막으로, 나는 너에게 비밀을 하나 알려줄게. 데이터 마이닝 능력이 어느 정도 향상되었을 때, 어떤 업종이든 데이터 마이닝의 응용은 대부분 대동소이하며, 더 쉽게 느껴질 수 있다는 것을 알게 될 것이다.

上篇: 下篇: 부유시 햇빛 북쪽 해안에 있는 집은 어때요?