1. 실제로 데이터 소스는 여러 측면과 차원일 수 있습니다. 예를 들어 기업 자체 관리 활동으로 인한 데이터, 정부 또는 기관이 발표한 업계 데이터, 데이터 관리 컨설팅 회사 또는 데이터 거래 플랫폼을 통해 구매한 데이터, 파충류 도구를 통해 인터넷에서 수집한 데이터 등이 있습니다.
2. 기업의 모든 직위, 모든 인원이 기업과 관련된 경영 관리 활동에 종사하고 있으며, 모두 기업과 관련된 자원을 보유하고 있으며, 이들 자원의 정보와 기록을 보유하고 있다. 이러한 자원과 자원 전환 활동은 기업 빅 데이터의 발원지이다. 각 직책의 직원들이 데이터 수집 및 데이터 기록 프로세스에 참여하거나 관련 장비와 함께 데이터 수집을 완료할 수 있는 한 기업이 자신의 큰 데이터를 축적하는 것은 매우 쉽습니다.
3. 국가통계청, 중국국가통계학회, 중국투입생산학회 등 정부나 기관이 발표한 업계 데이터는 사실 더 잘 얻을 수 있다. 이러한 사이트에서는 농업의 기본 상황, 산업 생산자의 공장 가격지수, 에너지 생산 총량과 구성, 대외무역, 외자 이용 등과 같은 데이터를 쉽게 찾을 수 있습니다. 월보, 분기보, 연보로 나눌 수 있다. 분석을 꾸준히 하면 업계의 발전 추세에 큰 지도 역할을 할 것이다.
4. 시장에 필요한 데이터가 없거나 구매하기 싫다면 채용/파충류 엔지니어를 선택하여 스스로 데이터를 기어갈 수 있습니다. 인터넷에서 데이터를 보면 내려올 수 있다고 할 수 있다. 웹 파충류의 시스템 프레임워크에서 마스터 프로세스는 컨트롤러, 분석기 및 리소스 라이브러리의 세 부분으로 구성됩니다. 컨트롤러의 주요 작업은 다중 스레드에서 각 파충류 스레드에 작업 작업을 할당하는 것입니다. 파충류의 기본 작업은 다운로드한 웹 페이지를 저장하는 파서에 의해 수행됩니다.
기업의 큰 데이터 출처가 합리적이어야 큰 데이터 엔지니어가 큰 데이터를 더 정확하게 분석할 수 있다. 따라서 빅데이터 엔지니어는 끊임없이 자신의 능력을 높여야 데이터를 더 잘 분석할 수 있다.