1. 데이터 수집, 데이터 웨어하우스 구축, 데이터 수집은 프런트엔드를 통해 데이터를 묻고, 인터페이스 로그를 통해 스트리밍 데이터를 호출하고, 데이터베이스를 수집하고, 고객이 직접 데이터를 업로드하고, 이러한 기본 정보 데이터의 다양한 차원을 보존하고, 일부 데이터는 쓸모가 없다고 느낍니다 (처음에는 함수만 생각하고, 일부 데이터는 수집하지 않고, 나중에 사장에게 욕을 들었다)
2. 데이터 클리닝/사전 처리: IP 를 주소로 변환하고 더러운 데이터를 필터링하는 등 수신된 데이터를 쉽게 처리합니다.
3. 데이터가 있으면 데이터를 처리할 수 있습니다. 데이터를 처리하는 방법에는 여러 가지가 있습니다. 일반적인 오프라인 처리는 오프라인 처리와 실시간 처리로 나뉜다. 오프라인 처리는 매일 정시 처리하는 것이다. 알리의 maxComputer, hive, MapReduce MapReduce 는 비교적 일반적이며, 오프라인 처리는 주로 Storm, Spark, Hadoop 을 사용한다. 일부 데이터 처리 프레임워크를 통해 데이터를 다양한 KPI 로 계산할 수 있습니다. 여기서는 기능만 고려하지 말고 주로 다양한 데이터 차원을 구축하고 기본 데이터를 완성하며 재사용 가능하다는 점에 유의해야 합니다. 앞으로 다양한 KPI 를 마음대로 선보일 수 있습니다.
4. 데이터는 데이터가 쓸모 없다는 것을 보여줍니다. 시각화를 위해 MVP 에 도달하는 것은 신속하게 효과를 내는 것으로, 제때에 조정하기에 적합하지 않다. 이것은 스크럼의 민첩한 개발과 약간 비슷하다. 데이터 표시는 datav, 화장실 신 등으로 완성할 수 있다. , 프런트 엔드는 무시할 수 있습니다. 스스로 페이지를 그리다.
빅 데이터 처리는 각 업종에서 점점 더 깊이 스며들고 있다. 예를 들어 금융업계는 VaR(value at risk) 또는 기계 학습 방안과 함께 대형 데이터 시스템을 활용해 신용위험통제를 해야 하고, 소매업과 외식업계는 대형 데이터 시스템을 활용해 보조 판매 결정을 내려야 한다. 다양한 IOT 시나리오에서는 대규모 데이터 시스템이 시계열 데이터를 지속적으로 요약하고 분석해야 하며, 주요 기술 회사는 대형 데이터 분석 센터를 구축해야 합니다.