1. 오프라인 수집: 도구: ETL; 데이터 웨어하우스의 맥락에서 ETL은 기본적으로 데이터 추출(Extract), 변환(Transform) 및 로드(Load)를 포함한 데이터 수집을 나타냅니다. 변환 과정에서 불법 데이터 모니터링 및 필터링, 형식 변환 및 데이터 표준화, 데이터 교체, 데이터 무결성 보장 등과 같은 특정 비즈니스 시나리오에 따라 데이터를 관리해야 합니다. 2. 실시간 수집: 도구: Flume/Kafka는 주로 스트림 처리를 고려하는 비즈니스 시나리오에서 사용됩니다. 예를 들어 네트워크 트래픽 관리와 같이 데이터 소스에서 수행되는 다양한 운영 활동을 기록하는 데 사용됩니다. 금융 애플리케이션에 대한 모니터링 및 재고 기록. 계정 및 웹 서버에 의해 기록됩니다. 스트림 처리 시나리오에서 데이터 수집은 업스트림에서 연속적인 데이터를 가로채는 댐과 같은 Kafka의 소비자가 되며 비즈니스 시나리오에 따라 해당 처리(예: 중복 제거, 잡음 제거, 중간 계산 등)를 수행합니다. .), 그런 다음 해당 데이터 저장소에 씁니다. 이 프로세스는 기존 ETL과 유사하지만 예약된 일괄 작업이 아닌 스트리밍 처리 방법입니다. 이러한 도구는 분산 아키텍처를 채택하고 초당 수백 MB의 로그 데이터 수집 및 전송 요구 사항을 충족할 수 있습니다. 도구: Crawler, DPI 등 Scribe는 Facebook에서 개발한 데이터(로그) 수집 시스템입니다. 웹 스파이더라고도 알려진 웹 로봇은 특정 규칙에 따라 World Wide Web 정보를 자동으로 캡처하는 프로그램 또는 스크립트로, 사진, 오디오, 비디오 및 기타 파일이나 첨부 파일의 수집을 지원합니다.