수직 검색 엔진과 일반 웹 검색 엔진의 가장 큰 차이점은 웹 페이지 정보에서 구조화된 정보를 추출하는 것입니다. 즉, 웹 페이지의 구조화되지 않은 데이터를 특정 구조화된 정보 데이터로 추출하는 것입니다. 웹 페이지 검색이 웹 페이지를 가장 작은 단위로 하는 것과 같습니다. 시각적인 웹 페이지 블록 분석은 웹 페이지 블록을 가장 작은 단위로 하고 수직 검색은 구조화된 데이터를 가장 작은 단위로 합니다. 그런 다음 데이터 중복 제거, 분류 등 추가 처리를 위해 데이터베이스에 데이터를 저장합니다. 마지막으로 분사와 색인은 검색을 통해 사용자의 요구를 충족시킬 수 있습니다.
전체 프로세스 동안 데이터는 구조화되지 않은 데이터에서 추출되어 구조화되지 않은 데이터로 추출되어 깊이 가공된 후 구조화되지 않은 방식으로 사용자에게 반환됩니다.
수직 검색 엔진에는 엔터프라이즈 데이터베이스 검색, 공급 및 수요 정보 검색 엔진, 쇼핑 검색, 부동산 검색, 인재 검색, 지도 검색, MP3 검색, 사진 검색 등 다양한 응용 프로그램이 있습니다. 거의 모든 업종의 다양한 정보를 다양한 수직 검색 엔진으로 더 드릴 수 있습니다.
예를 들어, 더 잘 이해할 것입니다. 예를 들어 쇼핑 검색 엔진의 전반적인 프로세스는 다음과 같습니다. 웹 페이지를 캡처한 후 해당 페이지의 상품 정보를 추출하고 상품명, 가격, 소개 ... 심지어 노트북 소개를 "브랜드, 모델, CPU, 메모리, 하드 드라이브, 디스플레이, ..." 로 세분화한 다음 정보를 제공합니다.
수직 검색 엔진에는 일반적으로 다음 기술이 필요합니다.
1. 거미; 거미 같은 물체; 별바퀴 십자형; 연결 핸들 크로스 헤드
2. 웹 구조화 된 정보 추출 기술 또는 메타 데이터 수집 기술.
3. 분사 및 색인
기타 정보 처리 기술