1. 네트워크 로봇 기술
로봇은 거미, 웜 또는 무작위라고도 하며, 그 핵심은 인터넷에서 정보를 얻는 것입니다. 일반적으로 "네트워크에서 파일 검색, 파일의 하이퍼텍스트 구조 자동 추적, 파일을 참조하는 모든 소프트웨어 순환" 으로 정의됩니다. 로봇은 홈페이지의 하이퍼텍스트 링크를 사용하여 WWW 를 순회하고 U-toe 참조를 통해 한 HTML 문서에서 다른 HTML 문서로 기어갑니다. 온라인 로봇이 수집한 정보는 인덱싱, HIML 파일의 합법성 확인, uRL 링크 포인트 검증 및 확인, 업데이트 정보 모니터링 및 수집, 사이트 미러링 등 다양한 용도로 사용할 수 있습니다.
로봇이 인터넷을 기어다니면서 방문한 궤적을 기록하기 위해 URL 목록을 만들어야 한다. 하이퍼텍스트를 사용하여 다른 문서를 가리키는 URL 이 문서에 숨겨져 추출을 분석해야 합니다. 로봇은 일반적으로 인덱스 데이터베이스를 생성하는 데 사용됩니다. 모든 WWW 검색 프로그램에는 다음과 같은 작업 단계가 있습니다.
(1) 로봇은 초기 URL 목록에서 URL 을 가져와 인터넷에서 가리키는 내용을 읽습니다.
(2) 각 문서에서 키워드 등의 정보를 추출하여 색인 데이터베이스에 배치합니다.
(3) 문서에서 다른 문서에 대한 URL 을 추출하여 URL 목록에 추가합니다.
(4) 새 URL 이 나타나지 않거나 특정 제한 (시간 또는 디스크 공간) 이 초과될 때까지 위의 세 단계를 반복합니다.
(5) 인덱스 데이터베이스에 검색 인터페이스를 추가하여 온라인 사용자에게 게시하거나 사용자 검색에 제공합니다.
검색 알고리즘에는 일반적으로 깊이 우선 순위와 폭 우선 순위라는 두 가지 기본 검색 전략이 있습니다. 로봇은 URL 목록에 액세스하여 검색 정책을 결정합니다. 선입 선출, 폭 우선 검색을 형성합니다. 초기 목록에 많은 수의 WWW 서버 주소가 포함되어 있는 경우 광범위한 우선 검색을 통해 좋은 초기 결과를 얻을 수 있지만 서버로 들어가기는 어렵습니다. 선입 선출, 깊이 우선 검색을 형성하면 문서 분포가 향상되고 문서의 구조를 쉽게 찾을 수 있습니다. 즉, 최대 수의 상호 참조를 찾을 수 있습니다. 순회 검색법을 사용할 수도 있습니다. 즉, 32 비트 IP 주소를 직접 변경하여 인터넷 전체를 하나씩 검색할 수도 있습니다.
검색 엔진은 하이테크 네트워크 응용 시스템입니다. 여기에는 네트워크 기술, 데이터베이스 기술, 동적 인덱싱 기술, 검색 기술, 자동 분류 기술, 기계 학습 등의 인공 지능 기술이 포함됩니다.
2. 색인 기술
색인 기술은 검색 엔진의 핵심 기술 중 하나입니다. 검색 엔진은 수집한 정보를 정리, 분류, 인덱스화하여 색인 데이터베이스를 만들고, 중국어 검색 엔진의 핵심은 분사 기술이다. 분사 기술은 일정한 규칙과 어고를 이용하여 한 문장의 단어를 나누어 자동 인덱싱을 준비하는 것이다. 현재 비클러스터링법은 색인에 가장 많이 적용되는데, 이는 언어 문자 지식과 매우 관련이 있습니다. 특히 다음과 같습니다.
(1) 문장 내 단어를 어휘 라이브러리와 함께 나누는 구문 라이브러리를 저장합니다.
(2) 어휘라이브러리를 저장하며, 어휘의 사용 빈도와 일반적인 배합 방법을 모두 저장해야 한다.
(3) 어휘량이 넓어 전문 문서 처리를 용이하게 하기 위해 여러 전문 라이브러리로 나눌 수 있다.
(4) 나눌 수 없는 문장에 대해서는 각 단어를 한 단어로 취급한다.
인덱서는 키워드에서 URL 로 관계형 인덱스 테이블을 생성합니다. 인덱스 테이블은 일반적으로 인덱스 항목을 통해 해당 URL 을 검색하는 일종의 역산 테이블 (1nversionUst) 을 사용합니다. 색인 테이블은 또한 검색자가 색인 항목 간의 인접 관계 또는 긴밀한 관계를 계산하고 특정 데이터 구조로 하드 디스크에 저장할 수 있도록 문서에서 색인 항목의 위치를 기록해야 합니다.
검색 엔진 시스템마다 다른 색인 방법을 사용할 수 있습니다. 예를 들어, 웹 Crawler 는 전체 텍스트 검색 기술을 사용하여 웹 페이지의 모든 단어를 색인화합니다. Lycos 는 페이지 이름, 제목, 가장 중요한 100 주석 단어 등의 선택 단어만 색인화합니다. Infoseek 는 and, or, near 및 not 과 같은 부울 연산을 지원하는 개념 검색 및 구 검색을 제공합니다. 검색 엔진의 색인 방법은 크게 자동 색인, 수동 색인 및 사용자 로그인의 세 가지 범주로 나눌 수 있습니다.
3. 검색기 및 결과 처리 기술
검색기의 주요 기능은 사용자가 입력한 키워드를 기준으로 인덱서에 의해 형성된 거꾸로 된 테이블을 검색하는 동시에 페이지와 검색 간의 종속성 평가를 완료하고 출력할 결과를 정렬하고 사용자 종속성 피드백 메커니즘을 구현하는 것입니다.
검색 엔진에서 얻은 검색 결과는 종종 수백 개가 있다. 유용한 정보를 얻기 위해 일반적으로 사용되는 방법은 웹 페이지의 중요성이나 관련성에 따라 웹 페이지를 정렬하고 관련성에 따라 정렬하는 것입니다. 여기서 관련성은 검색 키워드가 문서에 나타나는 수를 나타냅니다. 할당량이 높으면 문서가 더 관련성이 높은 것으로 간주됩니다. 가시성도 일반적으로 사용되는 측정 중 하나입니다. 웹 페이지의 가시성은 웹 페이지의 포털에서 하이퍼링크 수를 나타냅니다. 가시성 방법은 한 웹 페이지가 다른 웹 페이지에 의해 더 많이 인용될수록 더 가치가 있다는 관점을 바탕으로 합니다. 특히 중요한 홈페이지일수록 중요하다. 결과 처리 기술은 다음과 같이 요약 할 수 있습니다.
(1) 빈도별로 정렬하면 일반적으로 한 페이지에 키워드가 많을수록 검색 대상의 관련성이 좋아야 하는 것이 매우 합리적인 솔루션입니다.
(2) 페이지가 액세스되는 정도에 따라 정렬하면 검색 엔진은 페이지가 액세스되는 빈도를 기록합니다. 사람들이 자주 방문하는 페이지에는 일반적으로 더 많은 정보가 포함되거나 다른 매력적인 장점이 있어야 합니다. 이 솔루션은 일반 검색 사용자에게 적용되며 대부분의 검색 엔진이 전문 사용자가 아니기 때문에 일반 검색 엔진에도 적용됩니다.
(3) 2 차 검색 추가 정제 결과 (flne 와 비교), 특정 조건에 따라 검색 결과 최적화, 범주 및 관련 단어를 선택하여 2 차 검색을 할 수 있습니다.
지금의 검색 엔진은 지능이 없기 때문에, 당신이 찾고 있는 문서의 제목을 알지 못한다면, 1 위 결과가 반드시' 최고' 의 결과가 아닐 수도 있다. (윌리엄 셰익스피어, 윈스턴, 검색어, 검색어, 검색어, 검색어, 검색어) 따라서 일부 문서는 관련성이 높지만 사용자가 가장 필요로 하는 문서는 아닙니다.
검색 엔진 기술의 산업 응용;
검색 엔진의 산업 애플리케이션은 일반적으로 KW 통신과 유사한 다양한 검색 엔진 산업 및 제품 애플리케이션 모델을 가리키며 일반적으로 다음과 같은 형태로 나뉩니다.
1, 정부 기관 산업 응용 프로그램
N 비즈니스 작업과 관련된 정보 출처를 실시간으로 추적하고 수집합니다.
N 인터넷 정보에 대한 내부 직원의 글로벌 관찰 요구를 충분히 충족합니다.
N 은 정부 외망과 정부 내망의 정보원 문제를 제때에 해결하여 동적 발표를 실현하였다.
N 은 정부 주 사이트의 현지 하위 사이트에 대한 정보 수집 요구를 신속하게 해결합니다.
N 은 정보를 완벽하게 통합하여 정부 내 지역 간, 부서 간 정보 자원 공유 및 효과적인 커뮤니케이션을 가능하게 합니다.
N 정보 수집의 인력, 물력, 시간을 절약하고 업무 효율성을 높입니다.
2, 기업 산업 응용 프로그램
N 경쟁사의 동태를 실시간으로 정확하게 모니터링하고 추적하는 것은 기업이 경쟁 정보를 얻을 수 있는 유리한 도구이다.
N 은 경쟁사의 공개 정보를 적시에 입수하여 동종 업계의 발전과 시장 수요를 연구한다.
N 은 기업 의사 결정 부서와 경영진에게 편리하고 다양한 채널을 제공하는 기업 전략 의사 결정 도구를 제공합니다.
N 은 정보 수집 및 활용의 효율성을 크게 높이고 정보 수집, 저장 및 발굴과 관련된 비용을 절약하는 것이 기업의 핵심 경쟁력을 높이는 열쇠입니다.
기업의 전반적인 분석 연구 능력, 빠른 시장 대응 능력, 지식 관리를 핵심으로 하는 경쟁 정보 데이터 웨어하우스를 구축하는 신경 중추입니다.
3. 뉴스 미디어 산업 응용
N 은 수천 개의 온라인 미디어 정보를 빠르고 정확하게 추적하고, 뉴스 단서를 확장하고, 수집 속도를 높입니다.
N 은 매일 수만 건의 뉴스를 효과적으로 포착할 수 있도록 지원합니다. 모니터링 범위의 깊이와 폭은 스스로 설정할 수 있다.
N 필요한 컨텐츠의 지능형 추출 및 감사를 지원합니다.
N 인터넷 정보 콘텐츠 수집, 브라우징, 편집, 관리, 게시 통합을 실현하다.
4, 산업 웹 사이트 응용 프로그램
N 웹 사이트 관련 정보 소스를 실시간으로 추적하고 수집합니다.
N 은 업계 정보 소스 웹 사이트를 적시에 추적하여 웹 사이트 정보를 자동으로 신속하게 업데이트합니다. 정보를 동적으로 업데이트합니다.
N 인터넷 정보 콘텐츠 수집, 브라우징, 편집, 관리, 게시 통합을 실현하다.
N 은 비즈니스 웹 사이트의 비즈니스 관리 모델을 제시하여 업계 웹 사이트의 비즈니스 애플리케이션 요구 사항을 크게 높였습니다.
정보 웹 사이트 분류 디렉토리 생성을 위해 사용자 생성 웹 사이트 분류 구조가 제시되었습니다. 분류 구조를 실시간으로 추가하고 업데이트할 수 있습니다. 시리즈의 제한을 받지 않다. 업계의 적용 가능성을 크게 높였습니다.
N 은 전문 검색 엔진 SEO 최적화 서비스를 제공하여 업계 웹 사이트 홍보를 빠르게 향상시킵니다.
N 과 CCDC 발신자 검색 엔진은 광고 협력을 제공합니다. 업계 웹 사이트 컨소시엄을 설립하여 업계 웹 사이트의 인지도를 높이다.
5) 네트워크 정보 모니터링 및 모니터링
인터넷 여론 시스템. "킬로와트 통신-인터넷 여론 레이더 모니터링 시스템"
N 사이트 정보 및 콘텐츠 모니터링 시스템 (예: "KW 통신-사이트 정보 및 콘텐츠 모니터링 모니터링 시스템 (사이트 내 탐정)"
인터넷의 급속한 발전과 웹 정보가 증가함에 따라 사용자는 건초 더미에서 바늘 찾기처럼 정보의 바다에서 정보를 찾아야 한다.
바늘처럼 검색 엔진 기술은 이 문제를 해결합니다 (사용자에게 정보 검색 서비스를 제공할 수 있음). 현재,
검색 엔진 기술은 컴퓨터 산업과 학계의 연구와 개발의 대상이 되고 있다.
웹 정보가 급격히 증가함에 따라 검색 엔진은 1995 부터 점차 발전하기 시작했다.
기술. 사이언스 매거진 7 월 1999 가 발표한 문장' 인터넷 정보 접근성' 에 따르면 현재 전 세계적으로
웹 페이지는 8 억 개가 넘고, 유효 데이터는 9T 를 초과하며, 4 개월마다 두 배로 늘어납니다. 사용자는 이렇게 넓어야 한다.
한국의 정보 바다에서 정보를 찾는 것은' 바다에서 바늘 찾기' 의 헛수고가 될 운명이다. 검색 엔진은이 "트레킹" 을 해결하는 것입니다.
"문제와 기술의 출현. 검색 엔진은 특정 정책을 사용하여 인터넷에서 정보를 수집, 검색 및 이해합니다.
, 추출, 구성 및 처리, 사용자에게 검색 서비스를 제공하여 정보 탐색 목적을 달성합니다. 검색 엔진은 다음을 제공합니다
Dell 의 탐색 서비스는 인터넷에서 매우 중요한 웹 서비스가 되었으며 검색 엔진 사이트는 "웹 포털" 이라고도 합니다.
。 따라서 검색 엔진 기술은 컴퓨터 산업과 학술계의 연구와 개발의 대상이 되었다. 이 글의 목적은 연구하는 것이다
이 엔진의 핵심 기술을 간략하게 소개하여 더 많은 관심을 불러일으켰다.
분류
정보 수집 및 서비스 제공 방법에 따라 검색 엔진 시스템은 다음 세 가지 범주로 나눌 수 있습니다.
1. 디렉터리 검색 엔진: 수동 또는 반자동으로 정보를 수집하고, 편집 후
정보 요약을 형성하고 미리 결정된 분류 프레임워크에 정보를 넣으려고 노력하다. 대부분의 정보는 웹 사이트를 대상으로 하며 카탈로그 브라우징을 제공합니다.
찾아보기 서비스 및 직접 검색 서비스 이런 검색 엔진은 사람의 지능에 가입해 정보가 정확하고 내비게이션의 질이 높다.
단점은 수동 개입, 유지 보수량, 정보량 감소, 정보 업데이트가 시기적절하지 않다는 것이다. 이런 검색 엔진의 대표적 의미는
: 야후, LookSmart, OpenDirectory, GoGuide 등.
2. 로봇 검색 엔진: Spider 라는 로봇 프로그램으로 특정 전략에 따라 자동으로 상대방과 상호 작용합니다.
정보는 네트워크에서 수집되고 검색되며, 인덱서는 수집된 정보를 색인화하고, 검색은 사용자의 질의에 따라 입력됩니다.
인덱스 데이터베이스를 검색하고 쿼리 결과를 사용자에게 반환합니다. 서비스 모드는 웹 페이지의 전체 텍스트 검색 서비스입니다. 이런 검색은
유선 엔진의 장점은 정보량이 많고, 업데이트가 시기적절하며, 수동 개입이 필요 없고, 반환된 무관한 메시지가 너무 많다는 점이다.
정보, 사용자는 결과에서 필터링해야 합니다. 이런 종류의 검색 엔진은 알타비스타와 노스라이거를 대표한다.
T, Excite, Infoseek, Inktomi, FAST, Lycos, 구글 국내 대표는' 스카이넷',' 유유',' O' 입니다.
PenFind 등
3. 메타 검색 엔진: 이 검색 엔진은 자체 데이터가 없지만 여러 사용자의 질의 요청을 동시에 검색합니다.
검색 엔진은 반환된 결과를 제출하고 반복적인 제거와 재정렬을 거쳐 자신의 결과로 반환합니다.
가정용. 서비스 모델은 웹 지향 전체 텍스트 검색입니다. 이런 검색 엔진의 장점은 반환된 정보가 많고 정보량이 많다는 것이다.
모든 단점은 사용하는 검색 엔진의 기능을 충분히 활용할 수 없다는 것입니다. 사용자는 더 많은 필터링을 해야 합니다. 이런 검색 참조는
녹색의 대표로는 웹 파충류, 인포마켓 등이 있다.
성능 지표
웹 정보 검색은 웹 페이지로 구성된 문서 라이브러리에서 검색하는 정보 검색 문제로 볼 수 있습니다.
사용자 질의와 관련된 문서를 인쇄합니다. 따라서 기존 정보 검색 시스템의 성능 매개변수인 전체 검사 비율 (R
Ecall) 및 정밀도는 검색 엔진의 성능을 측정합니다.
검사 비율은 문서 라이브러리의 모든 관련 문서 수에 대한 검색된 관련 문서 수의 비율로 검색 시스템을 측정합니다.
시스템 (검색 엔진) 리콜 비율; 정확도는 검색된 관련 문서 수와 검색된 총 문서 수의 비율로 측정입니다.
목적은 시스템 (검색 엔진) 의 정확도를 검색하는 것입니다. 하나의 검색 시스템에 있어서 리콜률과 정확도는 병행할 수 없다.
그것의 묘미: 리콜률이 높을 때 정확도가 낮고 정확도가 높을 때 리콜률이 낮다. 그래서 우리는 종종 1 1 의 리콜률과 1 의 정확도를 사용합니다.
평균 (1 1 점 평균 정밀도) 은 검색 시스템의 정확도를 측정합니다. 검색 엔진 시스템의 경우
모든 웹 페이지를 수집할 수 있는 검색 엔진 시스템이 있어 리콜률을 계산하기가 어렵다. 현재 검색 엔진 부서
모두들 정확성에 매우 신경을 쓴다.
검색 엔진 시스템의 성능에 영향을 미치는 요소는 여러 가지가 있으며, 가장 중요한 것은 문서 및 쿼리를 포함한 정보 검색 모델입니다.
의 표현 방법, 평가 문서와 사용자 쿼리 종속성에 대한 일치 정책, 쿼리 결과 정렬 방법 및 사용자 간 비교
세관 피드백 메커니즘.
주요 기술
검색 엔진은 검색, 인덱서, 검색 및 사용자 인터페이스의 네 부분으로 구성됩니다.
1 .. 검찰
검색자의 기능은 인터넷을 돌아다니며 정보를 찾고 수집하는 것이다. 그것은 늘 컴퓨터 프로그램이며, 밤낮을 가리지 않는다.
계속 달리다. 인터넷상의 편지로 인해 가능한 한 많은 새로운 정보를 가능한 한 빨리 수집해야 합니다.
정보가 빠르게 업데이트되고 이미 수집된 오래된 정보는 정기적으로 업데이트되어야 죽은 연결과 잘못된 연결을 피할 수 있습니다. 현재 있습니다
정보를 수집하는 두 가지 전략:
● 초기 URL 세트로 시작하여 해당 URL 의 하이퍼링크를 따라 폭과 깊이를 우선적으로 고려합니다.
인터넷에서 정보를 순환하는 우선 순위 또는 계발적 방법. 이러한 시작 URL 은 임의의 URL 일 수 있지만 일반적으로
많은 링크가 있는 매우 인기 있는 사이트입니다 (예: Yahoo! ) 을 참조하십시오.
● 웹 공간은 도메인 이름, IP 주소 또는 국가 도메인 이름으로 구분되며, 각 검색자는 하위 공간을 모두 소모합니다.
검색。 검색자는 HTML, XML, 뉴스그룹 문장, FTP 파일 등 다양한 유형의 정보를 수집합니다.
워드 프로세싱 문서, 멀티미디어 정보. 검색은 일반적으로 분산 및 병렬 컴퓨팅 기술에 의해 구현되어 정보를 향상시킵니다.
검색 및 업데이트 속도. 상업 검색 엔진의 정보 발견량은 매일 수백만 페이지에 달할 수 있다.
2. 분도기
인덱서의 역할은 검색자가 검색한 정보를 이해하고 색인 항목을 추출하여 문서와 학생을 나타내는 것입니다.
문서 라이브러리 색인 테이블.
색인 항목에는 두 가지 유형이 있습니다. 객관적인 항목은 작성자 이름과 같이 문서의 의미 내용과 관련이 없습니다.
웹사이트 주소, 업데이트 시간, 인코딩, 길이, 링크 유행 등. 컨텐츠 색인 엔트리는 다음과 같은 용도로 사용됩니다
키워드와 가중치, 구, 단어 등 문서의 내용을 반영합니다. 컨텐츠 색인 항목은 단일 색인 항목과 로 나눌 수 있습니다
여러 색인 항목 (또는 구 색인 항목) 에는 두 가지 유형이 있습니다. 단일 색인 항목은 영어의 영어 단어로 비교적 쉽게 추출할 수 있다.
단어 사이에 자연 구분 기호 (공백) 가 있기 때문입니다. 연속 필기가 있는 언어 (예: 중국어) 에 대해서는 반드시 절개사를 해야 한다.
분. 검색 엔진에서 색인 항목과 문서 간의 차이를 나타내는 가중치를 개별 색인 항목에 지정해야 하는 경우가 많습니다.
도, 쿼리 결과의 종속성을 계산하는 데 사용됩니다. 사용되는 방법은 일반적으로 통계학, 정보론, 확률론을 포함한다. 짧은
언어 지표 항목의 추출 방법은 통계학, 확률론, 언어학이다.
인덱스 테이블은 일반적으로 인덱스 항목별로 해당 문서를 검색하는 일종의 역행 테이블을 사용합니다.
。 색인 테이블은 문서에서 색인 항목이 나타나는 위치도 기록하므로 검색자가 색인 항목 사이의 인접 위치를 계산할 수 있습니다.
근접도 (Proximity).
인덱서는 중앙 집중식 인덱스 알고리즘이나 분산 인덱스 알고리즘을 사용할 수 있습니다. 데이터 양이 많을 때는 실시간이어야 합니다.
InstantIndexing, 그렇지 않으면 정보의 급격한 증가를 따라갈 수 없다. 인덱서의 색인 알고리즘
대규모 피크 쿼리의 응답 속도와 같은 성능은 큰 영향을 미칩니다. 검색 엔진은 매우 효과적입니다.
정도는 지수의 품질에 달려 있다.
3. 검색기 (Retriever) 검색기의 기능은 사용자의 질의에 따라 색인 라이브러리에서 문서를 빠르게 체크 아웃하고 문서를 서로 비교하는 것입니다.
질의의 종속성을 평가하고, 출력할 결과를 정렬하고, 일부 사용자 종속성 피드백 메커니즘을 구현합니다.
검색자가 일반적으로 사용하는 정보 검색 모델에는 집합론 모델, 대수 모델, 확률 모델 및 혼합 모델의 네 가지가 있습니다.
4. 사용자 인터페이스
사용자 인터페이스의 기능은 사용자 질의를 입력하고, 질의 결과를 표시하고, 사용자 관련 피드백 메커니즘을 제공하는 것입니다. 주요
사용자가 검색 엔진을 사용하여 검색 엔진에서 효율적이고 다양한 방법으로 효과적이고 시기 적절한 정보를 얻을 수 있도록 하기 위한 것입니다.
사용자 인터페이스의 설계 및 구현은 인간-컴퓨터 상호 작용의 이론과 방법을 사용하여 인간의 사고 습관에 완전히 적응합니다.
사용자 입력 인터페이스는 간단한 인터페이스와 복잡한 인터페이스로 나눌 수 있습니다.
단순 인터페이스는 사용자가 질의 문자열을 입력할 수 있는 텍스트 상자를 하나만 제공합니다. 복잡한 인터페이스를 통해 사용자는 다음과 같은 질의를 제한할 수 있습니다
논리 연산 (및, 또는, 비; +,-), 근접성 (인접, 근접), 도메인 이름 범위 (예: Edu. Com) 을 참조하십시오.
, 위치 (예: 제목, 내용), 정보 시간, 길이 등 현재, 일부 회사와 기관들은 제정을 고려하고 있다.
조회 옵션에 대한 조건입니다.
미래 동향
검색 엔진은 새로운 연구 개발 분야가되었습니다. 정보 검색, 인공지능, 계산이 필요하기 때문입니다.
컴퓨터 네트워크, 분산 처리, 데이터베이스, 데이터 마이닝, 디지털 도서관, 자연어 처리 등의 분야 이론과
기술, 그래서 포괄적이고 도전적입니다. 그리고 검색 엔진이 많은 사용자를 보유하고 있기 때문에 경제적 가치가 매우 좋다.
전 세계 컴퓨터과학과 정보산업계의 큰 관심을 불러일으켰고, 현재 그 연구와 개발은 매우 활발하다.
주목할 만한 추세가 많이 나타났다.
1. 정보 쿼리 결과의 정확성과 검색 효율성을 높이는 데 매우 중점을 둡니다.
정보를 조회할 때 반환된 결과 수를 그다지 신경쓰지 않고 결과가 자신의 요구에 부합하는지 확인합니다. 그 중 하나로
기존 검색 엔진에서 수십만, 수백만 개의 문서를 반환하는 쿼리. 사용자는 결과를 필터링해야 합니다. 해결하다
현재 질의 결과를 너무 많이 해결하는 방법은 다음과 같습니다. 첫째, 다양한 방법으로 사용자가 질의를 하지 않는 문장을 얻을 수 있습니다.
이 문서의 실제 용도에는 지능형 프록시를 사용하여 사용자의 검색 동작을 추적하고 사용자 모델을 분석하는 것이 포함됩니다. 종속성 사용
학위 피드백 메커니즘을 통해 사용자는 검색 엔진에 자신의 요구 사항 (및 관련 정도) 과 자신의 요구 사항과 관련된 문서를 알릴 수 있습니다.
관련이 없습니다. 여러 번의 상호 작용을 통해 점진적으로 미세 조정됩니다. 두 번째는 텍스트 분류 기술을 이용하여 결과를 분류하는 것이다.
클래스, 시각화 기술을 사용하여 분류 구조를 표시하면 사용자가 관심 있는 범주만 탐색할 수 있습니다. 셋째, 현장 수업을 실시한다.
클러스터링 또는 콘텐츠 클러스터링은 총 정보 양을 줄입니다.
2. 지능형 에이전트 기반 정보 필터링 및 맞춤 서비스.
정보 스마트 에이전트는 인터넷 정보를 사용하는 또 다른 메커니즘이다. 자동으로 얻은 도메인 모델 (예: We) 을 사용합니다
B 지식, 정보 처리, 사용자의 관심사와 관련된 정보 자원, 영역 조직 구조), 사용자 모델 (예: 사용자 배경)
, 관심, 행동, 스타일) 지식은 정보 수집, 색인, 필터링 (관심 필터링 및 불량 정보 필터링 포함) 을 수행합니다.
, 사용자에게 관심이 있고 사용자에게 유용한 정보를 자동으로 제출합니다. 지능형 에이전트는 지속적인 학습, 적응력이 뛰어납니다.
정보와 사용자의 흥미를 동적으로 변화시켜 맞춤형 서비스를 제공합니다. 스마트 에이전트는 클라이언트에서 수행할 수 있습니다.
서버측에서도 실행할 수 있습니다.
분산 아키텍처를 사용하여 시스템 크기와 성능을 향상시킵니다.
검색 엔진 구현은 중앙 집중식 아키텍처와 분산 아키텍처를 모두 사용할 수 있으며, 두 가지 방법 모두 장점이 있습니다. 하지만
시스템 규모가 어느 정도 되면 (예: 웹 페이지 수가 1 억에 달할 때) 필연적으로 몇 가지 분산 방법을 사용하여 개선해야 한다
시스템 성능. 사용자 인터페이스를 제외한 검색 엔진의 모든 구성 요소는 분산될 수 있습니다. 검색자는 다음을 수행할 수 있습니다
여러 대의 기계에서 정보 발견을 위해 협력하고 정보 검색 및 업데이트 속도를 높입니다. 인덱서는 다음을 수행할 수 있습니다
색인을 서로 다른 시스템에 분산하여 기계에 대한 색인 요구 사항을 줄입니다. 검색기는 다른 기계에 있을 수 있다.