정보 검색의 기본 원칙은 대량의 무질서한 문헌 정보를 수집, 처리, 조직, 저장하여 다양한 검색 시스템을 구축하고 여기서 저장은 검색을 위한 것이고, 검색은 먼저 저장해야 한다. 자세한 내용 관련 문헌
chinalibs/zhaiyao.asp? Titleid=4693
질문 2: 정보 검색의 기본 원리 정보 검색 (정보 검색) 을 간략하게 설명하는 것은 특정 방식으로 정보를 구성하고 사용자의 프로세스 및 기술에 따른 정보 요구 사항을 결정하는 것을 의미합니다. 정보 검색은 에서 수집한 정보를 처리하는 데 필요한 정보, 즉 정보 검색 (정보 검색 또는 검색) 을 찾는 정보 검색 프로세스의 후반부입니다. < P > 질문 3: 문헌 정보 검색의 원칙은 정보 검색이 어떤 방식으로 정보를 구성하고 저장하며 정보 사용자의 특정 요구에 필요한 정보 컨텐츠를 찾는 프로세스입니다.
컴퓨터 정보 검색이란 특정 검색 알고리즘을 활용하여 특정 검색 도구를 활용하고 사용자의 검색 요구에 따라 구조화되지 않은 데이터에서 유용한 정보를 얻는 프로세스를 말합니다.
정보 검색 원리 다이어그램: 그림
정보 검색의 본질은 정보 사용자의 요구와 특정 정보 * * * 의 비교 및 선택 프로세스입니다.
정보 검색 단계
검색 과제 분석, 명시적 검색 요구 사항
검색 도구 선택, 검색 경로 선택
검색 id 결정, 검색 작업 결정
검색 질문 구축, 검색 작업 구현
예비 정보 얻기, 검색 정책 조정 < 문헌 저장은 문헌 관리자가 일정한 수의 문헌 특징을 제시하는 정보나 문헌에서 나온 지식 정보를 조직하여 검색 도구로 편성하거나 검색 시스템으로 구성하는 과정, 즉 검색 도구를 편성하고 검색 시스템을 구축하는 과정이다. 저장은 검색의 전제이자 검색의 기초이다. 문헌 검색은 검색자가 필요에 따라 검색 도구나 검색 시스템에서 관련 문헌 단서나 지식 정보를 찾는 것이다. 검색 도구와 검색 시스템을 이용하여 필요한 문헌을 검색하는 과정이다. < P > 질문 5: 문헌 정보 검색의 원리는 문서 검색의 기본 원리입니다. 정보 검색의 기본 원칙은 대량의 무질서한 문헌 정보를 수집, 처리, 구성, 저장함으로써 다양한 검색 시스템을 구축하고, 특정 방법과 수단을 통해 저장과 검색 프로세스에서 사용하는 특징 식별을 일치시켜 정보 소스를 효과적으로 얻고 활용할 수 있도록 하는 것입니다. 여기서 저장은 검색을 위한 것이고, 검색은 먼저 저장해야 한다. < P > 질문 6: 컴퓨터 검색의 기본 원리를 간략하게 설명하십시오. 하드 드라이브에서 컴퓨터 시작에 필요한 기본 매개 변수를 읽는 것은 주로 자체 테스트의 역할을 합니다. 현재 많은 노트북이 자체 테스트를 취소하고 있습니다. < P > 가 < P > 질문 7: 전체 텍스트 검색 엔진이 일반적으로 정보 검색 엔진 작동 원리를 수집하는 데 사용하는 원리는 무엇입니까? 웹 페이지 발견-거미 캡처 크롤링-데이터베이스 구축-표시 등 순환 작업 < P > 질문 8: 검색 엔진의 작동 원리는 무엇입니까 검색 엔진의 작동 원리는 다음과 같은 세 가지 과정으로 구성됩니다. 먼저 상호 연결에서 웹 페이지 정보를 발견하고 수집합니다. 동시에 정보를 추출하고 구성하여 색인 라이브러리를 작성합니다. 그런 다음 검색어 루트 사용자가 입력한 쿼리 키워드를 사용하여 인덱스 라이브러리에서 문서를 신속하게 체크 아웃하고, 문서와 쿼리의 관련성을 평가하고, 출력될 결과를 정렬하고, 쿼리 결과를 사용자에게 반환합니다.
1, 웹 페이지 캡처. 각각의 개별 검색 엔진에는 자체 웹 캡처 프로그램 (spider) 이 있습니다. Spider 는 웹 페이지의 하이퍼링크를 따라 지속적으로 웹 페이지를 캡처합니다. 캡처된 웹 페이지를 웹 스냅샷이라고 합니다. 인터넷에서 하이퍼링크의 응용이 보편적이기 때문에 이론적으로 일정 범위의 웹 페이지에서 대부분의 웹 페이지를 수집할 수 있다. < P > 웹 페이지 정보를 발견하고 캡처하려면 고성능' 웹 스파이더' 프로그램 (Spider) 이 있어야 인터넷에서 자동으로 정보를 검색할 수 있다. 일반적인 웹 거미가 작동하는 한 가지 방법은 페이지를 보고 관련 정보를 찾은 다음 페이지의 모든 링크에서 관련 정보를 계속 찾는 것입니다. 등등, 소진될 때까지 계속 찾는 것입니다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 웹명언) 인터넷 거미는 빠르고 포괄적일 수 있어야 한다. 인터넷 거미는 인터넷 전체를 빠르게 탐색하기 위해 일반적으로 선제적인 멀티 스레드 기술을 사용하여 인터넷에서 정보를 수집합니다. 먼저 멀티 스레딩을 사용하면 URL 링크 기반 웹 페이지를 인덱스화하고, 새로운 스레드를 시작하여 각각의 새로운 URL 링크를 따르고, 새로운 URL 시작점을 인덱스화할 수 있습니다. 물론 서버에 열려 있는 스레드도 무한히 팽창할 수 없으며 서버의 정상적인 작동과 빠른 수집 웹 페이지 사이의 균형을 찾아야 합니다. 알고리즘에 따라 검색 엔진 기술 회사마다 다를 수 있지만 웹 페이지를 빠르게 탐색하고 후속 프로세스를 맞추는 것이 목적입니다. 현재 국내 검색 엔진 기술 회사 (예: 바이두사의 인터넷 거미) 는 사용자 정의 가능하고 확장성이 뛰어난 스케줄링 알고리즘을 채택하여 검색기가 매우 짧은 시간 내에 최대 수의 인터넷 정보를 수집할 수 있도록 하고, 얻은 정보를 저장해 색인 라이브러리 및 사용자 검색을 할 수 있도록 하고 있다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 검색명언)
2, 웹 페이지 처리. 검색 엔진이 웹 페이지를 잡은 후 많은 사전 처리 작업을 해야 검색 서비스를 제공할 수 있다. 그중에서 가장 중요한 것은 키워드를 추출하고 색인 라이브러리와 색인을 만드는 것이다. 기타에는 중복 웹 페이지 제거, 분사 (중국어), 웹 페이지 유형 판단, 하이퍼링크 분석, 웹 페이지의 중요도/풍부도 계산 등이 포함됩니다. < P > 색인 라이브러리의 구축은 사용자가 가장 정확하고 광범위한 정보를 가장 빨리 찾을 수 있는지 여부와 관련이 있으며, 색인 라이브러리의 구축도 빨라야 하며, 웹 거미가 잡은 웹 페이지 정보를 신속하게 색인화하여 정보의 적시성을 보장해야 합니다. 웹 페이지는 웹 콘텐츠 분석과 하이퍼 링크 분석을 결합한 방법을 사용하여 객관적으로 웹 페이지를 정렬할 수 있으므로 검색 결과가 사용자의 쿼리 문자열과 일치하도록 보장할 수 있습니다. 시나닷컴 검색 엔진이 사이트 데이터를 색인화하는 과정에서 키워드에 따라 사이트 제목, 사이트 설명, 사이트 URL 등 다른 위치의 출현 또는 사이트의 품질 등급 등에 따라 색인 라이브러리를 만들어 검색 결과가 사용자의 쿼리 문자열과 일치하는지 확인했습니다. 시나닷컴 검색 엔진은 인덱스 라이브러리 구축 과정에서 모든 데이터에 대해 다중 프로세스 병렬 방식을 채택하고, 새로운 정보에 대해 증분 방식으로 인덱스 라이브러리를 구축함으로써 신속하게 인덱스를 작성하여 적시에 데이터를 업데이트할 수 있도록 합니다.
3, 검색 서비스 제공. 사용자가 키워드를 입력하여 검색하면 검색 엔진은 색인 데이터베이스에서 해당 키워드와 일치하는 웹 페이지를 찾습니다. 사용자가 쉽게 판단할 수 있도록 웹 페이지 제목과 URL 외에도 웹 페이지의 요약 및 기타 정보가 제공됩니다. < P > 사용자가 검색하는 프로세스는 처음 두 프로세스를 검사하여 검색 엔진이 가장 정확하고 광범위한 정보를 제공할 수 있는지, 검색 엔진이 사용자가 가장 원하는 정보를 신속하게 제공할 수 있는지 확인하는 것입니다. 웹 사이트 데이터 검색의 경우 시나닷컴 검색 엔진은 여러 프로세스를 사용하여 인덱스 라이브러리에서 검색하므로 사용자의 대기 시간이 크게 줄어들고 사용자가 최고점을 질의할 때 서버의 부담이 너무 높지 않습니다 (평균 검색 시간은 약 .3 초). 웹 페이지 정보 검색의 경우 국내 수많은 포털의 웹 검색 기술 공급업체인 바이두의 검색 엔진은 고급 멀티 스레드 기술을 활용하고 효율적인 검색 알고리즘과 안정적인 UNIX 플랫폼을 사용하여 사용자 검색 요청에 대한 응답 시간을 크게 단축합니다. 혜총 I 시리즈 애플리케이션 소프트웨어 제품 중 하나인 I-Search2 은 초대형 동적 캐싱 기술을 채택하여 1 차 응답의 적용 범위가 75% 이상에 달하고, 고유한 자체 학습 능력은 자동으로 2 차 울림을 ... > >