인터넷의 발전은 분명히 정보 검색 기술의 발전과 응용을 촉진시켰고, 대량의 검색 엔진 제품이 탄생하여 누리꾼들이 신속하게 정보를 얻고 인터넷 정보를 탐색할 수 있는 좋은 도구를 제공하였다. 그러나 정보 검색을 검색 엔진 사용과 동일시하는 것은 오해이다. 전체 텍스트 정보 검색 기술은 검색 엔진 기술에도 널리 사용되지만 인터넷 정보 검색과 기업 정보 검색은 다릅니다.
첫 번째는 데이터의 양입니다. 전통적인 정보 검색 시스템의 범용 인덱스 데이터베이스는 대부분 GB 수준이지만 인터넷 웹 검색에서는 수천만 페이지를 처리해야 합니다. 검색 엔진의 기본 정책은 검색 서버 클러스터를 사용하는 것입니다. 이는 대부분의 엔터프라이즈 응용 프로그램에는 적합하지 않고 불필요하며 엔터프라이즈 응용 프로그램에는 적용되지 않습니다.
둘째, 콘텐츠 상관 관계. 정보가 너무 많아서 찾고 정리하는 것이 특히 중요하다. 구글 등 검색 엔진은 인터넷에서의 웹 접속 횟수를 기반으로 하는 웹 링크 분석 기술을 개발했다. 반면 기업 사이트 내부의 페이지 링크는 사이트 콘텐츠 편집 출판 시스템에 의해 결정되며 링크 수에 우연한 요소가 있어 중요성을 판단하는 근거가 될 수 없다. 실제 엔터프라이즈 애플리케이션의 검색에는 콘텐츠 기반 상관 관계 정렬이 필요합니다. 즉, 검색 요구 사항과 가장 관련성이 높은 정보가 검색 결과 앞에 와야 합니다. 링크 분석 기술을 통한 정렬은 기본적으로 작동하지 않습니다.
세 번째는 실시간입니다. 검색 엔진의 인덱스 생성 및 검색 서비스는 분리되어 정기적으로 데이터를 업데이트하고 동기화합니다. 대형 검색 엔진의 업데이트 주기는 주 또는 월 단위로 측정해야 한다. 그러나 엔터프라이즈 정보 검색은 내부 및 외부 정보의 변경 사항을 실시간으로 반영해야 하며 검색 엔진 시스템 메커니즘은 엔터프라이즈 데이터의 동적 증가 및 수정 요구 사항을 충족하지 못합니다.
네 번째는 안전이다. 인터넷 검색 엔진은 모두 파일 시스템을 기반으로 하지만 엔터프라이즈 애플리케이션의 컨텐츠는 일반적으로 데이터 보안 및 관리 요구 사항을 보장하기 위해 데이터 웨어하우스에 안전하게 중앙 집중식으로 저장됩니다.
다섯 번째는 개인화와 지능화입니다. 검색 엔진 데이터와 고객 규모의 제한으로 인해 관련 피드백, 지식 검색, 지식 마이닝 등 연산 집약적 지능 기술을 적용하기가 어렵고, 기업별 정보 검색 애플리케이션은 지능적이고 개인화된 측면에서 더 멀리 갈 수 있습니다.
(InformationRetrieval) 일반적으로 정보 저장, 구성, 렌더링, 쿼리, 액세스 등을 포함한 텍스트 정보 검색을 의미하며 핵심은 텍스트 정보 인덱싱 및 검색입니다. 역사적으로 정보 검색은 수동 검색, 컴퓨터 검색, 네트워킹 및 지능형 검색과 같은 여러 개발 단계를 거쳤습니다.
현재, 정보 검색은 이미 네트워킹과 지능화의 단계로 발전했다. 정보 검색 개체는 독립 데이터베이스 관리의 상대적으로 폐쇄적이고 안정적이며 일관된 정보 컨텐츠에서 개방적이고 동적이며 빠른 업데이트, 널리 배포되고 느슨한 웹 컨텐츠 관리로 확장됩니다. 정보 검색 사용자도 최초의 정보 전문가에서 비즈니스 인사, 경영진, 사제, 전문가 등 일반 대중으로 확대되었습니다. 그들은 결과에서 방법에 이르기까지 정보 검색에 대해 더 높고 다양한 요구 사항을 제시했다. 네트워킹, 인텔리전스 및 개인화에 적응하는 것은 정보 검색 기술 발전의 새로운 추세입니다.
정보 검색 기술의 핫스팟
◆ 지능형 검색 또는 지식 검색
전통적인 전체 텍스트 검색 기술은 키워드 일치를 기반으로 하며, 검색이 불완전하고, 검색이 정확하지 않고, 검색 품질이 높지 않은 경우가 많습니다. 특히 인터넷 정보시대에는 키워드 일치를 통해 사람들의 검색 요구를 충족시키기가 어렵습니다. 스마트 검색은 분사 사전, 동의어 사전, 동음자사전을 사용하여 검색 효과를 높인다. 예를 들어 사용자는 "컴퓨터" 를 쿼리하거나 "컴퓨터" 와 관련된 정보를 검색할 수 있습니다. 지식 수준 또는 개념 수준 질의를 더 보조하고, 주제 사전, 상하사전, 관련 사전을 통해 지식 체계 또는 개념 네트워크를 형성하여 사용자에게 지능적인 지식 힌트를 제공하고, 궁극적으로 사용자가 최상의 검색 결과를 얻을 수 있도록 도와줍니다. 예를 들어, 사용자는 쿼리 범위를 "마이크로컴퓨터", "서버" 로 더 좁히거나 "정보 기술" 또는 관련 "전자 기술", "소프트웨어", "컴퓨터 응용 프로그램" 등으로 확대할 수 있습니다. 또한 스마트 검색에는 모호한 정보와 검색 처리 (예: "사과" 가 과일인지 컴퓨터 브랜드인지 여부, "중국인" 과 "중국인" 의 구분은 모호한 지식 설명 데이터베이스, 전체 텍스트 색인, 사용자 검색 컨텍스트 분석 및 사용자 관련 피드백을 결합하여 처리되므로 가장 필요한 정보를 효율적이고 정확하게 사용자에게 제공할 수 있습니다.
◆ 지식 발굴
현재는 주로 텍스트 마이닝 기술의 발전을 의미하며, 사람들이 정보를 더 잘 찾고, 구성하고, 표현하고, 정보를 추출하여 정보 검색의 높은 수준의 요구를 충족시킬 수 있도록 돕기 위한 것입니다. 지식 마이닝은 추상, 분류 (클러스터) 및 유사성 검색을 포함합니다.
자동 다이제스트는 컴퓨터를 사용하여 원본 문서에서 요약을 자동으로 추출하는 것입니다. 정보 검색에서 자동 요약은 사용자가 검색 결과의 종속성을 신속하게 평가하는 데 도움이 됩니다. 정보 서비스에서 자동 요약은 PDA 및 휴대폰으로 보내는 등 다양한 형태의 컨텐츠를 배포하는 데 도움이 됩니다. 유사성 검색 기술은 문서의 컨텐츠 특징을 기반으로 유사하거나 관련된 문서를 검색하는 것으로, 사용자 개인화와 관련된 피드백을 위한 기초이며 재분석에 사용할 수 있습니다. 자동 분류는 통계 또는 규칙에 따라 기계 학습을 통해 미리 정의된 분류 트리를 만든 다음 문서의 컨텐츠 특성에 따라 분류할 수 있습니다. 자동 클러스터링은 문서 내용의 관련성에 따라 그룹화되고 병합됩니다. 자동 분류 (클러스터링) 는 정보 구성 및 탐색에 유용합니다.
◆ 이기종 정보 통합 검색 및 홀로그램 검색
분산 및 네트워크 정보 검색 추세에서 정보 검색 시스템의 개방성 및 통합 요구 사항이 높아짐에 따라 다양한 소스 및 구조에 대한 정보를 검색하고 통합할 수 있어야 합니다. 이는 TEXT, HTML, XML, RTF, MSOffice, PDF 등 다양한 형식을 지원하는 파일을 포함한 이기종 정보 검색 기술 개발의 출발점입니다 다국어 정보 검색 지원 정형 데이터, 반정형 데이터 및 비정형 데이터의 통합 처리 지원 다른 오픈 검색 인터페이스의 통합도 가능합니다. 홀로 검색이라는 개념은 모든 형식과 방식의 검색을 지원하는 것이다. 현재의 관행에서 볼 때, 이질적인 정보 통합 검색 수준에 이르기까지 자연어 이해를 바탕으로 한 인간-컴퓨터 상호 작용과 멀티미디어 정보 검색 통합은 더욱 돌파해야 한다.
또한 엔지니어링 관행의 관점에서 메모리 및 외부 메모리의 다중 레벨 캐시, 분산 클러스터 및 로드 밸런싱 기술을 종합적으로 활용하는 것도 정보 검색 기술 개발의 중요한 측면입니다.
인터넷의 보급과 전자 상거래의 발전에 따라 기업과 개인이 얻을 수 있고 처리해야 할 정보의 양은 폭발적으로 증가하고 있으며, 그 중 대부분은 구조화되지 않고 반정형 데이터입니다. 컨텐츠 관리의 중요성이 갈수록 커지고 있으며, 정보 검색은 컨텐츠 관리의 핵심 지원 기술로, 컨텐츠 관리의 발전과 보급에 따라 모든 분야에 적용될 것이며, 사람들의 일상 업무와 생활의 친밀한 파트너가 될 것입니다.
정보 검색은 도서관의 참조 서비스 및 다이제스트 색인에서 비롯된다. 그것은 19 세기 후반에 처음 발전했고, 1940 년대에는 색인과 검색이 도서관 독립 도구와 사용자 서비스 프로젝트가 되었다.
1946 년 세계 최초의 전자컴퓨터가 등장하면서 컴퓨터 기술은 점차 정보 검색 분야에 진입하여 정보 검색 이론과 밀접하게 결합되었다. 오프라인 대량 정보 검색 시스템과 온라인 실시간 정보 검색 시스템이 성공적으로 개발되어 상용화되었습니다. 1960-80 년대에 정보 처리 기술, 통신 기술, 컴퓨터 및 데이터베이스 기술의 추진으로 정보 검색은 교육, 군사 및 상업 분야에서 급속히 발전하여 널리 사용되고 있습니다. Dialog International 온라인 정보 검색 시스템은 이 시기의 정보 검색 분야의 대표이며, 지금도 세계에서 가장 유명한 시스템 중 하나입니다.
검색 엔진 워크플로우
인터넷은 보고이고, 검색 엔진은 그것을 여는 열쇠이다. 그러나, 대다수의 네티즌은 검색 엔진에 대한 지식과 기술이 부족하다. 해외 조사에 따르면 약 7 1% 의 사람들이 검색 결과에 대해 서로 다른 실망을 하고 있는 것으로 나타났다. 인터넷의 두 번째로 큰 서비스로서, 이 상황은 바뀌어야 한다.
인터넷의 급속한 발전은 온라인 정보의 폭발적인 성장을 가져왔다. 현재 전 세계적으로 20 억 개가 넘는 홈페이지가 있으며, 매일 730 만 개의 홈페이지를 추가한다. 이렇게 광대한 정보 바다에서 정보를 찾는 것은 바다에서 바늘 찾기만큼 어렵다. 검색 엔진은 이런' 잃어버린' 문제를 해결하는 기술일 뿐이다.
검색 엔진 작업은 다음 세 가지 절차로 구성됩니다.
1. 인터넷에서 웹 페이지 정보를 찾아 수집합니다.
정보를 추출하고 색인 데이터베이스 구축을 조직하십시오.
3. 그런 다음 사용자가 입력한 질의 키워드에 따라 검색자는 색인 라이브러리에서 문서를 신속하게 체크 아웃하고, 문서와 질의 간의 관련성을 평가하고, 출력할 결과를 정렬하고, 질의 결과를 사용자에게 반환할 수 있습니다.
네트워크 정보 검색 및 수집
인터넷에서 정보를 자동으로 검색하려면 고성능 "거미" 프로그램이 필요합니다. 일반적인 웹 거미는 페이지를 보고 관련 정보를 찾는 방식으로 작동합니다. 그런 다음 페이지의 모든 링크부터 시작하여 끝까지 관련 정보를 계속 찾습니다. 인터넷 거미는 빠르고 포괄적이어야 한다. 인터넷 전체를 빠르게 탐색하기 위해 인터넷 거미는 일반적으로 선점식 멀티 스레드 기술을 사용하여 인터넷에서 정보를 수집합니다. 선점식 멀티 스레딩을 사용하면 URL 링크를 기반으로 웹 페이지를 인덱스화하고, 새 스레드를 시작하여 각 새 URL 링크를 추적하고, 새 URL 시작점을 인덱스화할 수 있습니다. 물론 서버에서 열린 스레드는 무한히 팽창할 수 없으므로 서버의 정상 작동과 웹 페이지의 빠른 수집 사이의 균형을 찾아야 합니다. 각 검색 엔진 기술 회사의 알고리즘은 다를 수 있지만, 목적은 후속 처리에 맞춰 웹 페이지를 빠르게 탐색하는 것입니다. 바이두의 웹스파이더 (Web Spider) 와 같은 국내 검색 엔진 기술 회사는 사용자 정의 가능하고 확장성이 뛰어난 스케줄링 알고리즘을 사용하여 검색자가 매우 짧은 시간 내에 가장 많은 인터넷 정보를 수집하고 얻은 정보를 저장하여 인덱스 데이터베이스와 사용자 검색을 설정할 수 있도록 하고 있습니다.
인덱스 데이터베이스 구축
이는 사용자가 가장 정확하고 광범위한 정보를 가장 빨리 찾을 수 있는지 여부와 관련이 있으며, 동시에 인덱스 데이터베이스를 신속하게 구축해야 하며, 웹 거미가 캡처한 웹 페이지 정보를 매우 빠르게 인덱싱하여 정보의 적시성을 보장해야 합니다. 웹 기반 컨텐츠 분석과 하이퍼링크 분석을 결합하여 웹 페이지의 관련성을 평가하고, 웹 페이지를 객관적으로 순위를 매겨 검색 결과가 사용자의 쿼리 문자열과 일치함을 크게 보장할 수 있습니다. 시나닷컴 검색 엔진은 사이트 데이터를 인덱스화하는 과정에서 키워드가 사이트 제목, 사이트 설명, 사이트 URL 등 다른 위치에 나타나거나 사이트의 품질 수준에 따라 색인 데이터베이스를 만들어 검색 결과가 사용자의 쿼리 문자열과 일치하는지 확인합니다.
이 글은 CSDN 블로그에서 온 것으로, 출처:/XDTech/Archive/2009/09/22/4579795.ASPX 를 전재해 주시기 바랍니다.