주요 시스템에는 TRS 시스템, 천우시스템 등이 있습니다.
전체 텍스트 검색 엔진은 다른 검색 엔진에 비해 텍스트의 모든 의미 있는 단어를 검색 엔트리로 사용할 수 있으며 검색 결과는 문서 단서가 아닌 원본 문서입니다.
컴퓨터 산업이 발전함에 따라 컴퓨터 저장 장치를 기반으로 하는 전자 정보가 갈수록 많아지고 있다. 이 정보는 크게 정형 데이터와 비정형 데이터의 두 가지 범주로 나눌 수 있습니다. 구조화된 데이터란 기업의 재무회계와 생산데이터, 학생의 성적데이터 등을 말한다. 구조화되지 않은 데이터는 텍스트 데이터, 이미지 및 사운드와 같은 멀티미디어 데이터를 나타냅니다. 통계에 따르면 비정형 데이터는 전체 정보의 80% 이상을 차지합니다. RDBMS (관계형 데이터베이스 관리 시스템) 기술은 현재 구조화된 데이터를 관리하는 가장 좋은 방법입니다. 그러나 RDBMS 자체의 기본 구조로 인해 대량의 구조화되지 않은 데이터를 관리하는 데 약간의 결함이 있습니다. 특히 이러한 대량의 구조화되지 않은 데이터를 쿼리하는 속도가 느립니다. 또한 전체 텍스트 검색 기술을 통해 이러한 비정형 데이터를 효율적으로 관리할 수 있습니다.
전체 텍스트 검색은 몇 년간의 발전을 거쳐 초기 문자열 매칭 프로그램에서 초대형 텍스트, 음성, 이미지, 모션 이미지 등 구조화되지 않은 데이터를 종합적으로 관리할 수 있는 대형 소프트웨어로 발전했습니다. 내포와 외연의 깊은 변화로 인해 전체 텍스트 검색 시스템은 차세대 관리 정보 시스템의 대명사가 되었으며, 전체 텍스트 검색 시스템을 측정하는 기본 지표도 점차 규범을 형성하고 있다.
우선, 우리가 주목하는 것은 전율입니다. 즉, 한 번의 검색을 할 때 시스템에서 검색된 관련 자료의 양과 시스템 데이터베이스의 관련 자료의 총량의 비율입니다. 정밀도는 우리가 가장 유용한 재질을 찾을 수 있도록 하는 열쇠이며, 시스템에서 검색된 유용한 재질의 수와 검색된 재질의 총 수에 대한 비율입니다. 검색 속도 또는 응답 시간은 생산성 향상을 보장하는 것으로, 검색된 주제 제출부터 데이터 결과 찾기까지 걸리는 시간입니다. 가장 기본적인 검색 속도는' 천만 한자, 초급 응답' 이어야 한다. 포함 범위 (검색 범위), 사용자 부담 (검색 중 사용자 노력의 합계), 출력 형식 (출력 정보의 표현 형식) 등의 지표도 있으며 전체 텍스트 검색 시스템의 품질을 측정하는 요소입니다.
검색 엔진은 전체 텍스트 검색 기술의 가장 중요한 응용 프로그램이어야 합니다. 현재 검색 엔진 사용은 메일 송수신에 이어 두 번째로 큰 인터넷 앱 기술이 되고 있다. 검색 엔진은 전통적인 정보 전체 텍스트 검색 이론에서 유래합니다. 즉, 컴퓨터 프로그램은 각 문장 내의 모든 단어를 스캔하고, 한 글자씩 한 문장씩 문서를 작성하며, 검색 프로그램은 각 검색어가 각 문장 내에 나타나는 빈도와 확률에 따라 이러한 검색어가 포함된 문장 순서를 지정하고, 마지막으로 정렬된 결과를 출력합니다. 전체 텍스트 검색 기술은 검색 엔진의 핵심 지원 기술입니다.
좋은 검색 엔진은 이상적인 웹 사이트의 열쇠입니다. 많은 사람들이 웹 사이트를 방문 할 때 웹 사이트 검색을 사용하기를 좋아합니다. 웹 사이트 검색은 분류 카탈로그 탐색과 전체 텍스트 검색의 완벽한 조합이어야 하며 다음을 포함합니다.
분류 디렉토리 탐색의 핵심은 검색 범위입니다. 검색 범위 제한으로 인해 검색 결과가 너무 많지 않을 수 있습니다.
전체 텍스트 검색은 사이트 검색에 필수적이다. 정상적인 상황에서 사람들이 원하는 웹 페이지를 빠르게 찾을 수 있도록 도와준다.
분류 카탈로그 탐색 및 전체 텍스트 검색을 사용하여 원하는 정보를 찾기 어려우며 검색 보조와 결합해야 하는 경우도 있습니다.
검색 결과가 너무 많으면 사용자가 하나씩 탐색할 수 없기 때문에 관련 정렬 기능이 있어야 합니다. 대부분의 사용자는 상위 몇 개만 찾아보고 관련 정렬은 하지 않습니다. 정확한 검색 결과가 뒤에 있을 수 있으며 사용자가 찾아볼 수는 없지만 앞에 있는 검색 결과의 관련성이 낮아 사용자의 착각을 불러일으킨다. (윌리엄 셰익스피어, 윈스턴, 검색명언) (윌리엄 셰익스피어, 검색어, 검색어, 검색어, 검색어)
또한 HTML/XML 의 특수성, 대량의 동시 사용자에 대한 갑작스러운 액세스 지원, 웹 사이트의 동적 특성, 색인 유지 관리의 효율성 등을 고려해야 합니다.
현재 Lucene, Solr, ElasticSearch 등이 있습니다. 전체 텍스트 검색 프로세스는 색인과 검색의 두 가지 프로세스로 나뉩니다.
색인
관계형 데이터베이스, 인터넷 및 파일 시스템에서 소스 데이터 (검색할 대상 정보) 를 수집합니다. 소스 데이터의 소스는 매우 광범위합니다.
하나의 통합 위치에서 스토리지 시스템과 같은 소스 데이터를 수집합니다. 색인을 만들려면 색인을 색인 라이브러리 (파일 시스템) 에 만들고, 소스 데이터베이스에서 중요한 정보를 추출하고, 중요한 정보에서 단어를 추출합니다. 단어는 소스 데이터와 관련이 있습니다. 즉, 색인을 만들 때 단어는 소스 데이터와 연관되며 이 연관은 인덱스 데이터베이스에 기록됩니다. 단어를 찾으면 소스 데이터 (http 웹 페이지, 전자책, 뉴스 등) 를 의미합니다. ) 이미 찾았습니다.
검색 (검색)
사용자는 검색 (전체 텍스트 검색) 을 수행하고 쿼리 키워드를 작성합니다.
색인 데이터베이스에서 색인을 검색하고 조회 키워드를 기준으로 한 단어씩 색인 데이터베이스를 검색합니다.
검색 결과를 표시합니다.