인터넷이 전 세계적으로 급속히 발전함에 따라 인터넷상의 방대한 디지털 정보와 사람들이 정보를 얻는 것 사이의 갈등이 갈수록 두드러지고 있다. 따라서 네트워크 정보 검색 기술과 그 발전 추세를 검토하고 연구하는 것은 시급하고 현실적인 과제이다. 이 글은 네트워크 정보 검색의 기본 원리, 기술 및 도구, 네트워크 정보 검색의 현황을 분석하고 연구하며, 네트워크 정보 검색의 발전 추세를 예측합니다. 효과적인 방법을 찾아 네트워크 정보 검색의 수단과 방법을 개선하도록 설계되었습니다. 결국 네트워크 정보의 검색 효과를 높여 네트워크 정보 자원을 충분히 효율적으로 활용할 수 있게 하다.
전문은 주로 여섯 부분으로 구성되어 있습니다.
첫 번째 부분은 네트워크 정보 검색 요약으로, 정보 검색 기술, 네트워크 정보 검색의 특징, 네트워크 정보 검색 효과 평가 등 네트워크 정보 검색과 관련된 개념을 주로 설명합니다.
두 번째 부분은 네트워크 정보 검색의 기본 기술에 중점을 둡니다. 정보 푸시 풀 기술, 데이터 마이닝 기술, 정보 필터링 기술, 자연어 처리 기술 등 네트워크 정보 검색의 기술적 지원을 명확히 하고 네트워크 정보 검색의 추세를 예측하는 길을 닦도록 설계되었습니다.
세 번째 부분은 네트워크 정보 검색의 중요한 도구&검색 엔진에 대해 설명하며, 주로 검색 메커니즘부터 시작하여 다양한 유형의 검색 엔진의 검색 특성과 기능을 분석합니다. 독특한 점은 검색 엔진의 기본 기능을 종합적으로 요약하고 현재 유행하는 검색 엔진을 과학적으로 분류했다는 점이다. ...
네 번째 부분에서는 검색 기술의 또 다른 분기인 컨텐츠 기반 검색 기술을 분석하고 논의했습니다.
다섯 번째 부분은 네트워크 정보 검색 도구의 한계를 분석하여 주로 텍스트 정보 검색과 멀티미디어 정보 검색의 두 가지 측면을 분석합니다.
결국 나는 그것을 로 바꿨다. Txt 텍스트는 다음과 같이 게시됩니다.
1..1네트워크 정보 자원
네트워크 정보 자원은 "인터넷을 통해 이용할 수 있는 다양한 정보 자원" 을 의미합니다.
인터넷의 급속한 발전에 따라 온라인 정보 자원도 기하급수적으로 증가하면서 온라인 정보 자원은 이미
새로운 유형의 정보 자원으로서, 그것은 점점 더 중요한 역할을 하고 있으며, 그 내용은 거의 모든 것을 포괄하고 있다.
정치, 경제, 문화, 과학, 오락 등 그것의 매체 형식은 글자를 포함하여 다양하다
이, 그래픽, 이미지, 사운드, 비디오 등. 을 눌러 섹션을 인쇄할 수도 있습니다 그 범위는 사회과학, 자연과학, 인문학을 포괄한다.
그리고 공학 기술.
1.2 정보 검색 기술
정보 검색 기술은 현대 정보 사회의 핵심 기술 중 하나이다. 정보 검색이란 편지 발송을 말한다
정보는 특정 방식으로 구성 및 저장되며 정보 소비자의 정보 요구 사항에 따라 필요한 정보를 검색합니다.
프로세스와 기술로 인해 정보 검색의 전체 이름은 "정보 저장 및 검색" 이라고도 합니다. 좁은 정보 검색
이는 정보 세트에서 필요한 정보를 찾는 프로세스, 즉 정보 시스템 검색 도구를 사용하여 위치를 찾는 프로세스만을 의미합니다.
정보를 요구하는 과정. 사람들이 정보원을 얻는 주요 방법은 다음과 같다. ① 전통적인 검색 방식을 대량으로 사용한다.
연해의 도서관 자료에서는 색인을 수동으로 검색해 해당 문헌 색인 번호를 찾아 원시 문헌을 얻는다.
텍스트; ② 온라인 정보 검색. 검색 결과에서 제공하는 개발 프로세스도 있습니다.
카탈로그, 요약 등과 관련된 2 차 정보를 검색하여 전체 텍스트의 전자판을 직접 얻을 수 있습니다. 검색 방법을 통해
점에서 볼 때, 통상적으로 특정 키워드나 작성자, 기관 등 보조 정보를 검색포털로 삼는다.
원본 문서의 모든 단어에 대해 전체 텍스트 검색 등을 수행합니다. 이 중 전체 텍스트 검색은 정보가 포함되어 있기 때문이다
최근 몇 년 동안 정보 검색의 원시성, 철저성, 검색 언어의 자연성 등의 특징이 발전했다.
더욱 빠르게, 그것은 매우 효과적인 정보 검색 기술이 되어 사람들의 관심을 받고 있다. 대용량 문서를 기반으로 합니다.
L3], 아카이브에 필요한 정보를 정확하게 찾는 가장 효과적인 방법입니다.
3.2 네트워크 정보 검색
검색 방법은 브라우저 모드와 검색 엔진 모드입니다.
(l) 브라우저 모드 (Br, singsystelns). Hitemct 에 들어갈 수 있는 한 브라우징을 할 수 있다
브라우저, HTTP 프로토콜에서 제공하는 WV NINEONE 서비스를 사용하여 B 페이지를 찾아보고 B 페이지를 통해 추출합니다.
검색 방법을 통해 데이터베이스에 액세스합니다.
(2) 검색 엔진. 검색 엔진은 인터넷에서 제공합니다.
서비스를 찾는 웹사이트 W 7 B 는 특정 기술과 전략을 이용하여 인터넷에서 인터넷 서신을 수집하고 발견한다.
정보, 네트워크 정보 이해, 추출 및 처리, 데이터베이스 구축 및 Ni B 형식
사용자에게 키워드, 구, 구 등의 검색어를 입력하는 대신 검색 인터페이스를 제공합니다
데이터베이스에서 문제와 일치하는 레코드를 찾아 결과를 반환하고 관련성 순서로 출력합니다.
정보를 빨리 찾을 수 있습니다. 검색 엔진에서 처리하는 정보 자원에는 주로 월드 와이드 웹 서비스가 포함됩니다.
이메일 및 뉴스그룹 정보 외에 서버의 정보입니다. 검색 엔진 서비스의 목적은 충실을 위한 것이다.
사용자의 정보 요구 사항을 충족하므로 사용자 지향적이고 대화식입니다.
네트워크 정보 검색 도구는 사전 예방적 제출 또는 자동 검색을 사용하여 데이터를 검색합니다.
1.4 네트워크 정보 검색 효과 평가
현재 인정 된 검색 효과 평가 기준은 다음과 같습니다: 전체 검색 속도, 검색
정확도, 포함 범위, 출력 형식 중 리콜률과 정확도가 가장 중요하다.
현대 정보 과학 기술의 발전은 사람들에게 다양한 정보 수집 및 전송 방식을 제공한다.
기술은 "소스" 와 "사용자" 의 관계에서 "정보 푸시" 의 두 가지 모드로 나눌 수 있습니다
정보 푸시 모드, 즉 "소스" 는 라디오 방송과 같은 정보를 "사용자" 로 능동적으로 푸시합니다.
"정보 풀" 모드, 즉 "사용자" 는 "소스" 에서 정보를 적극적으로 가져옵니다.
예를 들어 데이터베이스를 질의합니다.
2.2. 1 정보 푸시 기술
푸시 모드 네트워크 정보 서비스는 네트워크 환경을 기반으로 하는 새로운 서비스 형식, 즉 편지입니다.
정보 서비스 공급업체는' 푸시' 기술을 사용하여 인터넷에서 특정 사용자에게 정보 서비스를 제공합니다. 푸시 기술
그것이 인터넷에서 새로운 기술이 된 것은 인터넷 정보 서비스 도구를 만들었기 때문이다
주동권을 가지면 사용자가 관심 있는 정보를 사용자에게 직접 푸시할 수 있을 뿐만 아니라 효율적으로 활용할 수 있다.
네트워크 리소스, 네트워크 처리량 향상 또한 푸시 기술을 통해 사용자는 정보를 제공하는 서버와 통신할 수 있습니다.
사용자 간의 투명한 교류는 사용자를 크게 편리하게 한다.
푸쉬 (Push) 기술과 웹스터 (Webeasting) 기술이라고도 하는 푸시 (push) 기술은 본질적으로
인터넷은 사용자가 정의한 기준에 따라 사용자가 발생할 가능성이 가장 높은 상황을 자동으로 수집하는 소프트웨어입니다.
관심 정보를 원하는 경우 사용자가 지정한 "위치" 에 전달합니다. 그래서, 기술적으로
기술적으로' 푸시' 모드의 네트워크 정보 서비스는 지능화되어 자동으로 정보를 제공할 수 있다.
사용자의 관심 (관심 있을 수 있음) 을 이해하고 발견할 수 있는 컴퓨터 소프트웨어 서비스 세트
일부 주제에 대한 정보), 인터넷에서 적극적으로 정보를 검색하고, 필터링, 정리,
그런 다음 각 사용자의 구체적인 요구에 따라 사전에 사용자 14 1 에 푸시합니다.
(l) 정보 푸시 모드. 정보 푸시에는 웹캐스트와 지능의 두 가지 방법이 있습니다.
인터넷 생방송은 채널 푸시를 포함한다. 채널 웹캐스트 기술은 현재 널리 사용되고 있는 모델이다.
일부 페이지는 사용자가 TV 채널을 선택하는 것처럼 흥미를 받을 수 있는 브라우저의 채널로 정의됩니다.
웹캐스트 정보 메일 푸시, 메일을 통해 사용자에게 푸시된 정보를 적극적으로 게시합니다.
국제 회의 통지, 제품 광고 등. : 웹 기반 푸시입니다. 특정 웹 페이지에 푸시됩니다
기업, 기관 또는 누군가의 웹 페이지와 같은 사용자에게 정보를 게시합니다. 전용 푸시. 전문화를 채택하다
문 정보 송수신 소프트웨어, 소스는 기밀 지점 간 통신과 같은 특수 사용자에게 정보를 푸시합니다.
지능형 푸시 방법에는 고객 데이터 작업에 의해 정보가 시작되는 운영 푸시 (고객 푸시) 가 있습니다.
힘을 주다. 고객이 데이터를 조작하면 수정된 새 데이터를 데이터베이스에 저장한 후 시작됩니다.
정보 푸시 프로세스: 다른 고객에게 새 데이터 푸시 푸시 트리거 (서버 푸시)
Ll 석사 학위 논문
메인 그래프, 5 합성도 ⑧
데이터베이스의 트리거는 정보 푸시 프로세스를 시작하고 새 데이터를 다른 고객에게 푸시합니다. 데이터가 나타날 때,
추가 (삽입), 삭제 (삭제), 수정 (업데이트), 트리거와 같은 변경 사항
정보 푸시 프로세스를 시작합니다.
(2) 정보 푸시의 특징. 정보 푸시는 사전 예방적, 목표, 인텔리전스 및 효율성이 특징입니다.
섹스, 유연성, 포괄성 I5.
주동성. 푸시 기술의 핵심은 서비스 제공 업체가 주도권을 쥐고 있다는 것입니다.
데이터가 클라이언트로 전송됩니다. 따라서 주동성은' 푸시' 모드 네트워크 정보 서비스의 가장 기본적인 특징 중 하나이다.
이는 브라우저 "풀" 모드에 기반한 수동 서비스와도 뚜렷한 대조를 이룹니다.
타깃 (개인화). 타겟팅이란 푸시 기술이 사용자별 정보 요구 사항을 충족할 수 있음을 의미합니다.
검색, 처리 및 푸시는 사용자의 특정 정보 요구 사항에 따라 사용자에게 맞춤형 검색을 제공합니다.
인터페이스.
지능. 푸시 서버는 사용자의 요구에 따라 사용자가 관심 있는 정보를 자동으로 수집할 수 있습니다.
사용자에게 푸시합니다. 푸시 기술의 "클라이언트 에이전트" 도
예정된 사이트를 검색하고 업데이트 정보를 수집하여 사용자에게 다시 보냅니다. 동시에, 개인 정보 서비스의 대리인과 주인은
주제 검색 에이전트는 또한 검색 깊이를 제어하고 불필요한 것을 필터링하여 "푸시" 의 정확성을 높일 수 있습니다
정보, 사이트 B 의 리소스 목록과 업데이트 상태를 고객 에이전트와 함께 식별합니다. 그래서, 인터넷은
네트워크 환경에서' 푸시' 정보 서비스는 고도의 지능을 갖추고 있다. 이것은 또한 전통적인 주제 설정 서비스입니다.
(SDI) 는 비교할 수 없다.
효율성. 효율성은 네트워크 환경에서 정보 서비스를 "푸시" 하는 또 다른 중요한 특징입니다. 밀다
기술의 응용은 네트워크가 유휴 상태일 때 시작할 수 있고, 네트워크 대역폭을 효율적으로 활용하며, 큰 데이터를 전송하는 데 더 적합하다.
멀티미디어 정보량.
유연성. 유연성이란 사용자가 자신의 편리함과 필요에 따라 유연하게 연결을 설정할 수 있음을 의미합니다.
이메일, 대화 상자, 오디오 및 비디오를 통해 인터넷상의 특정 정보 리소스에 액세스합니다.
전면적. "푸시" 모드 네트워크 정보 서비스의 실현에는 정보 기술 장비뿐만 아니라
또한 검색 소프트웨어, 분류 색인 소프트웨어 및 기타 기술의 통합 [6] 에 의존합니다.
그러나, 현재의 정보기술 발전 단계에서,' 푸시' 기술에는 여전히 큰 결함이 있다. 예를 들면, 없다.
정보 전달 보장, 상태 추적 없음, 그룹 관리 기능 부족 등 그래서 국내외의 연구는
연구원들은 또한 초추기술 이론을 제시했다. 이른바 초추기술이란 보존과 지속이다.
푸시의 장점 (사전 출시 및 맞춤형 구성) 을 계승하고 개선하여 푸시의 많은 단점 중 하나를 제거합니다.
! 석사 학위 논문
주도관, 5 번 인공혈관
나중에 발전한 새로운 푸시 기술. 그것의 가장 큰 특징은 전송을 보장하는 것이다. 좋아, 좋아
모든 정보는 연속적인 사용자 정보를 유지하면서 특정 시간에 특정 정보 사용자에게 전송됩니다.
소재, 누가 받은 정보, 정보가 사용자를 위한 것인지, 사용자 환경이 적합한지 언제든지 알 수 있습니다.
잠깐 [칼].
2.2.2 정보 검색 기술
데이터베이스 쿼리와 같은 일반적이고 일반적인 정보 검색 기술은 사용자가 적극적으로 데이터베이스를 쿼리하는 것입니다.
데이터베이스에서 필요한 정보를 추출합니다. 그것의 주된 장점은 목표가 좋고 사용자가 자신의 요구를 충족시킬 수 있다는 것이다.
목적지를 가지고 필요한 정보를 조회하고 검색하다.
인터넷상의 정보 검색 기술은 데이터베이스 조회 기술의 확장과 확장이라고 할 수 있다. 애버딘
인터넷에서 사용자는 단순한 데이터베이스가 아니라 방대한 정보를 가진 인터넷 환경에 직면해 있다.
그 결과, 다양한 네트워크 정보를 검색 (쿼리) 하는 보조 도구가 등장했습니다. 정보 푸시와 정보 풀링은 각각 특징이 있으며, 실천에서도 자주 함께 사용한다.
일어나, 일반적인 조합 방법은 다음과 같습니다.
(1) "먼저 뒤로 당기기" 스타일. 최신 정보 (동적 정보 업데이트) 를 적시에 푸시한 다음 바늘이 있습니다.
성적으로 끌어당기는 데 필요한 정보. 이를 통해 사용자는 정보 변화의 새로운 상황과 새로운 추세에 집중할 수 있습니다.
심층적인 이해가 필요한 정보를 동적으로 선택합니다.
(2)' 먼저 당기고 밀다' 스타일. 사용자는 먼저 필요한 정보를 당긴 다음 사용자의 흥미에 따라 바늘이 있다.
성적으로 기타 관련 정보를 푸시하다.
(3) "푸시 풀" 스타일. 정보 푸시 프로세스 중 사용자가 언제든지 중단 및 동결할 수 있습니다.
웹 페이지에 관심이 있고, 추가 검색을 하고, 적극적으로 더 많은 정보를 가져옵니다.
(4) "푸시 풀" 스타일. 사용자가 가져온 정보를 검색하는 동안 사용자가 입력한 키를 기준으로 합니다
그렇다면 정보 소스는 관련 정보와 최신 정보를 적극적으로 푸시합니다. 이것은 시기적절하고 용도에 맞게 사용할 수 있을 뿐만 아니라.
고객 서비스는 네트워크 부담을 줄이고 사용자 범위를 넓힐 수 있습니다 [8].
따라서 정보 푸시와 정보 추출의 결합은 현재의 인터넷, 데이터베이스 시스템 및 기타 편지입니다.
정보 시스템은 사용자에게 사전 예방적 정보 서비스를 제공하는 발전 방향이다.
2.3 웹 마이닝 기술
인터넷이 발달하면서 인터넷은 이미 인류 사회의 공공 정보원이 되었다. Hitemet 에서
그것은 인류에게 유례없는 정보 기회를 가져왔지만, 인류의 정보 환경을 더욱 복잡하게 만들었다.
메인 그래프, 5 합성도 ⑧
정보 사용 방법 문제는 예상대로 정보기술의 발전을 통해 만족스럽게 해결되지 않았다.
반면 정보기술이 발달하면서 정보의 급증으로 개인이 실제로 필요로 하는 정보의 양이 늘어났다.
B 의 방대한 정보 사이의 갈등을 탐구하는 것도 개인이 정보를 이용하기 어렵게 만든다. 존재
이 경우, 검색 엔진이 다음과 같기 때문에 B 환경에는 전용 검색 도구가 있습니다.
기존 검색 기술이 발전함에 따라 사용자 수요가 증가하는 현재 상황에서 기존 검색 기술이 발달하고 있습니다. (주: 기존 검색 기술, 기존 검색 기술, 기존 검색 기술, 기존 검색 기술, 기존 검색 기술, 기존 검색 기술)
기술은 사람들의 요구를 만족시키지 못했다. 네트워크 정보 자원을보다 효율적으로 활용하기 위해, W 7 B 는 발굴했다.
새로운 지식 마이닝 수단으로 웹 정보 활용을 위한 새로운 솔루션을 제공합니다.
2.3, 1 산 EB 발굴 내용
데이터 마이닝은 대량의 불완전하고, 소음이 있고, 모호하고, 무작위적인 데이터에서 데이터를 추출하는 것입니다.
사람들이 미리 모르는 잠재적으로 유용한 정보와 지식을 추출하는 과정.
웹 마이닝은 WWW 및 관련 리소스와 동작에서 유용한 패턴과 숨겨진 정보를 추출하는 것입니다. 그럼
WWW 및 관련 리소스는 WWW 에 존재하는 웹 문서와 웹 서버에 있는 로그 문서입니다.
그리고 사용자 데이터, 웹 마이닝의 개념상, 우리는 웹 마이닝이 본질적으로 지식이라는 것을 알아야 한다.
발견한 수단은 주로 다음 세 가지 방면에서 인자하게 진행된다.
(1) 웹 컨텐츠 마이닝. W 7 B 컨텐츠 마이닝은 웹을 구현하기 위해 w7b 데이터에서 지식을 추출하는 것입니다.
자원의 자동 검색은 웹 데이터의 활용도를 향상시킵니다. 인터넷의 진일보한 발전에 따라
데이터가 점점 더 커지고, 종류가 많아지고, 데이터 형식은 텍스트 데이터 정보와 이미지,
오디오, 비디오 등의 멀티미디어 데이터 정보는 데이터베이스의 구조화된 데이터와 유용한 HTML 을 모두 가지고 있습니다.
반정형 및 비정형 자유 텍스트 데이터 정보를 표시합니다. 그래서 W 의 내용은 B 가 있다.
정보 마이닝은 주로 다음 두 가지 관점에서 수행됩니다 ["].
먼저, 이 문서에서는 정보 검색의 관점에서 텍스트 형식 및 하이퍼링크 문서를 처리하는 방법에 대해 중점적으로 설명합니다.
일부 데이터는 구조화되지 않거나 반구조화되어 있습니다. 구조화되지 않은 데이터를 처리할 때 일반적으로 단어 세트 방법을 사용합니다.
구조화되지 않은 텍스트는 정보 평가 기술로 텍스트를 사전 처리하는 일련의 단어로 표시됩니다.
그런 다음 해당 모델을 사용하여 표현합니다. 또한 최대 한자 시퀀스 길이, 세그먼트,
개념 분류, 기계 학습 및 자연어 통계를 사용하여 텍스트를 표현합니다. 반정형 데이터를 처리할 때,
일부 관련 알고리즘은 하이퍼링크를 분류하고, 7 개의 B 페이지 간의 관계를 식별하고, 규칙을 추출하는 데 사용할 수 있습니다. 같다
반정형 데이터는 비정형 데이터에 비해 HTML 태그 정보 및 웹 텍스트를 추가합니다.
파일 내부의 하이퍼링크 구조는 반정형 데이터를 표현하는 방법을 더욱 풍부하게 한다.
둘째, 데이터베이스 관점에서 주로 구조화된 W Bi B 데이터베이스, 즉 하이퍼링크를 처리합니다.
14 8 루이 루이 루이
문서와 데이터는 대부분 가중 그래프나 OME (객체 포함 모델) 또는 관계형 데이터베이스로 표시됩니다.
특정 알고리즘을 적용함으로써 웹 페이지 간의 내부 연결을 찾을 수 있습니다. 주요 목적은 웹 페이지를 추론하는 것입니다.
웹 사이트 구조 또는 W Bi B 를 데이터베이스로 만들어 정보를 더 잘 관리하고 쿼리할 수 있습니다. 숫자를 세다
데이터베이스 관리는 일반적으로 세 가지 측면으로 나뉩니다. 하나는 모델링, 연구, B 의 고급 쿼리 언어를 이해하는 것입니다.
키워드 쿼리에만 국한되지 않습니다. 둘째, 정보의 통합과 추출, 각 W 7 B 사이트와 그 포장을 넣는다.
프로그램을 공인된 B 데이터 소스로 간주하고 W 7 B 데이터 웨어하우스 (데이터 ~ 하우스) 또는 가상 W 7 B 데이터베이스를 통해 여러 데이터 소스를 통합할 수 있습니다. 셋째, 연구를 통해 PageB 웹 사이트 구축 및 재구성
온라인 조회 언어를 연구하여 웹 사이트의 건립과 유지 관리를 실현하다.
(Zab 구조의 굴착. W Bi B 구조 마이닝, 주로 W 7 개 B 문서 분석
유용한 패턴을 얻기 위해 문서 간의 조직 구조입니다. 콘텐츠 마이닝 연구 문서의 관계,
W 7 b 구조는 웹 사이트의 하이퍼링크 구조 간의 관계에 초점을 맞추어 숨겨진 구조를 발견했습니다.
한 페이지에서 구조 모델을 링크한 후 이 모델을 사용하여 W 7 개의 B 페이지를 재분류할 수 있습니다.
유사 웹 사이트를 찾는 데 사용됩니다.
W 7 B 구조 마이닝의 데이터 유형은 W 7 B 구조화 데이터입니다. 구조화된 데이터는 일종의 설명입니다
웹 페이지 콘텐츠로 구성된 데이터로, 페이지의 구조는 하이퍼텍스트 태그 언어로 트리 매듭 등으로 나타낼 수 있습니다.
또한 페이지 간의 구조는 서로 다른 웹 페이지를 연결하는 하이퍼링크 구조로 나타낼 수 있습니다. 문서 간의 링크 반사
문헌 정보 간의 관계 (예: 평행 관계, 참조 및 참조 관계) 에 대해 논의했습니다. 예, w7b 입니다
웹 페이지의 하이퍼링크를 분류하여 웹 페이지 정보 간의 속성 관계를 확인하고 식별할 수 있습니다. 왜냐하면 인터넷은
페이지에는 어느 정도 구조 정보가 있으며, 페이지 W dead B 의 내부 구조를 연구하여 찾을 수 있습니다.
사용자가 선택한 페이지 컬렉션 정보와 관련된 추가 페이지 정보 모드는 사이트 W 와 사이트 B 의 발전을 감지합니다.
정보의 완전성.
③ 네트워크 행동 마이닝. 소위 W-B 사용자 행동 마이닝은 주로 B 서버의 당일 인식을 통해 이루어집니다.
파일 및 사용자 정보 분석을 기록하여 사용자에 대한 유용한 패턴을 얻습니다. W 7 b 동작 마이닝
데이터 정보는 주로 검색 시간, 검색어,
검색 경로, 검색 결과 및 찾은 검색 결과. W 7 B 자체의 이성질체 때문에 ,
분산, 동적 및 균일하지 않은 구조의 특징으로 인해 인터넷에서 컨텐츠 마이닝이 어려워졌습니다.
그것은 인공지능과 자연어 이해에서 돌파구가 필요하다. 다행히 W 7 B 서비스를 기반으로 합니다.
서버의 109 로그 구조가 완전합니다. 정보 사용자가 웹 사이트를 방문할 때, 그것은 방문과 관련이 있다.
로그에는 페이지, 시간, 사용자 ro 등의 정보가 기록되어 정보를 제공합니다.
L5 석사 학위 논문
주, 5 합성 ⑥
발굴은 실행 가능하고 의미가 있다. 기술 실천 과정에서 로그의 데이터는 일반적으로 먼저 나타난다.
다양한 관계 정보를 촬영하고 마이닝과 무관한 정보 제거를 포함한 사전 처리를 수행합니다. 을 위해
성능 향상을 위해 현재 109 로그 데이터 정보 마이닝을 위한 방법은 경로 분석, 상호 관계 규칙,
패턴 발견, 클러스터 분석 등 정확도를 높이기 위해, 행동 발굴도 사이트 구조 정보에 적용된다
페이지 내용 정보 등.
네트워크 정보 검색에 2.3.2 웹 마이닝 기술 적용
검색에 웹 콘텐츠 마이닝 적용 W-Bi-B 컨텐츠 마이닝은 문서 컨텐츠 및 해당 설명을 나타냅니다
지식을 얻는 과정에서 기존의 정보 검색 기술로 인해 W-B 문서를 충분히 처리할 수 없었습니다.
따라서 웹 정보 검색에서 B 콘텐츠 마이닝 기술을 사용하여 W-B 문서를 처리할 수 있습니다.
한층 더 보완하여, 구체적으로 다음과 같은 몇 가지 방면에 나타난다.
① 텍스트 요약 기술. 텍스트 다이제스트 기술은 문서에서 중요한 정보를 추출하여 단순화하는 것을 말합니다.
W Bi B 파일 정보 요약 또는 표현의 깨끗한 형태. 사용자가 이러한 키 문자를 탐색할 수 있도록 합니다
관심, 당신은 W 7 B 웹 페이지의 정보에 대한 대략적인 이해를 가지고, 그것의 관련성을 결정하고, 그것을 선택할 수 있다.
② 텍스트 분류 기술. 컨텐츠 마이닝의 텍스트 분류는 미리 정의된 주제에 따라 분류되는 것을 의미합니다.
범주-컴퓨터를 사용하여 문서 컬렉션의 각 문서를 자동으로 분류합니다. 네트워크 정보 분류
검색의 가치는 검색 범위를 좁히고 정확도를 크게 높일 수 있다는 것이다. 현재, 이미 매우
TFIFF 알고리즘과 같은 다중 텍스트 분류 기술 , 텍스트 마이닝 및 검색 엔진이 소수의 텍스트를 처리하기 때문입니다.
거의 동일하므로 텍스트 분류 기술을 검색 엔진의 자동 분류에 직접 적용할 수 있습니다.
대량의 페이지를 자동으로 빠르고 효율적으로 분류하여 문서 검색의 정확도를 높일 수 있습니다.
③ 텍스트 클러스터링 기술. 텍스트 클러스터링은 텍스트 분류 프로세스 j 와 반대입니다. 텍스트 클러스터링이란
문서 컬렉션의 문서를 더 작은 클러스터로 분할하려면 동일한 클러스터의 문서가 최대한 유사해야 합니다.
크고 클러스터 간의 관계가 작을수록 이러한 클러스터는 분류 테이블의 범주에 해당합니다. 텍스트 클러스터
기술은 검색 엔진의 범주를 수집 된 항목과 비교할 수 있도록 주제 범주를 미리 정의 할 필요가 없습니다.
정보 적응. 텍스트 클러스터링 기술은 수동 분류보다 더 빠르고 객관적입니다. 동시에,
텍스트 클러스터링은 텍스트 분류 기술과 결합하여 정보 처리를 용이하게 할 수 있습니다. 검색 결과를 평가할 수 있습니다
비슷한 결과를 분류하고 그룹화하다.
(2) 네트워크 정보 검색에서 웹 구조 마이닝의 적용 W Bi B 는 정보 조직 방법을 사용합니다.
이런 평평하지 않은 구조는 일반적으로 W 가 B 를 가지고 있는 정보 구성 방식이 내용별로 구성되어 있다. 하지만
W Bi B 의 이러한 구조 정보는 처리하기가 어렵기 때문에 검색 엔진은 일반적으로 이러한 문자를 처리하지 않습니다.
16 석사 학위 논문
주인님, 주정 5 15⑧
대신 삐삐 B 페이지를 평면 메커니즘의 텍스트로 처리합니다. 하지만, touch B 구조로부터 발굴한 후,
검색 엔진은 B 문서의 조직 구조를 마이닝하여 검색 엔진의
검색 기능, 검색 효과 향상 ['3].
(3) 네트워크 정보 검색에서 취성 B 동작 마이닝의 적용. 터치 b 동작 마이닝은 일종의 마이닝입니다.
사용자 검색 동작을 요약하는 패턴입니다. 사용자 검색 동작은 항상 정보 검색의 중요한 연구 내용이었습니다.
콘텐츠, B 행동 마이닝을 탐색하면 대부분의 사용자의 잠재적 행동 패턴을 발견할 수 있을 뿐만 아니라
그리고 당신은 또한 개별 사용자의 개인화된 행동을 발견할 수 있다. 이러한 패턴을 연구하면 더 잘 검색할 수 있다.
검색 엔진의 검색 효과를 피드백하여 검색 정책을 더욱 개선하고 검색 효과를 높입니다.
2.3.3 웹 제한 사항 및 웹 마이닝 기술 개발 방향
(1)b 홀 함량 채광. W 7 b 의 데이터가 HTML 또는 XML 마크업 언어로 표시되든,
W 7 b 데이터의 구조화되지 않은 문제, 특히 중국어 문장 형식이 다양하고 허사,
실어 사이에는 절대적인 경계가 없고, 분사가 어려워서 데이터를 자동으로 표시할 수 없다.
따라서 데이터 웨어하우징 등 정보기술을 7B 콘텐츠 마이닝 기술과 결합할 필요가 있다.
행 정보 저장, 궁극적으로 검색을 위한 지능적이고 자동화된 데이터 표현 및 인덱스를 구현합니다.
일반적으로 데이터의 표현과 데이터의 활용 형식은 상호 연관되어 있으므로 해당 데이터의 설계는 매우 질의성이 높습니다
총률과 정확도의 마이닝 알고리즘도 데이터 표현처럼 미래의 방향 중 하나입니다. 또한 멀티미디어 번호
식별, 분류, 인덱싱 방법에 따라 향후 B 콘텐츠 마이닝 연구의 난점과 방향이기도 합니다.
(2) 밈 b 구조 데이터 마이닝. 인터넷이 급속히 발전함에 따라 사이트의 내용이 점점 풍부해지고 있다.
풍부하고 구조가 점점 더 복잡해지고 있으며, 거대한 웹 사이트의 링크 구조는 데이터 처리를 충족시키지 못할 것입니다.
요구 사항을 충족하기 위해 웹 사이트 구조를 나타내는 새로운 데이터 구조를 설계해야 합니다.
비교 분석을 통해 문제를 파악하는 사용자 사용 정보가 로그 트래픽밖에 없기 때문에
로그 스트림에서 각 링크 관계를 식별하는 방법, 어떤 구조로 표시하고 유용한 정보를 추출하는 방법
패턴 등. 비행 식별 B 행동 마이닝의 중요한 연구 내용이자 웹 사이트 구조 마이닝의 중요한 구성 요소입니다.
연구 방향 중 하나.
(3), 웹 사용자 행동 마이닝. 인터넷 전송 프로토콜 HTTP 의 무상태형 특성으로 인해
프록시 서버측 캐시가 존재하면 서버, 프록시 서버 및 에 사용자 액세스 로그가 존재합니다.
클라이언트 때문에 W 7 B 사용자 액세스 로그에서 사용자 액세스 규칙을 배우는 가장 큰 어려움은 다음과 같습니다.
여러 위치에 분산되어 있는 액세스 로그를 사전 처리하여 각 사용자에 대한 일회성 액세스 주기를 형성하는 방법은 무엇입니까?
사이. 일반적으로 정적 W 7 B 웹 사이트의 경우 서버측 로그를 쉽게 얻을 수 있습니다 (클라이언트 및 세대).
L7 서버 사용자 액세스 로그는 얻기가 쉽지 않습니다. 둘째, 완전한 W Bi B 는 하나씩 구성되어 있기 때문이다.
사진과 프레임 페이지, 그리고 서버에 대한 사용자 액세스도 동시성이 있어 사용자가 콘텐츠에 액세스하는 것을 확인할 때.
, 사용자가 실제로 요청한 페이지와 페이지의 주요 내용을 서버 로그에서 선택해야 합니다.
또한 기존 데이터 마이닝 알고리즘은 주로 대량의 거래 데이터를 기반으로 개발되었습니다.
예, 대량의 웹 사용자 액세스 로그를 처리할 때도 알고리즘 구조 ['4 1] 를 재설계해야 합니다.
2.4 정보 필터링 기술
Hitemet 의 오픈 환경은 사람들이 정보를 검색하고 사용할 수 있는 큰 편의를 제공하지만
동시에, 네트워크 환경은 사람들이 적시에 필요한 정보를 정확하게 검색하는 데 어려움을 겪고 있다. 왜냐하면, 첫 번째는
첫째, 네트워크 환경에서의 정보 출처는 복잡하고 다양하며 임의적이며, 아무도 또는 어떤 단위의 관심도 없다.
정보는 온라인으로 게시할 수 있으며, 장면과 동기에 관계없이 정보의 생성과 전파는 선별되고 검토되지 않습니다.
따라서 정보의 신뢰성, 품질 및 가치는 사용자의 주요 관심사가 됩니다. 둘째, 목적
대부분의 데이터 검색 도구는 검색 범위가 포괄적이며, 로봇은
웹 페이지를 캡처하고, 간단한 처리 후 검사를 위해 데이터베이스에 예치합니다. 셋째, 검색 엔진이 직접 제공합니다
대부분의 사용자에 대한 검색 경로는 키워드 기반 부울 논리 일치이며 사용자에게 반환되는 것은 모든 것입니다.
키워드를 포함한 검색 결과는 사용자의 흡수와 에너지 사용을 훨씬 능가한다.
무력은 사람을 무력하게 한다. 이것은 사람들이 흔히 "정보 과부하", "정보 과부하" 라고 부르는 것이다.
코끼리. 바로 이런 맥락에서 정보 필터링 기술이 사람들의 관심을 끌기 시작했다. 그 목적은
검색 엔진에는 더 많은 "지능" 이 있어 검색 엔진의 참여가 더욱 세밀하고 세밀하게 이루어집니다.
사용자의 전체 검색 과정에서 키워드 선택, 검색 범위 결정에서 검색 결과 세분화에 이르기까지
사용자가 대량 정보에서 자신의 요구와 실제로 관련된 정보를 찾을 수 있도록 도와줍니다.
2.4. 1 정보 필터링 모델
정보 필터링의 본질은 여전히 정보 검색 기술이기 때문에 여전히 특정 정보 검색 모델에 의존하고 있습니다.
검색 모델마다 필터링 방법이 다릅니다. 5 1 입니다.
(1) 부울 논리 모형이 있는 필터입니다. 부울 모델은 간단한 검색 모델입니다. 검색
중국어에서는 문서에 키워드가 포함되어 있는지 여부에 따라 웹 페이지의 데이터를 분석할 필요가 없습니다.
심도 있는 가공을 진행하다. 가장 간단한 키 테이블은 세 개의 필드인 키워드를 포함하도록 설계할 수 있습니다.
키워드의 투고 번호와 키워드가 해당 문헌에 나타나는 횟수. 검색 시 사용자가 키워드를 제출합니다.
...... ...... ...... ...... ...... ......
너무 길어서 보낼 수가 없어요. 너에게 유용하길 바라지만, 사실은 그렇지 않다. 연락 주세요 (메시지 남겨주세요). 메일로 보내드리겠습니다.