그리드 기반 전문 콘텐츠 웹 정보 검색
1 소개
최근 몇 년 동안 인터넷의 급속한 발전에 따라 인터넷의 정보 자원은 점점 더 커지고 있으며, 정보는 크고 분산되며 이질적인 특징을 가지고 있다. 따라서 기존의 웹 정보 검색 툴은 이미 저성능을 보여주기 시작했습니다. 특히 기존 정보 검색 툴은 사용자가 수천 ~ 수만 개의 레코드를 찾아야 하는 경우가 많으며, 자세히 찾을 수 없거나, 찾을 내용과 찾고자 하는 내용이 전문 분야에 속하지 않아 정보가 유효하지 않은 경우가 많습니다. 그러나 사람들의 정보 인식이 높아짐에 따라 정보 컨텐츠 및 정보 서비스에 대한 수요도 끊임없이 진화하고 발전함에 따라 정보 획득의 전문화와 효율성에 대한 새로운 요구 사항이 제기되고 있습니다. 전문 분야에서 특정 사용자에게 전문적인 맞춤형 정보 서비스를 제공하는 방법은 사용자가 가장 필요한 정보 콘텐츠를 가장 짧은 시간 내에 효과적으로 찾을 수 있도록 하는 것이 보편적인 관심사입니다. 이 문서에서는 그리드 컴퓨팅, 클러스터 시스템, XML 등의 기술을 활용하여 지리적으로 분산된 이기종 정보를 전문 컨텐츠별로 논리적으로 구성하고 관리할 수 있는 그리드 기반 전문 컨텐츠 지향 웹 정보 검색 시스템을 설계했습니다. 사용자에게 필요한 정보를 빠르고 효율적으로 얻을 수 있는 방법을 제공합니다.
그리드 기반 전문 컨텐츠 지향 웹 정보 검색 아키텍처 설계
그리드 컴퓨팅은 최근 몇 년 동안 국제적으로 부상한 중요한 정보 기술이다. 그 목적은 통합 된 프레임 워크에서 다양한 온라인 리소스를 구성하고 대규모의 복잡한 컴퓨팅, 데이터 서비스 및 다양한 네트워크 정보 서비스를 해결하기 위해 사용하기 쉬운 가상 플랫폼을 제공하여 인터넷상의 모든 리소스에 대한 포괄적 인 연결 및 정보 자원의 완전한 이용을 달성하는 것입니다.
복잡한 과학 컴퓨팅 및 대량 정보 서비스 문제를 해결하기 위해 사람들은 네트워크 상호 연결을 기반으로 서로 다른 그리드를 구축하고 아키텍처와 해결해야 할 문제 유형에 따라 다르지만 그리드 컴퓨팅에는 최소한 세 가지 기본 기능, 즉 자원 관리, 작업 관리 및 작업 스케줄링이 필요합니다. 이 문서에서는 그리드 컴퓨팅의 기본 기능과 정보 검색의 특징을 중심으로 설계된 정보 검색 아키텍처를 설계했습니다. 주로 그림 1 과 같은 세 가지 계층으로 구성됩니다.
(1) 그리드 노드: 노드는 그리드 컴퓨팅 리소스의 제공자입니다. 이 시스템은 주로 지리적으로 분산되어 정보 공유를 위한 기본 플랫폼으로 분산된 검색 그룹을 형성하는 일련의 클러스터 시스템으로 구성되어 있습니다. 클러스터 시스템은 클러스터 전체의 정보 관리, 유지 관리 및 질의를 담당합니다.
(2) 그리드 컴퓨팅 미들웨어: 미들웨어는 정보 자원 관리, 사용자 작업 스케줄링 및 작업 관리를 위한 도구입니다. 전체 그리드 정보 자원 관리의 핵심 부분입니다. 사용자 정보 요청 작업에 따라 그리드 전체에서 정보 리소스의 일치 및 위치를 담당하고 사용자 작업을 클러스터 시스템에 매핑합니다.
(3) 그리드 사용자 계층: 사용자 설명, 생성 및 제출에 필요한 정보 리소스를 지원하는 사용자 애플리케이션에 대한 인터페이스를 제공합니다.
그림 1
이 시스템의 주요 아이디어는 지리적으로 분산되고 이질적인 정보를 논리적으로 여러 클러스터 시스템으로 나누고, 이러한 클러스터 시스템에서 클러스터의 자원을 관리하고, 작업을 예약하고, 그리드 미들웨어에서 개별 클러스터 시스템을 관리하는 것입니다. 전체 그리드 자원에 대한 관리, 통합 관리 및 일정 사용자의 정보 요구 사항을 형성합니다. 이 관리 모델은 각 클러스터 시스템의 로컬 정보 관리 정책을 존중하고 미들웨어를 활용하여 그리드 정보 자원을 전역적으로 관리합니다.
2. 1 클러스터 시스템 설계
웹 정보 자원의 방대한 용량으로 인해 사용자는 기존 검색 엔진을 사용하여 정보를 검색할 때 대량의 데이터 조회 문제에 직면해 있으며, 이로 인해 막대한 통신 자원을 사용한 후 자원 검색이 부정확하고 불완전한 문제가 발생하는 경우가 많습니다. 현재 단일 시스템 매핑을 기반으로 하는 웹 서버 클러스터 시스템은 LAN 을 통해 여러 서버를 하나로 연결하여 클라이언트 서비스 서버처럼 보이게 할 수 있습니다. 따라서 지리적으로 분산된 정보 자원을 논리적으로 통합하고 구성할 수 있습니다. 따라서 이 문서에서는 먼저 웹 정보 자원을 지역과 전문 콘텐츠로 나누는 분산 협력 전략을 고려합니다. 한편, 정보 자원의 수가 상대적으로 줄어 데이터의 구성, 관리 및 유지 관리가 용이합니다. 한편, 전문 컨텐츠에 따라 공통 XML 사양을 쉽게 개발할 수 있으며, 클러스터의 다양한 정보 자원에 대한 설명을 용이하게 하여 XML 기반 전문 컨텐츠 지향 정보 통합 시스템을 구축할 수 있습니다. 클러스터 시스템의 구체적인 구조는 그림 2 에 나와 있습니다.
클러스터 서버는 주로 인터페이스 에이전트, 전문 컨텐츠 기반 XML 정보 통합 시스템, 자원 서비스 에이전트 및 자원 게시 에이전트로 구성됩니다. 여기서 인터페이스 에이전트는 작업에서 제공하는 인터페이스 매개 변수에 따라 다양한 정보 자원 요청 작업을 등록, 수신 및 관리하고 보안 인증 및 권한 부여를 제공합니다. 자원 서비스 에이전트는 정보 자원 요청 작업에 따라 XML 정보 통합 시스템에서 제공하는 데이터를 사용하여 사용자에게 실제 자원 검색 작업을 제공하고 검색 결과 정보를 사용자에게 보냅니다. 리소스 게시 에이전트가 그리드 미들웨어에 로컬 정보 리소스를 제공하는 데 사용하는 논리 데이터 및 인터페이스 매개변수입니다.
다음은 전문 컨텐츠 기반 XML 정보 통합 시스템 구축 방법을 주로 설명합니다.
XML (extensible Markup language) 은 W3C 가 1998 에서 발표한 것으로 인터넷상의 데이터 표현 및 데이터 교환에 대한 새로운 표준으로 사용됩니다. 그것은 스스로 정보를 묘사할 수 있는 언어이다. 이를 통해 개발자는 문서 유형 정의에 대한 사용자 정의 태그를 만들어 자신의 데이터를 설명할 수 있습니다. DTD 사양은 XML 파일의 구문, 구문 및 데이터 구조를 정의하는 표준입니다. XML 은 일반 텍스트를 사용하므로 플랫폼 간 장점이 있습니다. XML 의 장점은 (1) 단순성과 표준화입니다. XML 문서는 텍스트 태그를 기반으로 하며 컴퓨터 및 사용자가 쉽게 이해할 수 있는 엄격한 구문 구조를 가지고 있습니다. (2) 확장성: 사용자는 특정 의미를 가진 라벨을 사용자 정의할 수 있으며, 맞춤형 라벨은 모든 조직, 고객 및 애플리케이션 간에 공유할 수 있습니다. (3) 자체 설명: 자체 설명은 서로 다른 애플리케이션 간의 데이터 교환에 매우 적합하고, 이러한 교환은 미리 정의된 데이터 구조 세트를 기반으로 하지 않으므로 개방성이 강합니다. (4) 상호 운용성: XML 은 모든 정보를 문서에 저장하여 전송할 수 있으며 원격 어플리케이션은 필요한 정보를 추출할 수 있습니다. XML 데이터는 특정 플랫폼과 독립적인 응용 프로그램이므로 특정 전문 콘텐츠를 기반으로 하는 표현에 매우 좋은 수단을 제공하여 전문 콘텐츠를 하나의 언어로 표현할 수 있습니다.
현재 웹 정보 통합 시스템을 개발하는 기본 방법은 창고 방법과 가상 방법의 두 가지 범주로 나눌 수 있습니다. 이 두 가지 방법은 데이터 구성 및 교환에서 XML 의 장점을 활용하고, 형식 파일 DTD 및 XML 문서를 사용하여 전문 컨텐츠 기반 통합 패턴과 통합 패턴과 리소스 간의 매핑을 표현함으로써 XML 기반 웹 정보 통합 시스템을 구축할 수 있습니다. 그 구조와 정보 수집 과정은 참고 문헌 [2] 에 나와 있다.
그림 2
2.2 그리드 미들웨어 설계
그림 3 에 표시된 그리드 미들웨어의 주요 기능은 (1) 사용자와 클러스터 시스템 간의 데이터 표현 차이를 제거하여 정보 자원 데이터를 사용자에게 투명하게 만드는 것입니다. (2) 웹에 분산 된 클러스터 시스템을 관리하고 유지 관리합니다. 그리드 미들웨어는 모든 클러스터 시스템의 논리 정보 및 전문 내용을 관계형 데이터베이스로 기록합니다. 관계형 데이터베이스 작업은 클러스터 시스템의 분산 논리를 유지하여 유연한 가변성과 확장성을 제공합니다. (3) 사용자의 정보 요청 작업을 수락하면 요구 사항을 충족하는 클러스터 시스템으로 빠르게 이동하고 관계형 데이터베이스를 쿼리하여 사용자의 정보 요청 작업과 클러스터 시스템 간의 대응을 실현할 수 있습니다.
주요 내부 기능 모듈은 다음과 같습니다.
(1) 수신 에이전트 모듈: 다양한 정보 리소스 요청 작업을 등록, 수신 및 관리하고 보안 인증 및 권한 부여를 제공하는 데 주로 사용됩니다.
(2) 관계형 데이터베이스 및 데이터 서비스 에이전트: 관계형 데이터베이스는 모든 클러스터 시스템의 논리 정보 및 전문 내용을 기록합니다. 데이터 서비스 에이전트는 클러스터 시스템에 관계형 데이터베이스에 대한 액세스 및 데이터 레코드 추가, 삭제, 검색 및 수정과 같은 작업을 제공합니다.
(3) 형식 변환 에이전트 모듈: 사용자 정보 자원 요청 문서와 클러스터 시스템의 문서 간 형식 변환 기능을 제공합니다. XML 은 사용자 정의되므로 사용자는 동일한 데이터에 대해 서로 다른 표현을 가지고 있습니다 (정보 리소스에 대한 설명은 다름). XML 문서의 이러한 형식 차이는 관련 DTD/스키마에 반영되므로 형식 변환 후 정보 리소스의 형식은 사용자에게 투명할 수 있습니다.
(4) XML 문서 분석 에이전트 모듈: 형식 변환된 XML 문서의 개별 레이블을 추출하고 그리드 미들웨어에서 관계형 데이터베이스를 쿼리하여 사용자 정보 요청 작업과 클러스터 시스템 간의 대응 관계를 구현합니다. 조건을 충족하는 클러스터 시스템에 대한 정보 및 각 클러스터 시스템의 인터페이스 매개 변수를 얻습니다.
(5) 에이전트 전송 모듈: 변환된 정보 리소스 요청 XML 문서를 해당 클러스터 시스템으로 전송합니다.
여기서 에이전트 기술은 분산 지능형 애플리케이션 문제를 해결하는 핵심 기술입니다. Agent 는 독립적이고 끊임없이 변화하고 다른 시스템에서 실행되는 환경과 지속적으로 상호 작용할 수 있는 엔티티입니다. 시스템에 에이전트를 도입하면 사용자에게 인간적인 특징을 부여하고, 사용자를 대신하여 사용자의 임무를 완수하고, 환경 변화에 동적으로 적응하며, 사용자의 요구를 더 잘 충족하고, 정보 검색 능력을 향상시킬 수 있습니다. 비서 잡동사니 네트워크