현재 위치 - 회사기업대전 - 기업 정보 공시 - 유전 지질 파일의 구조화되지 않은 데이터 관리 모드 탐구

유전 지질 파일의 구조화되지 않은 데이터 관리 모드 탐구

얀 리

(중국석화주식유한공사 서남유가스 지점 정보센터 파일)

구조화되지 않은 데이터 관리의 문제점을 해결하기 위해 서남 가스전 지질 파일 구조화되지 않은 데이터 관리의 특징을 분석하고, 데이터 수집, 데이터 저장, 데이터 관리 및 데이터 활용을 위한 기술 프레임워크를 제시하며, 구조화되지 않은 데이터의 관리 및 적용에 대한 심층 분석을 통해 기술 솔루션, 관리 모델 및 데이터 서비스의 삼위일체 관리 모델을 요약하고 유전 지질 파일의 구조화되지 않은 데이터 관리 및 적용에 대한 효과적인 모델을 탐구했습니다.

키워드 구조화되지 않은 데이터 저장소; 지질 문서 응용 프로그램 관리

0 소개

우리나라 경제 건설이 끊임없이 발전함에 따라 정보 자원은 나날이 기업이나 조직의 핵심이자 생명선이 되고 있다. 특히 정보 집약적인 석유 산업의 경우 더욱 그렇다. 다년간의 생산 관행에서 국내 석유업계는 대부분의 정보에 대한 종합적인 데이터 관리, 데이터 애플리케이션, 기업 표준, 업계 표준 등의 기술과 성과를 발전시켜 석유 탐사 개발의 각 과정을 크게 지탱하고 있다. 그러나 외국 석유회사와 비교했을 때 정보 자원 협업, 분석, 발굴, * * 공유, 의사 결정 지원, 클러스터 컴퓨팅 등에는 약간의 차이가 있다. 핵심은 비정형 데이터를 효율적으로 저장하고 활용하는 방법입니다.

일반적인 석유 업계의 경우 정보 자원은 종이 책이나 종이, PDF 문서, 그래픽 및 이미지 파일, 스캔 문서, 전자책, 광 디스크 등 다양한 캐리어에 존재합니다. 이 정보는 결국 구조화되지 않은 데이터로 변환 될 수 있습니다. 비정형 정보 관리에는 다음과 같은 문제가 필요합니다.

대용량: 비정형 데이터는 일반적으로 하나 이상의 문서, 지도, 멀티미디어 등입니다. 그리고 용량은 100 메가바이트와 기가바이트로 어디에나 있습니다.

이기종 지원: 비정형 데이터의 소스, 형식, 전달체가 다르기 때문에 통합 관리 및 검색이 어렵습니다.

복잡성: 비정형 데이터는 대용량 및 이기종 때문에 저장, 검색, 필터링, 추출, 분석 및 마이닝이 매우 복잡합니다.

재처리: 구조화되지 않은 데이터는 사용자 정의, 교환, 암호화 등에 대한 개인화된 요구 사항이 많으며, 형식의 차이와 다양성으로 인해 이러한 데이터를 재가공하기가 매우 어렵습니다.

이 문서에서는 이러한 문제에 대해 자세히 논의하고 연구하며 석유 및 가스전 지질 파일의 구조화되지 않은 데이터 저장 및 활용과 결합하여 실행 가능한 방법 및 합리적인 솔루션을 논의합니다.

1 비정형 데이터 관리를 위한 기술 아키텍처

구조화되지 않은 데이터는 구조화된 데이터와 비교하여 데이터베이스의 2D 논리 테이블로 쉽게 표현할 수 없는 데이터를 말하며 구조화되지 않은 데이터라고 하며 모든 형식의 office 문서, 텍스트, 그림, XML, HTML, 다양한 보고서, 이미지 및 오디오 비디오 정보를 포함합니다.

남서 가스전은 하드웨어 및 소프트웨어 제품의 구성 및 통합을 통해 데이터 수집 (사전 처리), 데이터 스토리지, 데이터 관리 및 데이터 사용을 포함한 비정형 데이터 저장 및 활용에 적합한 기술 프레임워크를 설계 및 구현했습니다 (그림 1).

그림 1 비정형 데이터 저장 및 활용을 위한 기술 아키텍처

데이터 수집비정형 데이터 관리의 가장 기본적인 프로세스는 원시 또는 직접 데이터를 디지털 정보로 변환하여 처리하는 핵심 단계입니다.

구조화되지 않은 데이터 저장소는 탐사, 과학 연구, 생산 및 관리에서 생성된 문서, 지도 및 전문 저서를 데이터베이스나 파일 서버에 저장하는 것입니다. 일반적으로 두 가지 방법이 있습니다. 하나는 구조화되지 않은 데이터를 바이너리 스트림으로 변환하여 관계형 데이터베이스에 저장하고 관련 보조 정보 (사용자 정의 가능) 를 기록하는 것입니다. 두 번째는 구조화되지 않은 데이터를 디렉토리 서버에 저장하는 것입니다. 관계형 데이터베이스에는 디렉토리 서버의 인덱스 정보 및 보조 정보 (사용자 정의 가능) 만 기록됩니다. 그림 2 는 이 두 가지 방법을 보여줍니다.

그림 2 구조화되지 않은 데이터 저장소 다이어그램

데이터 관리는 데이터 분류, 검색, 메타데이터, 표준화, 통계, 통합 등 성공적으로 저장되고 구조화된 정보를 재처리하는 것입니다.

데이터 사용은 비정형 데이터 관리의 최종 목표입니다. 만약 정보를 교환하고 공유할 수 없다면, 한 조직은 얼마나 많은 정보를 생성하든 불가피하게 정보의 섬이 될 것이다. 기반 아키텍처. Net 및 웹 서비스는 정보 공유 및 협업을 위한 기술 보증을 제공합니다.

2 구조화되지 않은 데이터 관리 응용 분석

구조화되지 않은 데이터 관리 기술 프레임워크에 따르면 서남 가스전 개발은 서남 가스전 지질 데이터 관리 플랫폼 시스템을 구축하여 구조화되지 않은 데이터 관리의 6 가지 주요 기능 (구조화되지 않은 데이터 정리, 메타데이터, 인덱스 서버 기반 전체 텍스트 검색, 인덱싱, 작업 관리 및 지식 관리 (표 1)) 을 구현합니다.

표 1 중국석화 서남가스전 구조화되지 않은 데이터 관리 기능 통계표

2. 1 구조화되지 않은 데이터 관리를 위한 기능 아키텍처

남서부 가스전 지질 데이터 관리 플랫폼은 사용자 관리, 조직 관리, 권한 관리, 로그 관리, 데이터 관리, 데이터 업로드, 데이터 정리, 데이터 감사, 메타데이터 및 데이터 검색을 포함한 완벽한 B/S 모델 데이터 관리 시스템 및 정보 게시 시스템입니다. 정보 게시 시스템에는 데이터 대출, 데이터 업로드, 온라인 브라우징, 데이터 검색 및 다운로드가 포함됩니다.

데이터 관리 및 정보 게시 기능 외에도 데이터 속성의 사용자 정의, 사용자 기능 선택, 대출 아카이브 통합 프로세스의 이식, 다운로드한 압축 암호화 업로드, 사용자 및 보안 체계의 자동 바인딩, 데이터에 대한 새 쿼리, 맞춤형 보고서의 쿼리 인쇄, 알림 정보 게시 등 자체 작업 방식에 따라 엔터프라이즈 요소가 추가되었습니다. 주요 기능 아키텍처는 그림 3 에 나와 있습니다.

그림 3 기능 아키텍처 다이어그램

2.2 남서 가스전 지질 데이터 구조화되지 않은 데이터 관리의 주요 특징

지질 데이터 및 파일 패키징 및 구조

데이터 스토리지의 경우 웹 서비스 기반 데이터 액세스 계층 구성 요소가 사용됩니다. 설정을 수정하여 Oracle 9 I 데이터베이스, SQL Server 2000 데이터베이스 등 다양한 데이터베이스에 개별적으로 접속할 수 있으며 필요에 따라 선택할 수 있습니다. 지질 데이터 및 문서의 패키징 및 구조화는 데이터 수집 및 저장이 "데이터 본문-파일 본문" 을 사용하는 이진 패키징 모드입니다. 모든 유형의 파일 또는 파일 모음을 데이터 본문으로 정의할 수 있습니다. 메타데이터는 데이터 본문을 설명하는 데 사용됩니다. 논리적으로 데이터 바디는 하나 이상의 파일 엔티티 모음입니다. 이를 통해 다양한 비정형 데이터의 표현, 모양 및 동작이 통합되어 향후 데이터 교환 및 협업에 도움이 됩니다. 그림 4 는 이러한 이진 관계를 보여줍니다.

그림 4 구조화되지 않은 데이터의 이진 패키징 방법

작업 관리

문서가 수집되어 제출되면 데이터 본문 및 메타데이터 정보가 관계형 데이터베이스 (현재 Oracle 지원) 에 기록되고 파일 본문이 작업을 통해 전용 파일 서버에 자동으로 업로드되고 인덱싱 서비스가 파일 본문에 대한 인덱스를 자동으로 생성합니다. 창고 파일 및 재료의 기본 저장 방법은 디스크 파일입니다. 웨어하우스 문서와 자료를 관계형 데이터베이스에 이진 스트림으로 저장해야 하는 경우 데이터 지속성 서비스를 배포하고 구성해야 합니다. 그림 5 에는 문서 수집 및 저장 프로세스에 대한 시각적 설명이 나와 있습니다.

그림 5 문서 데이터 수집 및 저장을 위한 작업 관리 프로세스

임무 관리는 업로드 및 다운로드의 임무이다. 문서 수집의 요구를 충족시키기 위해 업로드 작업을 사용하여 업로드 프로세스를 관리합니다. 전체 프로세스는 사용자의 작업에 영향을 주지 않고 서비스를 통해 백그라운드에서 자동으로 완료될 수 있으며, 기존 파일 수집 중 사용자가 업로드를 기다리는 데 많은 시간을 소모하는 것을 방지합니다. 데이터 무결성을 보장하기 위해 업로드 프로세스는 중단점 갱신을 지원합니다. 직관적인 업로드 작업 관리자는 업로드가 필요한 문서를 작업 대기열에 저장하여 사용자가 언제든지 업로드 작업을 중지하거나 시작할 수 있으므로 네트워크 조건이나 용량 문제로 인한 불편을 최소화할 수 있습니다.

메타데이터의 정의 및 설명

데이터 수집 중 파일에 대한 메타데이터를 정의할 수 있습니다. 파일의 메타데이터는 파일의 속성에 상속되므로 파일을 데이터 범주로 분류하면 파일에 대한 확장 정보를 설정할 수 있습니다. 반면 분류된 메타데이터 형식은 해당 유형의 파일에 대한 메타데이터 템플릿이 될 수 있으며, 유사한 파일의 메타데이터 형식은 동일하며 유사한 푸티지의 데이터 교환을 용이하게 합니다. 그림 6 은 파일 (데이터 유형), 파일 및 메타데이터 간의 관계를 보여 줍니다.

메타 데이터는 구조화되지 않은 데이터의 레이블로 매우 중요합니다. 시스템 검색 기능의 전체 및 정확도는 주로 메타데이터의 정의가 합리적이고 정확한지 여부에 따라 달라집니다. 따라서 메타데이터 정보를 수정하고 동적으로 확장할 수 있는 기능을 제공해야 합니다. 이러한 기능을 제공해야 시스템에 대한 정보 설명이 정확하고 풍부할 수 있으며, 이는 많은 유사 정보 시스템에 없는 것이다.

그림 6 파일, 문서 및 메타데이터 간의 관계

중국 석유화학기업 표준 Q/SH0167-2008' 석유가스 탐사 개발 지질자료 보관 규칙' 에 따르면 지질자료 관리의 특징에 따라 서남 가스전의 실제 상황과 수요 분석과 결합해 기능 (시스템 관리, 데이터 로드 및 온라인 브라우징, 데이터 조회, 데이터 대출) 을 정의했다. 지질 데이터에 대한 파일 메타데이터, 파일 메타데이터 및 엔터프라이즈 확장 메타데이터를 충분히 연구하고 정의하며, 다양한 유형의 지질 데이터에 대한 다양한 속성을 정의하여 쿼리 및 대출을 용이하게 합니다. 예를 들어 표 2 를 들 수 있습니다.

표 2 지질 데이터 메타 데이터 속성 테이블

2.2.4 파일 인덱스 서버를 기반으로 한 전체 텍스트 검색

구조화되지 않은 데이터를 검색하는 방법에는 속성과 키워드를 기반으로 한 정확한 검색과 컨텐츠 기반 전체 텍스트 검색의 두 가지가 있습니다. 전체 텍스트 검색 프로세스는 제출, 인덱싱, 검색, 결과 구성 및 반환을 통해 수행됩니다. 구조화되지 않은 데이터가 파일 서버에 제출될 때 인덱싱 서비스 프로그램이 인덱스 파일을 만들거나 업데이트합니다 (자동 프로세스). 사용자가 검색 요청을 보내면 검색 엔진은 요청된 컨텐츠가 포함된 결과를 얻어 요청자에게 반환합니다. 색인 서비스 프로그램은 저장된 문서에서 텍스트 내용을 자동으로 추출할 수 있습니다 (그림 7).

색인 서비스 프로그램의 작업에는 파일 디렉토리의 변경 사항을 감지하고 파일이 업로드, 이동, 수정 또는 삭제될 때 해당 색인을 업데이트하는 작업이 포함됩니다. 정기적으로 파일 디렉토리 전체 범위의 인덱스를 최적화하여 인덱스의 글로벌 효율성과 효율성을 보장합니다. 이 작업은 사용자가 자동 또는 수동으로 수행할 수 있습니다.

이를 바탕으로 서남 가스전은 모호한 질의, 전체 텍스트 질의, 정확한 질의, 카탈로그 찾아보기, 전체 텍스트 탐색 등 다양한 논리적 질의를 제공합니다. 그림 8 에 나와 있습니다.

그림 7 전체 텍스트 검색 워크 플로우

그림 8 쿼리 검색 스크린 샷

2.3 남서 석유 및 가스전에서의 구조화되지 않은 관리의 적용 효과

2005 년 이후 서남 가스전은 지질 데이터의 구조화되지 않은 데이터 건설을 시작했다. 수년간의 공동 노력 끝에 지질 데이터 구조화되지 않은 카탈로그 데이터베이스 구축, 통계 지질 데이터 항목 654.38+0.250,000 개, 다양한 유형의 지질 데이터에 대한 요소 데이터 설계 완료, 파일 메타데이터, 아카이브 메타데이터, 엔터프라이즈 확장 메타데이터 등 다양한 속성 추출, 지질 데이터의 네트워크 관리 및 활용 제공

한편 구조화되지 않은 데이터 건설 이론에 따르면 서남 가스전은 지질데이터 전문데이터베이스와 지질그래픽 데이터베이스 건설을 적극 전개하고 있다. 과거 파일 및 도면의 스캔 정리를 통해 전자 파일 24 만 부, 총 용량 2.9 T 가 저장되었습니다. 유전 천연가스 지질 데이터 카탈로그 데이터베이스와 결합하여 지질 데이터 관리 시스템을 통해 지질 데이터 구조화되지 않은 데이터 네트워크를 완벽하게 게시하고 종합적으로 적용할 수 있습니다.

통계 분석에 따르면 구조화되지 않은 데이터 네트워크 관리 및 적용 이후 서남 가스전은 최근 5 년간 지질 데이터의 연평균 이용률이 1 10000 조/년으로, 건설 전 4.5 배에 달하며 지질 파일의 관리 및 활용 수준을 효과적으로 향상시키고 비용을 절감하며 좋은 성과를 거두었습니다.

3 구조화되지 않은 데이터 관리 모드 탐구

기업 정보 자원의 표현으로 구조화되지 않은 데이터의 관리는 기술 체계나 시스템일 뿐만 아니라 방대한 시스템 엔지니어링이기도 합니다. 필자는 다년간 서남 가스전 지질 기록 정보 건설과 구조화되지 않은 데이터 관리 경험을 바탕으로' 기술 솔루션, 관리 모델, 데이터 서비스' 의 삼위일체 관리 모델이 가스전 구조화되지 않은 데이터 관리의 효과적인 모델이라고 생각한다 (그림 9).

그림 9 구조화되지 않은 데이터 관리 패턴

첫째, 관리 모델은 전체 구조화되지 않은 데이터 관리에 대한 조직 보증으로, 안정적인 관리 팀, 완벽한 실현가능성 연구, 명확한 관리 요구 사항, 충분한 위험 평가 및 실무 조직 구현으로 구성됩니다. 좋은 행정 관리 모델은 한 조직이 정보 시스템의 건설을 공동으로 추진할 수 있도록 보장하며, 전체 시스템 건설의 성패를 결정한다고 할 수 있다.

데이터 서비스는 구조화되지 않은 데이터 정보 관리의 기초입니다. 구조화되지 않은 데이터를 수집, 생성, 처리, 전송, 구성, 정리 및 표준화하는 프로세스입니다. 사용자와 개발자 사이의 윤활제이기도 합니다. 첫째, 사용자의 요구에 따라 대량의 무미건조한 데이터 정리 및 표준화 작업을 처리할 수 있습니다. 둘째, 사용자의 관점에서 소프트웨어의 결함을 지적하고 개발자에게 수정을 촉구합니다. 데이터 서비스를 통해 사용자 비즈니스의 효율적인 운영과 기술 체계의 지속적인 개선을 효과적으로 보장하고 정보 시스템 구축의 효율성을 극대화할 수 있습니다.

기술 시나리오는 제품 수준에서 구조화되지 않은 데이터 관리를 위한 하드웨어 및 소프트웨어 플랫폼을 제공하며 데이터 수집에서 응용 프로그램에 이르는 완벽한 기술 시스템입니다. 다양한 대형 관계형 데이터베이스 기반 정보 스토리지 시스템, 비정형 데이터 기반 파일 서버, 전체 텍스트 검색 및 상관 관계 검색을 제공하는 인덱스 서버, 메타데이터 기반의 유연한 파일 교환 형식, 맞춤형 구성, 유연한 권한 정책, 강력한 보안 정책 등의 내용을 포함하고 있습니다. 기술 솔루션은 비정형 데이터 저장 및 활용의 핵심입니다.

4 결론

구조화되지 않은 데이터 저장 및 애플리케이션은 각 유전 지점 탐사 의사 결정 지원 시스템의 중요한 부분입니다. 이 섹션이 성공적으로 개발되면 의사 결정 지원에 필요한 정보 자원에 대한 기본 플랫폼을 제공할 수 있습니다. 한편, 이 플랫폼을 기반으로 하는 비정형 데이터의 애플리케이션은 의사 결정 지원 시스템에 직접 서비스를 제공할 수 있습니다. 정보 협업, 문서 검색, 데이터 마이닝, 지식 관리 등의 기술과 이념의 응용을 통해 가스전의 정보화 건설 시간을 단축할 수 있으며, 심지어 국제 선진 수준에 이르기까지 할 수 있습니다. 탐사 디지털화, 데이터 자본화, 업무 협동화, 의사결정과학화에 큰 걸음을 내디다. 엄청난 경제적, 사회적 효과를 가져옵니다.

참고

위요 장지강. 대량의 구조화되지 않은 데이터의 저장 [J]. 중국 파일, 2009(8).

, 왕,,,. 대량 구조화 된 데이터 저장 및 검색 시스템 [J]. 컴퓨터 개발, 20 1 1(7).

copyright 2024회사기업대전