파일 입력 작업 사양

종이 파일 디지털화 기술 사양 DA/T31-25

1 범위 이 표준은 종이 파일 디지털화에 대한 주요 기술 요구 사항을 규정합니다. 이 표준은 스캐너를 사용하여 다양한 종이 파일을 디지털화하는 데 적용됩니다.

2 규범 참조 파일

아래 파일의 조항은 본 표준의 참조를 통해 본 표준의 조항이 됩니다. 날짜를 참고한 모든 참조 문서는 이후의 모든 수정 주문 (정오표 제외) 또는 개정판이 이 표준에 적용되지 않지만, 본 기준에 따라 합의에 도달한 모든 당사자가 이러한 문서의 최신 버전을 사용할 수 있는지 여부를 연구하도록 권장하고 있습니다. 날짜를 알 수 없는 참조된 파일의 최신 버전은 이 표준에 적용됩니다.

GB/t17235.1 연속톤 정물 이미지의 디지털 압축 인코딩

GB/t17235.2 연속톤 정물 이미지의 디지털 압축 인코딩

GB/t18894? 22 전자 파일 아카이빙 및 관리 사양

ITU(CCITT)G3 이진 이미지 압축 알고리즘

ITU(CCITT)G4 이진 이미지 압축 알고리즘

da/t18? 1999 파일 기록 규칙 파일 관리 소프트웨어 기능 요구 사항 잠정 규정 국가 기록 보관소 발행 [21]6 호

3 용어 및 정의 다음 용어 및 정의가 본 표준에 적용됩니다.

3.1

디지털 Digitization

컴퓨터 기술을 사용하여 아날로그 이미지를 디지털 이미지로 변환하는 프로세스.

3.2

종이 파일 디지털화 Digitization of Paper? Based Records

는 일반 (검은색 글씨가 또렷한) 의 기름 인쇄, 납 인쇄, 오프셋 인쇄 등의 인쇄물이나 사본 종이 파일을 디지털화하고 적용하는 과정입니다.

3.3

디지털 이미지 디지털 이미지

는 장면 이미지의 정수 배열을 나타냅니다. 같은 차원의 연속 이미지에 의해 생성되는 2D 이상의 고차원 샘플링 및 정량화 함수입니다. 행렬 (또는 기타) 네트워크에서 연속 함수를 샘플링하고 샘플링 지점에서 값을 최소화한 배열.

3.4

흑백 이진수 이미지 Binary Image

흑백 2 단 그레이스케일만 있는 디지털 이미지. 흑백의 두 가지 상태 텍스트 원고, 라인 차트, 지문 차트 등에 해당합니다.

3.5

연속톤 정물 이미지 Continuous? Tone Still Image

는 2 단계 그레이스케일보다 더 많은 다양한 농도 레벨 또는 서로 다른 색상 채널로 결합된 정적 숫자

이미지입니다. 3.6 왜곡 Distortion Measure

파일 원본을 디지털화한 후 동등한 테스트 환경에서 디지털 이미지와 파일 원본 의 색상, 형상, 압축 알고리즘 등의 차이가 발생합니다.

3.7

intelligibility

는 디지털 이미지가 사람이나 기계에 정보를 제공하는 능력을 나타냅니다. 3.8 이미지 중복성 또는 이미지 근사화 프로세스를 제거하여 이미지를 더욱 촘촘하게 표현하도록 합니다.

3. 9

해상도 Resolution

는 단위 길이 내에 이미지에 포함된 점 또는 픽셀 수를 나타냅니다.

3.1

tiff tagged tmage file format

태그 이미지 파일 형식. 응용 프로그램과 컴퓨터 플랫폼 간에 파일을 교환하는 데 사용되는 태그 기반 무손실 (정보 손실 없음) 압축 형식입니다. 이미지의 미세한 계층에 대한 정보가 매우 많고 이미지의 품질도 향상되기 때문에 원본이 흑백 파일의 복제 저장에 매우 유용합니다.

3.11

jpegjoint photographic experts group

공동 사진 전문가 그룹. 소량의 정보가 손실된 압축 형식으로, 특히 화면과 인쇄 디스플레이에 적합하며 모든 주요 컴퓨터 플랫폼과 웹 브라우저를 지원합니다. JPEG 형식 파일은 작고 이미지 품질은 대부분의 경우 허용됩니다. 저장 공간과 전송 효율성을 고려하여 원본이 컬러인 파일은 이 형식으로 복사 저장할 수 있습니다.

4 디지털화 기본 프로세스 종이 파일 디지털화의 기본 프로세스에는 파일 정리, 카탈로그 작성, 대량 스캔, 데이터 처리, 정보 저장, 검색 활용 등의 절차가 포함됩니다. 4.1 파일 정리 스캔이 필요한 파일을 적절히 정리하고 표시를 합니다.

4.2 카탈로그 데이터베이스

디지털 아카이브 검색을 위해 필요한 카탈로그 데이터베이스를 설정합니다.

4.3 대량 스캔

은 파일 디지털화 특정 작업의 전반적인 일정에 따라 일정에 따라 배치로 스캔합니다. 4.4 데이터 처리 4.4.1 스캔 이미지를 교정하여 이미지가 완전한지 확인하고 필요에 따라 문제가 있는 스캔 이미지를 보정, 오염 제거, 접합 등의 기술 처리를 수행합니다.

4.4.2 파일 형식 변환, 논리적 분할 처리, 설명 파일 추가, 데이터 마운트, 검사, 업로드, 품질 검사 및 백업 등 원시 데이터를 수용하기 전에 적절한 처리.

4.5 정보 저장소

다양한 스캔 이미지에 따라 적절한 데이터 형식, 인코딩 방법 및 저장 매체를 선택하여 정보를 저장합니다.

4.6 검색은

를 활용하여 사용자의 요구에 따라 검색 활용을 제공합니다.

5 파일 정리 일괄 스캔 전에 아래 단계에 따라 파일을 정리하여 파일 디지털화 품질을 보장합니다. 5.1 부품 5.1.1 은 같은 파일에 있는 스캔과 비스캔 부품을 분리합니다. 5.1.2 스캔 시 큰 그림과 사진을 지침 페이지에 삽입하여 스캔 프로세스 배치 스캔을 용이하게 하고, 실제 이미지를 이미지 처리 시 다시 스캔하여 지침 페이지를 대체합니다. 5.1.3 "데이터 처리 프로세스 처리 양식" (부록 A 참조) 을 작성하여 특수 처리가 필요한 페이지를 명확하게 식별합니다.

5.2 페이지

는 배치 스캔 전 파일의 페이지 번호 및 품번기호에 치수를 기입합니다. 마크업에서 원본 파일의 항목 수, 페이지 번호와 일치하지 않는 경우 이를 기준으로 해야 합니다. 5.3 볼륨 제거 후속 스캔 작업을 위해 파일에서 원래 제본물을 제거합니다. 5.4 볼륨 파일 보관 요구 사항에 따라 원래 바인딩을 복원합니다.

6 카탈로그 라이브러리 6.1 카탈로그 기록 DA/T18 에 따라 파일 기록 항목을 식별하고 기재합니다.

6.2 데이터 형식 선택

선택한 데이터 형식은 일반적이며 DBF 파일 형식 또는 XML 텍스트

파일을 통해 직접 또는 간접적으로 데이터를 교환할 수 있어야 합니다. 6.3 카탈로그 입력 은 (는) 기록된 카탈로그를 컴퓨터에 입력하여 기계 읽기 카탈로그 데이터베이스를 설정합니다.

7 일괄 스캔 7.1 스캔 방법 종이 파일 스캔은 흑백 이진 이미지와 연속톤 이미지를 모두 사용할 수 있습니다. 7.1.1 페이지는 흑백 텍스트로 된 종이 파일이며 흑백 이진 이미지로 스캔해야 합니다. 페이지는 다색 텍스트 이미지인 아카이브로 연속톤 이미지로 스캔할 수 있습니다. 7.1.2 흑백 이진 이미지 스캔을 사용하여 그림이 없는 또렷한 기록 자료 선명도가 낮거나 그림이 있는 파일 재료로 연속톤 이미지를 사용하여 스캔할 수 있습니다.

7.2 해상도

7.2.1 단색 페이지 아카이브를 선택하며 스캔 해상도는 일반적으로 1~2dpi 를 선택하는 것이 좋습니다.

7.2.2 컬러 페이지 아카이브, 스캔 해상도는 1dpi 이상의 매개변수 값을 선택할 수 있습니다. 7.2.3 대용량 파일 (예: 엔지니어링 도면, 신문 등 크기가 A3 을 초과하는 파일), 대형 이미지 스캐너 (예: A), 대형 디지털 플랫폼, 마이크로이미지 뒤 필름 디지털 변환 또는 소폭 스캔 후 이미지 패치 적용. 스캔 해상도는 1OOdpi 이상을 선택해야 합니다.

7.2.4 필요한 경우 원본 선명도에 따라 스캔 해상도를 적절히 조정할 수 있습니다. 원본의 품질이 나쁘고 크기가 작은 경우 해상도를 적절히 높일 수 있습니다. 반대로 해상도를 그에 따라 줄일 수 있으며, 스캔한 후 이미지가 원래 크기로 표시된 후 선명한지 여부에 따라 증가 또는 감소할 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 해상도명언) 7.3 특수 페이지 스캔 7.3.1 붙여 넣기 페이지 및 양식 붙여 넣기 접기의 경우 대형 스캐너로 스캔하거나 먼저 지부에서 스캔한 후 패치할 수 있습니다. 일부 글꼴이 작고 글씨가 밀집된 경우 스캔 해상도를 적절히 높이고 그레이스케일 스캔이나 컬러 스캔을 선택하여 부분적인 심화 기술로 해결할 수 있습니다. 글씨와 표 색상 깊이가 다른 경우 로컬 페이딩 기술을 사용하여 7.3.2 일반 텍스트 흐름도 를 적절한 해상도 스캔 및 로컬 심화 기술로 해결하여 텍스트 순서도가 선명함을 보장합니다. 동시에 다른 장치를 사용하여 텍스트 순서도의 스캔 작업을 충족합니다.

7.3.3 그림

고해상도 그레이스케일 또는 컬러 스캔 기술을 사용하여 텍스트와 함께 그림을 스캔하여 원본 페이지 레이아웃과 그림이 선명함을 보장합니다.

7.3.4 사진

페이지에 흑백 또는 컬러 사진이 있는 파일의 경우 JPEG 형식으로 스캔하여 이미지 저장 공간이 너무 많지 않도록 사진 선명도를 보장합니다.

7.4 파일 이름 지정 방법

7.4.1 폴더 작성

스캔 시 폴더 작성은 파일 엔티티 계층에 따라 작성되며 각 문서마다 별도의 폴더가 필요합니다. 파일 엔티티의 파일 번호로 이름이 지정된

7.4.2 폴더 이름 지정 방법 (일반적으로 3 자리, 3

자릿수 미만의 왼쪽에 "" 을 채웁니다.

8 데이터 처리 8.1 이미지 처리 8.1.1 보정 스캔 중 발생하는 비스듬한 이미지를 전체적으로 교정하여 디지털 이미지의 비스듬한 각도가 1 도 미만임을 보장합니다. 이미지가 페이지 안쪽의 절반 이하로 기울어져 있습니다. 8.1.2 오염 제거 디지털 이미지에서 이해력에 영향을 미치는 불순물을 제거합니다. 파일 디지털화 이미지의 더러움은 이해력에 영향을 주지 않고 본래의 모습을 드러내는 원칙을 따라야 한다.

8.1.2.1 로컬 오염 제거 (예: 검은 가장자리 제거, 얼룩 제거).

8.1.2.2 전체 오염 제거, 페이지의 얼룩을 한 번에 제거할 수 있습니다. 8.1.3 패치 는 아카이브 디지털화 이미지의 무결성을 보장하기 위해 폭이 분리된 디지털 이미지를 패치합니다. 8.1.4 교정 8.1.4.1 교정, 스캔한 이미지 품질 확인, 불합격 이미지 표시 반환 재스캔. 8.1.4.2 오류 수정 처리, 한 번의 교정에서 제기된 얼룩, 검은색 가장자리, 편향, 이미지 품질 양과 함께' 데이터 처리 프로세스 처리서' (부록 A 참조) 를 결합하여 각 이미지를 적절히 처리합니다. 8.1.4.3 2 차 교정, 한 번의 교정 및 데이터 처리 후의 디지털 이미지를 다시 검사하고 는 이미지 처리 중 불분명한 페이지를 표시합니다. 불합격 반품 재처리. 8.2 데이터 품질 검사 8.2.1 문자 입력 품질 은 입력 도메인 목록에 표시된 각 항목의 문자 입력에 대해 정확한 비율 제어를 수행하여 오류율이 3‰ 미만이 되도록 합니다. 8.2.2 이미지 품질 원하는 이미지 품질을 얻기 위해 종이 파일을 스캔한 후 형성된 이미지 파일의 선명도, 얼룩, 검은색 가장자리, 편향 등을 제어합니다. 스캔한 디지털 이미지가 또렷하고, 쉽게 읽을 수 있으며, 각종 종이와 손글씨, 인쇄자에 적응할 수 있도록 보장합니다.

8.3 데이터 후크

파일 항목 데이터가 이미지 파일에 해당하는 정확도를 제어합니다. 원시 데이터 CD 를 생성하기 전에 데이터 정리 정보, 스캔 전 인덱스 정보 및 볼륨 내 파일 페이지 번호 정보를 기준으로 이미지 파일의 총 수가 실제 파일 수와 같은지 확인합니다. 같지 않으면 원시 데이터 CD 를 생성할 수 없습니다. 인벤토리를 인쇄하고 이미지 처리기에게 반환하여 스캔할 수 있습니다.

8.4 데이터 검사

8.4.1 은 파일 형식 변환, 논리적 분할 처리, 설명 파일 추가 등 원시 데이터를 수락 전에 적절히 처리합니다. 8.4.2 는 데이터를 검사하여 합격 또는 불합격 결론을 내렸다.

8.4.3 디지털 가공 데이터를 원시 데이터 디스크 형식으로 변환하여 활성 하드 드라이브에 복사합니다.

8.4.4 시스템은 검사 진행 상황을 자동으로 기록해야 합니다. 8.5 데이터 업로드 파일 디지털 각 공정의 데이터는 네트워크를 통해 적시에 데이터 서버측 요약으로 업로드됩니다. 여기서 디지털 이미지는 해당 카탈로그 데이터를 자동으로 검색하고 해당 전자 주소 디지털 이미지 파일 이름을 추가하여 일대일 대응 관계를 설정합니다.

8.6 데이터 백업

데이터 손실을 방지하기 위해 서버의 다양한 데이터를 정기적으로 백업합니다.

9 정보 저장소

는 JPEG 디지털 압축 인코딩 또는 TIFF international common standards 형식으로 제공됩니다. 국제 표준 팩스 문서 압축 형식을 사용하여 압축한 후 각각 페이지 번호로 페이지 매김하여 저장합니다. 디지털 이미지의 스토리지 관리는 원본 종이 파일의 보관 모드 대응 스토리지를 유지해야 합니다.

9.1 압축 저장 형식

파일 디지털 이미지 형식은 TIFF 및 JPEG 디지털 압축 인코딩을 사용합니다. 9.1.1 흑백 이진 이미지 흑백 이진 스캔 이미지 파일은 TIFF (CITTG3) 형식의 이진 이미지 압축 알고리즘을 사용하며 압축률 준비 (Cr) 는 15: 1 입니다. TIFF(CCIFF G4) 형식의 이진 이미지 압축 알고리즘도 사용할 수 있습니다. 압축률 (Cr) 은 3O: 1 입니다.

9.1.2 연속톤 정물 이미지

연속톤 정물 이미지는 JPEG 디지털 압축 인코딩, 평균 압축률 (Cr) 은 15: 1 입니다.

9.2 인코딩 방식

은 모두 실시간 운영성이 뛰어난 인코딩 방식을 사용해야 합니다. 왜곡 인코딩을 통해 더 적은 비트율로 더 나은 이미지 품질을 얻을 수 있습니다. 무손실 인코딩은 낮은 압축으로 정보의 무손실 유지를 유지합니다. 일반적으로 는 국제 범용 코덱 알고리즘을 채택해야 합니다.

9.3 저장 방식 및 캐리어

는 온라인 및 오프라인, 다양한 캐리어로 저장할 수 있습니다.

1 검색은 1.1 검색 활용 방법 아카이브 디지털 이미지 검색 활용 독립형, LAN 및 인터넷을 사용할 수 있습니다. LAN 을 통한 전송 활용은 내부 LAN 1Base 에서 데이터를 보장해야 합니까? T 대역폭에서 평균 1 초 이내에 응답 완료가 표시됩니다. 인터넷에서의 전송 활용, 인터넷 56KBIT/S 대역폭에서 평균 5 초 이내에 응답 완료를 표시합니다. 이를 위해서는 일반적으로 페이지당 아카이브 디지털 이미지의 저장 용량이 5K 이내여야 합니다. 1.2 검색 소프트웨어 구성 검색 소프트웨어는 국가 기록국이 제정한' 파일 관리 소프트웨어 기능 요구 사항 잠정 규정' 의 요구 사항을 충족해야 합니다. 검색 소프트웨어에는 디렉토리 검색과 아카이브 디지털 이미지를 쉽게 읽을 수 있는 기본 기능이 있어야 합니다.

上篇: 이 여덟 가지 사례를 보면 너도 소매업 분석가다. 下篇: 국내에는 어떤 국경 간 전자 상거래 물류 모델이 있습니까?