현재 위치 - 회사기업대전 - 기업 정보 조회 - 데이터 주석 실습 - 데이터 주석 개요

데이터 주석 실습 - 데이터 주석 개요

데이터 주석 연습 - 데이터 주석 개요.

데이터 주석 개발의 간략한 역사

데이터 주석 산업의 발전

1. 인공지능 발전의 역사

인공지능이라는 개념은 위의 1950년대와 1960년대에 정식으로 제안되었습니다.

튜링 테스트

'인공지능(AI)'이라는 개념은 1956년 다트머스 회의에서 처음 제안됐으며 '인공지능의 출발점'으로 알려져 있다. 인공지능의 발전은 이론에서 실제에 이르기까지, 실제 응용 환경에서의 초기 부진한 결과부터 기술 혁신을 통해 스토리지 및 컴퓨팅 기능의 상당한 향상을 달성하는 과정까지 우여곡절을 거쳐왔습니다.

2. 데이터 주석의 기원

2007년 스탠포드 대학의 Li Feifei 교수 등이 ImageNet 프로젝트를 시작했습니다.

데이터 주석의 개념: 주석은 음성, 사진, 텍스트, 동영상 등 처리되지 않은 기본 데이터를 처리하여 기계가 인식할 수 있는 정보로 변환하는 프로세스입니다.

3. 인공지능 알고리즘과 데이터 주석의 관계

강인공지능과 약한 인공지능.

현재 인공지능의 중요한 연구 분야는 지도 학습, 비지도 학습, 준지도 학습, 강화 학습의 4가지가 있습니다. .

국내 데이터 주석 산업의 발전 상황

데이터 주석 산업은 최근 몇 년간 급속한 발전을 이루었으며 요구 사항도 점점 더 높아지고 있습니다.

1. 시장 측면

2025년에는 시장 규모가 100억 위안을 초과할 것으로 예상되며, 주석 데이터에 대한 수요는 더욱 커질 것입니다. 업계에서는 인공 지능 알고리즘과 데이터 주석 간의 관계가 매우 유망합니다. 현재 데이터 주석 수요가 가장 많은 5개 도시는 베이징, 청두, 항저우, 상하이, 선전입니다.

2. 공급업체

는 플랫폼 데이터 공급업체, 중소 규모 데이터 공급업체, 수요측 자체 구축팀의 세 가지 범주로 나뉩니다. 공급업체 개발의 관점에서 볼 때 업계는 "셔플" 단계에 있습니다.

데이터 주석이란

데이터 주석(Data Annotation)은 텍스트, 이미지, 음성, 비디오 및 기타 주석이 달린 데이터를 분류, 구성, 편집, 오류 수정, 표시 및 주석을 의미합니다. 처리 작업에는 레이블을 지정할 데이터에 레이블을 추가하고 기계 학습 교육 요구 사항을 충족하는 기계 판독 가능 데이터 인코딩을 생성하는 작업이 포함됩니다.

레이블

주석 작업

데이터 라벨러

주석 도구 )

데이터 주석 작업의 특징

p>

데이터 주석 작업의 특성은 데이터 주석 프로젝트의 특성에 따라 결정되며, 그 효과에 따라 지속적으로 조정되어야 합니다.

전이 가능한 학습 능력, 반복 표기 능력, 세심한 집중력, 요약 및 정리 능력이 필요합니다.

데이터 라벨링의 정의 및 분류

데이터 라벨링의 기본 프로세스

4개의 링크를 포함합니다:

데이터 수집: 기본 링크, source 라벨링 요구 사항을 제시하는 인공 지능 회사의 경우. 공개 데이터 세트와 전문 데이터 세트는 인터넷을 통해 얻는 경우가 많습니다.

데이터 정리: 중요한 단계는 데이터를 선별하고, 중복을 제거하고, 데이터 세트에서 이상값과 누락된 값을 확인하고, 노이즈가 있는 데이터를 평활화하여 데이터 불일치를 최대한 수정하는 것입니다. 그리고 불완전함.

데이터 주석: 주석자는 분류 주석, 상자 주석, 영역 주석, 점 주석 또는 기타 주석 방법을 사용하여 수행할 수 있는 데이터 주석을 담당합니다.

데이터 품질 검사: 핵심 링크, 일반적인 품질 관리 방법: 다자 검증, 묻힌 질문 검증, 주석 담당자 상태 검증, 기계 검증.

데이터 주석의 분류

태그되는 데이터의 유형에 따라 분류되는 경우가 많습니다.

텍스트 주석: 주로 자연어 처리(NLP)에 사용됩니다. , 예: 고객 서비스 산업, 금융 산업, 의료 산업 등 라벨링 방법에는 단어 분할 라벨링, 품사 라벨링, 감정 라벨링, 의도 인식, 엔터티 라벨링 등이 포함됩니다.

오디오 주석: 음성 인식(자동 음성 인식, ASR) 및 음성 합성(텍스트 음성 변환, TTS)에 주로 사용되는 반면, TTS 기술은 주로 텍스트를 텍스트로 변환합니다. 소리. 현재 보다 일반적인 애플리케이션 시나리오에는 지능형 고객 서비스, 전화 로봇, Apple 휴대폰의 Siri 등이 포함됩니다. 오디오 주석 방법에는 음성 전사, 음성 감정 주석 등이 포함됩니다.

이미지 주석: 주로 컴퓨터 비전 관련 알고리즘에 대한 데이터 세트를 제공하며, 얼굴 인식, 자율 주행, 번호판 인식, 현재 인기 있는 의료 이미지 인식 등 일상적인 시나리오에 사용됩니다. 주석. 주석 방법에는 직사각형 상자 주석, 다각형 상자 그리기, 도트, OCR 인식, 의미 분할, 이미지 검토 및 분류 등이 포함됩니다.

비디오 주석: 주로 비디오에서 프레임을 가져온 후 이미지 주석을 수행한 후 합성 훈련을 수행합니다. 예를 들어 감시 영상, 자율 주행, 스마트 교통 등 주석 방법은 기본적으로 이미지 주석과 동일합니다.

데이터 주석의 응용 분야

주석이 달린 데이터의 응용 시나리오를 이해하려고 노력하십시오. 이는 주석의 품질에 매우 중요합니다.

여행 분야: 일반적인 주석 방법에는 점 주석, 선 주석, 상자 주석, 3D 포인트 클라우드 주석, 장면 의미 분할, PoI(Point of Interest) 주석 등이 포함됩니다.

보안 분야: 정부 차원이 많습니다. 얼굴 주석, 비디오 분할, 음성 수집, 보행자 주석 등은 중요한 데이터 주석 응용 프로그램입니다.

금융 분야: 텍스트 번역, 의미 분석, 의미 전사, 이미지 주석 등이 널리 사용될 것입니다.

전자상거래 분야에서는 인터넷 검색, 감정 판단, 의도 판단, 오류 수정, 언어 수집 등을 통해 데이터 세트를 더욱 심층적으로 파헤치고 특정 콘텐츠에 대한 검색을 향상시킬 수 있는 것이 중요합니다. 문장을 통해 주석을 달 수 있습니다.

공개*** 서비스 영역 : 콘텐츠가 요구사항을 충족하는지 확인하는 콘텐츠 검토, 동일한 의미의 문장을 분류하는 의미 분석, 의도 인식, 음성 전사는 물론 영상 검토, 텍스트 검토, 등. 데이터 주석의 일반적인 응용 분야입니다.

데이터 주석 산업의 운영 모델

데이터 주석의 특징

주석 내용의 세분성이 가장 작고, 프로젝트 주석 수가 많고, 주석 요구 사항의 반복이 빠릅니다.

인공 지능에서 데이터 주석의 역할

데이터 주석은 인공 지능 회사에 기계 훈련 및 학습을 위한 레이블이 지정된 구조화된 대량의 데이터 세트를 제공하여 알고리즘의 효율성을 보장합니다. 모델. 데이터 주석의 정확성이 인공지능의 효율성을 결정한다. 따라서 현 단계에서 데이터 주석은 여전히 ​​인공지능에서 매우 중요한 역할을 하고 있으며 앞으로도 매우 중요할 것이다.

데이터 주석 작업 모드

PM 프로젝트 관리를 참고할 수 있습니다.

데이터 주석 산업의 미래 개발 동향 및 과제

미래를 내다보는 데이터 세트 제품과 고도로 맞춤화된 데이터 서비스가 데이터 주석 산업 발전의 주류가 될 것입니다.

데이터 주석 산업의 경쟁 심화 발전 추세

미시적 관점에서 보면 시장 규모가 지속적으로 확대되고 시장 경쟁이 심화되는 급속한 성장기에 접어들었습니다. , 그리고 업계는 거시적 관점에서 볼 때 "셔플 기간"에 직면할 수 있습니다. 고품질의 정제된 맞춤형 데이터 세트가 수요자들의 선호를 점점 더 많이 받고 있습니다.

정책의 강력한 지원

산업정보기술부는 '차세대 인공지능 산업 발전 촉진을 위한 3개년 실행 계획(2018~2020)'을 발표했다. ".

2020년 2월, '인공지능 트레이너'는 공식적으로 소프트웨어 및 정보기술 서비스 인력 하위 카테고리에 속하는 새로운 직업이 됐다.

직면한 문제와 과제

도전과제 1: 요구사항에 라벨을 붙이는 것이 더 어렵고 업계 통합이 충분히 깊지 않습니다.

도전 2: 주석 효율성을 향상시키는 방법과 프로젝트를 잘 관리하는 방법이라는 두 가지 핵심 사항에 초점을 맞춘 반자동 주석 도구 및 관리 플랫폼에 대한 연구 개발이 부족합니다.

문제 3: 데이터 주석의 품질이 적절하게 제어되지 않습니다. 이제 급속한 성장기에 들어섰습니다.

도전 4: 데이터 보안 및 개인 정보 보호는 낙관적이지 않습니다. 현재 데이터 거버넌스, 데이터 세분화, 안전한 데이터 전송 및 블록체인과 같은 기술이 생산되었습니다.

데이터 주석 산업의 전망과 발전

데이터 주석 산업은 전망이 넓지만 많은 과제에 직면해 있습니다.

자체 기술력을 지속적으로 향상시키고, 수요 변화에 적응하기 위해 자체 비즈니스를 신속하게 반복하며, 브랜드와 강점의 이중 입소문 효과를 창출해야만 치열한 경쟁에서 더 많은 이점을 얻을 수 있습니다. 시장 경쟁을 통해 독점적인 기술 장벽을 구축함으로써 경쟁에서 무적 상태를 유지할 수 있습니다.

copyright 2024회사기업대전