인간은 오랫동안 입술 언어를 연구하고 연구해 왔지만 경험, 시각, 주관적 요인의 영향으로 인간의 입술 읽기의 정확성은 불안정하다. 따라서 AI가 "입술 읽기"를 배우도록 하는 것은 많은 응용 시나리오에서 실질적인 의미를 갖습니다.
입술 읽기는 특히 어려운 기술입니다. 입술을 읽을 때 단어 간의 연결을 최대한 고려하여 입술 읽기 능력도 중요합니다. AI '립리딩'은 말 그대로 입술 인식 기술이다. 컴퓨터는 시각 인식과 자연어 처리를 이용해 화자의 입술 움직임을 분석해 말의 내용을 파악한다.
옥스퍼드대학교 컴퓨터공학과에서는 LipNet이라는 인공지능 시스템을 개발했습니다. 보도에 따르면 이 인공지능 시스템은 'GRID'라는 데이터 세트를 기반으로 구축됐다. 연구팀은 이 데이터 세트를 사용해 언어 인식에 자주 사용되는 인공지능용 신경망을 훈련시켰다. 시간이 지남에 따라 AI의 신경망은 점점 더 많은 입 모양을 인식하고, 인식한 정보를 천천히 이해하게 됩니다. AI는 영상의 일부만 인식하는 것이 아니라 전체 음성의 일반적인 아이디어를 기반으로 인식한 정보를 통합합니다. 문맥에 따라 자동으로 문장을 분석하여 전체 발화의 요지를 파악합니다.
최근에는 하이윤데이터, 소고우 등 국내 기업에서도 입술인식 기술을 많이 출시했다. 입술 인식 기술은 공공 보안, 군사 정보, 공공 복지 등 다양한 분야에서 큰 역할을 할 수 있습니다.
성숙한 입술 인식 시스템에는 많은 양의 얼굴 특징 샘플 데이터가 필요합니다. 이러한 데이터에는 훈련된 입술 인식 시스템이 더 나은 일반화 능력을 갖도록 보장하기 위해 가능한 한 많은 장면과 더 많은 유형의 화자가 포함되어야 합니다. .