현재 위치 - 회사기업대전 - 기업 정보 공시 - Tencent 알고리즘 수석 연구원 Chen: 지능형 질의 응답 기술 및 그 응용

Tencent 알고리즘 수석 연구원 Chen: 지능형 질의 응답 기술 및 그 응용

인공지능의 급속한 발전과 광범위하게 응용됨에 따라 점점 더 많은 설비가 스마트 문답 기술에 이식되어 인간-컴퓨터 상호 작용 장면이 곳곳에서 볼 수 있게 된다. 스마트 퀴즈 미래는 매우 중요한 입구가 될 것이다.

업계 최고의 지능형 AI 엔진 알고리즘과 방대한 데이터 웨어하우스를 통해 텐센트 (Tencent Xiaozhi) 는 수많은 비즈니스 테스트 및 최적화를 통해 90% 이상의 지식 포인트 일치와 정확도를 제공합니다. 2065 438+08 GITC 글로벌 인터넷 기술 컨퍼런스에서 텐센트 샤오지는 올해의 인터넷에서 가장 가치 있는 제품상을 수상했습니다.

텐센트 소치 알고리즘 책임자인 첸도 스마트 퀴즈 기술 원리와 To B 장면에서의 응용에 대한 특집 연설을 발표해 자신의 관점에서 스마트 퀴즈 기술의 최신 성과를 보여 주었다.

그는 먼저 스마트 문답이 무엇인지, 왜 해야 하는지, 어떻게 해야 하는지에 대해 현재의 스마트 문답 기술에 대한 자신의 입장과 가치를 설명했다. 우선, 현 단계의 스마트 문답은 정보 검색 기술의 업그레이드이며 질적 변화가 아니라 양적 변화이다. 그러나 To B 또는 To C 의 시나리오에서 현재 기술은 일부 사용자의 문제점을 효과적으로 해결하고 사용자 경험을 향상시킬 수 있습니다. 이는 절박하고 상상력이 풍부한 방향입니다.

어떻게 해야 하는지에 대한 질문에 답하면서 그는 일륜 문답 로봇, 다륜 문답 로봇, 독해력 로봇 등 여러 가지 다양한 문답로봇의 구현 경로를 상세히 소개했다. 문자 일치, 단어 벡터 일치, 깊이 의미 일치, 마이그레이션 학습 등 단일 라운드 질의 응답 로봇의 구현 원리를 중점적으로 설명합니다.

이후 그는 스마트 고객 서비스 로봇과 전화 로봇 등 소지팀이 이 기술을 생산화한 경험을 공유해 현재 제품 형태, 하이라이트, 실제 프로젝트에서의 성과를 주로 공유했다.

마지막으로, 그는 샤오지의 현재 일을 간단히 요약하고 스마트 문답의 발전에 대해 자신의 견해를 제시했다.

--

다음은 연설의 전문입니다:

안녕하세요 여러분. 오늘 여기서 공유 보고서를 만들어 드리게 되어 기쁩니다. 첫째, 텐센트 (Tencent Xiaozhi) 는 정부와 업계에 지능형 질의 응답 솔루션 패키지를 제공하기 위해 노력하는 팀입니다. 현재 문자 기반 스마트 고객 서비스 로봇과 음성 기반 전화 로봇이 착지했다.

대부분의 사람들의 인식에서, 스마트 문답은 아마도 위의 세 가지 인상일 것이다. 20 1 1, 퀴즈에서 이긴 왓슨이 패배했다. 소피아, 20 17 사우디 시민권을 부여받은 로봇 아이언맨' 에서 비교적 유명한 로봇 집사인 자비스입니다. 모두의 마음속에서 지능은 실물처럼 소통할 수 있는 것이다. 그러나, 실무자로서, 나는 현재 기술이 아직 이 목표에 미치지 못한다는 것을 알려 드리게 되어 매우 유감입니다. 현재의 스마트 퀴즈 기술은 본질적으로 정보 검색 기술의 업그레이드이며 질적 변화가 아니라 양적 변화라고 생각한다. 이 왕관의 보석은 아직도 우리가 따기를 기다리고 있다.

문답 기술이 아직 미숙한데, 왜 이 분야에 전념해야 하는가? 저는 To B 와 to c 의 두 가지 관점에서 대답하고 싶습니다. 기업에게는 현재의 문답 기술로는 복잡한 컨설팅에 답할 수 없지만, 대부분의 간단한 머리 질문은 잘 대답할 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 예술명언) 이번 AI 조류에서 NLP 트랙의 몇몇 시드 선수들이 모두 스마트 고객 서비스 방향으로 뛰어들어 기업들이 스마트 문답에 대한 강성 수요가 있다는 것을 알 수 있다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 스포츠명언) 일반 사용자의 경우 시리와 같은 음성 도우미는 매일 사용자에게 편리한 상호 작용 인터페이스를 제공하고, 아마존 에코 등 스마트홈 제품도 점차 수많은 가구로 들어와 사물인터넷 생태계의 중심 입구 중 하나가 되고 있다. 이것이 스마트 문답의 가치다.

그렇다면 스마트 퀴즈 로봇을 어떻게 실현할 수 있을까요? 먼저 가장 기본적인 일륜 문답 로봇의 실현 원리를 살펴봅시다.

검색 엔진에 익숙한 친구들은 이 구조가 검색 엔진의 아키텍처와 비슷하다는 것을 알게 될 것이다. 일반적으로 1 라운드 문답은 FAQ 로, 비즈니스 문답쌍을 기준으로 일치하는 문답고를 검색한다. FAQ 질문 세트에는 사용자가 일치시킬 수 있는 몇 가지 유사한 질문이 포함되어 있습니다. 사전 처리 단계에서는 일반적으로 텍스트 오류 수정, 표준화 및 NLP 피쳐 추출이 수행됩니다. 리콜 단계에서는 역방향 인덱스에서 몇 가지 후보 문제 (거친 순위) 가 리콜되고, 최종 일치 단계에서는 다양한 모델을 기준으로 일치 점수가 매겨지고 가장 높은 점수 (미세 순위) 가 반환됩니다. 일치 단계에서는 지식 맵 및 거부 모델과 같은 추가 모듈이 도입되어 일치의 최종 정확도를 높일 수 있습니다.

검색의 매칭은 유치한 솔루션, 단어 패키지 +VSM, 후보 필터링으로 볼 수 있지만 세밀한 정렬에는 더 세밀한 전략이 필요합니다. 먼저, 우리는 감독 정보를 사용하여 맞추어야 하며, 문제 쌍을 기준으로 훈련 코퍼스를 만들어 맞춤이 이 이원 목표와 일치하는지 확인해야 합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 도전명언) 둘째, 특성상 희소한 단어 주머니 모델을 버리고 다양한 유사성을 만들어 BaseScore 를 만든 다음 비선형 잡음 방지 기능이 강한 xgboost 로 융합한다. 예를 들어, 우리는 단어 이원모형, 단어 이원모형, 핵심어, 명사 등의 특징세트의 유사성을 이용한다. 이 방법의 장점과 단점을 종합했다. 모형은 글자 그대로 비슷한 특징만 배우고, 영역의 영향을 받지 않고, 보편성을 가지고 있어 콜드 스타트에 적합하다. 그러나 우리가 문자 그대로의 유사성만 고려하기 때문에 더 깊은 의미 일치를 처리할 수 없다.

그렇다면 의미 론적 유사성을 측정하는 방법은 무엇입니까? 단어 벡터 기술의 부상은 의미 일치의 전제이다. 단어 벡터란 고립된 기존 토큰 표현을 상호 연관된 벡터 공간에 매핑하는 것입니다. 이러한 연관성이나 유사성은 단어의 문맥에 의해 설명됩니다. 즉, 문맥에서 비슷한 단어가 많을수록 의미가 비슷하고 단어 벡터의 유클리드 거리가 가까워집니다. 이것은 이해하기 쉽고, 더 좋은 것은 간단한 덧셈 벡터를 통해 개념 관계를 나타낼 수 있다는 것이다. 예를 들어 king-man+woman 의 결과는 queen 에 매우 가깝고, 설명어 벡터는 어느 정도 의미를 설명할 수 있다. 문장을 어떻게 벡터로 표현합니까? 간단한 아이디어는 직접 합계 평균입니다. 대량살상무기는 또 다른 흥미롭고 효과적인 방법이다. 문장과 문장의 유사성을 계산하는 것을 수송 문제로 모델링하고 문장 P 의 각 단어를 문장 Q 의 각 단어로 옮기는 것은 변환이라고 할 수 있다. 운송 비용은 단어 벡터의 코사인 유사성이며 문장에서 각 단어의 가중치는 운송됩니다. 선형 프로그래밍을 사용하여 최적의 솔루션, 즉 P 에서 Q 까지의 거리를 해결하는 또 다른 효과적인 방법은 SIF 입니다. 아이디어는 단어 벡터의 가중치 합계를 만드는 것입니다. 그러나 문장의 일반적이지 않은 부분, 즉 단어 빈도의 역수로 가중치를 계산하면 실험 효과도 좋습니다.

위의 방법 중 하나는 감독 정보를 사용하지 않기 때문에 효과가 뚜렷한 천장이라는 것이다. 다음 작업은 모두 심도 있는 네트워크를 기반으로 감독 학습 일치를 하는 것이 비교적 간단하다. 첫째, 문장 텍스트는 one-hot 으로 인코딩됩니다. 사전 크기가 500K 이고 인코딩 길이가 500K 차원인 경우 실제로 패키지 모델과 같습니다. 그런 다음 학습을 위해 다층 신경망으로 입력하고, 결국 128 차원의 벡터를 문장의 의미 표현으로 얻은 다음 코사인을 사용하여 두 문장과 문서의 유사성을 계산합니다. 이 방법은 사실 고차원 스파스 표상 특징을 저차원 의미공간에 매핑하는 것이다. 단어 벡터의 사상과 비슷하지만 훈련 목표가 다르다. 여기서는 심층 네트워크 구조를 사용한다.

그러나 CNN 에서 컨텍스트를 처리하는 기능은 창 크기에 따라 달라지므로 원거리 처리할 수 없습니다. 따라서 시계열 모델에 맞게 특별히 사용자 정의된 또 다른 네트워크 단위 RNN 을 고려해야 합니다. 간단히 말해서, 각 순간 T 의 숨겨진 상태 또는 T 단어의 의미 코드는 두 개의 입력 * * *, 즉 이전 순간의 숨겨진 상태와 현재 순간의 원래 입력에 의해 결정됩니다. 장거리 전송으로 인한 그라데이션 사라짐과 그라데이션 폭발을 해결합니다.

CNN 과 RNN 은 모두 원본 입력을 의미적으로 인코딩하는 기본 단위이며, 인코딩된 벡터는 다중 레이어 센서에 연결하여 유사성 계산을 수행할 수 있습니다. 코사인 유사성을 직접 계산하면 dssm 의 업그레이드 버전입니다. 두 문장의 인코딩된 벡터를 함께 접합한 다음 다중 레이어 센서를 통해 유사성을 계산하는 것이 더 일반적입니다. 이를 통칭하여 표현식 모델링이라고 합니다.

또 다른 방안은 두 문장 사이의 상호 작용 정보를 고려하면 그것들이 일치하는지 아닌지를 배우는 데 더욱 중요하다. 이 시나리오를 상호 작용 모델링이라고 하며, 오른쪽 그림은 전형적인 예입니다. 가장 큰 차이점은 두 문장의 모든 창 조합이 먼저 컨볼 루션을 연결하여 상호 작용 정보를 얻는다는 것입니다. 그런 다음 컨볼 루션과 풀링으로 여러 번 표현합니다. 다른 상호 작용 방식에는 코딩, 상호 작용 (예: 불량, 점 곱셈 등) 이 있습니다. 그리고 주의력 표상 계산도 흔히 볼 수 있는 상호 작용 방식이다. (윌리엄 셰익스피어, 윈스턴, 주의력, 주의력, 주의력, 주의력, 주의력, 주의력)

다음으로, 우리는 우리의 방안을 소개한다. 위에서 설명한 모델에 비해 우리 방안에는 두 가지 주요 변화가 있다. 하나는 rnn 레이어의 입력과 출력을 다음 레이어의 입력으로 결합할 수 있도록 밀집된 연결을 사용하는 네트워크 구조입니다. 또 다른 하나는 주의 벡터를 계산하여 상호 작용 모델링을 하는 혼합 주의 메커니즘입니다. 우리는 자체 주의 벡터 계산을 추가한 다음 gate 메커니즘을 통해 두 개의 주의 벡터를 융합하여 문제를 도입합니다.

위의 모델은 5.8M 의 매개변수가 있는 복잡한 모델입니다. 실제로 훈련 어재가 심각하게 부족한 상황이 발생할 수 있다. 이 문제를 해결하기 위해 우리는 마이그레이션 학습 전략을 도입했다. 첫째, 첫 번째는 두 문제가 일치하는지 여부와 같은 멀티 태스킹 공동 학습이며, 문제를 분류하여 예측해야 합니다. 또한 seq2seq 의 번역 모델 교육을 동시에 수행하여 문제 쌍을 일치시킬 수 있습니다. 이 두 전략 모두 정확도 향상에 효과적이라는 것이 증명되었다.

또 다른 아이디어는 더 직관적입니다. 즉, 다른 영역에서 코퍼스, 즉 멀티코퍼스 마이그레이션을 도입하는 것입니다. 미세 조정, 즉 미세 조정 매개 변수는 먼저 일반 코퍼스 교육 네트워크를 사용하여 하위 표현 계층의 매개 변수를 고정한 다음 영역 코퍼스를 사용하여 상위 계층의 매개 변수를 조정하는 방법 중 하나입니다. 또 다른 아이디어는 적대적 학습의 사상을 참고한다. 즉, 새로운 작업인' 혼동분류기' 를 도입하여 현재 샘플이 소스 어재에서 나온 것인지 대상 어료에서 나온 것인지 판단하고, 손실 함수에 역혼동 분류 손실 항목을 추가하여 혼동분류기가 가능한 한 샘플의 출처를 구분하지 않도록 하는 것이다. * * * 매개변수가 있는 표현 네트워크는 두 부분의 어료의 * * * 부분을 배울 수 있습니다

위의 소개는 기본적인 1 륜 대화 로봇을 완성하는 것이지만, 실제 응용에서는 사회 보장 잔액을 조회하는 것과 같이 사용자가 이름, 주민등록번호, 휴대폰 번호 등과 같은 지정된 정보를 제공해야 하는 상호 작용이 필요한 장면이 자주 있다. 이것은 소위 임무 지향 로봇이고, 또 다른 지식지도 기반 로봇은 종종 다륜 상호 작용을 포함한다. 여기서는 다륜 대화 로봇의 아키텍처를 간략하게 소개합니다. 전체적으로 대화 관리 시스템, 일반적인 관리 세션 상태, 4 개의 모듈 포함, 각각 입력 부분: NLU, 의도 인식 및 슬롯 엔티티 추출을 담당하고 있습니다. 예를 들어, 사회보장잔액을 조회하려는 의도가 있다면 사회보장번호를 추출한다. 얻은 의도와 슬롯 값은 대화 상태 업데이트를 담당하는 대화 상태 추적 모듈 DST 로 전송됩니다. 형식적으로, 그것은 함수이다. 입력은 현재 상태 S 와 현재 쿼리에 대한 NLU 처리의 의도와 슬롯 값 Q 이며 새 상태 S' 가 출력됩니다. 다음 단계는 S' 를 새 상태 S' 에 따라 작업 A 를 출력하는 대화 정책 모듈 DPL 로 보내는 것입니다. 일반적으로 이러한 의사 결정 선택은 외부 데이터베이스 또는 에 따라 달라집니다.

앞서 언급한 단륜 문답 로봇의 문제 중 하나는 문답의 정확도가 문답고의 품질에 달려 있고 문답라이브러리 구축은 시간이 많이 걸리기 때문에 데이터 양이 많은 구조화되지 않은 문서에서 직접 답을 추출하는 것이 이상적이라는 것이다. 예를 들어 스탠포드 대학의 오픈 소스 drQA 는 위키피디아 코퍼스를 기반으로 한 오픈 도메인 퀴즈 로봇입니다. 이 독해력 로봇의 구조를 살펴 보겠습니다. 또한 검색 재정렬에 기반한 아이디어입니다. 먼저 코퍼스에서 가능한 단락을 추출한 다음 독해력 모델로 보내 위치 지정, 점수, 정렬, 점수가 가장 높은 답안을 선정한다. 독해력 모델은 일치 모델과 유사하며 먼저 질문과 후보 단락을 코딩해야 하지만 최종 예측 목표는 답안의 시작 및 끝 위치라는 점이 다릅니다. 작년에 우리 팀은 독해력 권위 공개 평가 Squad v 1 1 위를 차지했습니다. 한편 구글, 페이스북, 마이크로소프트, 아리디스, 코다이트를 포함한 국내외 동행자들이 이번 평가에 참여했다. 업계가 이 기술에 대해 여전히 매우 중시한다는 것을 설명하다.

샤오지가 이 기술을 생산에 투입한 경험을 공유해 보겠습니다. 먼저 샤오지의 전체 구조도를 살펴봅시다. 핵심 엔진에는 두 부분이 있는데, 하나는 위에서 강조한 깊이 의미 일치 모델이고, 다른 하나는 이번 공유가 확장되지 않은 지식지도 엔진이다. 이를 바탕으로 FAQ 로봇, 다륜 대화 로봇 (임무 로봇), 채팅 로봇 등을 구축했다. 다음은 우리의 외륜 및 다륜 로봇의 예입니다.

Dell 의 실제 착지 프로젝트에서는 심도 있는 마이그레이션 모델의 의미 일치 능력, 업계 지식지도의 정확한 일치 및 보조 질문으로 인해 작은 지능 로봇이 95% 정도의 답안 정확도를 달성하고 50% 이상의 서비스 인력을 절약할 수 있었습니다. 정부와 기업을 위해 효율성을 높이고 비용을 절감할 수 있습니다.

지능형 고객 서비스를 바탕으로, 우리는 또한 지능형 고객 서비스, 수동 온라인 고객 서비스, 작업 지시 시스템, 전화 로봇을 강력하게 통합하여 고객에게 사전 판매에서 애프터에 이르는 전체 솔루션을 만드는 음성 기반 전화 로봇을 만들었습니다.

다음은 사용자의 질문 의도를 파악하는 NLU 모듈을 중심으로 전화 로봇의 전체 구조도입니다.

관련 엔티티를 선택합니다. NLU 의 출력에 따라 내장형 대화 관리 엔진이 프로세스 상태를 흐름 및 추적합니다.

또한 ASR 음성 인식 및 TTS 음성 합성은 사용자와의 상호 작용을 완료하는 데 필수적인 서비스입니다.

마지막으로, 나는 스마트 문답의 미래 발전에 대해 몇 가지 견해를 제시했다. 현재 학계에서는 모델과 규칙을 더욱 유기적으로 결합해야 한다는 것을 인정하고 있다. 문답 분야에서 규칙의 대부분은 개방영역의 지식지도와 전문 분야의 지식지도를 포함한 지식지도이다. 또한, 로봇이 복잡한 조건 하에서 문제를 처리하고 보다 지능적인 응답을 제공할 수 있도록, 추론 성격의 이성적 지식지도를 연구하여 분야의 규칙과 지식을 설명해야 합니다. 내가 보기에, 스마트 문답의 돌파구 중 하나는 이 세 가지 문제를 해결하는 것이다. 오늘의 나눔은 여기서 끝난다. 감사합니다.

연사는 다음과 같이 소개했습니다.

진송건, 텐센트 데이터 플랫폼부 고급 알고리즘 연구원, 8 년 NLP R&D 경험. 20 17 텐센트 TEG 데이터 플랫폼 부서에 가입하여 스마트 고객 서비스 제품인 텐센트 샤오지의 알고리즘 계획과 착지를 담당하고 있습니다. 수많은 스마트 고객 서비스 프로젝트를 담당하고 있으며, 폐쇄된 지역 스마트 퀴즈 실무 경험이 풍부하다.

copyright 2024회사기업대전