현재 위치 - 회사기업대전 - 기업 정보 조회 - 딥 러닝 Yann LeCun 1, 2, Yoshua Bengio 3 amp; Geoffrey Hinton 4, 5 전문의 중국어 번역을 요청하세요.

딥 러닝 Yann LeCun 1, 2, Yoshua Bengio 3 amp; Geoffrey Hinton 4, 5 전문의 중국어 번역을 요청하세요.

원본 요약: 딥 러닝을 사용하면 여러 처리 계층을 갖춘 계산 모델이 여러 수준의 추상화를 통해 데이터 표현을 학습할 수 있습니다. 이러한 방법은 최첨단 음성 인식, 시각적 개체 인식, 개체 감지 및 약물 발견, 유전체학과 같은 기타 여러 분야를 포함하여 여러 측면에서 상당한 개선을 가져왔습니다. 딥러닝은 빅데이터의 복잡한 구조를 발견할 수 있습니다. 이 검색 프로세스를 완료하기 위해 BP 알고리즘을 사용합니다. BP 알고리즘은 이전 레이어에서 오류를 얻고 이 레이어의 내부 매개변수를 변경하는 방법을 기계에 지시할 수 있습니다. 이러한 내부 매개변수는 표현을 계산하는 데 사용될 수 있습니다. 심층 컨벌루션 네트워크는 이미지, 비디오, 음성 및 오디오 처리 분야에서 획기적인 발전을 가져왔으며, 순환 네트워크는 텍스트 및 음성과 같은 시퀀스 데이터 처리 분야에서 가능성을 보여주었습니다.

머신러닝 기술은 웹 검색부터 소셜 네트워크 콘텐츠 필터링, 전자상거래 웹사이트의 제품 추천에 이르기까지 현대 사회의 모든 측면에서 강력한 기능을 보여왔습니다. 그리고 카메라나 스마트폰과 같은 소비자 제품에도 점점 더 많이 등장하고 있습니다.

기계 학습 시스템은 사진 속의 물체를 식별하고, 음성을 텍스트로 변환하고, 뉴스 요소를 일치시키고, 사용자 관심 사항에 따라 일자리나 제품을 제공하고, 관련 검색 결과를 선택하는 데 사용됩니다. 점점 더 많은 애플리케이션이 딥 러닝이라는 기술을 사용하고 있습니다. 기존 기계 학습 기술은 처리되지 않은 데이터를 처리할 때 기능이 제한되어 있습니다. 수십 년 동안 패턴 인식 시스템이나 기계 학습 시스템을 구축하려면 원시 데이터(예: 이미지의 픽셀 값)를 적절한 내부 특징 또는 특징 벡터로 변환하는 특징 추출기를 설계하기 위한 정교한 엔진과 상당한 전문 지식이 필요했습니다. 일반적으로 분류기인 하위 학습 시스템은 입력 샘플을 감지하거나 분류합니다. 특징 표현 학습은 원시 데이터를 기계에 공급한 다음 감지하고 분류해야 하는 표현을 자동으로 발견하는 일련의 방법입니다. 딥러닝은 단순하지만 비선형적인 모델을 통해 원본 데이터를 더 높은 수준의 추상적인 표현으로 변환하는 기능 학습 방법입니다. 충분한 변환 조합을 통해 매우 복잡한 기능을 학습할 수 있습니다. 분류 작업의 경우 상위 수준 표현은 관련 없는 요소를 약화시키면서 입력 데이터의 차별적 측면을 향상시킬 수 있습니다. 예를 들어 이미지의 원본 형식이 픽셀 배열인 경우 첫 번째 레이어의 학습 특징 표현은 일반적으로 이미지의 특정 위치와 방향에 가장자리가 있는지 여부를 참조합니다. 두 번째 레이어는 일반적으로 해당 가장자리의 특정 방출을 기반으로 패턴을 감지하며 일부 가장자리의 작은 교란은 무시합니다. 세 번째 레이어는 이러한 패턴을 결합하여 익숙한 대상의 일부에 해당할 수 있습니다. 후속 레이어는 이러한 부분을 재결합하여 감지할 개체를 형성합니다. 딥러닝의 핵심은 위의 각 레이어의 기능이 수동 엔지니어링을 사용하여 설계되는 것이 아니라 일반적인 학습 프로세스를 사용하여 데이터로부터 학습된다는 것입니다.

딥 러닝은 인공지능 커뮤니티가 수년간 최선의 노력을 기울였음에도 불구하고 달성할 수 없었던 문제를 해결하면서 상당한 진전을 이루고 있습니다. 고차원 데이터에서 복잡한 구조를 발견하는 데 탁월한 능력이 입증되어 과학, 비즈니스, 정부 등 분야에서 활용될 수 있습니다. 이미지 인식, 음성 인식과 같은 분야에서 기록을 경신하는 것 외에도 잠재적인 약물 분자의 활성 예측, 입자 가속기 데이터 분석, 뇌 회로 재구성, 비생물학적 돌연변이 예측 등 다른 분야에서도 다른 기계 학습 기술을 능가합니다. 코딩 DNA. 유전자 발현과 질병에 미치는 영향. 아마도 더욱 놀랍게도 딥러닝은 자연어 이해의 다양한 작업, 특히 주제 분류, 감정 분석, 자동 질문 응답 및 언어 번역에서 매우 유망한 결과를 만들어 냈습니다. 우리는 딥 러닝이 수동 엔지니어링을 덜 필요로 하고 사용 가능한 컴퓨팅 성능과 데이터 양이 늘어나는 이점을 쉽게 얻을 수 있기 때문에 가까운 미래에 더 큰 성공을 거둘 것이라고 믿습니다. 현재 심층 신경망을 위해 개발 중인 새로운 학습 알고리즘과 아키텍처는 이 프로세스를 가속화할 뿐입니다.

지도 학습

머신러닝에서는 심층 학습이든 아니든 가장 일반적인 형태는 지도 학습입니다. 집, 자동차, 사람, 애완동물이 포함된 이미지를 분류할 수 있는 시스템을 구축하고 싶다고 상상해 보세요. 먼저 집, 자동차, 사람, 애완동물의 이미지로 구성된 대규모 데이터 세트를 수집하고 각 개체에 해당 카테고리에 레이블을 지정합니다. 훈련 중에 기계는 이미지를 가져와서 각 범주에 하나씩 점수 벡터로 표시되는 출력을 생성합니다. 우리는 원하는 클래스가 모든 클래스 중에서 가장 높은 점수를 받기를 바라지만, 훈련 전에는 이런 일이 일어날 가능성이 없습니다. 출력 점수와 원하는 패턴 점수 사이의 오차(또는 거리)는 목적 함수를 계산하여 얻을 수 있습니다. 그런 다음 기계는 내부 조정 가능한 매개변수를 수정하여 이 오류를 줄입니다. 가중치라고도 불리는 이러한 조정 가능한 매개변수는 기계의 입력 및 출력 기능을 정의하는 "손잡이"로 볼 수 있는 실수입니다. 일반적인 딥 러닝 시스템에는 기계를 훈련하는 데 사용되는 수백만 개의 샘플과 가중치, 레이블이 지정된 샘플이 있을 수 있습니다. 가중치 벡터를 올바르게 조정하기 위해 학습 알고리즘은 가중치별로 가중치가 조금만 증가하면 오류가 증가하거나 감소하는 양을 나타내는 기울기 벡터를 계산합니다. 그런 다음 가중치 벡터는 그래디언트 벡터의 반대 방향으로 조정됩니다. 모든 훈련 샘플의 평균인 목적 함수는 고차원 가중치 공간의 가변 지형으로 볼 수 있습니다. 음의 그래디언트 벡터는 해당 지형에서 가장 빠른 하강 방향을 나타내며 평균 출력 오류가 가장 낮은 최소값에 더 가까워집니다.

실제 응용 분야에서 대부분의 실무자는 확률적 경사하강법(SGD)이라는 알고리즘을 사용합니다. 이는 일부 입력 벡터 샘플 제공, 출력 및 오류 계산, 이러한 샘플의 평균 기울기 계산, 그에 따라 가중치 조정으로 구성됩니다. 목적 함수의 성장이 멈출 때까지 작은 샘플 세트를 제공하여 네트워크를 훈련시키기 위해 이 프로세스가 반복됩니다. 작은 샘플 세트가 전체 샘플의 평균 기울기에 대한 노이즈 추정치를 갖기 때문에 이를 확률론적이라고 부릅니다. 이 간단한 프로세스는 일반적으로 좋은 가중치 세트를 찾고 잘 설계된 다른 최적화 기술에 비해 놀라울 정도로 빠릅니다. 훈련 후 시스템은 다양한 데이터 샘플-테스트 세트를 통해 시스템 성능을 표시합니다. 이는 기계의 일반화 능력, 즉 훈련되지 않은 새로운 샘플을 인식하는 능력을 테스트하는 데 사용됩니다.

현재 애플리케이션의 많은 기계 학습 기술은 선형 분류기를 사용하여 수동으로 추출된 특징을 분류합니다. 2클래스 선형 분류기는 특징 벡터의 가중 합을 계산합니다. 가중치 합계가 임계값을 초과하면 입력 샘플이 특정 범주에 할당됩니다. 1960년대부터 우리는 선형 분류기가 샘플을 매우 단순한 영역, 즉 초평면을 통해 공간을 두 부분으로 나눌 수만 있다는 것을 알고 있었습니다.

그러나 이미지 및 음성 인식과 같은 문제에는 대상의 위치, 방향 또는 조명의 변화와 같은 입력 샘플의 관련 없는 요소의 변화에 ​​너무 민감하지 않은 입출력 기능이 필요하거나 말의 음조나 억양 등에 있어서는 차이가 있지만 특정한 작은 변화(예: 흰늑대와 사모예드라고 불리는 흰늑대 같은 개 사이의 차이)에는 매우 민감해야 합니다. 픽셀 수준에서는 서로 다른 자세와 서로 다른 환경에 있는 두 개의 사모예드 개 이미지가 매우 다르다고 할 수 있습니다. 그러나 같은 위치에 있는 두 개의 사모예드 개 이미지는 동일하지 않을 수 있습니다. 매우 비슷합니다.

그림 1 다층 신경망 및 BP 알고리즘

다층 신경망(연결점으로 표시)은 입력 공간을 통합하여 데이터(빨간색과 파란색으로 표시)가 라인 샘플)은 선형으로 분리 가능합니다. 입력 공간(왼쪽)의 일반 그리드가 히든 레이어에 의해 어떻게 변환되는지 확인하세요(변형된 그리드는 오른쪽에 있음). 이 예제에서는 입력 노드 2개, 숨겨진 노드 2개, 출력 노드 1개만 사용하지만 객체 인식이나 자연어 처리에 사용되는 네트워크에는 이러한 노드가 수십 또는 수백 개 포함되는 경우가 많습니다.

C.Olah(m) 인수와 삼성은 스마트폰, 카메라, 로봇, 자율주행차에서 실시간 비전 시스템을 구현하기 위한 컨벌루션 신경망 칩을 개발하고 있습니다.

분산 특징 표현 및 언어 처리

p>

분산 표현을 사용하지 않는 기존 학습 알고리즘과 비교할 때 딥 러닝 이론은 딥 네트워크에 두 가지 큰 이점이 있음을 보여줍니다. 이러한 이점은 네트워크의 각 노드 가중치의 특성에서 비롯되며 분포에 따라 달라집니다. 첫째, 분산 특징 표현을 학습하면 새로 학습된 특징 값의 조합으로 일반화할 수 있습니다(예를 들어 n-ary 특징의 가능한 조합은 2n개입니다). 심층 네트워크에서는 또 다른 지수적 이점 잠재력(지수 깊이)을 제공합니다.

다층 신경망의 숨겨진 계층은 네트워크의 입력 데이터를 사용하여 특징 학습을 수행하므로 목표 출력을 더 쉽게 예측할 수 있습니다. 다음은 로컬 텍스트의 내용을 입력으로 사용하고 문장의 다음 단어를 예측하기 위해 다층 신경망을 훈련하는 것과 같은 좋은 예시입니다. 즉, 각 구성 요소의 값은 1이고 나머지는 모두 0입니다. 첫 번째 레이어에서 각 단어는 서로 다른 활성화 상태 또는 단어 벡터를 생성합니다(그림 4). 네트워크는 입력 단어 벡터를 학습하고 출력 단어 벡터로 변환하여 문장의 다음 단어를 예측합니다. 네트워크는 어휘의 단어를 텍스트 문장의 다음 단어로 예측하여 학습할 수 있습니다. 문자 그대로의 기호를 표현하기 위한 텍스트 학습의 첫 번째 예에서와 같이 단어의 독립적인 특징으로 해석될 수 있습니다. 이러한 의미론적 특징은 입력에서 명시적으로 표현되지 않습니다. 본 논문에서)은 학습 과정에서 발견되었으며, 텍스트와 개별적인 미세 규칙이 신뢰할 수 없는 경우, 단어를 학습하는 경우 다수의 실제 문장에서 문장이 파생될 때 입력 기호와 출력 기호 간의 관계 구조를 분해하는 좋은 방법으로 사용됩니다. 벡터는 훈련된 모델을 사용하여 새로운 인스턴스를 예측할 때 화요일 및 수요일(수요일), 스웨덴 및 노르웨이와 같이 유사한 개념을 가진 일부 단어를 혼동하기 쉽습니다. 상호 배타적이지 않으며 해당 구성 정보는 관찰된 데이터의 변경 사항에 해당합니다. 이러한 단어 벡터는 전문가가 결정하지 않지만 텍스트에서 학습된 단어 벡터 표현이 현재 널리 사용됩니다.

그림 4 단어 벡터 학습의 시각화

특징 표현에 대한 논쟁의 중심은 논리 기반 휴리스틱에 대한 이해와 신경망 기반 이해 사이에 있습니다. 논리에 영감을 받은 패러다임에서 상징적 실체는 그 고유한 속성이 다른 상징적 실체와 동일하거나 다르기 때문에 무언가를 나타냅니다. 기호 인스턴스는 내부 구조가 없으며 구조는 사용과 관련이 있습니다. 기호의 의미를 이해하려면 변화하는 추론 규칙에 합리적으로 대응해야 합니다. 이와 대조적으로 신경망은 간단하고 쉬운 상식 추론을 지원할 수 있는 빠른 "직관적" 기능을 달성하기 위해 수많은 활동 벡터, 가중치 행렬 및 스칼라 비선형성을 활용합니다.

신경망 언어 모델을 소개하기에 앞서, 분산 특징 표현을 사용하지 않는 통계 기반 언어 모델인 표준 방법에 대해 간략하게 설명하겠습니다. 대신 짧은 기호 시퀀스의 발생 빈도는 통계를 기반으로 N(N-gram, N-gram)으로 증가합니다. 가능한 N-그램의 수는 VN에 가깝습니다. 여기서 V는 어휘의 크기이며, 텍스트 콘텐츠에 수천 개의 단어가 포함되어 있다는 점을 고려하면 매우 큰 코퍼스가 필요합니다.

N-그램은 각 단어를 원자 단위로 취급하므로 의미상 관련된 단어의 시퀀스 전체에 걸쳐 일반화할 수 없는 반면, 신경망 언어 모델은 각 단어를 실제 특징 값의 벡터와 연관시키고 벡터 공간에 의미적으로 관련된 단어가 위치하기 때문에 일반화할 수 있습니다. 서로 가깝습니다(그림 4).

순환 신경망

역전파 알고리즘이 처음 소개되었을 때 가장 흥미로웠던 점은 순환 신경망(이하 RNN) 훈련을 사용했다는 것입니다. 음성 및 언어와 같은 시퀀스 입력과 관련된 작업의 경우 RNN을 사용하면 더 나은 결과를 얻을 수 있습니다. RNN은 입력 시퀀스 요소를 한 번에 하나씩 처리하는 동시에 과거 시퀀스 요소에 대한 기록 정보를 포함하는 네트워크의 암시적 단위에 암시적인 "상태 벡터"를 유지합니다. 이것이 심층 다층 네트워크에 있는 다양한 뉴런의 출력인 경우 다양한 이산 시간 단계에서 이 암시적 단위의 출력을 고려하여 역전파를 사용하여 RNN을 훈련하는 방법을 더 명확하게 만듭니다(그림 5, 오른쪽).

그림 5 순환 신경망

RNN은 매우 강력한 동적 시스템이지만 역전파의 기울기가 시간 간격마다 증가하거나 감소하므로 이를 훈련하는 데 문제가 있는 것으로 입증되었습니다. 시간이 지나면 결과가 급등하거나 0으로 떨어지게 됩니다.

고급 아키텍처 및 학습 방법으로 인해 RNN은 텍스트의 다음 문자나 문장의 다음 단어를 예측하는 데 매우 효과적인 것으로 확인되었으며 더 복잡한 작업에 적용될 수 있습니다. 예를 들어, 특정 순간에 영어 문장의 단어를 읽은 후 암시적 단위의 최종 상태 벡터가 문장에서 표현하려는 의미나 아이디어를 잘 나타낼 수 있도록 영어 "인코더" 네트워크가 훈련됩니다. 이 "사고 벡터"는 프랑스어 번역의 첫 번째 단어의 확률 분포인 프랑스어 "인코더" 네트워크를 공동으로 훈련하기 위한 초기화 암시적 상태(또는 추가 입력)로 사용될 수 있습니다. 특정 첫 번째 단어가 분포에서 인코딩 네트워크에 대한 입력으로 선택되면 선택이 중지될 때까지 번역된 문장에서 두 번째 단어의 확률 분포가 출력됩니다. 전반적으로 이 프로세스는 영어 문장의 확률 분포를 기반으로 프랑스어 단어 시퀀스를 생성합니다. 이 간단한 기계 번역 방법의 성능은 최첨단 방법과 비교할 수도 있으며, 문장을 이해하려면 추론 규칙을 사용하여 내부 기호 표현을 조작해야 하는지에 대한 의문도 제기됩니다. 이는 일상적인 추론에도 합리적인 결론에서 유추를 이끌어내는 것이 포함된다는 생각과 일치합니다.

남은 단어가 단어 제한을 초과했습니다...

copyright 2024회사기업대전