수년간의 연구와 발전을 거쳐 인공신경망 기반 인식 방법이 기존의 패턴 인식 방법을 점차 대체했다. 신경 네트워크는 현재 문자 인식, 음성 인식, 지문 인식, 원격 감지 이미지 인식, 얼굴 인식, 필기 문자 인식 등 여러 가지 어려운 인식 작업을 해결하기 위한 첨단 기술이 되었습니다. 그 중에서도 주류 신경망 모델에는 컨볼 루션 네트워크와 재귀 신경망이 있고 컨볼 루션 신경망은? 얀? 락촌? 당신은 온라인입니까? 1998? 2000 년 제안, 부터? 알렉스 ne? 당신은 온라인입니까? 20 12? 연도? ImageNet? 이 프레임워크는 경기에서 1 등상을 수상하는 데 사용되었고, 컨볼 루션 신경망은 빠르게 유행하고 시각 임무에 광범위하게 적용되었다. 현재 가장 진보한 컨볼 루션 신경망 알고리즘은 이미지 인식에서 인간의 육안 인식의 정확도를 능가할 수 있다. 재귀 신경망은? 1990? 에서 재귀 신경망의 보급으로 재귀 신경망은 장거리 의존성을 배우기 위해 문 제어 메커니즘을 도입할 수 있으며, 구조적 관계와 관련된 기계 학습 작업에 적용되며 시퀀스 인식에 중요한 응용이 있다.
심도 있는 신경망과 심도 있는 학습 알고리즘은 과학 연구와 공학 임무에서 뚜렷한 성과를 거두어 매우 인기가 있다. 기존의 수동 피쳐 추출 방법을 대체하여 종단 간 자동 추출 및 학습 기능을 제공합니다. 그 중에서도 심도신경망의 현저한 성공은 대개 성공적인 아키텍처 설계 때문이며, 연구의 중점은 추출 피쳐에서 최적의 아키텍처를 찾는 것으로 옮겨갔다. 일반적으로 모델의 용량이 클수록 네트워크의 성능이 향상되어 모든 함수에 맞출 수 있습니다. 따라서 네트워크 성능을 향상시키기 위해 네트워크 구조 설계가 점점 더 복잡해지고 있습니다. 예를 들어 VGG- 16? 약 1.4 억 개의 부동 소수점 매개 변수가 있으며 전체 네트워크는 500 메가바이트 이상의 저장 공간을 차지하며 $224 \ x 224$ 크기의 이미지를 처리하려면 1.5 억 개의 부동 소수점 연산이 필요합니다. 더 깊은 네트워크 계층과 복잡한 토폴로지가 특성을 더 효과적으로 배울 수 있지만 네트워크 규모가 증가하면 네트워크를 수동으로 설계할 때 더 많은 테스트 오류 시간이 필요하며 전문가조차도 성능이 좋은 모델을 만드는 데 많은 자원과 시간이 필요합니다.
신경망 구조 검색은 네트워크 구조를 자동으로 학습하는 새로운 방법으로, 무거운 네트워크 설계 비용을 줄이는 데 사용됩니다. 지금까지 NAS 방식으로 설계된 네트워크 성능은 수작업으로 설계된 아키텍처를 능가했습니다. NAS 는 AutoML (Automated Machine 학습) 의 하위 영역으로 볼 수 있으며 하이퍼매개 변수 최적화 및 메타 학습과 크게 겹칩니다. NAS 접근 방식의 차이점은 주로 검색 공간, 검색 전략 및 성능 평가의 세 가지 차원에 있습니다.
검색 공간: 검색 공간은 네트워크의 모든 선택적 구조 및 작업을 정의하며, 일반적으로 기하급수적이거나 무제한입니다. 검색 공간을 설계할 때 선험적 지식과 함께 현재 작업에 대한 기존 고급 구조 설계 지식을 참조하면 검색 공간을 효과적으로 좁히고 검색을 단순화할 수 있습니다. 그러나 이는 또한 선호도를 도입하여 온라인 학습을 현재의 인간 지식을 초과하는 구조로 제한합니다.
검색 정책: 검색 공간을 정의한 후 검색 정책은 고성능 모델 아키텍처의 검색을 안내하며, 검색 및 활용의 균형을 보장하는 데 어려움이 있습니다. 한편으로는 성능이 좋은 아키텍처를 신속하게 찾고, 다른 한편으로는 너무 일찍 2 차 우수 아키텍처로 수렴하는 것을 피해야 한다.
성능 평가: NSA 의 목적은 알 수 없는 데이터에 대한 일반화 성능이 좋은 프레임워크를 찾는 것입니다. 모델이 생성되면 성능을 평가해야 합니다. 직관적인 방법은 훈련 세트에서 수렴을 훈련하고 검증 세트에서 성능을 얻는 것이지만, 이 방법은 엄청난 컴퓨팅 능력을 소비하여 탐색할 수 있는 네트워크 구조를 제한하는 것입니다. 일부 고급 접근 방식은 성능 평가의 컴퓨팅 비용 절감에 초점을 맞추고 있지만 오류를 도입합니다. 따라서 균형 평가의 효율성과 효과는 연구가 필요한 문제이다.
계산의 관점에서 신경망은 일련의 연산을 통해 입력 변수 X 를 출력 변수 Y 로 변환하는 함수를 나타냅니다. 계산 그래픽 언어에 따라 신경망은 각 노드가 텐서 Z 를 나타내는 DAG (직접 비순환 그래프) 로 표현될 수 있습니다. , 가장자리를 통해 상위 노드 I(k) 에 연결합니다. 각 가장자리는 후보 작업 세트 o 에서 선택한 작업 o 를 나타냅니다. K 의 계산 공식은 다음과 같습니다.
후보 연산 세트 $O$ 는 주로 컨볼 루션, 풀링, 함수 활성화, 점프 연결, 접합, 덧셈 등의 기본 연산을 포함합니다. 또한 일부 고급 인공 설계 모듈은 깊이 분리가능 볼륨, 확장 컨볼 루션 및 그룹 컨볼 루션과 같은 후보 작업으로 모델의 성능을 더욱 향상시킬 수 있습니다. 입력 노드 선택, 회선 코어 수, 크기, 단계 등과 같은 작업 유형에 따라 다양한 하이퍼매개변수를 선택할 수 있습니다. 검색 공간 설계, 선택 및 조합 작업에 따라 방법이 다르므로 파라메트릭 형식도 다릅니다. 일반적으로 좋은 검색 공간은 인간의 편견을 배제할 수 있어야 하며, 더 넓은 모델 아키텍처를 포괄할 수 있을 만큼 유연해야 합니다.
전역 검색 공간에는 전체 네트워크 구조를 검색할 수 있는 높은 자유도가 있습니다. 가장 간단한 예는 1 왼쪽 그림과 같이 체인 검색 공간입니다. 고정된 수의 노드는 순차적으로 스택되며 이전 노드의 출력만 다음 노드에 입력으로 제공됩니다. 각 노드는 레이어를 나타내며 지정된 작업을 가집니다. 오른쪽 그림은 보다 복잡한 점프 링크와 다중 분기 구조를 도입했습니다. 이 경우 현재 노드는 이전 모든 노드의 출력을 입력으로 병합하여 검색 자유도를 크게 높일 수 있습니다. 많은 네트워크는 다음과 같은 다중 분기 네트워크의 특별한 경우입니다
1) 체인 네트워크:;
2) 나머지 네트워크:
3)DenseNets:
전체 구조 검색은 쉽게 이뤄질 수 있지만 단점도 있다. 첫째, 검색 공간의 크기는 네트워크의 깊이와 기하급수적으로 관련되므로 일반화 성능이 좋은 깊이 네트워크를 찾는 것은 매우 비쌉니다. 또한 생성된 스키마에는 이식성과 유연성이 부족하여 작은 데이터 세트에서 생성된 모델이 더 큰 데이터 세트에 적합하지 않을 수 있습니다. 일부 연구에 따르면 글로벌 구조를 검색할 때 초기 스키마 선택이 매우 중요합니다. 적절한 초기 조건에서 단위 검색 공간 성능과 동등한 스키마를 얻을 수 있지만 초기 스키마 선택에 대한 지침은 아직 명확하지 않습니다.
셀 기반 검색 공간은 수동 설계 지식에서 영감을 받아 LSTM 블록 반복 또는 RNNs 에 나머지 모듈 스택과 같은 고정 구조를 재사용합니다. 따라서 이러한 중복 세포만 검색할 수 있으며, 전체 신경 구조의 검색 문제는 세포 검색 공간에서 최적의 세포 구조를 검색하도록 단순화되어 검색 공간을 크게 좁힙니다. 대부분의 연구에서는 전역 검색 공간과 단위 기반 검색 공간의 실험 결과를 비교하여 단위 기반 검색 공간이 더 나은 성능을 얻을 수 있음을 입증했습니다. 셀 검색 공간의 또 다른 장점은 데이터 세트와 작업 간에 쉽게 일반화할 수 있다는 점입니다. 컨볼 루션 코어와 단위의 수를 늘리거나 줄여 아키텍처의 복잡성을 거의 임의로 변경할 수 있기 때문입니다.
NASNet 은 가장 먼저 제시된 단위 검색 공간 중 하나이며 현재 가장 인기 있는 선택이다. 이후의 대부분의 개선 사항은 작업 선택 및 그룹 조합 전략에 대한 사소한 수정일 뿐입니다. 그림 2 에서 볼 수 있듯이 표준 단위 (normal) 라는 두 가지 유형의 셀로 구성됩니다. 셀) 과 단순화 단위 (reduction? 셀). 각 셀은 B 블록으로 구성되며, 각 블록은 두 개의 입력과 해당 작업으로 정의됩니다. 선택적 입력에는 처음 두 셀의 출력과 셀에 이전에 정의된 블록의 출력이 포함되므로 셀 간 점프 연결이 지원됩니다. 사용되지 않은 블록은 연결되어 셀의 출력으로 사용되며, 마지막으로 이러한 셀은 미리 정의된 규칙을 통해 캐스케이드됩니다.
수동으로 정의된 매크로 구조에 따라 셀 구조를 연결하는 것과는 달리, 계층은 이전 단계에서 생성된 셀 구조를 다음 단계 셀 구조의 기본 구성 요소로 사용하여 반복적인 사상을 통해 최종 네트워크 구조를 얻습니다. Hier 의 계층 검색 공간은 하위 계층 셀을 병합하여 상위 계층 단위를 생성함으로써 단위 수준과 네트워크 수준을 동시에 최적화할 수 있습니다. 이 방법은 3 층으로 나뉜다. 첫 번째 계층에는 일련의 기본 작업이 포함되어 있습니다. 두 번째 레이어는 첫 번째 레이어를 비루프로 연결하여 서로 다른 셀을 구성합니다. 그림 구조는 인접 행렬로 인코딩됩니다. 세 번째 계층은 네트워크 수준 인코딩으로, 두 번째 계층의 셀이 어떻게 연결되어 하나의 완전한 네트워크로 결합되는지 결정합니다. 셀 기반 검색 공간은 이러한 계층 검색 공간의 특수한 경우로 간주될 수 있습니다.
집중 학습은 주체가 환경과 상호 작용하고 주체가 자신의 행동을 개선하여 목표 수익을 극대화하는 연속적인 의사 결정 과정을 효과적으로 시뮬레이션할 수 있습니다. (그림 3) 경화 기반 NAS 알고리즘의 개요를 제공합니다. 에이전트는 일반적으로 반복 신경망 (RNN) 으로, 각 단계 T 에서 동작을 수행하고, 검색 공간에서 새 샘플을 샘플링하며, 상태 관찰과 환경 내 보고를 받고, 에이전트의 샘플링 전략을 업데이트합니다. 이 방법은 신경 구조 검색에 매우 적합합니다. 에이전트의 행동은 신경 구조를 생성하는 것이고, 동작 공간은 검색 공간이며, 환경은 에이전트가 생성한 네트워크에 대한 훈련과 평가이며, 수익은 잘 훈련된 네트워크 구조에 대한 알 수 없는 데이터의 예측 성능이며, 마지막 동작 후에 얻어진다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 스포츠명언)
4.2 진화 알고리즘
진화 알고리즘은 노봉성과 광범위한 적용 가능성을 갖춘 검증된 글로벌 최적화 방법입니다. 많은 연구는 진화 알고리즘을 사용하여 신경망의 구조를 최적화한다. 진화 알고리즘은 일련의 모델, 즉 일련의 네트워크를 진화시킵니다. 각 세대의 이 모델 세트에서 상위 및 돌연변이 1 차 하위 구성요소로 하나 이상의 모델을 선택합니다. 후손을 훈련시킨 후 적합성을 평가하고 인구에 추가합니다.
일반적인 진화 알고리즘에는 선택, 교차, 변이 및 업데이트가 포함됩니다. 선택할 때 일반적으로 통합 선택 알고리즘을 사용하여 상위 클래스를 샘플링하고 상위 클래스로 적응성이 가장 좋습니다. 레모네이드는 커널 밀도 추정을 사용하여 적응도를 추정하므로 네트워크 선택의 확률은 밀도에 반비례합니다. 인터리빙 패턴은 다른 코딩 체계에 따라 다릅니다. 변형은 레이어 추가 또는 삭제, 레이어의 하이퍼매개변수 변경, 점프 연결 추가, 트레이닝 하이퍼매개변수 변경과 같은 상위 항목에 대한 작업입니다. 하위의 경우 대부분의 방법은 서브넷의 가중치를 무작위로 초기화하며, Lemonade 는 네트워크 상태 사격을 사용하여 상위 네트워크에서 학습한 가중치를 하위 네트워크로 이동합니다. Real 등은 자손에게 부모의 돌연변이의 영향을 받지 않는 모든 매개 변수를 상속하도록 했다. 이런 상속은 엄격한 의미에서 기능적 보존은 아니지만 학습을 가속화할 수 있다. 새로운 네트워크를 생성할 때, 집단에서 일부 개인을 제거해야 한다. Real 등은 군종에서 가장 형편없는 개체를 제거하고, AmoebaNet 은 가장 오래된 개체를 제거했다. 또 다른 방법은 정기적으로 모든 개체를 버리거나 개체를 전혀 삭제하지 않는 것이다. EENA 는 하나의 변수를 통해 최악의 모델과 가장 오래된 모델의 삭제 확률을 조정합니다.
에이전트 모델을 기반으로 하는 최적화 방법 (SMBO) 은 에이전트 모델을 사용하여 목표 함수를 근사화합니다. 즉, 샘플링된 네트워크 구조를 훈련시킬 필요가 없습니다. 대신 하나의 프록시 모델만 교육하고 해당 프록시 모델을 사용하여 네트워크 성능을 예측합니다. 일반적으로 실제로는 특정 손실 값을 계산하지 않고 아키텍처의 성능 순위만 얻으면 되므로 에이전트 모델은 상대 점수를 예측하고 원하는 후보 아키텍처를 선택하기만 하면 됩니다. 그런 다음 성능이 좋은 아키텍처만 평가하고 검증 정밀도로 프록시 모델을 업데이트합니다. 이렇게 하면 소량의 후보 아키텍처에 대한 완전한 교육만 하면 검색 시간이 크게 줄어듭니다. 프록시 모델은 일반적으로 제곱 오차를 최소화하도록 훈련됩니다.
베이시안 최적화는 하이퍼매개변수 최적화 중 가장 유행하는 방법 중 하나이다. 가장 고전적인 것은 가우스 프로세스를 기반으로 한 BO 로, 생성된 신경 구조의 검증 결과를 가우스 프로세스로 모델링할 수 있습니다. 가우스 과정을 기반으로 한 BO 의 추리 시간 척도는 관측 횟수에서 입방체이며, 변장신경 네트워크를 잘 처리하지 못한다. 일부 작업에서는 트리 기반 또는 임의 숲 기반 방법을 사용하여 매우 높은 차원의 공간을 효율적으로 검색하고 많은 문제에 대해 우수한 결과를 얻었습니다. Negrinho 는 검색 공간의 트리 구조를 사용하고 몬테카를로 트리를 사용하여 검색합니다. 완전한 비교는 없지만, 초보적인 증거는 이러한 방법들이 진화 알고리즘을 능가할 수 있다는 것을 보여준다.
위의 검색 정책 검색은 개별 검색 공간에서 신경 구조 샘플을 추출하는 것입니다. DARTS 는 검색 공간의 연속 이완을 제안하고 그림 4 와 같이 연속 미세 검색 공간에서 검색하는 신경 구조를 제공합니다. 다음 softmax 함수는 이산 공간을 완화하는 데 사용됩니다.
-응?
이완된 후 구조 검색의 작업은 네트워크 구조와 신경 가중치의 공동 최적화로 변환됩니다. 이러한 두 가지 유형의 매개변수는 각각 교육 세트와 검증 세트에서 번갈아 최적화되며 2 단계 최적화 문제로 나타납니다.
검색 과정을 안내하기 위해서는 생성된 신경망의 성능을 평가할 필요가 있다. 한 가지 직관적인 방법은 네트워크 수렴을 훈련시킨 다음 성능을 평가하는 것입니다. 그러나, 이 방법은 많은 시간과 컴퓨팅 자원을 필요로 한다. 이를 위해 모델 평가를 가속화하는 몇 가지 방법이 제안되었다.
계산 부담을 줄이기 위해 실제 성능의 저품질 근사치로 성능을 추정할 수 있습니다. 구현 방법에는 교육 시간 단축, 데이터 세트 하위 세트 선택, 저해상도 이미지 교육, 레이어당 채널 수 감소, 단위 구조 스택 수 감소 등이 있습니다. 저품질 조건에서 발견된 최적의 네트워크 또는 단위는 최종 구조를 구축하고 데이터 세트에서 대상 네트워크를 재교육합니다. 이러한 정확도가 낮으면 교육 비용이 절감될 수 있지만 성능이 과소평가되고 오차가 불가피하게 도입됩니다. 최근 연구에 따르면 저품질 평가와 전체 평가 사이에 큰 차이가 있을 경우 네트워크 성능의 상대적 순위가 크게 달라질 수 있으며 이러한 오차가 점차 증가할 수 있음을 강조합니다.
조기 정지 기술은 원래 과도한 맞춤을 방지하는 데 사용되었습니다. 훈련 초기에 네트워크 성능을 예측하는 연구가 있으며, 예측 검증 세트의 성능이 떨어지는 모델은 강제로 훈련을 중단하여 모델 평가 속도를 높입니다. 초기에 네트워크 성능을 평가하는 한 가지 방법은 곡선 외삽 법을 배우는 것입니다. 돔 한? 교육 시작 시 학습 곡선을 삽입하고 성능이 떨어지는 네트워크 구조를 예측하는 교육을 종료하는 것이 좋습니다. Swersky 등은 학습 곡선을 평가할 때 네트워크 아키텍처의 하이퍼매개변수를 참조 요소로 사용합니다. 또 다른 방법은 그라데이션의 로컬 통계를 기반으로 미리 중지하여 검증 세트에 의존하지 않고 최적기가 모든 교육 데이터를 최대한 활용할 수 있도록 합니다.
프록시 모델은 네트워크 성능을 예측하기 위해 훈련될 수 있습니다. PNAS 는 네트워크 구조의 성능을 예측하기 위해 LSTM (프록시 네트워크) 을 훈련시킬 것을 권장합니다. PNAS 는 학습 곡선을 고려하지 않고 구조의 특징에 따라 성능을 예측하고 훈련 중 더 큰 네트워크 구조를 추론합니다. SemiNAS 는 대량의 태그 없는 아키텍처를 사용하여 검색 효율성을 더욱 향상시키는 반감독 NAS 방법입니다. 트레이닝 모델이 필요하지 않고 프록시 모델만 사용하여 모델 정밀도를 예측합니다. 네트워크 성능을 예측하는 주요 어려움은 검색 프로세스 속도를 높이기 위해 큰 검색 공간을 적게 평가하여 좋은 예측을 해야 한다는 것입니다. 최적화 공간이 너무 커서 수량화하기 어렵고 각 구조 평가 비용이 매우 높은 경우 에이전트 기반 방법은 적용되지 않습니다.
프록시 모델을 사용하여 네트워크 가중치를 예측할 수도 있습니다. 하이퍼네트워크는 다양한 아키텍처에 대한 네트워크 가중치를 생성하도록 훈련된 신경 네트워크입니다. 하이퍼웹은 후보 아키텍처의 가중치를 하이퍼웹의 예측을 통해 얻을 수 있기 때문에 검색 과정에서 후보 아키텍처의 교육 시간을 절약할 수 있습니다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 스포츠명언) Zhang 등은 그래프 표현을 제안하고 기존의 SMASH 알고리즘보다 그래프 하이퍼네트워크를 사용하여 가능한 모든 구조의 가중치를 더 빠르고 정확하게 예측했습니다.
가중치 상속은 새로운 네트워크 구조가 이전에 훈련된 다른 네트워크 구조의 가중치를 상속하도록 하는 것입니다. 한 가지 방법은 네트워크 상태 발사입니다. 일반적인 네트워크 설계 방법은 먼저 네트워크 구조를 설계한 다음 검증 세트에서 해당 성능을 교육하고 검증하는 것입니다. 성능이 좋지 않으면 네트워크를 재설계하십시오. 이런 디자인 방법은 무용지물이 많기 때문에 시간이 많이 걸린다는 것을 분명히 알 수 있다. 네트워크 상태 구조를 기반으로 하는 방법은 원래 네트워크 구조를 기반으로 수정할 수 있으며, 수정된 네트워크는 이전 훈련의 가중치를 재사용할 수 있습니다. 특수한 전환 방식을 통해 새로운 네트워크 구조가 원래 네트워크로 복구될 수 있으므로 서브 네트워크의 성능은 최소한 원래 네트워크보다 나쁘지 않으며 짧은 교육 시간 내에 더 강력한 네트워크로 계속 성장할 수 있습니다. 특히 네트워크 상태 복사는 모든 비선형 활성화 함수를 처리하고, 점프 연결을 추가하고, 레이어 또는 채널 추가를 지원하고, 더 깊고 넓은 등가 모델을 얻을 수 있습니다. 고전적인 네트워크 상태 사격은 네트워크를 더 크게 만들 수 있을 뿐, 네트워크가 너무 복잡해질 수 있다. 나중에 제시된 대략적인 네트워크 상태 사격은 지식의 제련을 통해 네트워크 구조를 줄일 수 있게 되었다. (윌리엄 셰익스피어, 스튜어트, 자기관리명언) 진화 알고리즘은 종종 네트워크 상태 기반 변이를 채택하거나, 자녀가 부모의 가중치를 직접 상속하도록 한 다음 일반적인 변이를 수행하여 결과 네트워크가 훈련을 다시 시작하지 않고도 초기 값을 더 잘 가질 수 있도록 합니다.