최근 알파고 바둑 게임에 관한 인공지능의 문장, 특히 미국 인공지능 방면의 교수를 본 결과, 그동안 언론이 홍보한 것이 거의 모두 틀렸다는 것을 알게 되어 알파 개를 과장했다. 나는 독서 경험 요약을 만들었다.
첫 번째는 미디어 오류 홍보에 대한 수정이다.
1. 알파 go 는 이정표가 역사를 창조했다고 할 수 있지만, 그는 매우 혁신적인 기술을 만들지 않았다
2. 알파고는 진정한 바둑감이 없고, 실제로 생각하고 전략을 세울 줄 모른다. 바둑 해설은 알파고를 사람으로 보는 것은 잘못된 것이다. 알파는 단지 내 다음 단계에 내가 승률이 얼마나 올랐는지 끊임없이 스스로에게 물어본다. (알버트 아인슈타인, 성공명언)
3. 알파고는 강력한 학습 능력이 없다. 현재 바둑력은 거의 1 억 회에 가까운 바둑의 모방과 추측을 바탕으로 한 것으로, 애초에 알파고는 16 만 바둑만 배웠을 때 바둑력이 매우 약했다. 그는 사람보다 학습 효율이 떨어질뿐만 아니라 마희단의 동물보다 학습 효율이 더 떨어진다. 그래서 이와의 모든 이닝이 진보하는 것은 불가능하다. 한 판의 경험은 알파고에 아무런 영향을 미치지 않는다.
4. 알파 고도 실제로 무력궁하법에 기반을 두고 있지만 새로운 기계 학습 방법을 활용한다. 가난법과 기계학습은 모순되지 않는다
5. 앞서 문장 들은 알파가 진한 파란색이 빠르지 않다고 말했지만 알파는 진한 파란색의 5 만배였다. 오늘날 사용되는 아이폰 6S 컴퓨팅 능력은 모두 진한 파란색의 수십 배에 달한다.
6. 인간의 뇌 계산 속도가 느리다는 것은 잘못된 것이며, 컴퓨터 계산 속도에 해당하는 것은 인간의 뇌 뉴런 계산 속도여야 하며, 보수적인 추산은 초당 1000 조 회, 계산 능력은 진한 파란색의 10 만 배라고 한다.
7. 알파는 완전히 학습된 것이 아니다. 우선 밑바닥에는 바둑 규칙을 프로그래밍하는 사람이 필요하고, 둘째 기초적인 다음 원칙은 인위적인 입력
< P > < P > 에 대한 간단한 요약이다. 먼저 알파 바둑 프로그램과 진한 파란색을 포함한 장기는 모두 무력검색법이다. 즉,1. 모든 미래 가능한 변화를 고려하여
2. 앞으로 몇 단계의 승률을 계산하고,
3. 길을 택한다. 하지만 바둑은 한 걸음 한 걸음 걷는 것이 체스보다 더 많이 변하고, 단계 수가 더 많아, 변화의 종류가 우주 원자의 합을 초과할 수 있다. (윌리엄 셰익스피어, 바둑, 바둑, 바둑, 바둑, 바둑) 사실 이것은 장기에도 마찬가지다. 진한 파란색은 많은 수의 프로 체스 선수들을 고용하여 포인트 (예: 병사 한 명이 얼마나 많은 점수를 받는지, 상대 한 대의 자동차 승률이 얼마나 높아지는지, 이 채점 체계는 매우 정확하며, 진한 파란색 사고 범위는 10 몇 걸음으로 압축된다.
하지만 바둑은 이렇게 평가할 수 없었다. 이전에는 바둑 절차가 간단한 인력 입력이었고, 어떤 상황이 어떻게 가는지 보고 융통성이 없었다. 이 프로그램들은 바둑력이 약 400 이다.
2006 년 몬테카를로트리라는 검색법이 발명됐다. 확률 시뮬레이션 방법 (모의 투척 주사위와 유사) 을 이용해 종판 승부만 판단하면 바둑이 정법 함수를 설정할 수 없는 결함을 보완했다. (알파고 역시 몬트칼로트리 방법을 사용한다.) 하지만 이 방법은 종판 계산량이 너무 많기 때문에 바둑 전문가가 바둑 규칙을 제정하고 계산량을 줄이는 데 도움을 줄 필요가 있다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 도전명언) 이 방법은 인공지능 바둑력을 아마추어 5 단으로 끌어올릴 수 있다.
하지만 10 년 동안 컴퓨터 바둑력의 진전은 알파 고까지 비관적이었다. 이를 바탕으로 깊은 인공 네트워크를 도입합니다. 신경망은 50 년 동안 발명되어 직관적이지 않은 인과관계를 쓰기에 적합하고, 소프트웨어는 스스로 조정을 배울 수 있다. 하지만 프로그래밍이 너무 어렵고, 게다가 이전의 컴퓨팅 능력 문제는 줄곧 중시되지 않았다.
6 년 전부터 기술적으로 10 층 뉴런에 도달할 수 있었고, 신경망이 일어나기 시작했다. 빅 데이터와 클라우드 컴퓨팅 기술을 결합해 신경망이 인기를 얻기 시작했다. 이미지 처리 및 얼굴 인식과 같은 프로그램은 프로그래머가 직관적으로 프로그래밍하기 어렵고, 신경망은 여기에 유용하며, 그 중 심도 있는 컨볼 루션 네트워크 기술이 제패되고 있다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 예술명언)
알파 개 팀의 혁신은 이미지를 인식하는 이 기술을 바둑에 사용할 수 있다는 것을 깨닫는 것이다. 알파 개 팀은 신경망을 13 층으로 업그레이드하여 인간 기사가 길을 갈 것을 예측했다.
우선 바둑대전 플랫폼의 3 천만 아마추어 고단위 대국 기록을 배워 알파 개가 인간의 행법을 추측하게 하는 정답으로 삼았다. (윌리엄 셰익스피어, 바둑, 바둑, 바둑, 바둑, 바둑, 바둑, 바둑) 즉, 알파는 처음에는 아마추어 고수들의 평균 놀이를 흉내내고 있었다. 동시에 팀은 바둑 지식을 수동으로 입력했다. 알파는 신경망과 수동 프로그래밍 혼합물입니다.
이 예측 인간 플레이를 전략 네트워크라고 하며, 이 경우 알파를 RP 버전이라고 합니다. 알파개 팀의 논문에 따르면 전략 네트워크를 아마추어 3 단 바둑 프로그램에 가입시켜 아마추어 6 단에 이를 수 있다. 바둑력이 950 점을 올려 2600 (바둑력이 230 점당 5 이닝 3 승경기의 승률은 고득점자 95 승률) 에 이르렀을 때 알파는 이미 세계 최강 바둑 절차가 됐다.
계산량을 줄이기 위해 알파 개는 가치 네트워크라는 심층 컨볼 루션 네트워크를 평가 함수로 사용하여 알파의 예측 결과와 실제 전개 결과의 평균을 승률 참조 정보로 사용합니다. 이 기능을 추가한 알파 개를 정식 버전이라고 합니다. 바둑력이 450 점 높아졌다. 3100 에 달하다.
(바둑력 차이가 500 인 선수들 사이에서 바둑력이 낮은 사람이 바둑 한 판을 이기기가 어렵다는 것을 알아야 한다. 차이가 1000 이면 바둑력이 낮은 자의 승률은 거의 0 이다)
< P > 먼저 규칙을 아는 게이머의 바둑력은 0 이다.손으로 바둑 규칙 바둑 프로그램을 쓰는 바둑력은 약 400 여 개이다. 즉, 프로그램은 상대가 어떤 것을 할 때, 프로그램이 어떻게 가야 하는지, 이런 순전히 수작업 프로그래밍 소프트웨어에 의존하는 바둑력이다. (알버트 아인슈타인, 프로그램명언)
아마추어 선수 최저 수준 (1 단) 의 바둑력은 약 1000 정도다.
신경 네트워크에 가입한 알파 고장기력은 1500 이다. 아마추어 4 단과 맞먹는다. 이때 알로하 고 역시 절차규칙 소프트웨어다. 다만 신경망 훈련으로 바둑 지식에 가입한 것에 불과하다.
r 판 알파 go 체스 1700. 아마추어 5 단과 맞먹는다. 이때 알파고는 몬트칼로트리 검색 기능을 추가했지만 주로 필기 프로그램을 기반으로 했다.
r 판 알파고와 비슷한 프로그램 Zen 체스력은 2200 입니다. 아마추어 7 단과 맞먹는다. 알파 go 체스의
rp 버전은 2700 입니다. R 판에 비해 RP 판의 개선은 수동 프로그래밍의 가장 기본적인 바둑 전략을 바탕으로' 전략 네트워크' 를 가입하는 것이 상대의 낙자 위치를 예측하는 신경 네트워크다. 그래서 알파고 기력이 1000 기력에 육박했다. 이미 세계 최강 바둑 소프트웨어가 되었다. 이 바둑력은 아마도 가장 낮은 등급의 프로 선수 (직업 1 단) 의 바둑력일 것이다.
2015 년 하반기 알파고에 휩쓸린 유럽 챔피언의 기력은 2900 안팎이다. 직업 2 항과 3 단 사이 수준에 해당한다.
정식 알파고의 바둑력은 3100 여 개 (2015 년 말) 이다. 이 버전의 알파고는 이전보다' 가치망' 의 심층 컨볼 루션 네트워크 DCNN 을 추가했다. 그는 패국을 끝까지 계산하지 않고 쌍방의 승률을 평가할 수 있다. 즉, 이전 문장 (WHO) 가 말한 대로 계산이 대폭 감소한 것이다. 이 기술은 원래 이미지 인식 기술에 사용되었습니다.
현재 이세돌 바둑력은 3500 여 개이다. 최고 세그먼트 (직업 9 단) 수준을 넘어선 것과 같다.
커제 바둑력은 약 3600 이다.
는 실제로 이세돌 도전에 도전할 때 알파고 바둑력이 이400 정도 뒤떨어졌다고 발표했다. 그것은 자신과 자신에 대한 대량대결을 통해 바둑력을 높이는 것이다. (팬 후이 (fan hui) 를 물리 칠 때, 그것은 인간의 아마추어 고위층 대전 역사 데이터 학습을 관찰함으로써, 더 강한 상대를 물리치기 위해 더 높은 기술을 가진 선수들에게만 배울 수 있습니다. 바로 자신입니다.) 끊임없이 대국에서 프로그램 바둑력이 부단히 높아지고, 향상된 바둑력은 스스로 대진할 때 더 높은 수준의 바둑 데이터를 만들어 낸다. (윌리엄 셰익스피어, 스튜어트, 자기관리명언)
링고는 이세돌 때 알파고의 바둑력을 보지 못했지만 2016 년 3 월 이시 알파고 바둑력을 이긴 것은 약 3800 정도라고 간단히 추정했다. (230 점 5 이닝 3 승 95 승률로 단일 이닝 승률 80 을 더 낮출 수 있기 때문이다. 리는 3530 안팎의 바둑력이었다.) 그래서 당시 커제 당시 알파고의 상대가 아니었다.
현재 알파고는 바둑 고수 60 연승에 도전하고 있다 (단 한 번의 무승부는 인간 바둑 수가 줄어드는 것) 지금은 바둑력을 평가할 수 없을 것 같다. 한 판도 지지 않으면 바둑력이 얼마인지 도무지 알 수 없기 때문이다. 바둑력 계산 방법에 따르면 바둑력이 무한히 커야합니다. 즉, 칠용주 만화 속 전력이 폭발합니다. 적어도 한 판을 잃어야 그 실제 바둑력을 추정할 수 있다.
기타:
알파는 기간감이 없고 인간과는 다르다고 말했다. 인간이 바둑을 배우기 때문이라면 바둑 규칙과 하법을 총결하여 인과관계와 그 중 논리적 관계를 분석하는 것이고, 알파고는 이 단계를 따라가면 승률이 얼마나 높아지는지 (이 방면과 진한 파란색은 차이가 없고 평가 방식만 다를 뿐) 정말 지혜가 있는 것은 아니다.
알파고 학습 방식은 단지 동물을 훈련시키는 것과 같다. 바른 길로 가면 상을 주고 격려한 뒤 더 높은 확률로 이 걸음을 걷다가 잘못하면 벌을 받는다. (윌리엄 셰익스피어, 햄릿, 보상명언) 그리고이 효율성은 매우 낮습니다. 사실, 그 높은 수준은 매일 일반 프로 선수를 배우는 데 평생 그치지 않는 시간을 통해 바둑을 배우는 것입니다.
그리고 이 학습 과정은' 높은 수준의 사고와 개념이 없다' 는 것은 단지 검색 과정일 뿐이다.
위에서 언급했듯이 알파고 학습이 비효율적입니다. 알파고는 3000 만 판을 공부했을 때 새로운 국면에 대처하는 능력이 좋지 않았기 때문에, 이들 바둑 중 상당수가 중복되는 것은 16 만 바둑에 불과하다는 분석이 나왔다. 수십만 개의 바둑은 알파고 훈련에 충분하지 않다. 천만 급의 바둑 훈련이 필요하다. 그래서 TV 에서 프로기사는 알파고가 매회 이세돌 속에서 새로운 기술을 배우는 것은 불가능하다고 해설했다. 한두 판은 알파고에 쓸모가 없다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 프로명언) 대신, 이세돌 알파 고 (alpha go) 에서 뭔가를 배우고 알파 고 (alpha go) 를 이기기 위해 혁신적인 방법을 사용합니다. 인간의 이런 능력은 인공지능이 갖추지 못한 것이다.
인공지능 전문가들은 현재 인공지능이 실제 지능이 아니라고 생각한다. 알파고는 바둑 능력이 강한 소프트웨어일 뿐, IBM 의 왓슨은 지능 답안 능력이 강한 기계일 뿐이다. 진정한 인공지능은 화이트보드 인공지능 기계가 바둑을 보고, 스스로 바둑 규칙을 배우고, 추리를 통해 바둑을 두는 방법을 추론하는 것이다. Deep mind 는 진정한 인공지능 프로그램을 개발하기 위해 노력하고 있습니다. 최근 목표는 수백 가지 게임을 하면 인류를 이길 수 있다는 것이다. 이것은 진정한 인공지능을 향한 발걸음이다.