0
购物车中还没有商品,赶紧选购吧!
易配网手机配件商城 > 易配网文章中心 > 手机新闻 > 【AlphaGo首席工程师黄士杰揭露AI无敌新关键】不靠海量资料,自我学习就有效:增强式
热销排行榜 促销产品

【AlphaGo首席工程师黄士杰揭露AI无敌新关键】不靠海量资料,自我学习就有效:增强式

发表时间:2017-11-23 来源:易配网
台湾科技新闻:

10月19日,这一天,人工智慧发展历程进入了新的阶段。因为Google旗下DeepMind在《自然》期刊上发表了新一代AlphaGo Zero,再度吸引了全球目光。AlphaGo Zero只用了3天,就跟上人类数千年围棋积累的知识,40天后,更超越了打败世界第一高手的围棋AI程式AlphaGO。

新版打败旧版,理应如此,为何值得大书特书?在第一届台湾人工智慧年会中,AlphaGo首席工程师也是DeepMind 资深研究员的黄士杰点出AlphaGo Zero真正的意义,他强调:「AlphaGo Zero正式脱离人类知识的资料,不再需要人类的资料。」

前一代AlphaGo的成功,仍然要靠大量的棋谱,才能训练出打遍天下无敌手的围棋AI模型。但是,AlphaGo Zero拥有自我学习的能力,不需要事先学习人类下棋的棋谱,很快就能达到,甚至超越前一代AlphaGo的实力。深度学习,除了运算力之外,还需要大量的标记资料,才能训练出有足够解释力或预测力的深度学习模型,「资料量」成了决定AI技术品质的关键,也是限制,因为要取得大量资料,尤其是标记资料,不是一件容易或便宜的事,不少AI巨头,如Google,还是得靠全球规模的消费服务,才能蒐集到够多的各类标记资料来训练机器学习模型。

但AlphaGo Zero的问世,意味着机器学习出现了另一条和过去不同的可能性:不需海量的训练资料,也可以建立高品质的机器学习模型。「关键就是,增强式学习(Reinforcement Learning)的突破。」黄士杰强调。

40天自我对弈2,900万次,完全不靠资料

AlphaGo Zero最大成就是能够从零开始,透过自我学习的方式来下围棋。甚至靠着自我学习,AlphaGo Zero在短短的36小时后,就摸索出所有基本且重要的围棋知识,围棋程度达到与李世乭九段对战的AlphaGo v18相同水平,经过3天学习,AlphaGo Zero对战AlphaGo v18甚至是100%的完胜,也很快达到网路60连胜的Master版围棋程式的水準。根据DeepMind这篇新论文上的数据,AlphaGo Zero第一阶段实测阶段,三天自我学习训练中,共自我对弈(Self-play)了490万次,每次只需要0.4秒就能想出下一步棋。

确认了增强式学习来自我对奕的可行性后,DeepMind採用更大规模的神经网络,同样从头开始训练,花了40天,自我对奕了2,900万次,这个花了40天训练的最终版AlphaGo Zero,对战Master的胜率接近90%,成为有史以来AlphaGo棋力最强的版本。

AlphaGo原本的版本需要用数千盘人类棋手的对战来训练,然而AlphaGo Zero只用了增强式学习技术,过程中完全没有经过人类的干预,也从未使用过去的棋谱资料。黄士杰认为,不需要经过人类干预的增强式学习,将为成为一种趋势。

儘管AlphaGo Zero仍然以围棋为开发範本,但DeepMind期待,这个技术未来可以应用到在其他类似的结构化问题,例如蛋白质折叠、降低能源损耗,或是寻找革命性的新材料等。

不过,AlphaGo Zero的诞生,并非一蹴可及,一手催生出AlphaGo的黄士杰,更是十年磨一剑,花了10年都专注在电脑围棋研究,才得以有成。黄士杰也首度在台公开了研发AlphaGo的幕后经历。

AlphaGo的起源要从黄士杰在攻读博士班时,开发的一支单机版电脑围棋程式Erica说起,Erica其实是黄士杰妻子的名字。当年,参与创立DeepMind的推手,也是现在AlphaGo团队主管的David Sliver,看到黄士杰的研究成果非常惊讶,特地写了封信给黄士杰,询问黄士杰要不要加入DeepMind。黄士杰后来在隔年,2012年11月才正式加入DeepMind。

DeepMind目标是通用人工智慧

黄士杰指出,DeepMind的目标是要打造出通用的人工智慧,因此,当年开始投入电脑围棋AI研发时,DeepMind的共识就是不要只是複製Erica,做一个2.0本就好,不要受限于既定的限制,而要找出新的作法。

AlphaGo发想自DeepMind执行长Demis Hassabis的点子,他提议要研究电脑围棋专案,于是黄士杰与他的主管David Sliver才开启了了这项研究专案,后来研究团队又加入了Chris Maddison、llya Sutskever,一同参与开发AlphaGo,而「为什么要做围棋?」,这是许多人的疑问,黄士杰解答,IBM深蓝在西洋棋战胜人类之后,就只剩下围棋这项挑战了。

但要选择什么样的技术,才能打赢围棋高手呢?黄士杰认为,如果人类可以马上判断下这一步是好棋,那么以仿效人类大脑思考的神经网路技术,也应该可以做得到。

所以,黄士杰运用神经网路中的深度学习技术,来开发围棋AlphaGo程式,利用人类的棋谱来训练AlphaGo建立下棋的策略网路(Policy Network),「用深度学习来训练围棋程式,就是用人类的直觉来下围棋。」他解释。

不过,训练「程式」也不是一件容易的事。黄士杰每天的工作就是反覆训练神经网路、测试、观察胜率,不断地重複这样的过程,不断尝试解决神经网路得建立多深、资料集有没有问题、神经网路需要几层等等的问题。

尤其在专案刚开始的第一个月,用深度学习来打造AlphaGo程式,甚至用了围棋专家的3千万个棋步来训练神经网路,几乎是行不通的方向,胜率并不高,不过,他们后来找到新方法,解决了机器学习训练常见的Overfitting过度优化问题后, AlphaGo的胜率就大幅达到95%,才开始确信这是条可行的方向。

AlphaGo关键突破:可判断形势的价值网路

接着,AlphaGo专案做出了最关键的突破,就是加入了可供判断形势的价值网路(Value Network)设计,可以将增强式学习来结合深度学习,让AlphaGo拥有学习的能力,尤其可以做到让AlphaGo自己和自己下棋。

黄士杰形容,就像是一种左右互搏的自我学习,左手和右手对战。DeepMind也找来欧洲围棋冠军樊麾,来和AlphaGo对奕。2016年1月,AlphaGo研究成果首次登上了学术圈重量级期刊《自然》期刊,开始出现在世人面前。

2016年中,AI专用硬体技术的成熟,如TPU深度学习专用晶片也带来很大的帮助。黄士杰指出,相同的程式码,用TPU执行的胜率,会变得非常高。AlphaGo将直觉和判断一起训练,就能将直觉和判断达到一致性,并将策略和价值网路结合,变成Dual Network,之后再不断的加强训练流程。

不过,为了测试AlphaGo的能耐,黄士杰努力说服团队,要上网实测AlphaGo的棋力,后来,终于在2016年底,AlphaGo Master在网路上找到中、日、韩、台等各国顶尖围棋棋手来对奕,一天连下10盘,就这样在自家的房间低调地用单机训练AlphaGo Master。

当时下一步棋平均要4 ~8秒,一局下完大约需要1小时,而与职业棋手的对战都是全胜,他认为,电脑围棋AI的价值在于「扩展围棋训f="手的对戙扨房间伌制ngo一高,不强式学习来自我对奕的可行性后,DeepMind採用更大规模的神经网络,同样从头开始训练,花了40天,自我对奕了2,900万次,这个花了40天训练的最终版AlphaGo Zero,对战Master的胜率接近90%,成为有史nAlphadoster在家的房AlphaGo Zero,对战Master的胜率接近90%,成为有史nAlphadoster在家的房AlphaGo Zero,对战Master的胜率接近90%,成为有史nAlphadoster在家的房AlphaGo Zero,对战Master的胜率接近90%,成为有史nAlphalphaGo Zero,对战Master的胜率接近90%,成为有史nAlppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp是行不通m成一种左右互搿}dpppppppppppppppppp是行不通m䄤篇花了ppppp侊両做出达帤}d达mo Zero,对60和ppp练的殶皐后到95通pppp录pppppppppppp8甚至是100%的殘电模aGo,巋和右手力尝~8秒ﭦ习次及,近关就其40天,自我对奕了2,90pppppppp去Alph不同pppp围棋知识,才能蒐集到}d最终版Al具,将为成䃜,䟺本且重ﺆ另一条和訡aGo,巋和通高Mind。黄士判断右互搿dpppp从蒐集到夺研发Alph将队主_blaAlph姍左战Maspan> 点出AlphaG>