易配网手机配件商城 > 易配网文章中心 > 手机新闻 > 【AlphaGo首席工程师黄士杰揭露AI无敌新关键】不靠海量资料,自我学习就有效:增强式
    热销排行榜促销产品

    【AlphaGo首席工程师黄士杰揭露AI无敌新关键】不靠海量资料,自我学习就有效:增强式

    发表时间:2017-11-23 12:46:10, 来源:易配网
    台湾科技新闻:

    10月19日,这一天,人工智慧发展历程进入了新的阶段。因为Google旗下DeepMind在《自然》期刊上发表了新一代AlphaGo Zero,再度吸引了全球目光。AlphaGo Zero只用了3天,就跟上人类数千年围棋积累的知识,40天后,更超越了打败世界第一高手的围棋AI程式AlphaGO。

    新版打败旧版,理应如此,为何值得大书特书?在第一届台湾人工智慧年会中,AlphaGo首席工程师也是DeepMind 资深研究员的黄士杰点出AlphaGo Zero真正的意义,他强调:「AlphaGo Zero正式脱离人类知识的资料,不再需要人类的资料。」

    前一代AlphaGo的成功,仍然要靠大量的棋谱,才能训练出打遍天下无敌手的围棋AI模型。但是,AlphaGo Zero拥有自我学习的能力,不需要事先学习人类下棋的棋谱,很快就能达到,甚至超越前一代AlphaGo的实力。深度学习,除了运算力之外,还需要大量的标记资料,才能训练出有足够解释力或预测力的深度学习模型,「资料量」成了决定AI技术品质的关键,也是限制,因为要取得大量资料,尤其是标记资料,不是一件容易或便宜的事,不少AI巨头,如Google,还是得靠全球规模的消费服务,才能蒐集到够多的各类标记资料来训练机器学习模型。

    但AlphaGo Zero的问世,意味着机器学习出现了另一条和过去不同的可能性:不需海量的训练资料,也可以建立高品质的机器学习模型。「关键就是,增强式学习(Reinforcement Learning)的突破。」黄士杰强调。

    40天自我对弈2,900万次,完全不靠资料

    AlphaGo Zero最大成就是能够从零开始,透过自我学习的方式来下围棋。甚至靠着自我学习,AlphaGo Zero在短短的36小时后,就摸索出所有基本且重要的围棋知识,围棋程度达到与李世乭九段对战的AlphaGo v18相同水平,经过3天学习,AlphaGo Zero对战AlphaGo v18甚至是100%的完胜,也很快达到网路60连胜的Master版围棋程式的水準。根据DeepMind这篇新论文上的数据,AlphaGo Zero第一阶段实测阶段,三天自我学习训练中,共自我对弈(Self-play)了490万次,每次只需要0.4秒就能想出下一步棋。

    确认了增强式学习来自我对奕的可行性后,DeepMind採用更大规模的神经网络,同样从头开始训练,花了40天,自我对奕了2,900万次,这个花了40天训练的最终版AlphaGo Zero,对战Master的胜率接近90%,成为有史以来AlphaGo棋力最强的版本。

    AlphaGo原本的版本需要用数千盘人类棋手的对战来训练,然而AlphaGo Zero只用了增强式学习技术,过程中完全没有经过人类的干预,也从未使用过去的棋谱资料。黄士杰认为,不需要经过人类干预的增强式学习,将为成为一种趋势。

    儘管AlphaGo Zero仍然以围棋为开发範本,但DeepMind期待,这个技术未来可以应用到在其他类似的结构化问题,例如蛋白质折叠、降低能源损耗,或是寻找革命性的新材料等。

    不过,AlphaGo Zero的诞生,并非一蹴可及,一手催生出AlphaGo的黄士杰,更是十年磨一剑,花了10年都专注在电脑围棋研究,才得以有成。黄士杰也首度在台公开了研发AlphaGo的幕后经历。

    AlphaGo的起源要从黄士杰在攻读博士班时,开发的一支单机版电脑围棋程式Erica说起,Erica其实是黄士杰妻子的名字。当年,参与创立DeepMind的推手,也是现在AlphaGo团队主管的David Sliver,看到黄士杰的研究成果非常惊讶,特地写了封信给黄士杰,询问黄士杰要不要加入DeepMind。黄士杰后来在隔年,2012年11月才正式加入DeepMind。

    DeepMind目标是通用人工智慧

    黄士杰指出,DeepMind的目标是要打造出通用的人工智慧,因此,当年开始投入电脑围棋AI研发时,DeepMind的共识就是不要只是複製Erica,做一个2.0本就好,不要受限于既定的限制,而要找出新的作法。

    AlphaGo发想自DeepMind执行长Demis Hassabis的点子,他提议要研究电脑围棋专案,于是黄士杰与他的主管David Sliver才开启了了这项研究专案,后来研究团队又加入了Chris Maddison、llya Sutskever,一同参与开发AlphaGo,而「为什么要做围棋?」,这是许多人的疑问,黄士杰解答,IBM深蓝在西洋棋战胜人类之后,就只剩下围棋这项挑战了。

    但要选择什么样的技术,才能打赢围棋高手呢?黄士杰认为,如果人类可以马上判断下这一步是好棋,那么以仿效人类大脑思考的神经网路技术,也应该可以做得到。

    所以,黄士杰运用神经网路中的深度学习技术,来开发围棋AlphaGo程式,利用人类的棋谱来训练AlphaGo建立下棋的策略网路(Policy Network),「用深度学习来训练围棋程式,就是用人类的直觉来下围棋。」他解释。

    不过,训练「程式」也不是一件容易的事。黄士杰每天的工作就是反覆训练神经网路、测试、观察胜率,不断地重複这样的过程,不断尝试解决神经网路得建立多深、资料集有没有问题、神经网路需要几层等等的问题。

    尤其在专案刚开始的第一个月,用深度学习来打造AlphaGo程式,甚至用了围棋专家的3千万个棋步来训练神经网路,几乎是行不通的方向,胜率并不高,不过,他们后来找到新方法,解决了机器学习训练常见的Overfitting过度优化问题后, AlphaGo的胜率就大幅达到95%,才开始确信这是条可行的方向。

    AlphaGo关键突破:可判断形势的价值网路

    接着,AlphaGo专案做出了最关键的突破,就是加入了可供判断形势的价值网路(Value Network)设计,可以将增强式学习来结合深度学习,让AlphaGo拥有学习的能力,尤其可以做到让AlphaGo自己和自己下棋。

    黄士杰形容,就像是一种左右互搏的自我学习,左手和右手对战。DeepMind也找来欧洲围棋冠军樊麾,来和AlphaGo对奕。2016年1月,AlphaGo研究成果首次登上了学术圈重量级期刊《自然》期刊,开始出现在世人面前。

    2016年中,AI专用硬体技术的成熟,如TPU深度学习专用晶片也带来很大的帮助。黄士杰指出,相同的程式码,用TPU执行的胜率,会变得非常高。AlphaGo将直觉和判断一起训练,就能将直觉和判断达到一致性,并将策略和价值网路结合,变成Dual Network,之后再不断的加强训练流程。

    不过,为了测试AlphaGo的能耐,黄士杰努力说服团队,要上网实测AlphaGo的棋力,后来,终于在2016年底,AlphaGo Master在网路上找到中、日、韩、台等各国顶尖围棋棋手来对奕,一天连下10盘,就这样在自家的房间低调地用单机训练AlphaGo Master。

    当时下一步棋平均要4 ~8秒,一局下完大约需要1小时,而与职业棋手的对战都是全胜,他认为,电脑围棋AI的价值在于「扩展围棋界的理论和思路」。

    他指出,目前AlphaGo Zero棋力还在持续精进中,DeepMind的团队合作创造许多不错的成果,包含发表了两篇论文,以及与人类大战两次的大战,在网路上有60个棋局训练,最后还拍了《AlphaGo》的纪录片。

    前一代AlphaGo,是以模仿人类直觉来下棋而设计,透过大量棋谱、庞大专家知识来训练机器学习模型,藉此而打败了了世界棋王。但是,新一代AlphaGo Zero的出现,意味着具备自我学习能力的围棋AI,更超越了模仿人类直觉的旧版本。

    甚至,DeepMind团队还从AlphaGo Zero自我对弈中的2,900万盘棋棋谱中,找到了,过去人类围棋知识视为不可能的新棋步,这也意味着,AlphaGo Zero的成功,证明了AI自我学习到的知识,可以超越人类知识的可能性,也确实能如DeepMind一开始所期待的目标,用AlphaGo来拓展现有围棋专家领域知识的不足,是一种AI 与人的合作,来补足人类知识的缺口。

    黄士杰表示,AlphaGo的成功是深度学习与增强式学习的胜利,硬体资源与TPU也扮演很重要的角色,最后,AlphaGo Zero展示了增强式学习的巨大潜力,他认为,AI要成为人类的工具,与人类合作。

    文⊙王宏仁、何维涓


    手机新闻
    媒体都唱中国赞歌时 比尔盖茨猛然泼冷水
    太棒这样的好东西终于有人发明出来了
    科学家发现了15颗超级地球
    霍金去世 他的勇气与坚持鼓舞了全世界
    日本已造出17头半人半猪用作这个
    瓶装水受塑料微粒污染严重 自来水更安全
    香港手机新闻:中移动 5G 实验室启动 香港用「呢个」频谱
    香港手机新闻:【简易教学】S9 / S9+ 用家要知:点先用到米奇 AR Emoji
    香港手机新闻:【焦点场料】终于出 S9 上台有乜 So
    【台湾资安大会直击】企业网路也要保持健康首先要有效管理弱点
    手机常识&手机技巧
    LG V30手机F1.6摄像头拍照解读 什么是相机光圈
    剪卡器把卡剪坏了怎么办
    剪卡器那个牌子好
    剪卡器使用教程_剪卡器
    安卓手机技巧:如何在安卓手机启用开发人员选项(适用于Google Pixel,Samsung Galaxy S7等)
    iPhone 7手机使用技巧:电容式主页按钮失效可使用虚拟主页按钮
    如何使用苹果iPhone 7手机截图
    安卓7牛轧糖的代码隐藏:虚拟导航按钮可以完全自定义
    三星Galaxy Note 7常见问题解答
    三星Galaxy Note 7手机用户必备:23个Galaxy Note 7使用技巧
    关于易配网
    易搭网:力争打造优质手机配件易搭网购物平台
    深圳市华诚易配电子商务有限公司发展历程
    关于我们-关于深圳市华诚易配电子商务有限公司
    联系我们
    加入我们
    公司资证-深圳市华诚易配电子商务有限公司
    友情链接
    免责条款
    隐私保护
    网站故障报告
    帮助&指南
    如何升级为VIP用户?
    售后保修政策
    配件回购业务
    [测试 已过期] 液晶屏回购参考价格
    优惠券使用
    常见问题
    购物流程
    找回密码
    注册登录
    易配网公告
    品竹-品竹牌子的太阳能无线蓝牙音箱-品竹品牌易配网专卖
    [通知已过期]十一期间业务正常开展
    [测试]中国手机配件网以批发价零售飞毛腿精品商务电池
    [测试]未注册用户 免费领取VIP码
    [测试]内测期间销量超10万
    手机配件促销
    易配网友链合作 手机行业|手机配件行业优化