发明人首次复盘人机大战 看看阿法狗是怎么赢的
在“谷李”世纪大战的硝烟散去之后,机器学习与人工智能的热潮不仅没有减退,反而愈发高涨。近日,AlphaGo项目的负责人,被誉为“阿尔法狗之父”的大卫·席尔瓦(David Silver)回到了他的母校——伦敦大学学院(UCL)。在一场私密的分享会上,他回顾了人工智能围棋系统AlphaGo与李世石的五番棋大战。
UCL计算机系是英国计算机领域的翘楚,而席尔瓦在这里攻读博士期间,便投身于人工智能与围棋的研究。这次分享会吸引了众多关注,包括一位在UCL攻读博士学位的中国留学生张伟楠。张伟楠参与了这次分享会,并在会后与席尔瓦进行了深入交流。
两周前的人机大战中,AlphaGo出人意料地取得了压倒性的胜利,以4:1战胜了李世石。棋局进程激烈精彩,丝毫不亚于人类棋手创造的历史名局。在分享会上,席尔瓦详细讲述了AlphaGo背后的技术原理以及对五场比赛的深入分析。
对于外界关心的AlphaGo的下一步和未来,席尔瓦透露了DeepMind团队的计划。他们将在《Nature》杂志发表的文章之后,再写一篇论文,分享在李世石比赛中的技术进步。他还表示,DeepMind一直致力于为开发者社区做贡献,并公布了基于深度强化学习的游戏平台DQN项目(deep-q-network)的代码。关于AlphaGo的代码公开,席尔瓦表示只要找到合适的方案就会公布。
关于AlphaGo的未来应用,席尔瓦认为DeepMind将着眼于与人们日常生活息息相关并可以改变世界的应用,如精准医疗、家用机器人以及智能手机助手等。对于投入大量财力和人力研发围棋对弈系统的意义,席尔瓦表示这是长期投入和专注的结果,也是对技术和围棋的热爱与追求。
作为AlphaGo的幕后技术主管和谷歌DeepMind团队的重要科学家,席尔瓦也是UCL大学计算机系的教授,教授“强化学习”的课程。他曾在加拿大阿伯塔大学获得博士学位,师从强化学习大师理查德·萨顿(Richard S.Sutton)。在攻读博士和博士后工作期间,他一直致力于强化学习在围棋人工智能上的研究。现在,随着AlphaGo项目的成功,他的课程也开始广受欢迎。
在谈到AlphaGo的成功时,不得不提到席尔瓦的合作伙伴和DeepMind的CEO戴密斯·哈萨比斯(Demis Hassabis)。两人共同研究强化学习,对游戏有着共同的热爱。DeepMind在被谷歌收购之前,就开始与UCL合作,希望能买断席尔瓦的工作时间,让他在保留大学教职的也能在DeepMind全心工作。
席尔瓦成立的AlphaGo团队汇聚了20位专家,专门研究围棋人工智能。他要求团队在技术研发的每一个环节都追求极致。团队成员透露,有的智能模块在谷歌团队看来已经很完美了,但席尔瓦却仍不满意,要求离完美还有很大的距离。正是这种对技术的追求和团队的配合,最终成就了AlphaGo的骤然爆发。
在复盘谷李大战时,席尔瓦深入剖析了每场比赛的精髓,让在场的听众深刻理解了AlphaGo的运作原理和策略选择。他的分享不仅是对过去战役的回顾,更是对未来人工智能发展的展望。AlphaGo团队进行了深入的复盘,通过几张幻灯片详细剖析了五场比赛的胜败关键,现场观众被禁止拍照。
首局的关键在于AlphaGo以白棋身份在第102手成功打入黑空。尽管职业高手们普遍认为这是一步险招,并且李世石似乎对此有所准备,但结果却是李世石应对失误,落入了AlphaGo的节奏之中。随后的棋局进展表明,AlphaGo已占尽优势。
第二局开始不久,AlphaGo便下出了一手被职业棋手们认为不妥的棋,即第37手的五路肩冲。多数观战的职业棋手认为这一手不太合理,超出了他们的常规行棋逻辑。席尔瓦称之为“反人类”的一手。随着比赛的进行,这手棋的价值逐渐显现,李世石再次无力反击。
席尔瓦解释道,许多专业人士在比赛后第一时间对此手棋提出批评,但重新思考后,他们改口表示也可能会走出这一步。在AlphaGo眼中,这仅仅是当时的一个正常选择。
对于这两局,许多职业围棋选手和媒体都认为AlphaGo是逆转取胜,但在AlphaGo自身的价值网络实时胜率分析中,它始终领先。在获胜的四局中,AlphaGo系统的胜率评估始终高于李世石,从头到尾压制对手直至胜利。
第三局和第五局,AlphaGo在开局不久便取得明显优势并持续提升胜率。与职业棋手基于经验的胜负判断不同,AlphaGo的胜率评估是基于其价值模块的全局最优估计。在第五局右下角复杂争夺时,AlphaGo选择了脱先,转而在其他位置落子。虽然许多职业棋手认为AlphaGo犯错并落后,但实际上这是基于全局最优的选择。
值得一提的是,“神之一手”的背后,AlphaGo并非无懈可击。其漏洞体现在李世石赢得的第四局中,价值模块出现了瑕疵。这是AlphaGo在比赛中唯一的漏洞和失利。在这一局中,李世石弈出了被世界冠军古力称为“神之一手”的白78手,使AlphaGo陷入困境并连续出现失误。席尔瓦揭示,尽管AlphaGo的计算体系中评估过这手棋,但并未料到李世石会选择这样的走法。AlphaGo背后的蒙特卡洛树搜索策略网络很难预测这样的妙手,因此在面对此局面时表现出破绽。
至于人工智能是否已无敌于天下?在这次大赛前,包括李世石在内的许多职业棋手都以为他会轻松取胜。DeepMind团队却充满信心。当DeepMind团队的主力成员展望与李世石的比赛时,他坚定地预言AlphaGo会赢。但实际上,AlphaGo并非完美无缺,其背后的价值模块仍有瑕疵和局限。这也是目前人类智慧在某些方面仍领先大数据驱动的人工智能的体现。当人们问及从半年前战胜梵麾至今与李世石交手这一时段,AlphaGo的进步体现在何处时,席尔瓦简洁而全面地回答:“我们在系统地优化每一个模型,特别是在价值网络上取得了显著的进步。除了通过自我对弈的结果来预测目标胜率外,我们还采用了搜索策略以更接近于理论上的胜率。”
通俗地说,相较于半年前,今年3月的AlphaGo版本在围棋技艺上有了显著的提升,其水平相当于让人类棋手先下出四个星位。
在李世石被AlphaGo击败之后,包括李世石本人在内的众多中国、韩国、日本的职业棋手都表达了希望再次与AlphaGo对战的愿望。
按照等级分排名,AlphaGo仅次于中国的世界冠军柯洁,位列世界第二。席尔瓦透露的最新版AlphaGo的自我评估分数约为4500,远超现有人类棋手中的最高分柯洁的3600分,其实力相当于围棋界的13段高手,在人类选手中无人能敌。
那么,为何AlphaGo能展现出如此强大的实力呢?在讲座中,席尔瓦分享了今年1月在《Nature》上发表的论文的部分内容,为我们解释了人工智能的基本原理以及AlphaGo的技术框架。
围棋游戏的复杂性在于其巨大的决策空间。对于人工智能而言,能够在人类世界中发挥作用的关键在于决策制定。每一次的决策都会使游戏进入一个新的局面,从而影响后续的决策直至游戏的最终结果。人工智能的目标就是在巨大的决策空间中寻找最佳路径。
围棋棋盘上可能的棋子组合方式多达10的170次方,这个数字甚至超过了宇宙中的原子总数。在如此庞大的决策空间中,试图通过暴力搜索找到最优解是不可能的。
AlphaGo的解决方案是在这样的超大规模空间中实现有效的路径选择。它的技术框架包括两个核心模块:策略网络和价值网络,以及一个解决框架——蒙特卡洛树搜索。
策略网络根据当前的棋盘状态来决策下一步的走子。在AlphaGo的训练过程中,首先基于KGS围棋服务器上30万张业余选手的对弈棋谱进行有监督学习,判断人类棋手最可能的下一步走子是什么。然后,利用这些数据进行自我对弈,通过强化学习进一步提升策略网络。
价值网络则用于预测当前棋盘状态下黑方或白方的胜率。这是一个典型的机器学习预测问题。由于围棋对局的历史数据庞大且复杂,直接预测胜负结果几乎不可能。AlphaGo的策略网络被用来进行大量自我对弈,并记录下胜率作为价值网络的学习目标。有了价值网络后,蒙特卡洛树搜索就可以在适当的深度停止搜索,直接使用价值网络估计当前胜率,大大降低了计算量。AlphaGo结合了多种有效的学习模型来优化决策过程。这种融合使它在围棋领域展现出超越人类棋手的实力。即使是李世石这样的顶尖棋手也无法与之匹敌。这背后不仅体现了AlphaGo的强大技术实力更代表了人工智能科技的飞速发展以及科技巨头如谷歌等在人工智能领域的激烈竞争。在这个人工智能飞速发展的时代,几大科技巨头纷纷投身于人工智能的研究,并展开了一场激烈的人才争夺战。
几天前,在智能围棋大赛上,Facebook推出的“黑暗森林”系统取得了第二名的佳绩。该系统的核心团队成员之一田渊栋,曾是谷歌无人驾驶汽车项目的重要成员。尽管目前黑暗森林尚未能在围棋领域超越AlphaGo,但这无疑展示了Facebook在人工智能领域的决心和实力。
回想我在微软剑桥研究院的实习经历,我深感人工智能领域的魅力。当时,我参与了Xbox音乐推荐引擎的研究项目,致力于通过强化学习的人工智能算法为用户推荐喜爱的音乐。该项目的负责人是机器学习领域的权威人物特拉·格朗普,他不仅在学术界有深厚的积累,更是围棋的高手。他的离职加盟DeepMind无疑引发了行业内的震动。据说他深深感受到了DeepMind团队的凝聚力与激情,那里成为了许多人工智能研究者的梦想之地。而他在AlphaGo项目中的贡献也证明了他在人工智能领域的卓越才华。
另一位我在微软实习时的导师,曾就职于剑桥大学并专注于贝叶斯机器学习研究。他在扎实的数学功底的支撑下,带领团队在语音识别智能系统领域取得了显著进展。后来,他加入了初创公司并助力苹果Siri智能问答系统的技术革新。如今,他也渴望加入DeepMind,拥抱人工智能发展的浪潮。他认为这个时代是人工智能的黄金时代,未来的5到10年将会有井喷式的发展。他渴望亲自参与这场变革,成为其中的一员。
而在人工智能领域的竞争不仅限于学术界的巨头们。微软推出的AIX人工智能项目为计算机科学家提供了一个通用的人工智能平台,它允许研究者通过编写智能学习程序并在微软的游戏世界中测试来推动人工智能的进步。与谷歌不同,微软延续了自己的平台战略思路,为研究者提供更多的机会和可能性。这一战略思路的差异使得这些科技巨头在人才、技术、市场方面的布局和竞争变得更为激烈。而这竞争或许将决定未来十年中这些巨头的竞争胜负。这些科技巨头的人才争夺战无疑也为整个行业注入了新的活力和激情。在这个时代的人工智能领域中,我们看到了无限的可能性和变革的力量。
扫地机器人排行榜
- 从重达百斤价值百万,到能负载2吨,外骨骼机器
- 2022年全球人工智能产业态势分析
- 超拟人数字人重磅发布,讯飞智作引流数字人新
- 低空经济破局进行时:无人机末端配送常态化,
- MDN Web 文档项目引入生成式 AI 后遭到开发者广泛
- 产教融合 校企联动 GCVC大会技术与教育论坛成功
- 中国工业互联网平台的最新观察
- 三菱电机:匠心独具 打造功率半导体行业“样本
- 玩机器人玩出“十一连冠” 碧波实小国际大赛再
- 一体化、智能化、自动化——引领模具智造 DM
- 英特尔携美国红十字会 将人工智能技术用于防灾
- 抓住人工智能“牛鼻子” 加快形成新质生产力
- 中国探月工程正打造月球版北斗系统,深空互联
- 减轻员工工作量 新加坡图书馆试用机器人管理员
- 全球机器人产业竞争中的中国策略加快追赶步伐
- OpenAI 不惜重金挖角谷歌,年薪可达 1000 万美元