新阿尔法狗放弃人类经验 自学3天100:0碾压旧版

【博闻社】10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。这是AI历史上又一里程碑式的重大消息。

有专家告诉澎湃新闻,“抛弃人类经验”和“自我训练”并非AlphaGo Zero最大的亮点,其关键在于采用了新的reinforcement learning(强化学习的算法),并给该算法带了新的发展。

此外,有专家表示,应理性看待AlphaGo Zero。Deepmind的论文一发表,TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。

该论文称,在数百万局自我对弈后,随着程序训练的进行,AlphaGo Zero独立发现了人类用几千年才总结出来的围棋规则,还建立了新的战略,为这个古老的游戏带来新见解。

《自然》为该论文配发两篇评论文章,一篇来自计算机科学家,一篇来自围棋选手。

世界顶尖棋手的养成,动辄需要数十年的训练、磨砺。但AlphaGo Zero创造了一个纪录:3天。

AlphaGo Lee是AlphaGo Zero的“前辈”。它拥有48个TPU(神经网络训练专用芯片),在参考大量人类棋谱,并自我对弈约3000万盘、训练数月后,2016年3年月,AlphaGo Lee以4:1的击败韩国九段棋手李世石,引发人们关注。

AlphaGo Zero仅拥有4个TPU,零人类经验,其自我训练的时间仅为3天,自我对弈的棋局数量为490万盘。但它以100:0的战绩击败前辈。

Deepmind公司详解了AlphaGo Zero的更多不同之处,在识别棋盘盘面时,它直接识别黑白棋子,而非要将图像分类;它仅使用一张人工神经网络,此前的两张被合二为一。

但更大的革新之处在于,AlphaGo Zero采用了新的算法——强化学习算法。在每一次训练后,AlphaGo Zero都能根据训练结果,进一步优化其算法。

上海交通大学计算机科学领域的一位教授告诉澎湃新闻,他认为,AlphaGo Zero发展了强化学习(Reinforcement Learning)算法。受到AlphaGo Zero的启发,该算法可能应用在更多的“求解”类问题上。

他将强化学习的算法比作“摸着石头过河”。他描述了“求解”类问题的共同特征:这些问题的求解,都要分很多步骤才能完成,整个过程相对漫长,但在结束后,可以根据结束时的状态,来评判此前每一步决策的质量。像蛋白质折叠的预测,新材料的设计等,都属于此类问题。

他表示,“求解”类问题相对简单,它们不同于我们人生中的选择,人生中的每个决定不太容易评价其决策质量。

上海纽约大学计算机科学教授张峥表示,从算法上来说,AlphaGo Zero比其“前辈”更简洁、漂亮。这一次,AlphaGo Zero摆脱了人为的大数据,在人类给定的一个规则下,自主发现新知识,并且纠正人类的错误知识,而且是以惊人的速度达到这一点。有趣的是,AlphaGo Zero却无法解释(它是如何完成这一切的),只能demo(样本)给人类。

复旦大学计算机科学技术学院教授危辉告诉澎湃新闻,AlphaGo Zero的算法、程序,如同一个黑箱,在一次又一次的自我训练后,有了很多优化。拷贝那一行行代码,就可以“继承”这个被优化过的算法。但算法中的详情,人们并不知晓。

危辉将围棋盘面上各种变化比作宇宙中的星辰,通过人类智力、直觉,人们可能已经触及了其中百万分之一的情形,AlphaGo Zero可能触及了其中其中百万分之五的情形,“比人类多,但肯定没有穷尽。”

张峥表示,AlphaGo Zero等人工智能及地球上的计算能力是否穷尽搜索了围棋盘面的各种可能,他不清楚,但AlphaGo Zero等人工智能一定比人更快,而且有新的发现。换句话说,会产生新的棋谱。

上海交通大学软件学院教授陈海波认为,从理论上说,强化学习的算法本来就可以实现自我训练,AlphaGo Zero提供了一个非常好的范例。人工智能的发展依赖三个要素:算法、平台和数据。像AlphaGo Zero一样,人工智能如果使用合适的算法,并改进算法,降低其对数据与平台计算能力的依赖,有助于其推广和应用。

中国科学院自动化研究所复杂系统管理与控制国家重点实验室任主任王飞跃表示,大家应该理性看待AlphaGo Zero的研究成果。Deepmind公司的这一论文一发表,TPU的销量可能就要大增了。他说,AlphaGo的程序的确越来越简洁、有效。但那种“看了AlphaGo Zero,就认为人类经验没用了,人工智能已经超过人类智力”的观点不正确。

他认为,在所有“规则界定得非常清楚,而且规则中包含了所有信息”的任务中,机器或程序都应超过人类。正如汽车会跑得比人快,飞机会飞得比人高。而人工智能在应用中面临更多挑战的是那些规则不清,或者规则清楚但不包含所有信息的事情。在军事国防,社会经济,特别是日常生活的很多应用场景都是这样,人为界定出来的规则可以非常简化,但无法确定所有信息,比如交通规则。这时候,人工智能会做一个好的安全且有效决策吗?

王飞跃表示,真正智能的是AlphaGo Nothing,即人类,为定规则而生。而机器是为执行而造的。

此外,他认为,AlphaGo Zero 以100:0的成绩,战胜AlphaGo Master,其结果十分令人鼓舞,但有误导,且有“造”真的嫌疑。“这让我想起成语‘自相矛盾’。”

澎湃新闻等报道综合

One Comment

Add a Comment

發佈留言必須填寫的電子郵件地址不會公開。