This website requires Javascript to function properly. Please go to the setting of your web browser and enable Javascript for this website.

×

Loading...

聊聊AlphaGo和机器学习

geekcode(文心雕码)

Google的AlphaGo创新的东西并不多，更多的是机器学习领域的技术应用水到渠成了。神经网络系统问世半个多世纪了，只是计算机速度快了，能处理的数据多了，调试的技术也相对成熟了，应用才越来越多了。

很多人觉得电脑可以通过成百上千台机器自己和自己下棋学习提高，那岂不是每个月实力都会突飞猛进。其实不会的。当模型接近一个优化解之后，大量的数据输入也不会在有明显提高了。在对樊麾的时候，AlphaGo应该已经接近一个优化解了，之后的进步并不大。

为什么AlphaGo盘面领先的时候经常出臭棋？因为AlphaGo的目标是赢棋的几率，不是去寻找最优解。可为什么局部在计算量不大的情况下，它反而会下出既吃亏也不算简化局面的棋呢？因为AlphaGo很可能也动态的优化计算的时间。就是说，赢面大的时候，它大大减少了搜寻博弈树的广度和深度来节约时间，这样就可能很快找到一步过得去的棋，只要没有怎么降低胜率，它就不再继续找更好的招法了。

有人说李世石在明处，AlphaGo可能进行了针对性的学习。这是很不可能的。因为在机器学习里，为了让结果有意义，要尽量用不同的技术避免过拟合（overfitting）。否则，它面对实战中新的局面的应对能力只会变差。

据说，谷歌团队要把过去人类的棋从系统里删掉，全部依赖机器自己下棋来重新学习。这是怎么回事？了解一点机器学习的人都知道，学习过程很可能会停止在一个局部优化解上。AlphaGo从人类棋局开始学习，现在的棋也有很多人类棋的影子，即使它能打败所有人类棋手，有没有可能只是找到一个局部的优化解，就像下图里的local minimum？还有没有更好的全局最优解？这是非常有意思的事。到时，我们可能看到全然不同的围棋理念。

(#9990555@0)
Last Updated: 2016-3-12

Sign in and Reply Report

Replies, comments and Discussions:

工作学习 / 科技杂谈 / 聊聊AlphaGo和机器学习 -geekcode(文心雕码); 2016-3-12 {1520} (#9990555@0) +3
Google的AlphaGo创新的东西并不多，更多的是机器学习领域的技术应用水到渠成了。神经网络系统问世半个多世纪了，只是计算机速度快了，能处理的数据多了，调试的技术也相对成熟了，应用才越来越多了。
很多人觉得电脑可以通过成百上千台机器自己和自己下棋学习提高，那岂不是每个月实力都会突飞猛进。其实不会的。当模型接近一个优化解之后，大量的数据输入也不会在有明显提高了。在对樊麾的时候，AlphaGo应该已经接近一个优化解了，之后的进步并不大。
为什么AlphaGo盘面领先的时候经常出臭棋？因为AlphaGo的目标是赢棋的几率，不是去寻找最优解。可为什么局部在计算量不大的情况下，它反而会下出既吃亏也不算简化局面的棋呢？因为AlphaGo很可能也动态的优化计算的时间。就是说，赢面大的时候，它大大减少了搜寻博弈树的广度和深度来节约时间，这样就可能很快找到一步过得去的棋，只要没有怎么降低胜率，它就不再继续找更好的招法了。
有人说李世石在明处，AlphaGo可能进行了针对性的学习。这是很不可能的。因为在机器学习里，为了让结果有意义，要尽量用不同的技术避免过拟合（overfitting）。否则，它面对实战中新的局面的应对能力只会变差。
据说，谷歌团队要把过去人类的棋从系统里删掉，全部依赖机器自己下棋来重新学习。这是怎么回事？了解一点机器学习的人都知道，学习过程很可能会停止在一个局部优化解上。AlphaGo从人类棋局开始学习，现在的棋也有很多人类棋的影子，即使它能打败所有人类棋手，有没有可能只是找到一个局部的优化解，就像下图里的local minimum？还有没有更好的全局最优解？这是非常有意思的事。到时，我们可能看到全然不同的围棋理念。

把 LEISURE 的东西偏偏妥妥刚刚地变成了 DATA COMPUTATION。也不知道这是个进步还是毁灭的节奏，还挺快。 -troyd(followher3); 2016-3-12 (#9990571@0) +1

这是数据化时代啊！ -geekcode(文心雕码); 2016-3-12 (#9990575@0)

PK 棋，不是 PK ALGORITHM 和 DATA 嘛。 -troyd(followher3); 2016-3-12 (#9990576@0)

谈的不错，言简意赅。现在机器还是在执行命令（去赢棋！），虽然方法不那么笨了（暴力穷举法-》蒙特卡洛法）。如果哪天机器对人类的命令说，我偏不！人类可就要小心了。 -hiker2(过客); 2016-3-12 (#9990592@0)
我的理解是古狗团队比较好的剖析了围棋的数学表达，过去和人下棋无非是采样，获得一些比较好的样本，现在他们比较自信，认为他们那套体系已经比较完善，那么就可以用机器产生一些样本，来确认这套体系从人工采样和随机采样都能达到效果 -chadan(_); 2016-3-12 (#9990618@0)

这种问题的数学表达也是通过采样来拟合的。 -ding_ding(丁_丁); 2016-3-13 (#9991444@0)

对于这种基本是无穷解的问题现在其实还基本是束手无策。Monte Carlo的随机采样可以逃离局部极点，但是离真正的全局优化还差的远。只是现在的计算速度进步的快，可以在允许的时间内探索更大的空间。 -ding_ding(丁_丁); 2016-3-13 (#9991442@0)

量变导致质变？LOL。 -troyd(followher3); 2016-3-13 (#9991474@0)

我是围棋爱好者。从具体来看，前几盘尤其是第三盘go表现出惊人的计算力和局面控制能力。而第四盘，在并不复杂的局部计算中却连连失误。让人不可理解。是什么原因导致它不能计算了？ -anyi(老山东); 2016-3-15 (#9994455@0)

神经网络并不是精准的计算。它是从已有的范例中学习寻找模式，再用模式推演结果，准确性很高，但不是100%。第四局的变化可能未在它的范例中，甚至和它的学习范例相差很大，或者建立模型的参数还需要调整，从而它的模式作出了错误的判断。 -ejbeqhouse(执手平淡品味平和); 2016-3-15 (#9994475@0)

我觉得不像是这样。这样的话，人工智能岂不是可靠性极差？关键是你无法知道它是否可靠。即使你测试了一百万盘，下一盘还可能出低级错误。 -anyi(老山东); 2016-3-15 (#9994797@0)

that is so true. -ejbeqhouse(执手平淡品味平和); 2016-3-15 (#9994801@0)
这不就是很人很像了。不可能有常胜将军。关键是能否学习到，而不会在下次犯错误。 -steve888(Steve曾经曰(yuē)过); 2016-3-15 (#9994803@0)

神经网络的应用其实是很广的，比如语音识别，图像识别等等。目前用它建立的模型的拟合度比其它方法要好，但也不可能是100%。 -ejbeqhouse(执手平淡品味平和); 2016-3-15 (#9994493@0)

还有，人跟机器比赛不应该沿用时间方面的老规则，这对人太不公平了，顶多规定每一步不能超过20分钟or so。。 -chadan(_); 2016-3-15 (#9994846@0)
一张图解AlphaGo原理及弱点 -keny(keny); 2016-3-15 (#9995152@0)
战胜围棋算什么，这些量化基金正在使用人工智能赚取真正的阿尔法 -keny(keny); 2016-3-15 (#9995155@0)

More Topics

神舟十八号与中国🇨🇳空间站精准对接。

视频20分钟开始，用NANO TECHNOLOGY，盐水发电制成的永动机。Kryon April 2024 - BIG CHANGES

以太泵？那是什么？雅芝：我不知道该怎么称呼这种在地球上没有名字的东西。它是一种类似烟囱的装置，但会在底部和顶部之间产生大气负荷差，从而加热顶部和底部之间管道中的空气，最后在冬天将热量辐射到房子里，在夏天给房子降温。其原理与被称为金字塔的大气/地球负载差

那个37岁得了癌症去世的女士，是因为DNA序列没判断对产生了治疗错误. 请问DNA序列这么难判断对吗？有谁懂的给俺扫盲一下？如果引用AI技术会不会好些？

真好！时隔五个月，旅行者1号重新向地球发回数据。

枫下论坛主坛 / 工作学习 / 科技杂谈