事件:Nature 上线DeepMind 团队最新成果,新一代AlphaGo Zero 在不需要人类历史棋谱、知识经验的情况下,纯粹依靠强化学习,通过三天时间自我对弈490 万棋局,以100:0 的成绩战胜前一代AlphaGo Lee(战胜李世乭版本)。http://www.hibor.com.cn【慧博投研资讯】
核心观点
从DeepMind 发表的原文来看,AlphaGo Zero 在训练36 小时之后表现就已经超过AlphaGo Lee,训练72 小时之后的版本以100:0 的成绩取得完胜。http://www.hibor.com.cn(慧博投研资讯)
随后在算法层面设置更多残差模块(从20 个增加到40 个)的AlphaGo Zero在训练大约一个月时间之后性能明显超过AlphaGo Master (战胜柯洁版本),训练40 天之后的Zero 以89:11 的成绩战胜Master。
从计算硬件层面来看,人工智能专用芯片在处理复杂的神经网络模型时表现出显著的优越性。2015 年10 月战胜樊辉的AlphaGo Fan 使用了176 个GPU,2016 年3 月战胜李世乭的AlphaGo Lee 使用了48 个TPU,2017年1 月战胜柯洁的AlphaGo Master 在单个机器使用了4 个TPU,本次AlphaGo Zero 同样使用单个机器4 个TPU。
从算法层面来看,此次版本仅在基础的围棋规则基础上,完全借助强化学习,以更高的训练效率和更少的计算能力需要达到更高的棋艺水平。早期的AlphaGo 分开训练走子策略和胜率判断两个深度神经网络,过程中使用了强化学习、蒙特卡洛树搜索等方法;本次Zero 在结构上同时输出每一步的走子策略和当前情形下的胜率值,一定程度上相当于共用了前序环节特征提取层。
从数据层面来看,Zero 摆脱了人类棋局的限制,完全使用自我对弈产生的棋局数据,在某种程度上实现了无监督学习,摆脱了深度学习对海量数据的依赖。从Fan、Lee、Master,已经越来越多使用自我对弈数据,但始终未能完全摆脱人类现有棋局。直至本次的Zero,不再依赖人类先验知识,通过自我对弈的490 万棋局(后续战胜Master 的版本产生了2900 万局)却反而能以更高的效率取得更好的成绩。
围棋毕竟只是围棋,脱离人类先验知识的非监督学习落地还有很长距离。围棋的搜素空间很大,但规则依然是确定的,最终胜负结果也可以明确判断。而事实上现实中很多问题本身就没有明确定义,也没有清晰明确的边界、规则,甚至连不限次数自我对弈都不能实现,并且深度学习/强化学习依然没有解决模型可解释性问题,场景应用依然会受到限制。
讨论算力、算法、数据三者到底谁更重要没有意义,更多只是在技术、成本等供给端的限制以及具体场景需求共同作用下的一种权衡。①、对于供给一侧,如果海量标注数据获取成本太高或者根本无法获取,那自然会通过更高的计算能力和更先进的算法加以弥补,或者说,这三者的地位本身就是相辅相成,但Zero 的战绩也确实在一定程度上说明算法层面的调整和突破可能会带来跨越性的表现结果。②、从需求一侧,对于技术的追求没有止境,但不同场景对时效、精度的需求不一样,还得考虑成本、可靠性等,适用即可,没必要用高射炮打蚊子、杀鸡用牛刀。
投资建议与投资标的
看好在算法层面有明显优势,同时深入线下垂直场景、有深刻业务理解和数据积累的标的,如:科大讯飞(002230,买入)、海康威视(002415,未评级)风险提示
人工智能技术发展可能遭遇瓶颈、应用落地进度可能不达预期