计算机行业研究报告：东方证券-计算机行业事件点评：如何看待AlphaGo家族新成员？-171019

行业名称：计算机行业	股票代码：	分享时间：2017-10-20 08:55:55
研报栏目：行业分析	研报类型： (PDF)	研报作者：张颖
研报出处：东方证券	研报页数： 3 页	推荐评级：看好
研报大小： 385 KB	分享者： lin****04	我要报错

如需数据加工服务，数据接口服务，请联系客服电话： 400-806-1866

分享到：

微信朋友圈

新浪微博

百度贴吧

阅读并同意免责条款

【研究报告内容摘要】

        事件：Nature  上线DeepMind  团队最新成果，新一代AlphaGo  Zero  在不需要人类历史棋谱、知识经验的情况下，纯粹依靠强化学习，通过三天时间自我对弈490  万棋局，以100:0  的成绩战胜前一代AlphaGo  Lee（战胜李世乭版本）。
        核心观点
        从DeepMind  发表的原文来看，AlphaGo  Zero  在训练36  小时之后表现就已经超过AlphaGo  Lee，训练72  小时之后的版本以100:0  的成绩取得完胜。
        随后在算法层面设置更多残差模块（从20  个增加到40  个）的AlphaGo  Zero在训练大约一个月时间之后性能明显超过AlphaGo  Master  （战胜柯洁版本），训练40  天之后的Zero  以89:11  的成绩战胜Master。
        从计算硬件层面来看，人工智能专用芯片在处理复杂的神经网络模型时表现出显著的优越性。2015  年10  月战胜樊辉的AlphaGo  Fan  使用了176  个GPU，2016  年3  月战胜李世乭的AlphaGo  Lee  使用了48  个TPU，2017年1  月战胜柯洁的AlphaGo  Master  在单个机器使用了4  个TPU，本次AlphaGo  Zero  同样使用单个机器4  个TPU。
        从算法层面来看，此次版本仅在基础的围棋规则基础上，完全借助强化学习，以更高的训练效率和更少的计算能力需要达到更高的棋艺水平。早期的AlphaGo  分开训练走子策略和胜率判断两个深度神经网络，过程中使用了强化学习、蒙特卡洛树搜索等方法；本次Zero  在结构上同时输出每一步的走子策略和当前情形下的胜率值，一定程度上相当于共用了前序环节特征提取层。
        从数据层面来看，Zero  摆脱了人类棋局的限制，完全使用自我对弈产生的棋局数据，在某种程度上实现了无监督学习，摆脱了深度学习对海量数据的依赖。从Fan、Lee、Master，已经越来越多使用自我对弈数据，但始终未能完全摆脱人类现有棋局。直至本次的Zero，不再依赖人类先验知识，通过自我对弈的490  万棋局（后续战胜Master  的版本产生了2900  万局）却反而能以更高的效率取得更好的成绩。
        围棋毕竟只是围棋，脱离人类先验知识的非监督学习落地还有很长距离。围棋的搜素空间很大，但规则依然是确定的，最终胜负结果也可以明确判断。而事实上现实中很多问题本身就没有明确定义，也没有清晰明确的边界、规则，甚至连不限次数自我对弈都不能实现，并且深度学习/强化学习依然没有解决模型可解释性问题，场景应用依然会受到限制。
        讨论算力、算法、数据三者到底谁更重要没有意义，更多只是在技术、成本等供给端的限制以及具体场景需求共同作用下的一种权衡。①、对于供给一侧，如果海量标注数据获取成本太高或者根本无法获取，那自然会通过更高的计算能力和更先进的算法加以弥补，或者说，这三者的地位本身就是相辅相成，但Zero  的战绩也确实在一定程度上说明算法层面的调整和突破可能会带来跨越性的表现结果。②、从需求一侧，对于技术的追求没有止境，但不同场景对时效、精度的需求不一样，还得考虑成本、可靠性等，适用即可，没必要用高射炮打蚊子、杀鸡用牛刀。
        投资建议与投资标的
        看好在算法层面有明显优势，同时深入线下垂直场景、有深刻业务理解和数据积累的标的，如：科大讯飞(002230，买入)、海康威视(002415，未评级)风险提示
        人工智能技术发展可能遭遇瓶颈、应用落地进度可能不达预期

阅读更详细的内容请直接浏览报告原文

(PDF)

推荐给朋友:

用户已上传 11,410,411 份投研文档


金融服务	房地产	有色金属
医药生物	化工行业	机械设备
交通运输	农林牧渔	电子行业
新能源	建筑建材	信息服务
汽车行业	黑色金属	采掘行业
家用电器	餐饮旅游	公用事业
商业贸易	信息设备	食品饮料
轻工制造	纺织服装	新能源汽车
高端装备制造	其他行业