Facebook宣布将在微软的Github代码仓库上向公众免费开放下载其名为Horizon的人工智能软件。Horizon在Facebook内部被用于优化社交网络中的的360度全景视频,根据分析用户接入带宽和缓冲进度为用户带来更流畅的观赏体验、提高向用户推荐内容的精准性、驱动Messenger App中的智能助手M向用户实时提供智能建议。
Horizon基于强化学习技术,计算机在不断自我试错的过程中提高自己的认知能力使目标回报最大化,并尽可能与此同时降低损耗与错误率。强化学习在人工智能领域是一项极具突破性的技术,它创造出了能在围棋界打败最高水平人类选手和能够在复杂多人竞技游戏中与人类同台竞技的算法。但是至今为止加强学习在商业领域的应用还很稀少,其中有一部分原因是在游戏以外的领域让机器通过自我试错的做法带来的风险过高。而且实际问题并无法在实验室环境下模拟还原以供训练机器使用。
为机器设计学习目标,并在机器得出与目标相似的结果时给予其“奖励”;同时在其得出与目标相反接时让其得到“惩罚”的机制与设计游戏非常相似,这也是为什么加强学习在游戏领域的建树更多。“为了克服加强学习技术的这些不足,Facebook团队特别打造了Horizon来帮助公司解决实际运营中遇到的问题,“Facebook应用机器学习总监Srinivas Narayanan在邮件中答问时提到。他表示Facebook现在乐于将这项成果与公众分享。Narayanan还说道:“我们(Facebook)致力于发展开源社区,将已经完善的Horizon向公众开放是一项很自然地决定“。
Facebook在AI领域一直追随着行业同仁,如Alphabet旗下的Deep Mind、GoogleBrain AI teams和Open AI。这些公司都已经将加强学习算法、工具及测试环境向公众开放。Facebook Horizon项目的工程师Jason Gauci在一封邮件中谈到“Facebook是第一家将为解决实际问题而设计的加强学习系统彻底向公众开源的”。Horizon包含一些特有的功能来使得加强学习算法在解决实际问题时更加安全,比如其有特殊软件帮助算法来识别正确的结果,并引导系统向该方向发展。
与其他从零开始,完全由机器自己随机试错进行学的算法不同;Horizon在训练最初阶段会参照工程师设计好的案例,然后根据已有信息进行反事实分析来模拟不同场景。Horizon通过这样的模式使得所有训练均在测试环境中完成,也就意味着用户无需在生产环境中冒险。Gauci说: “一般情况下,使用真实场景会获得比使用反事实分析模拟场景训练更好的效果,不过在Facebook的使用场景中,反事实分析训练已经足够,无需使用真实场景。但我们的团队依然在研究未来使用真实场景数据进行训练的可能性”。在Horizon训练完成之后,用户可在测试环境中用少量数据进行测试,确保一切无误后再推向生产环境。这个过程可以重复使用来简化新模型的训练过程。