【CNMO新闻】DeepMind的研究人员表示,他们在近期发布了一项名为“TF-Replicator”的新技术,他们使用了32个谷歌Tensor处理器芯片并行,在半小时内就在熟悉的ImageNet竞赛中达到了顶级基准测试结果的准确性。
TF-Replicator项目的含义是,现在可以通过几行Python代码实现这种GPU的史诗工程,这些代码没有针对任何特定的硬件配置进行专门调整。
一系列新功能已被添加到谷歌的TensorFlow框架中,DeepMind表示,“通过让研究人员自然地定义他们的模型并根据单机设置运行循环,使建立分布式机器学习系统的过程变得非常简单。”
谷歌
该系统比先前的TensorFlow方法更灵活,它的编程也比以前的并行尝试要简单得多,比如去年由Google的Brain部门推出的“Mesh-TensorFlow”,这是一种指定分布式计算的单独语言。
该项研究的论文作者们着手构建一个分布式计算系统,可以处理从分类到通过生成对抗网络(GAN)制作虚假图像,再到强化学习等任务。
作者写道,研究人员不需要了解有关分布式计算的任何信息。研究人员将他们的神经网络指定为“复制品”,该副本可以自动分出在多台计算机上并行运行的单独实例,前提是作者在其TensorFlow代码中包含两个Python函数:“input_fn”和“step_fn”。第一个调用数据集来填充神经网络的每个“步骤”,而另一个函数指定要执行的计算,并且可以用于多台机器并行化神经网络操作。
这期间他们必须克服一些限制,例如,计算节点之间的通信对于诸如收集多个机器上发生的所有梯度下降计算等问题来说可能是非常重要的。
这对工程师来说可能具有挑战性。如果神经网络的单个“图形”分布在许多计算机上,即所谓的“图形内复制”,则可能会出现问题,因为计算图形的某些部分可能尚未构建,这会妨碍计算机之间的依赖关系。他们写道:“一个副本的step_fn可以调用原始的中间图形结构,这需要引用来自另一个本身尚未构建的副本的数据。”
他们的解决方案是将“占位控件”代码放在每台机器的计算图中,一旦所有副本子图最终确定,就可以重写。