IBM旗下POWER服务器比谷歌云TensorFlow快46倍

  • 时间:
  • 浏览:0

机器学习是人工智能的分支,主要是对能通过经验自动改进的计算机算法的研究。

据国外媒体报道,美国IBM公司近日宣称,其旗下的POWER服务器的机器学习不单单比谷歌云所用的TensorFlow快,要是 是快了整整46倍。

今年2月,谷歌公司的软件工程师安德烈亚斯·斯特本兹(Andreas Sterbenz)撰文描述了何如利用谷歌云机器学习和TensorFlow为大规模广告和推荐场景进行点击预测。他训练了另有有另十个 用来预测“Criteo Labs点击日志”(http://labs.criteo.com/)上广告点击次数的模型。该网站的内容超过1TB,涵盖了来自数百万条广告的型态值和点击反馈数据。

数据在经过30分钟的预出理 要是进行实际学习,利用30台工作机器和29台参数机器进行训练。该模型的训练时间为70分钟,评估损失为0.1293。都前要将你这些数值视为结果准确性的粗略指标。

接下来,斯特本兹利用不同的建模技术来获得更好的结果并减少评估损失,那么 做花了更多时间;最终模型利用了另有有另十个 三期(three epochs,另有有另十个 epoch指所有训练矢量更新权重的次数)深度1神经网络,这又耗费了78个小时。

然而,IBM对此不要感兴趣,我们希望证明当事人的训练框架在POWER9服务器和GPU上运行时,在基本初始训练上的表现能超过谷歌云平台的89台机器。

在瑞士苏黎世的IBM研究中心,研究人员托马斯·帕雷尔(Thomas Parnell)和塞莱斯廷·邓纳(Celestine Dünner)利用了来自Criteo Terabyte点击日志的相同源数据,以及42亿个训练样本,30万个型态——相同的机器学习模型和逻辑回归,但机器学习库不同。我们所用的是Snap机器学习库(Snap Machine Learning)。

帕雷尔和邓纳在4台Power System AC922服务器(涵盖8个POWER9 CPU和16个Nvidia Tesla V30 GPU)上用Snap机器学习库对模型进行训练,结果只用了91.5秒,比70分钟快了46倍。

我们还做了一张表,对Snap机器学习库、谷歌TensorFlow和另外另有有另十个 学习库的结果进行了比较。

▲IBM研究人员做了一张表,对Snap机器学习库、谷歌TensorFlow和另外另有有另十个 学习库的结果进行了比较

比TensorFlow快46倍是不可小视的超越,其中的意味着着何在?两位研究者表示,Snap机器学习库具有多层次并行的特点,能在集群中不同节点之间分配工作负载,从而利用加速器单元,并发掘各个计算单元多核并行性的优势。你这些过程都前要总结如下。

1、首先,数据分布到集群中的各个工作节点上。

2、节点上的数据在主CPU和加速的GPU(CPU和GPU并行运行)之间进行分配。

3、数据被发往GPU的多个内核,而GPU的工作负载采用多系统进程形式。

Snap机器学习库对分层算法进行嵌套,从而利用这另有有另十个 层级上的并行性。两位IBM研究员并那么 说TensorFlow没利用并行性,也那么 在这方面对Snap机器学习库和TensorFlow进行比较,但我们其实表示:“我们采用了特殊的出理 方案,目的是利用GPU的大规模并行架构,一同顾及数据在GPU内存中的局部性,以出理 大量的数据传输开销。”

我们的文章称,用NVLink 2.0接口的AC922服务器比用PCIe接口连接Tesla GPU的至强(Xeon)服务器(至强黄金版630 CPU @ 2.70GHz)要快。文章写道:“对于基于PCIe的设置,我们测到了11.8GB/秒的有效速率,而对于基于NVLink的设置,我们测到的有效速率是68.1GB/秒。”

训练数据在被传送到GPU要是,就在那里进行出理 。NVLink系统发送数据块的速率(55毫秒)远快于PCIe系统(318毫秒)。IBM团队还表示:“在运用于稀疏数据型态时,我们对系统中用到的算法进行了要是 新的优化。”

综上所述,Snap机器学习库能更充分地利用Nvidia GPU。在传输数据到GPU的过程中,通过NVLink要比通过x86服务器的PCIe链接变快。我们并别问我POWER9服务器的CPU速率与至强服务器的CPU相比何如;就目前所知,IBM还未公开发布任何POWER9和Xeon SP直接比较的结果。

目前我们要是能肯定Snap机器学习库比TensorFlow好几个,都还还里能 否在相同硬件配置上运行要是,我们都还还里能 对二者进行比较。

无论何如,时间缩短46倍其实令人印象深刻。要是的表现也让IBM有了更多空间来推动POWER9服务器,使其作为加插Nvidia GPU,运行Snap机器学习库即进行机器学习的场所。