加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

PyTorchTensorFlow跑分对决:哪个平台运行NLP模子推理更快

发布时间:2019-10-22 08:29:19 所属栏目:移动互联 来源:晓查
导读:【大咖·来了 第7期】10月24日晚8点寓目《智能导购对话呆板人实践》 关于PyTorch和TensorFlow谁更好的争论,从来就没有遏制过。 开源社区的支持度、上手的难易度都是重要的参考。尚有人说:学术界用PyTorch,家产界用TensorFlow。 然而尚有一项不行忽略的因
副问题[/!--empirenews.page--] 【大咖·来了 第7期】10月24日晚8点寓目《智能导购对话呆板人实践》

关于PyTorch和TensorFlow谁更好的争论,从来就没有遏制过。

开源社区的支持度、上手的难易度都是重要的参考。尚有人说:学术界用PyTorch,家产界用TensorFlow。

PyTorch&TensorFlow跑分对决:哪个平台运行NLP模型推理更快

然而尚有一项不行忽略的身分,就是二者的现实机能。

不要紧,不平跑个分?!

最近,一位来自“Huggingface”的工程师,行使了NLP中的Transformer模子,别离在两大平台上测试了一组推理速率。

固然Huggingface只是一家创业公司,可是在NLP规模有着不小的荣誉,他们在GitHub上开源的项目,只需一个API就能挪用27个NLP模子广受好评,已经收成1.5万星。

PyTorch和TensorFlow毕竟哪个更快?下面器具体评测的数据汇报你。

运行情形

作者在PyTorch 1.3.0、TenserFlow2.0上别离对CPU和GPU的推理机能举办了测试。

两种差异的情形中详细硬件设置如下:

  1. CPU推理:行使谷歌云平台上的n1-standard-32硬件,即32个vCPU、120GB内存,CPU型号为2.3GHz的英特尔至强处理赏罚器。
  2. GPU推理:行使谷歌云平台上的定制化硬件,包括12个vCPU、40GB内存和单个V100 GPU(16GB显存)。

PyTorch&TensorFlow跑分对决:哪个平台运行NLP模型推理更快

在测试进程中行使当地Python模块的timeit来丈量推理时刻。每个尝试一再30次,然后对这30个值取均匀值,得到均匀推理时刻。

NLP模子的Batch Size配置为别离配置为1、2、4、8,序列长度为8、64,、128、256、512、1024。

测试功效

话不多说,先上跑分功效:

PyTorch&TensorFlow跑分对决:哪个平台运行NLP模型推理更快

在大大都环境下,这两个平台都能得到相似的功效。与PyTorch对比,TensorFlow在CPU上凡是要慢一些,但在GPU上要快一些:

在CPU上,PyTorch的均匀推理时刻为0.748s,而TensorFlow的均匀推理时刻为0.823s。

在GPU上,PyTorch的均匀推理时刻为0.046s,而TensorFlow的均匀推理时刻为0.043s。

以上的数据都是在全部模子总的均匀功效。功效表现,输入巨细(Batch Size×序列长度)越大,对最终功效的影响也越大。

当输入太大时,PyTorch会呈现内存不敷的环境。作者把这些部门从功效中删除,因此这会使功效方向PyTorch。

总的来说,PyTorch模子比TensorFlow模子更轻易耗尽内存。除了Distilled模子之外,当输入巨细到达8的Batch Size和1024的序列长度时,PyTorch就会耗尽内存。

至于更完备具体的清单,请参阅文末的Google文档链接。

两大平台的加快器材

除了起源的测试,作者还用上两个平台独占的加快器材,看看它们对模子推理速率有多大的晋升。

PyTorch&TensorFlow跑分对决:哪个平台运行NLP模型推理更快

TorchScript是PyTorch建设可序列化模子的要领,让模子可以在差异的情形中运行,而无需Python依靠项,譬喻C++情形。

TorchScript好像很是依靠于模子和输入巨细:

行使TorchScript可以在XLNet上发生永世的机能晋升,而在XLM上行使则会不行靠;

在XLM上,TorchScript可以进步较小输入时的机能,但会低落较大输入时的机能。

均匀而言,行使TorchScript跟踪的模子,推理速率要比行使沟通PyTorch非跟踪模子的快20%。

PyTorch&TensorFlow跑分对决:哪个平台运行NLP模型推理更快

XLA是可加快TensorFlow模子的线性代数编译器。作者仅在基于TensorFlow的自动聚类成果的GPU上行使它,这项成果可编译一些模子的子图。功效表现:

启用XLA进步了速率和内存行使率,全部模子的机能都有进步。

大大都基准测试的运行速率晋升到原本的1.15倍。在某些极度环境下,推理时刻镌汰了70%,尤其是在输入较小的环境下。

最后,作者还在Google文档的列内外还插手了“实习”选项卡,或者不久后就能看到两大平台上的实习测试比拟,独一挡在这项测试眼前的障碍也许就是经费了。

传送门

原文链接:

https://medium.com/huggingface/benchmarking-transformers-pytorch-and-tensorflow-e2917fb891c2

完备跑分清单:

https://docs.google.com/spreadsheets/d/1sryqufw2D0XlUH4sq3e9Wnxu5EAQkaohzrJbd5HdQ_w/edit#gid=0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读