PyTorchTensorFlow跑分对决：哪个平台运行NLP模子推理更快

发布时间：2019-10-22 08:29:19 所属栏目：移动互联来源：晓查

导读：【大咖·来了第7期】10月24日晚8点寓目《智能导购对话呆板人实践》关于PyTorch和TensorFlow谁更好的争论，从来就没有遏制过。开源社区的支持度、上手的难易度都是重要的参考。尚有人说：学术界用PyTorch，家产界用TensorFlow。然而尚有一项不行忽略的因

副问题[/!--empirenews.page--] 【大咖·来了第7期】10月24日晚8点寓目《智能导购对话呆板人实践》

关于PyTorch和TensorFlow谁更好的争论，从来就没有遏制过。

开源社区的支持度、上手的难易度都是重要的参考。尚有人说：学术界用PyTorch，家产界用TensorFlow。

PyTorch&TensorFlowè·‘åˆ†å¯¹å†³ï¼šå“ªä¸ªå¹³å°è¿è¡ŒNLPæ¨¡åž‹æŽ¨ç†æ›´å¿«

然而尚有一项不行忽略的身分，就是二者的现实机能。

不要紧，不平跑个分？！

最近，一位来自“Huggingface”的工程师，行使了NLP中的Transformer模子，别离在两大平台上测试了一组推理速率。

固然Huggingface只是一家创业公司，可是在NLP规模有着不小的荣誉，他们在GitHub上开源的项目，只需一个API就能挪用27个NLP模子广受好评，已经收成1.5万星。

PyTorch和TensorFlow毕竟哪个更快？下面器具体评测的数据汇报你。

运行情形

作者在PyTorch 1.3.0、TenserFlow2.0上别离对CPU和GPU的推理机能举办了测试。

两种差异的情形中详细硬件设置如下：

CPU推理：行使谷歌云平台上的n1-standard-32硬件，即32个vCPU、120GB内存，CPU型号为2.3GHz的英特尔至强处理赏罚器。
GPU推理：行使谷歌云平台上的定制化硬件，包括12个vCPU、40GB内存和单个V100 GPU（16GB显存）。

PyTorch&TensorFlowè·‘åˆ†å¯¹å†³ï¼šå“ªä¸ªå¹³å°è¿è¡ŒNLPæ¨¡åž‹æŽ¨ç†æ›´å¿«

在测试进程中行使当地Python模块的timeit来丈量推理时刻。每个尝试一再30次，然后对这30个值取均匀值，得到均匀推理时刻。

NLP模子的Batch Size配置为别离配置为1、2、4、8，序列长度为8、64,、128、256、512、1024。

测试功效

话不多说，先上跑分功效：

PyTorch&TensorFlowè·‘åˆ†å¯¹å†³ï¼šå“ªä¸ªå¹³å°è¿è¡ŒNLPæ¨¡åž‹æŽ¨ç†æ›´å¿«

在大大都环境下，这两个平台都能得到相似的功效。与PyTorch对比，TensorFlow在CPU上凡是要慢一些，但在GPU上要快一些：

在CPU上，PyTorch的均匀推理时刻为0.748s，而TensorFlow的均匀推理时刻为0.823s。

在GPU上，PyTorch的均匀推理时刻为0.046s，而TensorFlow的均匀推理时刻为0.043s。

以上的数据都是在全部模子总的均匀功效。功效表现，输入巨细（Batch Size×序列长度）越大，对最终功效的影响也越大。

当输入太大时，PyTorch会呈现内存不敷的环境。作者把这些部门从功效中删除，因此这会使功效方向PyTorch。

总的来说，PyTorch模子比TensorFlow模子更轻易耗尽内存。除了Distilled模子之外，当输入巨细到达8的Batch Size和1024的序列长度时，PyTorch就会耗尽内存。

至于更完备具体的清单，请参阅文末的Google文档链接。

两大平台的加快器材

除了起源的测试，作者还用上两个平台独占的加快器材，看看它们对模子推理速率有多大的晋升。

PyTorch&TensorFlowè·‘åˆ†å¯¹å†³ï¼šå“ªä¸ªå¹³å°è¿è¡ŒNLPæ¨¡åž‹æŽ¨ç†æ›´å¿«

TorchScript是PyTorch建设可序列化模子的要领，让模子可以在差异的情形中运行，而无需Python依靠项，譬喻C++情形。

TorchScript好像很是依靠于模子和输入巨细：

行使TorchScript可以在XLNet上发生永世的机能晋升，而在XLM上行使则会不行靠；

在XLM上，TorchScript可以进步较小输入时的机能，但会低落较大输入时的机能。

均匀而言，行使TorchScript跟踪的模子，推理速率要比行使沟通PyTorch非跟踪模子的快20％。

PyTorch&TensorFlowè·‘åˆ†å¯¹å†³ï¼šå“ªä¸ªå¹³å°è¿è¡ŒNLPæ¨¡åž‹æŽ¨ç†æ›´å¿«

XLA是可加快TensorFlow模子的线性代数编译器。作者仅在基于TensorFlow的自动聚类成果的GPU上行使它，这项成果可编译一些模子的子图。功效表现：

启用XLA进步了速率和内存行使率，全部模子的机能都有进步。

大大都基准测试的运行速率晋升到原本的1.15倍。在某些极度环境下，推理时刻镌汰了70％，尤其是在输入较小的环境下。

最后，作者还在Google文档的列内外还插手了“实习”选项卡，或者不久后就能看到两大平台上的实习测试比拟，独一挡在这项测试眼前的障碍也许就是经费了。

传送门

原文链接：

https://medium.com/huggingface/benchmarking-transformers-pytorch-and-tensorflow-e2917fb891c2

完备跑分清单：

https://docs.google.com/spreadsheets/d/1sryqufw2D0XlUH4sq3e9Wnxu5EAQkaohzrJbd5HdQ_w/edit#gid=0

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

联想拯救者Y90发售两周	这可能是全世界第二好
此次苹果AR设备真的来	iPhone 14系列泄露正