加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Python,Numpy,Pandas…数据科学家必备排序能力

发布时间:2019-09-13 15:42:48 所属栏目:教程 来源:读芯术
导读:对数据举办分类清算是数据科学家和数据工程师的基本事变。Python会提供很多内置库,优化排序选项。有些库乃至可以同时在GPU上运行。令人诧异的是,一些排序要领并没有行使之前所述的算法范例,其他要领的执行结果也不如预期。 选择行使哪种库和哪类排序算

对付上面的每个Python库,我们对wall time举办了说明,以便在单列,单数组或单列表中对沟通的1,000,000个数据点举办排序。同时行使了配有T4 GPU的Google Colab Jupyter条记本。

Python,Numpy,Pandas…数据科学家必备排序能力
数据来历: https://colab.research.google.com/drive/1NNarscUZHUnQ5v-FjbfJmB5D3kyyq9Av

调查

  • 对付Numpy和Pandas,inplace比复制数据更快。这并不稀疏。
  • Pandas默认快速排序相等快。
  • 大大都Pandas成果相对较慢。
  • TensorFlow操纵相等快。
  • Python inplace排序慢得出奇。比Numpy inplace mergesort和TensorFlow慢了10倍。曾多次对其举办测试(行使差异的数据)来确认这不是一个非常征象。

重申,这只是一个小测试。绝对不是抉择性的。

Wrap

凡是不必要自界说排序。选择许多。一样平常不会回收单一的排序要领。相反,起首对数据举办评估,然后用结果更好的排序算法。假如排序盼望不快,执行操纵时也会自行改变算法。

在本文中,你已经相识了如安在Python数据科学堆和SQL中的每个板块里举办排序。

只必要记着选择哪个选项以及怎样挪用它们。可用上面的备忘表,节减时刻。大抵提议如下:

  • 行使默认的Pandas sort_values()来试探相对较小的数据集。
  • 数据集较大或运行速率较高时,实行Numpy的当场归并,PyTorch或TensorFlow并行GPU方法或SQL。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读