还在抱怨Pandas运行速度慢?这几个方法会颠覆你的看法
凡是,在构建伟大数据模子时,可以利便地对数据举办一些预处理赏罚。譬喻,假如您有10年的分钟频率耗电量数据,纵然你指命名目参数,只需将日期和时刻转换为日期时刻也许必要20分钟。你真的只想做一次,而不是每次运行你的模子,举办测试或说明。 你可以在此处执行的一项很是有效的操纵是预处理赏罚,然后将数据存储在已处理赏罚的表单中,以便在必要时行使。可是,怎样故正确的名目存储数据而无需再次从头处理赏罚?假如你要另存为CSV,则只会丢失datetimes工具,而且在再次会见时必需从头处理赏罚它。 Pandas有一个内置的办理方案,它行使 HDF5,这是一种专门用于存储表格数据阵列的高机能存储名目。 Pandas的 HDFStore 类应承你将DataFrame存储在HDF5文件中,以便可以有用地会见它,同时仍保存列范例和其他元数据。它是一个相同字典的类,因此您可以像读取Python dict工具一样举办读写。 以下是将预处理赏罚电力耗损DataFrame df存储在HDF5文件中的要领:
此刻,你可以封锁计较机并苏息一下。等你返来的时辰,你处理赏罚的数据将在你必要时为你所用,而无需再次加工。以下是怎样从HDF5文件会见数据,并保存数据范例:
数据存储可以容纳多个表,每个表的名称作为键。 关于在Pandas中行使HDFStore的留意事项:您必要安装PyTables> = 3.0.0,因此在安装Pandas之后,请确保更新PyTables,如下所示:
结论 假如你认为你的Pandas项目不足快速,机动,简朴和直观,请思量从头思量你行使该库的方法。 这里切磋的示例相等简朴,但声名白Pandas成果的正确应用怎样可以或许大大改造运行时和速率的代码可读性。以下是一些履历,可以在下次行使Pandas中的大型数据集时应用这些履历法例:
【编辑保举】
点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |