还在抱怨Pandas运行速度慢?这几个方法会颠覆你的看法
发布时间:2018-12-31 22:14:34 所属栏目:教程 来源:知乎
导读:副标题#e# 前言 当大家谈到数据分析时,提及最多的语言就是Python和SQL。Python之所以适合数据分析,是因为它有很多第三方强大的库来协助,pandas就是其中之一。pandas的文档中是这样描述的: 快速,灵活,富有表现力的数据结构,旨在使关系或标记数据的使
1.61s,看上去挺快,但其实可以更快,我们来看一下下面的方法。
结果只有0.032s,快了将近50倍。原因是:我们设置了转化的格式format。由于在CSV中的datetimes并不是 ISO 8601 格式的,如果不进行设置的话,那么pandas将使用 dateutil 包把每个字符串str转化成date日期。 相反,如果原始数据datetime已经是 ISO 8601 格式了,那么pandas就可以立即使用最快速的方法来解析日期。这也就是为什么提前设置好格式format可以提升这么多。 pandas数据的循环操作 仍然基于上面的数据,我们想添加一个新的特征,但这个新的特征是基于一些时间条件的,根据时长(小时)而变化,如下: 因此,按照我们正常的做法就是使用apply方法写一个函数,函数里面写好时间条件的逻辑代码。
然后使用for循环来遍历df,根据apply函数逻辑添加新的特征,如下:
(编辑:惠州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |