加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

10个可以快速用Python进行数据分析的小技巧

发布时间:2019-06-24 20:50:13 所属栏目:建站 来源:towardsdatascience 编译:小七、蒋宝尚 一
导读:大数据文摘出品 来历:towardsdatascience 编译:小七、蒋宝尚 一些小提醒和小能力也许长短常有效的,出格是在编程规模。偶然辰行使一点点黑客技能,既可以节减时刻,还也许拯救生命。 一个小小的快捷方法或附加组件偶然真是天赐之物,而且可以成为真正的
副问题[/!--empirenews.page--]

10个可以快速用Python举办数据说明的小能力

大数据文摘出品

来历:towardsdatascience

编译:小七、蒋宝尚

一些小提醒和小能力也许长短常有效的,出格是在编程规模。偶然辰行使一点点黑客技能,既可以节减时刻,还也许拯救“生命”。

一个小小的快捷方法或附加组件偶然真是天赐之物,而且可以成为真正的出产力助推器。以是,这里有一些小提醒和小能力,有些也许是新的,但我信托在下一个数据说明项目中会让你很是利便。

Pandas中数据框数据的Profiling进程

Profiling(说明器)是一个辅佐我们领略数据的进程,而Pandas Profiling是一个Python包,它可以简朴快速地对Pandas 的数据框数据举办试探性数据说明。

Pandas中df.describe()和df.info()函数可以实现EDA进程第一步。可是,它们只提供了对数据很是根基的概述,对付大型数据集没有太大辅佐。 而Pandas中的Profiling成果简朴通过一行代码就能表现大量信息,且在交互式HTML陈诉中也是云云。

对付给定的数据集,Pandas中的profiling包计较了以下统计信息:

10个可以快速用Python举办数据说明的小能力

由Pandas Profiling包计较出的统计信息包罗直方图、众数、相相关数、分位数、描写统计量、其他信息——范例、单一变量值、缺失值等。

1. 安装

用pip安装可能用conda安装

  1. pip install pandas-profiling 
  2.  conda install -c anaconda pandas-profiling 

2. 用法

下面代码是用好久早年的泰坦尼克数据集来演示多成果Python说明器的功效。

  1. #importing the necessary packages 
  2.  import pandas as pd 
  3.  import pandas_profiling 
  4. df = pd.read_csv('titanic/train.csv') 
  5.  pandas_profiling.ProfileReport(df) 

一行代码就能实此刻Jupyter Notebook中表现完备的数据说明陈诉,该陈诉很是具体,且包括了须要的图表信息。

10个可以快速用Python举办数据说明的小能力

还可以行使以下代码将陈诉导出到交互式HTML文件中。

  1. profile = pandas_profiling.ProfileReport(df) 
  2. profile.to_file(outputfile="Titanic data profiling.html") 

10个可以快速用Python举办数据说明的小能力

Pandas实现交互式作图

Pandas有一个内置的.plot()函数作为DataFrame类的一部门。可是,行使此成果泛起的可视化不是交互式的,这使得它没那么吸引人。同样,行使pandas.DataFrame.plot()函数绘制图表也不能实现交互。 假如我们必要在差池代码举办重大修改的环境下用Pandas绘制交互式图表怎么办呢?这个时辰就可以用Cufflinks库来实现。

Cufflinks库可以将有强盛成果的plotly和拥有机动性的pandas团结在一路,很是便于画图。下面就来看在pandas中怎样安装和行使Cufflinks库。

1. 安装

  1. pip install plotly 
  2. # Plotly is a pre-requisite before installing cufflinks 
  3. pip install cufflinks 

2. 用法

  1. #importing Pandas  
  2.  import pandas as pd 
  3.  #importing plotly and cufflinks in offline mode 
  4.  import cufflinks as cf 
  5. import plotly.offline 
  6.  cf.go_offline() 
  7.  cf.set_config_file(offline=False, world_readable=True) 

是时辰展示泰坦尼克号数据集的魔力了。

  1. df.iplot() 

10个可以快速用Python举办数据说明的小能力

10个可以快速用Python举办数据说明的小能力

  1. df.iplot() vs df.plot() 

右侧的可视化表现了静态图表,而左侧图表是交互式的,更具体,而且全部这些在语法上都没有任何重大变动。

Magic呼吁

Magic呼吁是Jupyter notebook中的一组便捷成果,旨在办理尺度数据说明中的一些常见题目。行使呼吁%lsmagic可以看到全部的可用呼吁。

10个可以快速用Python举办数据说明的小能力

全部可用的Magic呼吁列表

Magic呼吁有两种:行magic呼吁(line magics),以单个%字符为前缀,在单行输入操纵;单位magic呼吁(cell magics),以双%%字符为前缀,可以在多行输入操纵。假如配置为1,则不消键入%即可挪用Magic函数。

接下来看一些在常见数据说明使命中也许用到的呼吁:

1. % pastebin

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读