加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

5个可以帮助Pandas进行数据预解决的可视化图表

发布时间:2021-05-27 22:36:52 所属栏目:大数据 来源:互联网
导读:数据科学行业中一个最常见的陷阱是耗费数小时为他们的项目探求最佳算法,而没有花足够的时刻起首领略数据。 数据科学和呆板进修项目标布局化要领从项目方针开始

数据科学和呆板进修项目标布局化要领从项目方针开始。统一组数据点可以揣度出一些故意义的信息。基于我们所探求的,我们必要存眷数据的另一个方面。一旦我们明晰了方针,我们就应该开始思量我们必要的数据点。这将使我们可以或许专注于最相干的信息集,而忽略也许不重要的数据集。

在实际糊口中,从多个来历网络到的大大都时刻数据都有空缺值、打字错误和其他非常。在举办任何数据说明之前,破除数据是至关重要的。

在本文中,我将接头五个强盛的数据可视化选项,它们可以当即提供数据特性的感受。纵然在正式建模或假设测试使命之前,执行EDA就可以通报大量关于数据和特性之间相关的信息。

第1步-我们将导入pandas、matplotlib、seaborn和NumPy包,我们将行使这些包举办说明。我们必要散点图、自相干图、滞后图僻静行图。

import pandas as pd 

import numpy as np 

import matplotlib.pyplot as plt 

from pandas.plotting import autocorrelation_plot 

import seaborn as sns 

from pandas.plotting import scatter_matrix 

from pandas.plotting import autocorrelation_plot 

from pandas.plotting import parallel_coordinates 

from pandas.plotting import lag_plot 

第2步-在Seaborn包中,有一个内置的小数据集。我们将行使"mpg"、"tips"和"attention"数据举办可视化。数据集是在seaborn中行使load_dataset要领加载的。

"""Download the datasets used in the program """ 

CarDatabase= sns.load_dataset("mpg") 

MealDatabase= sns.load_dataset("tips") 

AttentionDatabase= sns.load_dataset("attention") 

六边形分箱图(hexpin)

我们常常行使散点图来快速把握变量之间的相关。只要图中没有生齿浓密的数据点,得到一个洞察力长短常有辅佐的。在下面的代码中,我们绘制了"mpg"数据齐集"Horsepower" 和"Acceleration"数据点之间的散点图。

plt.scatter(CarDatabase.acceleration ,CarDatabase.horsepower,marker="^")  

plt.show() 

散点图中的点麋集漫衍,从中获取故意义的信息有点坚苦。

5个可以辅佐Pandas举办数据预办理的可视化图表

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读