这5种数据可视化方式是数据科学家标配!
副问题[/!--empirenews.page--]
【编译】数据可视化是数据科学家事变的重要构成部门。在项目标早期阶段,你凡是会举办试探性数据说明(EDA)以获取对数据的一些洞察。建设可视化确实有助于使工作更清楚易懂,出格是对付大型高维数据集。在你的项目竣事时,可以或许以清楚、简捷和引人注目标方法展示你的最终功效很是重要,由于你的受众每每长短技能性客户,他们可以领略。 Matplotlib是一个风行的Python库,可以用来很轻易地建设数据可视化。可是,每次执行新项目时,配置数据、参数、图形和画图城市变得很是繁琐。在这篇博客文章中,我们将着眼于5个数据可视化,并行使Python的Matplotlib为他们编写一些快速简朴的成果。与此同时,这里有一个很棒的图表,用于为事变选择正确的可视化图表! ▲用于为给定环境选择恰当的数据可视化技能的图表 散点图 散点图很是得当表现两个变量之间的相关,由于你可以直接看到数据的原始漫衍。你还可以通过对组举办颜色编码来简朴地查察差异组数据的相关,如下图所示。想要可视化三个变量之间的相关?没题目!只需行使另一个参数(如点巨细)就可以对第三个变量举办编码,如下面的第二个图所示。 ▲散点图与颜色分组 此刻我们看一下代码。我们起首用别名“plt”导入Matplotlib的pyplot。要建设一个新的情节图,我们称之为plt.subplots()。将x轴和y轴数据转达给函数,然后将这些数据转达给ax.scatter()以绘制散点图。我们还可以配置点的巨细,点颜色和alpha透明度。你乃至可以配置Y轴为对数刻度。问题和轴标签然后专门为该图配置。这是一个易于行使的函数,可以首尾相连建设散点图! 线条图 假如能清晰地看到一个变量与另一个变量差别很大,即它们具有高协方差,则最好行使线图。让我们看看下图来声名。我们可以清晰地看到,全部专业的百分比随时刻变革很大。用散点图绘制这些图将会很是紊乱,这使得很难真正领略并看到产生了什么。线图很是得当这种环境,由于它们根基上给了我们两个变量(百分比和时刻)的协方差的快速总结。同样,我们也可以行使颜色编码举办分组。 ▲示例线图 这是线图的代码。这与上面的分手很相似。只有一些变量的细小变革。 直方图 直方图对查察(或真正发明)数据点的漫衍很有效。查察下面我们绘制频率与IQ直方图的直方图。我们可以清晰地看到中心的齐集度和中位数,也可以看到它遵循高斯漫衍。譬喻,行使条(而不是散点)可以清晰地表现出每个箱的频率之间的相对差别。行使分箱(离散化)确实有助于我们看到“更大的图像”,就像我们行使全部没有离散分箱的数据点一样,也许会在可视化中发生大量噪音,使得很丢脸到到底产生了什么。
下面表现了Matplotlib中直方图的代码。有两个参数必要留意。起首,n_bins参数控想象一下,我们想要较量数据中两个变量的漫衍。有人也许会以为你必需建造两个独立的直方图并将它们并排放在一路举办较量。可是,现实上有更好的要领:我们可以用差异的透明度包围直方图。看看下面的图。同一漫衍被配置为具有0.5的透明度,以便我们可以看到它的后头是什么。这应承用户直接查察统一图上的两个漫衍。 在叠加直方图的代码中必要配置几件工作。起首,我们配置程度范畴以顺应两种可变漫衍。按照这个范畴和祈望数目的箱子,我们现实上可以计较每个箱子的宽度。最后,我们在统一个图上绘制两个直方图,个中一个直观图更透明。 当你实行对险些没有(也许<10个)类此外分类数据举办可视化时,条形图最为有用。假如我们有太多的种别,那么图中的酒吧会很是紊乱,很难领略。它们对分类数据很好,由于你可以按照条的巨细(即巨细)轻松查察种别之间的差别,种别也很轻易支解和颜色编码。有三种差异范例的柱状图我们将要看:按期、分组和堆叠。看看下面的代码。 条形图 通例的条状图在下面的第一张图中。在barplot()函数中,x_data暗示x轴上的代号,y_data代表y轴上的条高。错误栏是在每个可以绘制的条上居中表现尺度毛病的特殊行。 分组条形图应承我们较量多个分类变量。看看下面的第二个条形图。我们较量的第一个变量是分数怎样随组(组G1,G2,...等)而变革。我们还将性别自己与颜色代码举办较量。看看代码,y_data_list变量此刻现实上是一个列表列表,个中每个子列表代表一个差异的组。然后,我们轮回遍历每个组,并为每个组绘制x轴上每个刻度的条形;每个组都是彩色编码的。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |