加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

大数据分析师学习入门,10个数据可视化技巧

发布时间:2019-10-14 14:12:08 所属栏目:教程 来源:加米谷大数据
导读:我必需对你说真话:当我进修数据科学时,我完全低估了画图的重要性。没错,当时统统都一团糟:我从新开始进修 python、认识了全部也许的算法、领略了全部对象背后的数学道理,可是我的画图能力很糟糕。 为什么会这样?我们老是在做同样的工作。你知道的:pa
副问题[/!--empirenews.page--]

  • 我必需对你说真话:当我进修数据科学时,我完全低估了画图的重要性。没错,当时统统都一团糟:我从新开始进修 python、认识了全部也许的算法、领略了全部对象背后的数学道理,可是我的画图能力很糟糕。
大数据说明师进修入门,10个数据可视化能力

为什么会这样?我们老是在做同样的工作。你知道的:pairplots,distplots,qqplots…你在可视化数据时行使图表是领略数据的独一要领。这些都长短常有效、通用和默认的图表。以是,复制和粘贴一堆代码成了我时最常做的工作。

大数据说明师进修入门,10个数据可视化能力

对付我的项目来说,可交付功效老是一个模子。因为数小时的数据洗濯和特性工程,很也许会有一个不错的分数。我是我项目标独一参加者,我的传授们在他们给我这些数据时就已经知道关于数据的统统。那我作图是为了给谁看?我本身?好吧…没须要!对不?我比任何人都清晰每一步在实现什么,我不必要向任何人表明。

但除此之外,诚恳说,作图一点都不隐秘。任何人都可以作图。我 60 岁的父亲只要用 excel 就能作出一些图表。虽然,每小我私人都能做到,这就是为什么我以为它并不隐秘。我和我的伴侣们都在从事数据科学和呆板进修,但大大都人乃至不大白那是什么。正如《哈佛贸易评述》(Harvard Business Review)杂志所说,这就是为什么我们都那么帅气性感。

题目是小伙子们——假如你们还没有从我过度的嘲讽中发明,实际糊口并非云云。我信托这也许是我在数据科学中的最大失败:没有充实思量可表明性和可表明性的重要性。你也许是个天才,但假如你不能向第三方表明你是怎样获得这些美好的结论,以及为什么获得这些结论,那么你也许什么都不是。譬喻,在 Ravelin Technology,我们提供基于呆板进修的诓骗提防办理方案。想象一下,你汇报一个客户,你封闭了 x% 的买卖营业,只是由于呆板进修模子是这样说的,但你基础不知道为什么要这样做会奈何?虽然,对付任何试图最大化环化率和贩卖环境的电子商务来说,这都不是很有吸引力,对吧?想象一下,在医疗保健等其他敏感规模呈现同样的环境……那的确是劫难即将光降的千兆。

此刻,除了与营业相干的题目,乃至从法令的角度可能从你的营业只体谅猜测的功效来看——不管你怎样获得它们,领略一个算法现实上是怎样事变的对你会有辅佐。你不只能更好地向客户表明输出的缘故起因,还能更好地和谐数据科学家和说明师的事变。

因此,在实际天下中,环境与我在学校从事学法术据科学项目时的环境完全差异:我从来不是项目标独一参加者,我的同事和/或客户凡是对我行使的数据不太相识。那我此刻要为谁作图呢?听起来还没须要吗?很显然不是。可以或许向人们表明你的思想进程是任何数据相干事变的要害部门。在这种环境下,复制和粘贴图表是不足的,图表的本性化变得很是重要。

大数据说明师进修入门,10个数据可视化能力

在这篇文章的剩余部门,我想和各人分享 10 个根基的中级和高级的画图器材。我发此刻实际糊口中,当涉及到画图表明你的数据时,这些器材很是有效。

我将在下面几行中引用的库:

  1. Seaborn:import seaborn as sns  
  2. matplotlib:matplotlib.pyplot as plt 

另外,假如必要,可以配置样式和你喜好的名目,譬喻:

  1. plt.style.use('fivethirtyEight')  
  2. %config inlinebackend.figureformat='retina'  
  3. %matplotlib inline 

说到这里,让我们直接跳到这些器材:

1.绘制复合图

偶然,你会想在一个图表中绘制出差异的对象。但偶然,你会但愿在统一行或列中抛出差异的图表,彼此增补和/或表现差异的信息片断。

为此,这里给出一个很是根基但必不行少的器材:subplots。怎样行使它?很简朴。matplotlib 中的图表是一种布局,可以这样行使:

  • 图形:绘制图表的配景或画布
  • 轴:我们的图表

凡是,这些对象是在代码靠山自动配置的,可是假如要绘制多个图形,我们只必要凭证以下方法建设图形和轴工具:

  1. fig, ax = plt.subplots(ncols=number_of_cols, nrows=number_of_rows, figsize=(x,y) 

譬喻,假如配置 ncols=1 和 nrows=2,我们将建设一个由 x,y 轴构成的图形,个中只有两个图表,漫衍在两个差异的行中。剩下的独一工作是从 0 开始行使'ax'参数指定差异画图的次序。譬喻:

  1. sns.scatterplot(x=horizontal_data_1, y=vertical_data_1, ax=ax[0]);  
  2. sns.scatterplot(x=horizontal_data_2, y=vertical_data_2, ax=ax[1]); 

2.轴标签

这也许看起来没有须要,可能不是很有辅佐,可是你无法想象,假如你的图表有点紊乱,可能看到数据的人对此不是很认识,你会被问几多次 x/y 轴代表的是什么。凭证前面的两个画图示例,假如要为轴配置特命名称,则必需行使以下代码行:

  1. ax[0].set(x label='My X Label',ylabel='My Y Label')  
  2. ax[1].set(xlabel='My Second X Label',ylabel='My Second and Very Creative Y Label') 

3.配置问题

假如我们要将数据泛起给第三方,另一个根基但要害的要点是行使问题,它和之前的轴标志很是相似:

  1. ax[0].title.set_text(‘This title has to be very clear and explicative’)  
  2. ax[1].title.set_text(‘And this title has to explain what’s different in this chart’ 

4.给图表重点元素做注释

凡是环境下,仅仅在图表的阁下两侧行使刻度自己并不是很清晰。在图上标注值对付表明图表很是有效。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读