加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

分享 : 数据可视化专家的七个奥秘

发布时间:2018-10-17 11:56:03 所属栏目:教程 来源:佚名
导读:【51CTO技能沙龙】10月27日,让我们配合试探AI场景化应用实现之道 数据可视化的阶梯上布满了不行见的陷阱和迷宫,最近ClearStory Data的两位数据可视化开拓职员分享了他们总结出来的数据可视化开拓的7个不宣之秘,平凡开拓者相识这些要领能晋升视野,少走弯
副问题[/!--empirenews.page--] 【51CTO技能沙龙】10月27日,让我们配合试探AI场景化应用实现之道

数据可视化的阶梯上布满了不行见的陷阱和迷宫,最近ClearStory Data的两位数据可视化开拓职员分享了他们总结出来的数据可视化开拓的7个不宣之秘,平凡开拓者相识这些要领能晋升视野,少走弯路。

数据可视化, 出格是基于Web的数据可视化的期间已经到来了。 相同Java的可视化库如D3.js, Raphaël, 以及Paper.js, 以及最新赏识器所支持的如Canvas和SVG, 以及使得那些已往只能由计较机专家和专业计划职员开拓的伟大的可视化变得越来越简朴了。

数据可视化现在成为了许多网站项目标必备成果。 而相同于Platfora, DatameerClearStory Data以及Chartio等初创公司则可以操作基于赏识器的说明平台融到数百万美元的投资。

数据可视化是数据试探以及数据示意的重要方法, 然而, 对付数据可视化的开拓者来说, 依然有许多挑衅要去面临。 这些欢迎这些挑衅的要领, 则是许多专业的数据可视化开拓者不肯意让别人知道的奥秘。 ClearStory Data的两位数据可视化开拓职员Nate Argrin和 Nick Rabinowitz 在 netmagzine.com上分享了他们总结出来的数据可视化开拓的7个奥秘以及在实践中怎样应对的方法。

奥秘一: 实际中的数据每每很丑

大部门的数据可视化的教程, 城市让你轻松地从一个原始数据集开始。 无论你是进修根基的柱状图照旧力导向的收集图, 你的数据都是干净的,颠末清算的数据。 这些美满的JSON可能CSV文件就像电视里的厨艺节目中的灶台那样干净整洁。而现实上, 当你在处理赏罚实际中的真正的数据是, 你80%的时刻得用来征采, 获取, 载入, 洗濯以及转换你的数据。

这样的进程, 偶然辰可以用自动化的器材来完成。 不外, 差不多任何必要针对两个以上的数据集举办洗濯的事变总会必要或多或少的人工的事变。有许多器材可以或许把XLS文件转化为XML的名目可能把时刻戳转换为其改日期名目。可是, 要想把一个公司的内部行使的贩卖范例与竞争敌手举办比对, 可能对输入错误举办搜查, 可能对差异的Encoding可能OCR发生出来的笔墨举办搜查时, 就只能靠手工来处理赏罚了。

器材及处理赏罚方法:

  • 1)在数据可视化项目中给数据洗濯留出足够的时刻, 出格是在必要处理赏罚多个数据源, 必要手工录入可能OCR数据, 举办差异类此外配比, 可能必要处理赏罚一些非尺度名目时, 必要留出更多的时刻。
  • 2)Google Refine (编者:必要翻墙)是一个很好的数据洗濯器材, 尽量在有些处所, 出格是处理赏罚非表格化数据时有些不敷。 另外, 尚有一些数据洗濯专用的器材如Data Wranger 和 Mr. Data Converter。 不外, 许多的数据洗濯事变如故必要你认识剧本说话如Python可能必要你在Excel里举办一些手工事变。 记得把你的剧本存档, 你往后必定用得上。
  • 3)用简朴的一些散点图可能直方图来发明一些超正常范畴的错误数据。

奥秘二: 柱状图每每更好

分享 : 数据可视化专家的七个奥秘

和柱状图比起来, 气泡图可以在同样的空间示意更多地数据, 饼图可以更清楚地示意整体和局部的相关, 树状图可以或许更好地示意分层的布局。然而, 这些图在简朴明白方面都无法与柱状图对比。

在思量数据可视化计划方案时, 我们要问本身的第一个题目就是:“这个方案比柱状图好吗?” 假如你必要在一个单一维度上可视化一个可量化的数据集,那么很少有此外方法能比得上柱状图。 相同的, 时刻序列最好示意为线状图, 而散点图一样平常用来示意两个线性怀抱的相干性。 在数据可视化计划中, 行使这些从18世纪以来就一向在行使的图风险最低。 而柱状图对付举办数据较量的可视化来说是最佳方法。 由于我们人眼最风俗的较量方法就是将两个对象并排较量。

关于柱状图优先, 其拭魅显现了数据可视化中一个最大的奥秘, 那就是, 那些最酷的可视化每每用处反而最小。 最求新颖以及雅观的可视化每每带来一个题目,那就是数据的可领略题目。 许多柱状图的更换图迫使人们用他们并不善于的方法举办较量, 如较量面积, 角度, 色彩, 可能透明度等。 这些较量, 说好听的, 是增进了较量的难度,说的严峻一些, 也许会对数据举办扭曲, 导致行使者得堕落误的结论。

器材及处理赏罚方法:

  • 1)不要等闲丢弃那些传统的可视化方法, 假如这些方法可以或许示意你的数据。 先试试柱状图可能线状图, 假如你的数据真的必要其他的再思量其他图。
  • 2)领略其他情势的图的示意上风, 好比, 气泡图支持更多地数据范畴, 饼图支持局部全局的比拟, 树状图可以或许支持分层布局等等。
  • 3)柱状图是可视化最轻易的图形之一, 你可以手工编写一段HTML代码, 仅仅行使CSS可能很少量的Java, 可能从Excel内里的一个公式, 就可以天生一个有用的柱状图来。

奥秘三: 真实数据不行更换

对一个数据集举办洗濯和名目化已经很繁琐了, 假如你必要计一律个基于多个数据集的可视化呢? 好比你必要把公司差异部分的数据举办可视化, 而这些部分各自有各自的数据库, 并且你也没偶然刻手工把每个数据集举办洗濯。 这时辰, 人们的第一设法大噶?謦一些Demo的数据来举办可视化。 并且你的可视化库里也许就有一些尺度的样本数据。

很不幸, 真实数据不行更换。 Demo数据一样平常遵循正态漫衍并且数据量有限。 是为了展示可视化用的。 而一个看上去美满的柱状图,并不能辅佐你办理那些数据缺失, 非常数据可能实际中的真实题目。 假如你太过依靠Demo数据, 当你用真实数据时, 你就会发明你的数据可视化计划并不能真正满意你的数据说明可能数据示意的需求。

器材及处理赏罚方法:

  • 1)假如你无法会见整个数据集, 不妨先试试从真实数据齐集随机取些样本数据。
  • 2)保存无效可能缺失数据, 假如你的数据集在可视化前禁绝备举办数据洗濯, 那么也不要洗濯样本数据。
  • 3)真实数据集大概过大。 在你行使样本数据时,在天生最终的可视化图前, 等比例调解样本数据局限。

奥秘四:细节的处所才最头痛

分享 : 数据可视化专家的七个奥秘

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读