这样解释数据科学,奶奶辈也听得懂!
副问题[/!--empirenews.page--]
数据科学、大数据、数据湖、人工智能、数据发掘、呆板进修、深度进修、贸易智能、贸易说明……近些年,浩瀚的文章和谈吐都切磋了上述术语。像往常一样,当某样对象变得风行时,它的观念、界说和限定就会逐渐消散。 ![]() 假如你注册了Linkedin还常常行使的话,你能已经留意到了,光看问题越来越猜不出别人到底在做什么。我们已经厌倦了目眩凌乱的科技词汇和缩略词,也越来越没有操心去相识它们的寄义。 ![]() “可是你……你到底是做什么的?” 风趣的时候来了……
![]() 有一句“名言”(作者被误传为阿尔伯特·爱因斯坦)是这样说的:
1. 数据科学(DS) 简朴界说为:数据科学是从数据中提取有效常识的一系列手艺和技能。 这些手艺凡是用德鲁·康威(Drew Conway)缔造的维恩图(或它的变体)来暗示: ![]() 三个圆圈别离代表三个差异的规模:编程规模(说话常识、说话库、计划模式、系统布局等);数学(代数、微积分等)和统计学规模;数据规模(特定规模的常识:医疗、金融、家产等)。 这些规模配合组成了界说中的手艺和技能。它们包罗获取数据、数据整理、数据说明、建设假设、算法、呆板进修、优化、功效可视化等等。 数据科学搜集了这些规模和手艺,支持和改造了从原始数据中提取看法和常识的进程。 ![]() 什么是“有效的常识”?就是可以具有某种代价、可以答复或办理实际天下中题目的常识。 数据科学也可以界说为:研究应用数据处理赏罚和说明方面的盼望,为我们提供办理要领和谜底的规模。 2. 大数据 这个表明起来就简朴了:大数据就是大量的数据。 要界说大数据,凡是会用3V来表明,这是发生大数据的3个首要缘故起因: ![]()
之后更多V被添加进来:真实性 (数据必需真实、靠得住、可用)、代价(数据应有贸易或社会代价)、易损性(数据必需正当、尊重隐私,并以安详的方法存储和会见)。 大数据也许是办理这些题目的方案。不要把它和本文表明的第一个观念夹杂了:大数据就是实现或促进应用数据科学规模先辈技能的事物,是数据的本质要求。譬喻,作为数据科学家,我们试图从数据齐集获得谜底。数据集不只高出了RAM的巨细,还高出了硬盘的巨细。大数据为我们提供了跨多台呆板承载数据的漫衍式存储技能,以及并行处理赏罚数据的漫衍式处理赏罚技能。 3. 数据湖 数据湖是一个齐集存储库,用于存储各类数据:布局化数据(我们填入表格的数据)、半布局化数据(数据险些切合全部名目:CSV,日记,JSON,XML等)和非布局化数据(文档、电子邮件、PDF、图片、视频、音频等)。数据是在公司内部天生的照旧在公司外部天生的并不重要。 “齐集”意味着统统都将存储在统一个处所,每小我私人都将会见那儿获取数据。这并不是说全部的数据都在统一个呆板里或公司里;漫衍式存储将成为一种老例,数据还可以储存在云端。 ![]() 不要忽略一个重要的细节:数据是以原始名目存储的,没有举办任何变动。这意味着将来举办说明时信息都是完备的;数据只有在行使时才会被处理赏罚和转换。另外,把鱼煮熟了再放回湖里有什么意义呢? :) 4. 人工智能 呆板能思索吗? 1950年,艾伦·图灵(Alan Turing)提出了这个题目,他乃至发现了一个闻名的测试,来评估呆板给出的谜底是否与人类的谜底相似。从那往后,对人工智能的理想就开始了,重点在于仿照人类举动。 ![]() 你做过谁人测试吗? 人工智能不是《银翼杀手》中的复制人,也不是《太空碉堡卡拉狄加》中的赛昂人。我们可以把人工智能界说为任何具有某种智能举动的呆板或软件。 什么是智能举动? 问得好!这就是有分歧的处所。跟着呆板不绝被开拓出新成果,早年被以为是智能的使命也从人工智能情形中剥离了出来。 ![]() 我们可将人工智能界说为可以或许从其情形中正确表明数据、从中进修,并在不绝变革的情形中行使所得到的常识来执行特定使命的呆板或软件。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |