加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

我,一个数据科学家的三大瑕玷

发布时间:2018-11-19 17:54:32 所属栏目:教程 来源:大数据文摘
导读:大数据文摘出品 编译:李雷、韦梦夙、胡笳 假如说当代事变口试教会了我们什么,那就是你最大的瑕玷是什么?的正确答复是我事变太全力了。 显然,真的要去评论我们的瑕玷是很荒诞好笑的,我们为什么要提我们做不到的工作?固然事变申请和LinkedIn不勉励我们披

固然你可以自学数据科学中的全部内容,但付诸实践部门有一些限定。个中一个是难以将说明或猜测模子扩展到大型数据集。我们大大都人无法会见计较集群,又不想存钱购置小我私人超等计较机。这意味着当我们进修新算法时,我们倾向于将它们应用于小型,示意精采的数据集。

不幸的是,实际天下里的数据集不会对数据量巨细可能数据干清水平有严酷限定,以是,你必需行使差异的要领去办理数据量过大、脏数据等题目。起首,你或者必要打破小我私人电脑的安详限定,行使一个长途的实例,譬喻亚马逊的AWS EC2 乃至是多台呆板。这意味着,你必需进修奈何长途毗连呆板和敲写呼吁行,由于你的EC2实例不能行使鼠标也没有操纵界面。

当进修数据科学相干课程的时辰,我行使亚马逊云的免费处事可能免费积分(假如你有多个邮箱可以注册多个账户来得到更多免费处事)在EC2呆板做操练。这样能辅佐我认识敲写呼吁行。然而,我还没有办理第二个题目——数据集巨细可以或许高出呆板的内存。我意识到这个限定让我回到了原点,此刻是进修处理赏罚更大的数据集的时辰了。

你乃至不消在电脑资源上耗费数以千计美金,就可以实践这些超出内存限定的数据集的处理赏罚要领。这些要领包罗每次遍历一个大数据集的一部门、把一个大数据集拆分成很多小数据集可能行使像Dask这种可以或许让你把握大数据集处理赏罚细节的器材

我今朝的要领是,对付内部项目数据集和外部开源数据集,都把单个数据集拆分成多个子集,开拓一个可以或许处理赏罚子集数据的pipeline(措施、剧本等),然后用Dask 可能PSpark通过pipeline并行跑这些子集。这个要领不必要拥有超等电脑可能集群——你可以操作计较机的多核架构并行操纵平凡电脑。当你拥有更多资源的时辰,你就可以自由的拓展措施局限。

好在有像Kaggle这样的数据宝藏,我已经找到了一些相等大的数据集,而且进修其他数据科学家处理赏罚它们的要领。我从中找到了许多有效的提议,譬喻,把数据范例改成dataframe以减小内存耗损。这些要领能辅佐我更高效地处理赏罚各类数目级的数据集。

我,一个数据科学家的三大瑕玷

美国国会图书馆“只有”3PB的原料

固然还没有处理赏罚过TB级的数据集,这些要领已经辅佐我学到了处理赏罚大数据的根基计策。在最近的一些项目中,我已经可以或许运用所学手艺在AWS的集群上做说明。但愿接下来的几个月,我能慢慢在更大的数据集上做说明。可以必定的是在未来的说明中,数据会议越来越大,我还必要继承进步处理赏罚更大数据集的手艺。

深度进修

固然人工智能在繁荣和冷落中更迭,可是它最近在计较机视觉、天然说话处理赏罚、深度强化进修等规模的乐成应用让我确信基于神经收集的深度进修不是好景不常。

与软件工程和数据科学拓展规模差异,我此刻的地位不必要任何深度进修常识:传统呆板技能更能有用办理我们客户的题目。然而,我发明并不是每一个数据集都是队列布局化的,神经收集是文本或图像项目标最佳选择(今朝来看)。我会继承操作已有手艺办理当前的题目,可是,尤其在职业生活早期,试探性课题同样拥有庞大的隐藏代价。

我,一个数据科学家的三大瑕玷

试探和操作的衡量在强化进修和你的糊口中的应用

深度进修里有许多差异的分支规模,很是难判别哪个要领和库将最后胜出。固然云云,我以为认识深度进修某一个规模并能实现个中某些技能,会让一小我私人可以或许办理题目的范畴更广。办理题目差遣我更深入进修数据科学,以是把深度进修插手我的手艺库是一项有代价的投资。

我对付深度进修的进修打算和当初把本身酿成数据科学家的要领一样:

  • 阅读着重陈设应用的书本和教程
  • 在真实项目中操练技能和要领
  • 通过写作分享息争释我的项目

当我进修一个技能课题时,一个有用的要领是边学边做。这意味起步时不是通过基本理论而是通过找到现实应用要领去办理题目。这个自上而下的要领意味着我要把很多精神放在着重于下手带有很多代码样例的器材书上。在我大白技能的现实应用往后,我再回到基本理论中,这样,我可以或许更高效的行使这些技能。

固然没有机遇在事变中进修到其他人的神经收集,要靠本身自学,可是在数据科学规模有着富厚的资源和辽阔的社区。对付深度进修,我最初依烂魅这三部书:

  • 《Deep Learning Cookbook》,作者Douwe Osinga
  • 《Deep Learning with Python》,作者Francois Chollet
  • 《Deep Learning》,作者Ian Goodfellow, Yoshua Bengio, and Aaron Courville

前两本书着重于通过神经收集实现办理方案,而第三本更方向深入理论。只要环境应承,可以边读边在键盘上敲代码,这会将读技能文章变为风趣的体验。前两本书中的代码示例很是棒:我凡是是在Jupiter Notebook中逐行敲写和运行,探讨代码怎样事变,并记录常识细节。

另外,我不只仅是复制这些代码,而是实行在本身的项目中实践它们。我在近期事变的一个实践项目是构建一个图书保举体系,该体系是按照《Deep Learning Cookbook》中的相同示例代码改编的。从新开始建设本身的项目也许令人生畏,假如你想晋升本身,可以从别人的轮子上搭起。

最后,进修某个主题的最有用要领之一是把这个常识教给别人。从履素来看,假如我不能用简朴的语句表明给别人,那么我就还没有完全领略这个常识。跟着进修深度进修的每个主题,我将保持写作,并说明技能实现细节和观念性表明。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读