加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

为什么Kaggle不会让你成为一名精彩的数据科学家

发布时间:2018-12-21 11:10:09 所属栏目:教程 来源:Mika翻译
导读:毫无疑问,Kaggle长短常得当进修数据科学的平台。许大都据科学家在Kaggle上投入了大量时刻。 但同时,你不该该只依赖Kaggle来进步数据科学手艺。 以下就是傍边的缘故起因: 01、数据科学不只仅是猜测 Kaggle首要针对猜测方面的题目。然而很多实际题目是与猜测

为什么Kaggle不会让你成为一名精彩的数据科学家

毫无疑问,Kaggle长短常得当进修数据科学的平台。许大都据科学家在Kaggle上投入了大量时刻。

但同时,你不该该只依赖Kaggle来进步数据科学手艺。

以下就是傍边的缘故起因:

01、数据科学不只仅是猜测

Kaggle首要针对猜测方面的题目。然而很多实际题目是与猜测无关的。

譬喻,很多公司都想知道用户流失的常见途径。办理这类题目必要相识差异的数据范例和用户打仗点,譬喻web导航、计费、客服中心交互、市肆会见等。同时还必要辨认重要变乱,譬喻超额计费或导航错误。在确定全部变乱后,你必要应用路径算法来相识用户流失的常见路径。办理这类题目不能仅靠猜测算法,而必要能按照变乱构建时刻线的算法。

同样,办理很多其他题目也必要猜测之外的手艺。能办理猜测性题目是很强盛的,但作为数据科学家,你必要办理多种范例的题目。因此你不能仅范围于Kaggle,还必要用其他手艺办理实际的数据科学挑衅。

02、无法进步图算法方面的手艺

交际收集说明、影响猜测、社区说明、诓骗收集说明等,这些风趣的说明题目都是数据科学家必要办理。办理这类题目必要有关图形算法的常识,如Pagerank、Modularity、ShortestPath、EigenVectorCentrality等等。

收集或社区范例题目在Kaggle中很少见。办理图形和收集方面题目必要节点和链接相干数据,而Kaggle中大大都数据并不是这种情势的。

虽然,你可以将题目转换为行使图算法,但这种环境很少。Kaggle上穷乏这类的角逐,,这也表白了与数据科学家一般必要办理题目的庞大差距。

03、无法进步算法可表明性

算法的可表明性越来越重要。你可以行使高峻上的要领和最伟大的算法,但假如无法表明算法是奈何获得猜测的,在企业中这将是一个大题目。这种说不清缘由的算法被称为“黑匣子”算法。

行使黑盒算法存在必然的隐患,并且也也许造成法令方面的题目。假设,你开拓了一种很是准确的算法荟萃来猜测名誉风险。在投入出产时,它将用于猜测信贷风险。个中有些人的名誉得分会很低,被拒绝贷款的人有权知道他们申请被拒的缘故起因。假如算法无法提供表明,则也许会发生法令题目。

在Kaggle角逐中,得胜者是基于精确性,而不是基于可表明性。这意味着角逐中数据科学家可以行使伟大的算法来担保高精确性,而不必体谅可表明性。这种要领可以或许赢得角逐,但在企业的数据科学项目中就行不通了。

04、穷乏投资回报率的说明环节

公司正在加大数据科学手艺方面的投入。他们但愿数据科学项目可以或许提供投资回报率。凡是,乐成的说明项目必要数据科学算法与投资回报率细密相干。

个中一个例子是猜测性维护,个中可以或许对装备妨碍举办猜测。假设装备的妨碍率为10%,那么你必要派维护职员去举办搜查吗?也许并不必要。但假如妨碍率为95%,那是必定必要的。

然而在现实环境中,妨碍率凡是为55%,63%等,这时就不确定了。假如公司派维护职员搜查全部这些装备,则也许发生庞大的本钱。假如不派人搜查,则会有很大的装备妨碍风险。

那么妨碍率的阈值应该是几多呢?这时就必要计较投资回报率了。因此很是必要数据科学家给出傍边的阈值,从而辅佐公司确定相干决定。

Kaggle并不涉及这方面的说明,而只专注猜测,并不思量怎样把数据科学功效应用于投资回报率。

05、不会涉及到模仿和优化题目

关于模仿和优化算法,好比体系动态仿真、基于署理模仿或蒙特卡罗模仿等应该是全部数据科学家的必备手艺。金融优化、蹊径优化、订价等很多题目都是数据科学家必要办理的题目。

以价值猜测为例,你可以行使呆板进修,按照季候、日期、所在、竞争敌手价值等数据来猜测产物价值。但呆板进修算法猜测的价值是否是最优价值?大概不是。为了确定最优价值,你起主要确定优化方针。

优化方针可以设为利润优化。在这种环境下,你必要确定提供最佳利润的价值范畴。为了留住用户,这样的价值不能设太高。同时,为了保持精采的利润率,也不该该太低。

因此,你必要通过优化算法来确定最佳价值范畴。假如猜测价值在价值范畴内,那么呆板进修的功效是可以接管的,不然应被拒绝。

在Kaggle上,凡是不会给出利润优化等优化方针。因此,傍边涉及的题目如故范围于呆板进修,而并没有试探优化方面的题目。

06、无法体验模子陈设和操纵

假设你的模子在Kaggle排行榜位居火线。然而陈设模子是完全其它一回事,这是在Kaggle上无法体验的。

出产陈设模子会涉及到docker、kubernetes等技能。固然数据科学家并不必要成为docker和kubernetes方面的专家,但至少要可以或许纯熟行使。许多环境下,数据科学家必要用docker建设评分担道。

操纵和陈设还包罗按期监控模子机能,并在须要时采纳改造法子。假设有一个产物保举模子,你在某个时刻点调查到,因为保举而导致贩卖额降落。那么题目是出在模子上吗?照旧其他方面呢?

数据科学家必要参加到模子陈设环节,从而得到得到真实而富厚的体验。

结语

数据科学家必要涉及算法可表明性、投资回报率评估、优化等手艺。在这一系列题目中,你将办理各类风趣的实际题目,从而更全面的进步数据科学相干手艺。

对付数据科学家而言,不要仅范围于Kaggle,而是要从其他角度办理差异范例的数据科学题目。

原文链接:https://towardsdatascience.com/why-kaggle-will-not-make-you-a-great-data-scientist-a2c2f506a23f,作者:Pranay Dave

【编辑保举】

  1. 大数据比赛平台——Kaggle入门篇
  2. 数据说明秘笈在这里:Kaggle六大角逐最全面理会(上)
  3. Kaggle 20G数据集强势说明“绝地求生”,科学吃鸡攻略拿走不谢!
  4. Kaggle放大招:简朴几步实现海量数据说明及可视化
  5. 【Kaggle入门级比赛top5%排名履历分享】— 说明篇
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读