加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

把握这五类数据科学项目,找到一份功德情

发布时间:2018-08-17 07:21:25 所属栏目:教程 来源:谢涛
导读:技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战 大概你一向在MOOC平台上进修数据科学,也熟读了一大堆教科书,但要得到数据科学相干的地位,你还必要向店主展示本身的手艺程度。最好的方法是作品集,你可以借此向店主表白你所一向
技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战

大概你一向在MOOC平台上进修数据科学,也熟读了一大堆教科书,但要得到数据科学相干的地位,你还必要向店主展示本身的手艺程度。最好的方法是作品集,你可以借此向店主表白你所一向进修的手艺可以或许用于事变中,为公司缔造代价。

要展示自身手艺,这5种范例的数据科学项目可供参考:

1、数据整理

在一个项目中,数据科学家每每必要耗费高达80%的时刻来整理数据。对付团队来说,这是一个庞大的痛点。假如你能证明你在整理数据方面履历富厚,那么你就会显得很是有代价。建设数据整理项目,探求一些脏乱的数据集,然后就可以开始整理了。

把握这五类数据科学项目,找到一份功德情

假如你常用Python,Pandas是一个很好的库;假如你常用R,可以行使dplyr包。确保展示以动手艺:

  • 导入数据
  • 插手多个数据集
  • 检测缺失值
  • 检测非常
  • 输入缺失值
  • 数据质量担保

2、试探性数据说明

数据科学的另一个重要方面是试探性数据说明(EDA)。这是天生题目的进程,包罗行使可视化对其举办观测。EDA应承说明师从数据中得出结论以敦促营业影响。它也许包罗基于客户群体的风趣洞察,或基于季候性影响的贩卖趋势。凡是,你可以得到一些并非出于初始念头的风趣发明。

把握这五类数据科学项目,找到一份功德情

用于试探性说明的一些有效的Python库是Pandas和Matplotlib。对付R来说,ggplot2包会很有效。EDA项目应该表现以动手艺:

  • 可以或许为观测拟定相干题目
  • 辨认趋势
  • 辨认变量之间的协变
  • 行使可视化(散点图,直方图,框和晶须等)有用地转告竣果

3、交互式数据可视化

交互式数据可视化包罗仪表板等器材。这些器材对数据科学团队以及更多面向营业的最终用户都很有效。仪表板应承数据科学团队举办协作,并一路将所得到的洞察“绘制”出来。更重要的是,它们为面向营业的客户提供了一种交互式器材——这些人专注于计谋方针而非技能细节。凡是,数据科学项目标可交付成就将以仪表板的情势呈现。

把握这五类数据科学项目,找到一份功德情

对付Python用户,Bokeh和Plotly库很是得当建设仪表板。对付R用户,RStudio的Shiny软件包很有须要。你的仪表板项目应突出表现以下重要手艺:

  • 包罗与客户需求相干的指标
  • 建设有效的成果
  • 逻辑机关(“F模式”便于扫描)
  • 建设最佳革新率
  • 天生陈诉或其他自动操纵

4、呆板进修

呆板进修项目是数据科学作品齐集的另一个重要部门。在你启动和开始构建一个深度进修项目之前,请退后一步。相对付成立伟大的呆板进修模子,你更应该僵持基本。线性回归和逻辑回归是很好的开始。这些模子更易于表明并与上层打点者雷同。我还提议最好做一些对营业有影响的项目,譬喻猜测客户流失,诓骗检测或贷款违约。劈口试官而言,这些比辨认花的范例更有吸引力。

把握这五类数据科学项目,找到一份功德情

假如你是Python用户,可行使Scikit-learn库。对付R用户,可行使Caret包。你的呆板进修项目应该通报以动手艺:

  • 你选择行使特定呆板进修模子的缘故起因
  • 将数据拆分为实习/测试集(k倍交错验证)以停止太过拟合
  • 选择正确的评估指标(AUC,adj-R ^ 2,夹杂矩阵等)
  • 特性工程和选择
  • 超参数调解

雷同

雷同是数据科学家的一个重要手艺。有用地转告竣果是优越数据科学家与一个及格的数据科学家之间的区别。无论你的模子何等花哨,假如你无法向队友或客户表明清晰,那么也无法得到他们的支持。幻灯片和条记本电脑都是很好的雷同器材,你还可以将Jupyter Notebook或RMarkdown文件用于项目雷同。

把握这五类数据科学项目,找到一份功德情

确保相识你的方针受众是谁。向高管们展收?向呆板进修专家展示很是差异。必然要把握这些手艺:

  • 相识你的方针受众
  • 提出相干的可视化
  • 请勿过多地提供幻灯片
  • 确保你的演示文稿流通
  • 将功效与营业影响相团结(低落本钱,增进收入)

确保在Jupyter条记本或RMarkdown文件中记录你的项目。然后,你可以行使Github Pages将这些markdown 文件免费转换为静态网站。这是向隐藏店主展示你的作品集的好要领。

保持起劲立场,继承开拓更多项目,你将在数据科学规模找到一份功德情。事变舒畅!

【编辑保举】

  1. 数据科学20个最好的Python库
  2. 数据科学大Battle,你站Python照旧R
  3. 自从Python数据可视化出了这个模块后,数据可视化就再简朴不外了
  4. 数据科学规模,你该选 Python 照旧 R ?
  5. 用Python做数据科学时轻易健忘的八个要点!
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读