加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

从软件工程师转型数据科学家 是这样走的

发布时间:2018-06-22 15:11:42 所属栏目:教程 来源:李佳惠
导读:【编译】几年前,作者开始在数据科学规模开始了本身的研究,其时的作者只是一名软件工程师,当他举办在线搜刮资源时,只看到进修算法的名称——包罗线性回归、支持向量机、决定树、随机丛林、神经收集等等,很难弄大白到底应该从那边开始。而到了本日,明
副问题[/!--empirenews.page--]

  【编译】几年前,作者开始在数据科学规模开始了本身的研究,其时的作者只是一名软件工程师,当他举办在线搜刮资源时,只看到进修算法的名称——包罗线性回归、支持向量机、决定树、随机丛林、神经收集等等,很难弄大白到底应该从那边开始。而到了本日,大白进修成为数据科学家最重要的是管道,即获取和处理赏罚数据、领略数据、构建模子、评估功效(模子和数据处理赏罚阶段两者的进程)和陈设。因此,我们起首应该进修逻辑回归,而不是被花哨的算法所沉没。

  从软件工程师转型到数据科学家 我是这样走的

  你可以在这篇文章中阅读到更多关于作者从软件工程转入数据科学的经验。

  以是,我们成为数据科学家,应该起首从逻辑回归开始入手。这儿提出了5个来由。这虽然只是小我私人的观点,对其他人来说,以差异的方法干事也许会越发轻易。

  由于进修算法只是流水线的一部门

  正如在一开始所说的那样,数据科学事变不只仅是模子构建。它包罗以下步调:

  从软件工程师转型到数据科学家 我是这样走的

  你可以看到“建模”仅仅是这个一再进程的一部门。在构建数据产物时,先成立整个管道,尽也许简朴,大白你想要到达什么方针,怎样丈量本身以及丈量基线是一个好风俗。之后,您可以花式举办呆板进修,并可以或许清晰知道本身是否正在变得更好。

  趁便说一句,逻辑回归(或任何ML算法)不只可以用于“建模”部门,还可以用于“数据领略”和“数据筹备”,这就是一个例子。

  由于你会更好地领略呆板进修

  信托许多人在阅读这篇文章的问题时,许多人第一个问的题目必然是为什么是逻辑回归而不是线性回归。究竟是,这并不重要,由于这个题目自己带来了两种监视进修算法:分类(Logistic回归)和回归(线性回归)。当您行使逻辑或线性回归构建流水线时,您将认识大大都呆板进修观念,同时保持简朴。如监视和无监视进修、分类与回归、线性与非线性等等题目。您还可以相识怎样筹备数据,也许存在哪些挑衅(如输入和特性选择),怎样丈量您的模子,您是否应该行使“精确性”,“Precision-Recall”、“ROC AUC ”可能也许是“均方偏差”和“皮尔森相干”全部这些观念,它们都是数据科学进程中最重要的部门。在认识它们之后,您将可以或许用您把握的更伟大的一些元素替代您的简朴模子。

  由于“逻辑回归”(偶然)是足够的

  逻辑回归是一种很是强盛的算法,纵然对付很是伟大的题目它也可以做得很好。以MNIST为例,仅行使逻辑回归就可以到达95%的精确性,这不是一个好的功效,但它的甜头足以确保您的管道事变。现实上,假如可以或许正确地示意这些成果,它可以做得很是精彩。在处理赏罚非线性题目时,我们偶然会实行以线性表明的方法暗示原始数据。下面是这个设法的一个小例子:我们但愿对以下数据执行简朴的分类使命:  从软件工程师转型到数据科学家 我是这样走的

  假如我们绘制这些数据,我们可以看到没有一条单独的线可以将它分隔:

从软件工程师转型到数据科学家 我是这样走的

  从软件工程师转型到数据科学家 我是这样走的

  在这种环境下,逻辑回归没有对数据做任何工作,也不会对我们有所辅佐,可是假如我们放弃x2成果并行使x12,它将如下所示:

从软件工程师转型到数据科学家 我是这样走的

  从软件工程师转型到数据科学家 我是这样走的

  此刻,有一条简朴的线可以疏散数据。虽然,这个玩具的例子并不像实际糊口中的那样,在实际糊口中,很难判定你必要怎样改变你的数据,以是线性分类器可以辅佐你,可是假如你投入一些时刻在特性工程中,并选择您的逻辑回归也许会做得很是好。

  由于它是统计中的重要器材

  线性回归不只合用于猜测,一旦您有一个拟合线性回归模子,您可以相识依靠变量和自变量之间的相关或更多“ML”说话的相关,您可以相识您的要素与您的方针之间的相关值,思量一个简朴的例子,我们有关于衡宇订价的数据,和一些成果和现实价值。我们拟合一个线性回归模子并得到好的功效。我们可以看看模子为每个成果进修到的现实权重,假如这些权重很大,我们可以说某些成果比其他成果更重要,并且,我们可以说衡宇巨细譬喻认真50%房价的变革和1平方米的增进将导致房价上涨10K。而线性回归是进修数据相关的强盛器材,统计职员常常行使它。

  由于它是进修神经收集的精采初步

  对付作者来说,进修逻辑回归起首在开始进修神经收集时起了很大浸染。您可以将收集中的每个神经元都视为逻辑回归,它具有输入、权重以及对全部这些产物做点积的毛病,然后应用一些非线性函数。另外,神经收集的最后一层是一个简朴的线性模子(大部门时刻)。可以看一下这个很是基本的神经收集:

  从软件工程师转型到数据科学家 我是这样走的

  让我们细心看看“输出层”,你可以看到这是一个简朴的线性(或逻辑)回归,我们有输入(潜匿层2)、权重、点积,然后添加一个非线性函数(取决于使命)。思量神经收集的一个好要领是将神经收集分成两部门,暗示部门和分类/回归部门:

  从软件工程师转型到数据科学家 我是这样走的

  第一部门(左侧)试图进修一种数据的精采暗示,以辅佐第二部门(右侧)执行线性分类、回归。你可以在这篇出色的文章中阅读更多的设法。

  结论

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读