5个缘故起因汇报你:为什么在成为数据科学家之前,“逻辑回归”是第一个必要进修的
副问题[/!--empirenews.page--]
在几年之前,我踏进了数据科学的大门。之前照旧软件工程师的时辰,我是最先开始在网上自学的(在开始我的硕士学位之前)。我记适合我汇集网上资源的时辰,我望见的只有玲琅满目标算法名称—线性回归,支持向量机(SVM),决定树(DT),随即丛林(RF),神经收集等。对付方才开始进修的我来说,这些算法都长短常有难度的。可是,其后我才发明:要成为一名数据科学家,最重要的工作就是相识和进修整个的流程,好比,怎样获取和处理赏罚数据,怎样领略数据,怎样搭建模子,怎样评估功效(模子和数据处理赏罚阶段)和优化。为了到达这个目标,我以为从逻辑回归开始入门长短常不错的选择,这样不单可以让我们很快认识这个流程,并且不被那些高峻上的算法所吓倒。 因此,下面将要列出5条缘故起因来声名为什么最开始进修逻辑回归是入门最好的选择。虽然,这只是我小我私人的观点,对付其他人也许有更快捷的进修方法。 1. 由于模子算法只是整个流程的一部门 像我之条件到的一样,数据科学事变不只仅是建模,它还包罗以下的步调: 可以看到,“建模” 只是这个一再进程的一部门罢了。当开展一个数据产物的时辰,一个很是好的实践就是起首成立你的整个流程,让它越简朴越好,清晰地大白你想要得到什么,怎样举办评估测试,以及你的baseline是什么。随后在这基本上,你就可以插手一些较量炫酷的呆板进修算法,并知道你的结果是否变得更好。 趁便说下,逻辑回归(可能任何ML算法)也许不可是在建模部门所行使,它们也也许在数据领略和数据筹备的阶段行使,弥补缺失值就是一个例子。 2. 由于你将要更好地领略呆板进修 我想当各人看到本篇的时辰,第一个想要问的题目就是:为什么是逻辑回归,而不是线性回归。实情着实是都无所谓,领略了呆板进修步崆最终目标。说到这个题目,就要引出监视进修的两个范例了,分类(逻辑回归)和回归(线性回归)。当你行使逻辑回归可能线性回归成立你整个流程的时辰(越简朴越好),你会逐步地认识呆板进修里的一些观念,譬喻监视进修v.s非监视进修,分类v.s回归,线性v.s非线性等,以及更多题目。你也会知道怎样筹备你的数据,以及这进程中有什么挑衅(好比弥补缺失值和特性选择),怎样怀抱评估模子,是该行使精确率,照旧精准率和召回率,RUC AUC?又可能也许是 “均方差”和“皮尔逊相干”?全部的观念都都是数据科学进修进程中很是重要的常识点。等逐步认识了这些观念往后,你就可以用更伟大的模子可能能力(一旦你把握了之后)来更换你之前的简朴模子了。 3. 由于逻辑回归有的时辰,已经足够用了 逻辑回归是一个很是强盛的算法,乃至对付一些很是伟大的题目,它都可以做到游刃有余。拿MNIST举例,你可以行使逻辑回归得到95%的精确率,这个数字也许并不是一个很是精彩的功效,可是它对付担保你的整个流程事变来说已经足够好了。现实上,假如说可以或许选择正确且有代表性的特性,逻辑回归完全可以做的很是好。 当处理赏罚非线性的题目时,我们偶然辰会用可表明的线性方法来处理赏罚原始数据。可以用一个简朴的例子来声名这种头脑:此刻我们想要基于这种头脑来做一个简朴的分类使命。
假如我们将数据可视化,我们可以看到没有一条直线可以将它们分隔。 在这种环境下,假如差池数据做一些处理赏罚的话,逻辑回归是无法帮到我们的,可是假如我们不消x2 特性,而行使x1²来取代,那么数据将会酿成这样:
此刻,就存在一条直线可以将它们分隔了。虽然,这个简朴的例子只是为了声名这种头脑,对付实际天下来讲,很难发明或找到怎样改变数据的要领以可以行使线性分类器来辅佐你。可是,假如你可以在特性工程和特性选择上多花些时刻,那么很也许你的逻辑回归是可以很好的胜任的。 4. 由于逻辑回归是统计中的一个重要器材 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |