加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

开源器材 | Python数据科学入门

发布时间:2018-11-10 23:42:03 所属栏目:教程 来源:Payal Singh
导读:不必要昂贵的器材即可明确数据科学的力气,从这些开源器材起步即可。 无论你是一个具稀有学或计较机科学配景的资深数据科学喜爱者,照旧一个其余规模的专家,数据科学提供的也许性都在你力所能及的范畴内,并且你不必要昂贵的,高度专业化的企业级软件。本

这很风趣,但为了相识这个模子的精确水平,我们将几个分数计较为百分比:

  1. >>> nn_model.score(X, y)
  2. 0.81999999999999995

这表白我们的神经收集模子精确度约为 82%。这个功效好像令人印象深刻,但用于差异的犯法数据集时,搜查其有用性很是重要。尚有其余测试来做这个,如相干性、夹杂、矩阵等。尽量我们的模子有很高的精确率,但它对付一样平常犯法数据集并不长短常有效,由于这个特定命据集具有不成比例的行数,其列出 FIREARM 作为行使的兵器。除非从头实习,不然我们的分类器最有也许猜测 FIREARM,纵然输入数据集有差异的漫衍。

在对数据举办分类之前洗濯数据并删除非常值和畸形数据很是重要。预处理赏罚越好,我们的看法精确性就越高。另外,为模子或分类器提供过大都据(凡是高出 90%)以得到更高的精确度是一个坏主意,由于它看起来精确但因为太过拟合而无效。

Jupyter notebooks 相对付呼吁行来说是一个很好的交互式更换品。固然 CLI 对付大大都工作都很好,可是当你想要运行代码片断以天生可视化时,Jupyter 会很精彩。它比终端更好地名目化数据。

这篇文章 列出了一些最好的呆板进修免费资源,可是尚有许多其余的指导和教程。按照你的乐趣和喜爱,你还会发明很多开放数据集可供行使。作为出发点,由 Kaggle 维护的数据集,以及在州当局网站上提供的数据集是极好的资源。

【责任编辑:庞桂玉 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读