干货:怎样正确地进修数据科学中的Python
副问题[/!--empirenews.page--]
雷锋网 AI 科技评述按,大大都有幻想的数据科学家是通过进修为开拓职员开设的编程课程开始熟悉 python 的,他们也开始办理相同 leetcode 网站上的 python 编程困难。他们以为在开始行使 python 说明数据之前,必需认识编程观念。 资深数据说明师 Manu Jeevan 以为,这是一个庞大的错误,由于数据科学家行使 python 来对数据举办检索、洗濯、可视化和构建模子,而不是开拓软件应用措施。现实上,为了完成这些使命,你必需将大部门时刻齐集在进修 python 中的模块和库上。他以为,进修数据科学的正确姿势应该如下文,雷锋网 AI 科技评述编译清算。 请凭证下面这个步调来进修数据科学的 python。 设置编程情形 Jupyter Notebook 是开拓和展示数据科学项目标强盛编程情形。 在电脑上安装 Jupyter Notebook 最简朴的要领是通过 Anaconda 举办安装。Anaconda 是数据科学中行使最普及的 python 器材,它预装了全部最风行的库。 你可以赏识问题为「A Beginner’s Guide to Installing Jupyter Notebook Using Anaconda Distribution」的博客文章,相识怎样安装 Anaconda。安装 Anaconda 时,请选择最新的 python 3 版本。 安装完 Anaconda 后,请阅读 Code Academy 的这篇文章,相识怎样行使 Jupyter Notebook。 只进修 python 的基本常识 Code Academy 有一门关于 python 的优越课程,约莫必要 20 个小时才气完成。你不必进级到 pro 版本,由于你的方针只是认识 python 编程说话的基本常识。 NumPy 和 Pandas,进修的绝佳资源 在处理赏罚计较劲大的算法和大量数据时,python 速率较慢。你也许会问,既然云云那为什么 python 是数据科学最风行的编程说话? 谜底是,在 python 中,很轻易以 C 或 Fortran 扩展的情势将数字处理赏罚使命转移到底层。这正是 NumPy 和 Pandas 所做的工作。 起首,你应该学会 NumPy。它是用 python 举办科学计较的最根基的模块。NumPy 支持高度优化的多维数组,这是大大都呆板进修算法最根基的数据布局。 接下来,你应该进修 Pandas。数据科学家耗费大部门时刻洗濯数据,这也被称为数据整。 Pandas 是操纵数据最风行的 python 库。Pandas 是 NumPy 的延长。Pandas 的底层代码普及行使 NumPy 库。Pandas 的首要数据布局称为数据帧。 Pandas 的缔造者 Wes McKinney 写了一本很棒的书,叫做《Python for Data Analysis》。在书中的第 4、5、7、8 和 10 章可以进修 Pandas 和 NumPy。这些章节涵盖了最常用的 NumPy 和 Pandas 特征来处理赏罚数据。 进修行使 Matplotlib 可视化数据 Matplotlib 是用于建设根基可视化图形的根基 python 包。你必需进修怎样行使 Matplotlib 建设一些最常见的图表,如折线图、条形图、散点图、柱状图和方框图。 另一个成立在 Matplotlib 之上并与 Pandas 细密团结的好的画图库是 Seaborn。在这个阶段,我提议你快速进修如安在 Matplotlib 中建设根基图表,而不是专注于 Seaborn。 我写了一个关于怎样行使 Matplotlib 开拓根基图的教程,该教程由四个部门构成。
你可以通过这些教程来把握 Matplotlib 的根基常识。 简而言之,你不必花太多时刻进修 Matplotlib,由于此刻公司已经开始回收 Tableau 和 Qlik 等器材来建设交互式可视化。 怎样行使 SQL 和 python 数据有组织地驻留在数据库中。因此,你必要知道怎样行使 SQL 检索数据,并行使 python 在 Jupyter Notebook 中执行说明。 数据科学家行使 SQL 和 Pandas 来哄骗数据。有一些数据操纵使命行使 SQL 就可以很轻易地执行,而且有一些使命可以行使 Pandas 高效地完成。我小我私人喜好行使 SQL 来检索数据并在 Pandas 中举办操纵。 现在,公司行使 Mode Analytics 和 Databricks 等说明平台来轻松地行使 python 和 SQL。 以是,你应该知道怎样一路有用地行使 SQL 和 python。要相识这一点,你可以在计较机上安装 SQLite 数据库,并在个中存储一个 CSV 文件,然后行使 python 和 SQL 对其举办说明。 这里有一篇出色的博客文章,向你展示了怎样做到这一点:Programming with Databases in Python using SQLite。 在赏识上述博客文章之前,你应该相识 SQL 的基本常识。Mode Analytics 上有一个很好的关于 SQL 的教程:Introduction to SQL。通过他们的根基 SQL 部门,相识 SQL 的根基常识,每个数据科学家都应该知道怎样行使 SQL 有用地检索数据。 进修和 python 相干的根基统计学常识 大都有幻想的数据科学家在不进修统计学的基本常识的环境下,就直接跳到呆板进修常识的进修中。 不要犯这个错误,由于统计学是数据科学的支柱。并且,很大都据科学家进修统计学只是进补缀论观念,而不是进修实践观念。 我的意思是,通过实践观念,你应该知道什么样的题目可以用统计学来办理,相识行使统计数据可以办理哪些挑衅。 以下是你应该相识的一些根基统计观念:
要进修这些常识,有一本很好的书可以看看:《Practical Statistics for Data Scientists: 50 Essential Concepts》。不幸的是,本书中的代码示例是用 R 编写的,可是许多人包罗我本身在内行使的是 Python。 我提议你阅读本书的前四章。阅读本书的前 4 章,相识我前面提到的根基统计观念,你可以忽略代码示例,只相识这些观念。本书的别的章节首要齐集在呆板进修上。我将在下一部门接头怎样进修呆板进修。 大大都人提议行使 Think Stats 来进修 python 的统计常识,但这本书的作者传授了本身的自界说函数,而不是行使尺度的 python 库来举办统计常识讲授。因此,我不保举这本书。 接下来,你的方针是实此刻 Python 中进修的根基观念。StatsModels 是一个风行的 python 库,用于在 python 中构建统计模子。StatsModels 网站提供了关于怎样行使 Python 实现统计观念的优越教程。 可能,你也可以寓目 Gaël Varoquaux 的视频。他向你展示了怎样行使 Pandas 和统计模子举办推理和试探性统计。 行使 Scikit-Learn 举办呆板进修 Scikit-Learn 是 Python 中最风行的呆板进修库之一。你的方针是进修怎样行使 Scikit Learn 实现一些最常见的呆板进修算法。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |