数据说明进修:入数据科学大坑,我必要什么样的数学程度?
作为一门基本性学科,数学在数据科学和呆板进修规模都施展着不行或缺的浸染。数学基本是领略各类算法的先决前提,也将辅佐我们更深入透彻地相识算法的内涵道理。以是,本文作者阐释了数据科学和呆板进修为何离不开数学,并提供了统计学与概率论、多变量微积分、线性代数以及优化要领四个数学分支中必要认识的一些数学观念。 本文的作者是物理学家、数据科学教诲者和作家 Benjamin Obi Tayo 博士,他的研究乐趣在于数据科学、呆板进修、AI、Python 和 R 说话、猜测说明、原料科学和生物物理学。
数据科学和呆板进修离不开数学 假如你是一个数据科学喜爱者,则或许会发生以下两个疑问: 我险些没稀有学配景,那么能成为数据科学家吗? 哪些根基的数学手艺在数据科学中很是重要呢? 我们都知道,数据科学离不开各式百般的扩展包。而且,此刻有许多机能强盛的包可以用来构建猜测模子可能用来天生可视化数据。如下罗列了用于描写性和猜测性说明的一些最常见包: Ggplot2 Matplotlib Seaborn Scikit-learn Caret TensorFlow PyTorch Keras 得益于以上这些扩展包,任何人都可以构建模子可能天生可视化数据。但与此同时,要优化模子进而天生气能最佳的靠得住模子,拥有强盛的数学配景也是很有须要的。 也就是说,构建模子只是一方面,另一方面还必要对模子举办表明,得出故意义的结论,这样才气更好地做出数据驱动的决定。 最后,在行使这些包之前,你必要领略每个包中蕴含的数学基本,这样才不会只把这些包看成黑盒器材(black-box tool)。 案例说明:构建一个多元回归模子 假设我们要构建一个多元回归模子,那么必要事先问本身几个题目: 数据集有多大? 特性变量和方针变量是什么? 哪些猜测特性与方针变量关联最大? 哪些特性较量重要? 是否应该扩展特性? 数据集应该怎样分别成实习集和测试集? 主因素说明(principal component analysis, PCA)是什么? 是否应该行使 PCA 删除多余特性? 怎样评估模子?用 R2 值、MSE 照旧 MAE? 怎样晋升模子的猜测手段? 是否行使正则化回归模子(regularized regression model)? 回归系数是几多? 截距是几多(intercept)? 是否行使像 K 近邻回归(KNeighbors regression)可能支持向量回归(support vector regression)这样的无参数回归模子? 模子中的超参数是几多?怎样调解超参数使模子机能到达最佳? 很明明,假如没有精采的数学配景,你将无法办理上述题目。因此,在数据科学和呆板进修中,数学手艺和编程手艺一样重要,这很要害。 作为一个数据科学的推许者,投入时刻来进修数据科学和呆板进修中的理论基本和数学基本很有须要。绝不浮夸地说,你所构建的靠得住有用模子可否用于办理实际天下的题目,这也将取决于你的数学手艺有多好。 接下来接头一下数据科学和呆板进修中一些须要的数学手艺。 数据科学和呆板进修中须要的数学手艺 数学包含万象,任何人都不行能门门能干。以是,在数据科学和呆板进修研究中,我们可以按照自身地址的详细规模、手头的详细事变可能行使的详细算法来有偏重地进修对应的数学手艺。 1. 统计学与概率论 统计学和概率论可用于可视化变量、数据预处理赏罚、特性调动、数据插补、降维、特性工程和模子评估等等。 以下是必要认识的一些统计学与概率论观念: 均匀数、中位数、众数、尺度差 / 方差; 相相关数和协方差矩阵、概率漫衍(二项漫衍、泊松漫衍和正态漫衍); p 值、贝叶斯定理(精度、召回率、正猜测值、负猜测值、夹杂矩阵和 ROC 曲线)、中心极限制理 ;R_2 值、均方偏差(MSE)、A/B 测试、蒙特卡罗模仿。 2. 多变量微积分(Multivariable Calculus) 大大都呆板进修模子是行使包括几种特性或猜测变量的数据集来构建的。因此,认识多变量微积分对付构建呆板进修模子很是重要。 以下是你必要认识的多变量微积分数学观念: 多元函数、导数和梯度、阶跃函数; Sigmoid 函数、Logit 函数、ReLU 函数、丧失函数; Plot 函数绘制、函数最小值和最大值。 3. 线性代数 线性代数是呆板进修中最重要的数学手艺,一个数据集可以被暗示为一个矩阵。线性代数可用于数据预处理赏罚、数据转换以及降维和模子评估。 以下是你必要认识的线性代数观念: 向量、向量范数; 矩阵、矩阵的转置、矩阵的逆、矩阵的队列式、矩阵的迹、点积、特性值、特性向量。 4. 优化要领 大大都呆板进修算法通过最小化方针函数的要领来执行猜测建模。 以下是你必要认识的优化数学观念: 丧失函数 / 方针函数、似然函数、偏差函数、梯度降落算法及其变体。 总之,作为一个数据科学的推许者,应该时候服膺,理论基本对构建有用靠得住的模子至关重要。因此,你应该投入足够的时刻去研究每一种呆板进修算法背后的数学理论。 原文链接: https://medium.com/towards-artificial-intelligence/how-much-math-do-i-need-in-data-science-d05d83f8cb19
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |