2017校招数据说明岗笔试#92;/口试常识点
副问题[/!--empirenews.page--]
作者:蓝老师 原文链接:http://www.jianshu.com/p/a64aa70d0fbc
常识点1:贝叶斯公式贝叶斯公式:P(B|A)=P(A|B)*P(B)/P(A) 个中P(A)可以睁开为 P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)*P(Bn) (这在许多问答题可能选择题中都有效到) 常识点2:关联法则说明首要考的是支持度和置信度。 常识点3:聚类聚类之间类的怀抱是分间隔和相似系数来怀抱的,间隔用来怀抱样品之间的相似性(K-means聚类,体系聚类中的Q型聚类),相似系数用来怀抱变量之间的相似性(体系聚类中的R型聚类)。 最常用的是K-means聚类,合用于大样本,但必要事先指定分为K个类。 处理赏罚步调: 1)、从n个数据工具中恣意选出k个工具作为初始的聚类中心 2)、计较剩余的各个工具到聚类中心的间隔,将它分别给最近的簇 3)、从头计较每一簇的均匀值(中心工具) 4)、轮回2-3直到每个聚类不再产生变革为止。 体系聚类合用于小样本。 常识点4:分类有监视就是给的样本都有标签,分类的实习样本必需有标签,以是分类算法都是有监视算法。 监视呆板进修题目无非就是“minimizeyour error while regularizing your parameters”,也就是在法则化参数的同时最小化偏差。最小化偏差是为了让我们的模子拟合我们的实习数据,而法则化参数是防备我们的模子过度拟合我们的实习数据,进步泛化手段。 1.朴实贝叶斯1)基本头脑:对付给出的待分类项,求解在此项呈现的前提下各个种别呈现的概率,哪个最大,就以为此分类项属于哪个种别。 2)利益:可以和决定树、神经收集分类算法相媲美,能运用于大型数据库中。 要领简朴,分类精确率高,速率快,所需预计的参数少,对付缺失数据不敏感。 3)弱点:假设一个属性对定类的影响独立于其他的属性值,这每每并不创立。(喜好吃番茄、鸡蛋,却不喜好吃番茄炒蛋)。 必要知道先验概率。 2.决定树决定树是一种简朴但普及行使的分类器,它通过实习数据构建决定树,对未知的数据举办分类。决定树的每个内部节点暗示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个叶结点存放着一个类标号。在决定树算法中,ID3基于信息增益作为属性选择的怀抱,C4.5基于信息增益比作为属性选择的怀抱,CART基于基尼指数作为属性选择的怀抱。 2)利益 :不必要任何规模常识或参数假设。 得当高维数据。 简朴易于领略。 短时刻内处理赏罚大量数据,获得可行且结果较好的功效。 对付种类别样本数目纷歧致数据,信息增益方向于那些具有更大都值的特性。易于过拟合。 忽略属性之间的相干性。 3.支持向量机支持向量机把分类题目转化为探求分类平面的题目,并通过最大化分类界线点间隔分类平面的间隔来实现分类。
|