加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

2017校招数据分析岗笔试#92;/面试知识点总结

发布时间:2021-01-17 22:28:37 所属栏目:大数据 来源:网络整理
导读:2017校招正在火热的举办,后头会不绝更新涉及到的相干常识点。 尽量传闻本年几个大互联网公司招的人超少,但仿佛哪一年都说是就业坚苦,可以或许进去虽然最好,不能进去是不是应该也抱着好的祈望去找本身满足的呢? 最近笔试了许多家公司校招的数据说明和数据发掘

短时刻内处理赏罚大量数据,获得可行且结果较好的功效。

3)弱点:

  • 对付种类别样本数目纷歧致数据,信息增益方向于那些具有更大都值的特性。

  • 易于过拟合。

  • 忽略属性之间的相干性。

3.支持向量机

支持向量机把分类题目转化为探求分类平面的题目,并通过最大化分类界线点间隔分类平面的间隔来实现分类。

  • 可以办理小样本下呆板进修的题目。

  • 进步泛化机能。

  • 可以办理文天职类、笔墨辨认、图像分类等方面仍受接待。

  • 停止神经收集布局选择和局部极小的题目。

  • 缺失数据敏感。

  • 内存耗损大,难以表明。

  • 4.K近邻

    通过计较每个实习样例到待分类样品的间隔,取和待分类样品间隔最近的K个实习样例,K个样品中哪个类此外实习样例占大都,则待分类样品就属于哪个种别。

    2)利益 :

    合用于样本容量较量大的分类题目

  • 计较劲太大

  • 对付样本量较小的分类题目,会发生误分。

  • 5.逻辑回归(LR)

    回归模子中,y是一个定型变量,好比y=0或1,logistic要领首要应用于研究某些变乱产生的概率。

  • 速率快,得当二分类题目。

  • 简朴易于领略,直接看到各个特性的权重。

  • 能轻易地更新模子接收新的数据。

  • 对数据和场景的顺应手段有范围,不如决定树算法顺应性那么强

    常识点5:分类的评判指标

    精确率和召回率普及用于信息检索和统计分类规模

    1)精确率(precision rate):提取出的正确信息条数/提取出的信息条数

    2)召回率(recall rate):提取出的正确信息条数/样本中的信息条数


    ROC和AUC是评价分类器的指标


    3)ROC曲线:

    ROC存眷两个指标

    True Positive Rate ( TPR,真正率 )?= TP / [ TP + FN] ,TPR代表猜测为正现实也为正占总正实例的比例

    False Positive Rate( FPR,假正率 )?= FP / [ FP + TN] ,FPR代表猜测为正但现实为负占总负实例的比例

    在ROC 空间中,每个点的横坐标是FPR,纵坐标是TPR

    4)AUC:AUC(Area Under Curve)

    被界说为ROC曲线下的面积,显然这个面积的数值不会大于1。又因为ROC曲线一样平常都处于y=x这条直线的上方,以是AUC的取值范畴在0.5和1之间。行使AUC值作为评价尺度是由于许多时辰ROC曲线并不能清楚的声名哪个分类器的结果更好,而AUC作为数值可以直观的评价分类器的优劣,值越大越好。

    5)怎样停止过拟合?

    过拟合示意在实习数据上的偏差很是小,而在测试数据上偏差反而增大。其缘故起因一样平常是模子过于伟大,过度得去拟合数据的噪声和outliers。

    常见的办理步伐是正则化是:增大数据集,正则化

    正则化要领是指在举办方针函数或价钱函数优化时,在方针函数或价钱函数后头加上一个正则项,一样平常有L1正则与L2正则等。法则化项的引入,在实习(最小化cost)的进程中,当某一维的特性所对应的权重过大时,而此时模子的猜测和真实数据之间间隔很小,通过法则化项就可以使整体的cost取较大的值,从而在实习的进程中停止了去选择那些某一维(或几维)特性的权重过大的环境,即过度依靠某一维(或几维)的特性。

    L1正则与L2正则区别:

    L1:计较绝对值之和,用以发生稀少性(使参数矩阵中大部门元素变为0),由于它是L0范式的一个最优凸近似,轻易优化求解;

    L2:计较平方和再开根号,L2范数更多是防备过拟合,而且让优化求解变得不变很快速;

    以是优先行使L2 norm是较量好的选择。

    常识点6:二叉树(前、中、后遍历)

    (这里的前中后是指的根节点的遍历序次)

    1)前序遍历(DLR),起首会见根结点,然后遍历左子树,最后遍历右子树;

    2)中序遍历(LDR),起首遍历左子树,然后会见根结点,最后遍历右子树;

    3)后序遍历(LRD),起首遍历左子树,然后会见遍历右子树,最后会见根结点。

    常识点7:几种根基排序算法

    1)冒泡排序(Bubble Sort)

    冒泡排序要领是最简朴的排序要领。这种要领的根基头脑是,将待排序的元素看作是竖着分列的“气泡”,较小的元素较量轻,从而要往上浮。

    冒泡排序是不变的。算法时刻伟大度是O(n^2)。

    2)插入排序(Insertion Sort)

    插入排序的根基头脑是,颠末i-1遍处理赏罚后,L[1..i-1]己排好序。第i遍处理赏罚仅将L[i]插入L[1..i-1]的恰当位置,使得L[1..i]又是排好序的序列。

    直接插入排序是不变的。算法时刻伟大度是O(n^2)。

    3)堆排序

    堆排序是一种树形选择排序,在排序进程中,将A[n]当作是完全二叉树的次序存储布局,操作完全二叉树中双亲结点和孩子结点之间的内涵相关来选择最小的元素。

    堆排序是不不变的。算法时刻伟大度O(nlog n)。

    4)快速排序

    快速排序是对冒泡排序的一种本质改造。快速排序通过一趟扫描,就能确保某个数(以它为基准点吧)的左边各数都比它小,右边各数都比它大。

    快速排序是不不变的。最抱负环境算法时刻伟大度O(nlog2n),最坏O(n ^2)。

    常识点8:SQL常识

    1)左毗连、右毗连、inner毗连,full毗连

    2)修改表:

    alter table 西席 add 奖金 int

    alter table 西席 drop 奖金

    alter table 西席 rename 奖金 to 补助

    3)表权限的赋予:

    4)奈何清空表数据,但不删除表布局

    delete from tablename可能delete * from table_name

    truncate table tablename

    5)外键能不能为空

    外键可觉得空,为空暗示其值还没有确定;

    假如不为空,刚必需为主键沟通。

    常识点9:统计学基本常识

    1)四分位极差、阁下偏漫衍、p值

    2)方差说明:

    用于两个及两个以上样本均数不同的明显性检讨,根基头脑是:通过说明研究差异来历的变异对总变异的孝顺巨细,从而确定节制变量对研究功效影响力的巨细。

    3)主因素说明:

    是一种统计要领。通过正交调动将一组也许存在相干性的变量转换为一组线性不相干的变量,转换后的这组变量叫主因素。

    4)幸存者毛病:

    意思是指,当取得资讯的渠道,仅来自于幸存者时(由于死人不会措辞),此资讯也许会存在与现实环境差异的毛病。

    (编辑:湖南网)

    【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读