加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

如何评估机器学习模型的性能

发布时间:2020-09-29 03:08:10 所属栏目:创业 来源:网络整理
导读:您可以成天实习有监视的呆板进修模子,可是除非您评估其机能,不然您永久无法知道模子是否有效。这个具体的接头回首了您必需思量的各类机能指标,并对它们的寄义和事变方法提供了直观的表明。 为什么必要评估? 让我从一个很是简朴的例子开始。 罗宾和山姆
副问题[/!--empirenews.page--]

您可以成天实习有监视的呆板进修模子,可是除非您评估其机能,不然您永久无法知道模子是否有效。这个具体的接头回首了您必需思量的各类机能指标,并对它们的寄义和事变方法提供了直观的表明。

为什么必要评估?

让我从一个很是简朴的例子开始。

罗宾和山姆都开始为工科大学筹备入学测验。他们俩共享一个房间,并在办理数字题目时支付了沟通的全力。他们俩整年进修了险些沟通的时刻,并介入了期末测验。令人惊奇的是,罗宾破除了,但萨姆没有破除。当被问到时,我们知道他们的筹备计策有一个区别,即“测试系列”。罗宾插手了一个测试系列,他已往通过介入那些测验来测试他的常识和领略力,然后进一步评估他落伍的处所。可是山姆很有信念,他只是不绝地实习本身。

以沟通的方法,如上所述,可以行使很多参数和新技能对呆板进修模子举办普及的实习,可是只要您跳过它的评估,就不能信托它。

夹杂矩阵

夹杂矩阵   是一个模子的猜测和数据点的现实种别标签之间的相干性的矩阵。

怎样评估呆板进修模子的机能

假设您正在成立一个模子来检测一小我私人是否患有糖尿病。举办实习测试拆分后,您得到了长度为100的测试集,个中70个数据点标志为正(1),而30个数据点标志为负(0)。此刻,让我为您的测试猜测绘制矩阵:

怎样评估呆板进修模子的机能

在70个现实的阳性数据点中,您的模子猜测64个点为正,6个点为负。在30个现实负点中,它猜测3个正点和27个负点。

留意:   在“   真必定”,“真否认”,“假必定”和“假否认”暗示法中 ,请留意,第二项(“正”或“负”)暗示您的猜测,而第一项则暗示您猜测的是对照旧错。

基于上面的矩阵,我们可以界说一些很是重要的比率:

TPR(真正率)=(真正/现实正)

TNR(真负利率)=(真负/现实负)

FPR(误报率)=(误报/现实负)

FNR(假负率)=(假负/现实正数)

对付我们的糖尿病检测模子,我们可以计较以下比率:

TPR = 91.4%

TNR = 90%

FPR = 10%

FNR = 8.6%

假如您但愿模子很智慧,那么模子必需正确猜测。这意味着您的   “正必定”  和  “负否认”  应尽也许高 ,同时,您必要将错误 必定  和  错误否认 应尽也许少的 错误降至最低   。   同样在比率方面,您的   TPR和TNR  应该很高,   而  FPR和FNR  应该很是低 ,

智能模子:  TPR↑,TNR↑,FPR↓,FNR↓

愚笨的模子:  TPR,TNR,FPR,FNR的任何其他组合

也许有人争冲突,不行能划一地照顾全部四个比率,由于最终没有一种模子是美满的。那我们该怎么办?

是的,它是真的。因此,这就是为什么我们要成立模子并紧记规模的缘故起因。在某些规模要求我们将特定比率作为首要优先事项,纵然以其他比率较差为价钱。譬喻,在癌症诊断中,我们不能不吝统统价钱错过任何阳性患者。因此,我们应该将TPR保持在最大值,将FNR保持在靠近0的程度。纵然我们猜测有任何康健的患者被诊断出,也如故可以,由于他可以举办进一步搜查。

精确性

精确度是其字面意思,暗示模子的精确度。

精确性=正确的猜测/总猜测

通过行使夹杂矩阵,精度=(TP + TN)/(TP + TN + FP + FN)

精确性是我们可以行使的最简朴的机能指标之一。可是让我告诫您,精确性偶然会导致您对模子发生错误的理想,因此您应该起宰衡识所行使的数据集和算法,然后才抉择是否行使精确性。

在接头精确性的失败案例之前,让我为您先容两种范例的数据集:

均衡的: 一个数据集,包括全部标签/种别险些相称的条目。譬喻,在1000个数据点中,600个为正,400个为负。

不服衡: 一种数据集,个中包括方向特定标签/类此外条目标漫衍。譬喻,在1000个条目中,有990个为正面种别,有10个为负面种别。

很是重要:处理赏罚不服衡的测试集时,切勿行使精确性作为怀抱。

为什么?

假设您有一个不服衡的测试集,个中包括 990(+ ve)   和   10(-ve) 的1000个条目  。最终,您以某种方法最终建设了一个糟糕的模子,该模子老是会因列车不服衡而始终猜测“ + ve”。此刻,当您猜测测试集标签时,它将始终猜测为“ + ve”。因此,从1000个测试设定点中,您可以得到1000个“ + ve”猜测。然后你的精确性就会来

990/1000 = 99%

哇!惊人!您很兴奋看到云云精彩的精确性得分。

可是,您应该知道您的模子确实很差,由于它老是猜测“ + ve”标签。

很是重要:同样,我们无法较量两个返回概率得分并具有沟通精确性的模子。

有某些模子可以像Logistic回归那样给出每个数据点属于特定类的概率。让我们来思量这种环境:

怎样评估呆板进修模子的机能

如您所见,   假如P(Y = 1)> 0.5,则猜测为类1。   当我们计较M1和M2的精度时,得出的功效沟通,可是很明明,  M1比M2好得多通过查察概率分数。

Log Loss 处理赏罚了这个题目  ,我将在稍后的博客中举办表明。

精度和召回率

精度:   这是真实阳性率(TP)与阳性猜测总数的比率。根基上,它汇报我们您的正面猜测现实上是正面几多次。

怎样评估呆板进修模子的机能

追念一下:   它不外是TPR(上文所述的“真阳性率”)。它汇报我们全部正身分中有几多被猜测为正。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读