如何评估机器学习模型的性能
副问题[/!--empirenews.page--]
您可以成天实习有监视的呆板进修模子,可是除非您评估其机能,不然您永久无法知道模子是否有效。这个具体的接头回首了您必需思量的各类机能指标,并对它们的寄义和事变方法提供了直观的表明。 为什么必要评估? 让我从一个很是简朴的例子开始。 罗宾和山姆都开始为工科大学筹备入学测验。他们俩共享一个房间,并在办理数字题目时支付了沟通的全力。他们俩整年进修了险些沟通的时刻,并介入了期末测验。令人惊奇的是,罗宾破除了,但萨姆没有破除。当被问到时,我们知道他们的筹备计策有一个区别,即“测试系列”。罗宾插手了一个测试系列,他已往通过介入那些测验来测试他的常识和领略力,然后进一步评估他落伍的处所。可是山姆很有信念,他只是不绝地实习本身。 以沟通的方法,如上所述,可以行使很多参数和新技能对呆板进修模子举办普及的实习,可是只要您跳过它的评估,就不能信托它。 夹杂矩阵 夹杂矩阵 是一个模子的猜测和数据点的现实种别标签之间的相干性的矩阵。 假设您正在成立一个模子来检测一小我私人是否患有糖尿病。举办实习测试拆分后,您得到了长度为100的测试集,个中70个数据点标志为正(1),而30个数据点标志为负(0)。此刻,让我为您的测试猜测绘制矩阵: 在70个现实的阳性数据点中,您的模子猜测64个点为正,6个点为负。在30个现实负点中,它猜测3个正点和27个负点。 留意: 在“ 真必定”,“真否认”,“假必定”和“假否认”暗示法中 ,请留意,第二项(“正”或“负”)暗示您的猜测,而第一项则暗示您猜测的是对照旧错。 基于上面的矩阵,我们可以界说一些很是重要的比率: TPR(真正率)=(真正/现实正) TNR(真负利率)=(真负/现实负) FPR(误报率)=(误报/现实负) FNR(假负率)=(假负/现实正数) 对付我们的糖尿病检测模子,我们可以计较以下比率: TPR = 91.4% TNR = 90% FPR = 10% FNR = 8.6% 假如您但愿模子很智慧,那么模子必需正确猜测。这意味着您的 “正必定” 和 “负否认” 应尽也许高 ,同时,您必要将错误 必定 和 错误否认 应尽也许少的 错误降至最低 。 同样在比率方面,您的 TPR和TNR 应该很高, 而 FPR和FNR 应该很是低 , 智能模子: TPR↑,TNR↑,FPR↓,FNR↓ 愚笨的模子: TPR,TNR,FPR,FNR的任何其他组合 也许有人争冲突,不行能划一地照顾全部四个比率,由于最终没有一种模子是美满的。那我们该怎么办? 是的,它是真的。因此,这就是为什么我们要成立模子并紧记规模的缘故起因。在某些规模要求我们将特定比率作为首要优先事项,纵然以其他比率较差为价钱。譬喻,在癌症诊断中,我们不能不吝统统价钱错过任何阳性患者。因此,我们应该将TPR保持在最大值,将FNR保持在靠近0的程度。纵然我们猜测有任何康健的患者被诊断出,也如故可以,由于他可以举办进一步搜查。 精确性 精确度是其字面意思,暗示模子的精确度。 精确性=正确的猜测/总猜测 通过行使夹杂矩阵,精度=(TP + TN)/(TP + TN + FP + FN) 精确性是我们可以行使的最简朴的机能指标之一。可是让我告诫您,精确性偶然会导致您对模子发生错误的理想,因此您应该起宰衡识所行使的数据集和算法,然后才抉择是否行使精确性。 在接头精确性的失败案例之前,让我为您先容两种范例的数据集: 均衡的: 一个数据集,包括全部标签/种别险些相称的条目。譬喻,在1000个数据点中,600个为正,400个为负。 不服衡: 一种数据集,个中包括方向特定标签/类此外条目标漫衍。譬喻,在1000个条目中,有990个为正面种别,有10个为负面种别。 很是重要:处理赏罚不服衡的测试集时,切勿行使精确性作为怀抱。 为什么? 假设您有一个不服衡的测试集,个中包括 990(+ ve) 和 10(-ve) 的1000个条目 。最终,您以某种方法最终建设了一个糟糕的模子,该模子老是会因列车不服衡而始终猜测“ + ve”。此刻,当您猜测测试集标签时,它将始终猜测为“ + ve”。因此,从1000个测试设定点中,您可以得到1000个“ + ve”猜测。然后你的精确性就会来 990/1000 = 99% 哇!惊人!您很兴奋看到云云精彩的精确性得分。 可是,您应该知道您的模子确实很差,由于它老是猜测“ + ve”标签。 很是重要:同样,我们无法较量两个返回概率得分并具有沟通精确性的模子。 有某些模子可以像Logistic回归那样给出每个数据点属于特定类的概率。让我们来思量这种环境: 如您所见, 假如P(Y = 1)> 0.5,则猜测为类1。 当我们计较M1和M2的精度时,得出的功效沟通,可是很明明, M1比M2好得多通过查察概率分数。 Log Loss 处理赏罚了这个题目 ,我将在稍后的博客中举办表明。 精度和召回率 精度: 这是真实阳性率(TP)与阳性猜测总数的比率。根基上,它汇报我们您的正面猜测现实上是正面几多次。 追念一下: 它不外是TPR(上文所述的“真阳性率”)。它汇报我们全部正身分中有几多被猜测为正。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |