分类模型的评估指标有混淆矩阵、KS、AUC等指标,而回归模型的评估指标又有许多。那么,怎么理解这些指标呢?这篇文章里,作者针对相关指标做了解析,一起来看看吧。
上文介绍了模型构建的5个环节,在模型验证环节,提到了评估模型性能的指标,其中分类模型的评估指标有混淆矩阵、KS、AUC等指标,而回归模型的评估指标有MSE、RMSE、MAE等指标。
今天我们就来详细了解一下分类模型的评估指标。
混淆矩阵是分类模型评估最基础的指标,我们可以通过混淆矩阵直观的看出分类模型预测准确和不准确的结果数量,进而简单计算出找到了多少比例的坏人(召回率)、找到的坏人里面真正坏人的比例(精确率)、模型判断正确的比例(准确率)等,而AUC、KS等高阶指标的计算也依赖于混淆矩阵的数据。
那么到底什么是混淆矩阵呢?
还是以前文的薅羊毛项目为例,当然薅羊毛项目是多分类模型,我们这里简化成二分类,便于理解。
我们选取了100名测试用户信息,其中有30个薅羊毛用户,我们称之为“坏人”,70个正常的“好人”。模型预测结果分数的范围是0到100分,技术同学给的参考阈值为60分,即60分以上的为“坏人”,60分以下的为“好人”。
输入到模型后得到了100个预测结果,假设模型预测出了40个坏人,在这40个坏人中,有25个预测对了,15个预测错了。
接下来,我们就可以把真实值和模型预测值,通过阈值得到的分类,填入到下表的混淆矩阵中:
混淆矩阵中,Positive表示正例,就是我们想要找出来的那个分类,Negative表示负例。结合薅羊毛项目,我们要找的“坏人”就对应了混淆矩阵的正例,“好人”对应了负例。
上表中得到了以下4种情况:
所以,T和F代表模型预测结果的对错,P和N代表模型预测结果是正例还是负例。
理论上,我们期望模型的TP值尽可能大,同时FP值尽可能小,就是尽可能多的找出真坏人,同时尽可能少的误伤好人。
以上就是混淆矩阵的简单介绍,我们会发现混淆矩阵中都是具体的数值,而数值是无法直接评估模型的好坏的,所以我们会在此基础上,延伸出以比率来形容模型好坏的多项指标。
准确率可以从全局的角度描述模型正确分类的能力,但在样本数据不均衡的情况下,无法区分TP和TN的实际贡献分别是多少,全局的准确率并没有很强的“说服力”。
精确率用来描述模型识别的精确度,在扫脸、指纹识别等确定性要求较高的场景下,“宁缺毋滥”,可以侧重考虑精确率的指标。
召回率用来描述模型识别的广度,在薅羊毛项目的场景下,我们就要求“宁可错杀一千,不可放过一个”,追求“除恶务尽”。
需要注意的是,精确率和召回率大概率是成反比的,想提升精确率,那么召回率就可能受影响,反之亦然。所以我们要结合具体的业务场景,找到两个指标的平衡点。
而F1值就是用来综合反映精确率和召回率的指标,F1=(2 x 精确率 x 召回率)/ (精确率 + 召回率),该值越大,说明精确率和召回率的综合表现越好。
KS和AUC是分类模型中常用的两个综合性指标,计算它们依然需要依赖混淆矩阵的基础指标:TPR和FPR。
构建模型的目的,肯定是期望尽可能多的找出真坏人,同时尽可能少的误伤好人,也就是TPR越高越好、FPR越低越好。
ROC曲线就是用来表达TPR和FPR之间关系的曲线,接下来我们来看一下ROC曲线的绘制过程。
刚才得到混淆矩阵数据的时候,技术同学给了一个参考的阈值60分,我们根据阈值计算出了混淆矩阵的各项指标。
假设我们没有确定的阈值,我们可以每10分进行分段(0、10、20、…100),逐一作为阈值,来分别计算TPR和FPR。那么情况大概有以下三类
我们依次把阈值依次定位0、10、20,一直到100,就会得到一串TPR和FPR数据的集合,然后我们把FPR作为横轴,TPR作为纵轴,把这些点在坐标系中连起来,就可以得到一条ROC曲线:
图中蓝色的曲线就是ROC曲线,图中的虚线是随机线,随机线上每个点TPR和FPR的值都是一样的,和瞎猜的效果差不多,所以我们以随机线为基准,ROC曲线越贴近于随机线说明效果越差,越贴近于左上方,说明效果越好,因为这意味着TPR更大,FPR更小。
我们可以把两个ROC曲线放在一个坐标系内做比较,确实可以看出来哪个模型更好,但是图像化的比较方式依然不够直观,所以我们需要想办法将ROC曲线转化成一个数字,方便沟通和比较。
这个值就是AUC指标,AUC指标其实就是ROC曲线右下方和横坐标轴闭合起来的面积大小,这个面积越大,意味着越靠近左上方,召回率越大且误伤率越小,效果也越好。
KS曲线与ROC曲线非常相像,二者区别如下:
这样我们就可以得到如下的KS曲线:
我们简单了解一下纵轴的两个指标:
总的来说,KS曲线是两条线,其横轴是阈值,纵轴是TPR与FPR。两条曲线之间之间相距最远的地方对应的阈值,就是最能划分模型的阈值。
而KS值是MAX(TPR – FPR),即两曲线相距最远的距离。
不同的产品,合适的KS值范围都不一样,需要结合实际情况去摸索。
一旦确定合适的KS值范围之后,如果模型的KS值过低,说明模型欠拟合,基本不可用,但KS值非常高也不一定是好事情,我们可能需要分析原因,判断是否是因为数据问题导致的异常情况。
本文介绍了分类模型常用的评估指标,让大家对模型评估有了一个初步的概念。
下篇文章,我会详细介绍回归模型的评估指标,敬请期待。
本文由 @AI小当家 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。