机器学习中如何处理不平衡数据?

作者:CQITer小编 时间:2019-02-25 21:58

字号

假设老板让你创建一个模型——基于可用的各种测量手段来预测产品是否有缺陷。你使用自己喜欢的分类器在数据上进行训练后,准确率达到了 96.2%!

你的老板很惊讶,决定不再测试直接使用你的模型。几个星期后,他进入你的办公室,拍桌子告诉你你的模型完全没用,一个有缺陷的产品都没发现。

经过一番调查,你发现尽管你们公司的产品中大约有 3.8%的存在缺陷,但你的模型却总是回答「没有缺陷」,也因此准确率达到 96.2%。你之所以获得这种「naive」的结果,原因很可能是你使用的训练数据是不平衡数据集。

本文将介绍解决不平衡数据分类问题的多种方法。

首先我们将概述检测」naive behaviour」的不同评估指标;然后讨论重新处理数据集的多种方法,并展示这些方法可能会产生的误导;最后,我们将证明重新处理数据集大多数情况下是继续建模的最佳方式。

注:带(∞)符号的章节包含较多数学细节,可以跳过,不影响对本文的整体理解。此外,本文大部分内容考虑两个类的分类问题,但推理可以很容易地扩展到多类别的情况。

一、检测「naive behaviour」

我们先来看几种评估分类器的方法,以确保检测出「naive behaviour」。如前所述,准确率虽然是一个重要且不可忽视的指标,但却可能产生误导,因此应当谨慎使用,最好与其他指标一起使用。我们先看看还有哪些指标。

1. 混淆矩阵、精度、召回率和 F1

在处理分类问题时,一个很好且很简单的指标是混淆矩阵(confusion matrix)。该指标可以很好地概述模型的运行情况。因此,它是任何分类模型评估的一个很好的起点。下图总结了从混淆矩阵中可以导出的大部分指标:

机器学习中如何处理不平衡数据?

混淆矩阵以及可从中导出的指标

让我们简单解释一下:所谓准确率(accuracy)就是正确预测的数量除以预测总数;类别精度(precision)表示当模型判断一个点属于该类的情况下,判断结果的可信程度。类别召回率(recall)表示模型能够检测到该类的比率。类别的 F1 分数是精度和召回率的调和平均值(F1 = 2×precision×recall / (precision + recall)),F1 能够将一个类的精度和召回率结合在同一个指标当中。

对于一个给定类,精度和召回率的不同组合如下:

高精度+高召回率:模型能够很好地检测该类;

高精度+低召回率:模型不能很好地检测该类,但是在它检测到这个类时,判断结果是高度可信的;

低精度+高召回率:模型能够很好地检测该类,但检测结果中也包含其他类的点;

低精度+低召回率:模型不能很好地检测该类。

我们举个例子,如下图所示,我们有 10000 个产品的混淆矩阵:

机器学习中如何处理不平衡数据?

文章开头示例的混淆矩阵。注意「not defective」精度不可计算。

根据上图,准确率为 96.2%,无缺陷类的精度为 96.2%,有缺陷类的精度不可计算;无缺陷类的召回率为 1.0(这很好,所有无缺陷的产品都会被检测出来),有缺陷类的召回率是 0(这很糟糕,没有检测到有缺陷的产品)。因此我们可以得出结论,这个模型对有缺陷类是不友好的。有缺陷产品的 F1 分数不可计算,无缺陷产品的 F1 分数是 0.981。在这个例子中,如果我们查看了混淆矩阵,就会重新考虑我们的模型或目标,也就不会有前面的那种无用模型了。

2. ROC 和 AUROC

另外一个有趣的指标是ROC 曲线(Receiver Operating Characteristic),其定义和给定类相关(下文用 C 表示类别)。

假设对于给定点 x,我们的模型输出该点属于类别 C 的概率为:P(C | x)。基于这个概率,我们定义一个决策规则,即当且仅当 P(C | x)≥T 时,x 属于类别 C,其中 T 是定义决策规则的给定阈值。如果 T = 1,则仅当模型 100%可信时,才将该点标注为类别 C。如果 T = 0,则每个点都标注为类别 C。

阈值 T 从 0 到 1 之间的每个值都会生成一个点 (false positive, true positive),ROC 曲线就是当 T 从 1 变化到 0 所产生点的集合所描述的曲线。该曲线从点 (0,0) 开始,在点 (1,1) 处结束,且单调增加。好模型的 ROC 曲线会快速从 0 增加到 1(这意味着必须牺牲一点精度才能获得高召回率)。

机器学习中如何处理不平衡数据?

有效性不同的模型的 ROC 曲线图示。左侧模型必须牺牲很多精度才能获得高召回率;右侧模型非常有效,可以在保持高精度的同时达到高召回率。

责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接