报料注册登录

IT

互联网

程序员

大数据

AI

游戏

运维

软件

其他

主页 - 程序员 -

机器学习中如何处理不平衡数据？

作者：CQITer小编时间：2019-02-25 21:58

字号

假设老板让你创建一个模型——基于可用的各种测量手段来预测产品是否有缺陷。你使用自己喜欢的分类器在数据上进行训练后，准确率达到了 96.2%!

你的老板很惊讶，决定不再测试直接使用你的模型。几个星期后，他进入你的办公室，拍桌子告诉你你的模型完全没用，一个有缺陷的产品都没发现。

经过一番调查，你发现尽管你们公司的产品中大约有 3.8%的存在缺陷，但你的模型却总是回答「没有缺陷」，也因此准确率达到 96.2%。你之所以获得这种「naive」的结果，原因很可能是你使用的训练数据是不平衡数据集。

本文将介绍解决不平衡数据分类问题的多种方法。

首先我们将概述检测」naive behaviour」的不同评估指标;然后讨论重新处理数据集的多种方法，并展示这些方法可能会产生的误导;最后，我们将证明重新处理数据集大多数情况下是继续建模的最佳方式。

注：带(∞)符号的章节包含较多数学细节，可以跳过，不影响对本文的整体理解。此外，本文大部分内容考虑两个类的分类问题，但推理可以很容易地扩展到多类别的情况。

一、检测「naive behaviour」

我们先来看几种评估分类器的方法，以确保检测出「naive behaviour」。如前所述，准确率虽然是一个重要且不可忽视的指标，但却可能产生误导，因此应当谨慎使用，最好与其他指标一起使用。我们先看看还有哪些指标。

1. 混淆矩阵、精度、召回率和 F1

在处理分类问题时，一个很好且很简单的指标是混淆矩阵(confusion matrix)。该指标可以很好地概述模型的运行情况。因此，它是任何分类模型评估的一个很好的起点。下图总结了从混淆矩阵中可以导出的大部分指标：

机器学习中如何处理不平衡数据？

混淆矩阵以及可从中导出的指标

让我们简单解释一下：所谓准确率(accuracy)就是正确预测的数量除以预测总数;类别精度(precision)表示当模型判断一个点属于该类的情况下，判断结果的可信程度。类别召回率(recall)表示模型能够检测到该类的比率。类别的 F1 分数是精度和召回率的调和平均值(F1 = 2×precision×recall / (precision + recall))，F1 能够将一个类的精度和召回率结合在同一个指标当中。

对于一个给定类，精度和召回率的不同组合如下：

高精度+高召回率：模型能够很好地检测该类;

高精度+低召回率：模型不能很好地检测该类，但是在它检测到这个类时，判断结果是高度可信的;

低精度+高召回率：模型能够很好地检测该类，但检测结果中也包含其他类的点;

低精度+低召回率：模型不能很好地检测该类。

我们举个例子，如下图所示，我们有 10000 个产品的混淆矩阵：

机器学习中如何处理不平衡数据？

文章开头示例的混淆矩阵。注意「not defective」精度不可计算。

根据上图，准确率为 96.2%，无缺陷类的精度为 96.2%，有缺陷类的精度不可计算;无缺陷类的召回率为 1.0(这很好，所有无缺陷的产品都会被检测出来)，有缺陷类的召回率是 0(这很糟糕，没有检测到有缺陷的产品)。因此我们可以得出结论，这个模型对有缺陷类是不友好的。有缺陷产品的 F1 分数不可计算，无缺陷产品的 F1 分数是 0.981。在这个例子中，如果我们查看了混淆矩阵，就会重新考虑我们的模型或目标，也就不会有前面的那种无用模型了。

2. ROC 和 AUROC

另外一个有趣的指标是ROC 曲线(Receiver Operating Characteristic)，其定义和给定类相关(下文用 C 表示类别)。

假设对于给定点 x，我们的模型输出该点属于类别 C 的概率为：P(C | x)。基于这个概率，我们定义一个决策规则，即当且仅当 P(C | x)≥T 时，x 属于类别 C，其中 T 是定义决策规则的给定阈值。如果 T = 1，则仅当模型 100%可信时，才将该点标注为类别 C。如果 T = 0，则每个点都标注为类别 C。

阈值 T 从 0 到 1 之间的每个值都会生成一个点 (false positive, true positive)，ROC 曲线就是当 T 从 1 变化到 0 所产生点的集合所描述的曲线。该曲线从点 (0,0) 开始，在点 (1,1) 处结束，且单调增加。好模型的 ROC 曲线会快速从 0 增加到 1(这意味着必须牺牲一点精度才能获得高召回率)。

机器学习中如何处理不平衡数据？

有效性不同的模型的 ROC 曲线图示。左侧模型必须牺牲很多精度才能获得高召回率;右侧模型非常有效，可以在保持高精度的同时达到高召回率。

责任编辑：CQITer新闻报料：400-888-8888 本站原创，未经授权不得转载

关键词 >>机器学习数据模型

继续阅读

程序员市场需求调查：React.js获前五！

Hadoop分布式文件系统--HDFS的诞生

初创公司数据科学项目全流程指南，一位资深数据科学家的经验谈

热新闻

7天 30天 1年

推荐

吉利三季度营收892亿创历史新高！它究竟做对了什么让市占率飙升28%？

你以为精通Elasticsearch的match查询就够了？产品经理这个简单需求差点让集群崩溃

谷歌 DeepMind AI 模型精准预测五级飓风 “梅丽莎”

Python f-strings：让字符串格式化更优雅

你的游戏渲染还在盲目堆参数？移动端GPU性能只有PC的1/5，难怪帧率暴跌设备发烫

还在用Promise.all处理上千个请求？小心你的系统崩溃！这才是真正的并发控制实战

想让婚恋App匹配更精准、聊天更火热、留存更持久？数据告诉你答案

刚刚斩获FMVP的Gumayusi突然离队，T1王朝三连冠功臣为何选择告别？

关于我们联系我们免责声明隐私政策友情链接

本站所有内容采用创作共用版权 CC BY-NC-ND/2.5/CN 许可协议 | 蜀ICP备2025167749号-1

川公网安备51162302000271号

SiteMap