常用的模型集成方法介绍：bagging、boosting 、stacking

作者：网友投稿时间：2019-05-16 16:36

字号

本文将讨论一些众所周知的概念，如自助法、自助聚合(bagging)、随机森林、提升法(boosting)、堆叠法(stacking)以及许多其它的基础集成学习模型。

为了使所有这些方法之间的联系尽可能清晰，我们将尝试在一个更广阔和逻辑性更强的框架中呈现它们，希望这样会便于读者理解和记忆。

集成学习

何为集成方法?

集成学习是一种机器学习范式。在集成学习中，我们会训练多个模型(通常称为「弱学习器」)解决相同的问题，并将它们结合起来以获得更好的结果。最重要的假设是：当弱模型被正确组合时，我们可以得到更精确和/或更鲁棒的模型。

在集成学习理论中，我们将弱学习器(或基础模型)称为「模型」，这些模型可用作设计更复杂模型的构件。在大多数情况下，这些基本模型本身的性能并不是非常好，这要么是因为它们具有较高的偏置(例如，低自由度模型)，要么是因为他们的方差太大导致鲁棒性不强(例如，高自由度模型)。

集成方法的思想是通过将这些弱学习器的偏置和/或方差结合起来，从而创建一个「强学习器」(或「集成模型」)，从而获得更好的性能。

组合弱学习器

为了建立一个集成学习方法，我们首先要选择待聚合的基础模型。在大多数情况下(包括在众所周知的 bagging 和 boosting 方法中)，我们会使用单一的基础学习算法，这样一来我们就有了以不同方式训练的同质弱学习器。

这样得到的集成模型被称为「同质的」。然而，也有一些方法使用不同种类的基础学习算法：将一些异质的弱学习器组合成「异质集成模型」。

很重要的一点是：我们对弱学习器的选择应该和我们聚合这些模型的方式相一致。如果我们选择具有低偏置高方差的基础模型，我们应该使用一种倾向于减小方差的聚合方法;而如果我们选择具有低方差高偏置的基础模型，我们应该使用一种倾向于减小偏置的聚合方法。

这就引出了如何组合这些模型的问题。我们可以用三种主要的旨在组合弱学习器的「元算法」：

bagging，该方法通常考虑的是同质弱学习器，相互独立地并行学习这些弱学习器，并按照某种确定性的平均过程将它们组合起来。

boosting，该方法通常考虑的也是同质弱学习器。它以一种高度自适应的方法顺序地学习这些弱学习器(每个基础模型都依赖于前面的模型)，并按照某种确定性的策略将它们组合起来。

stacking，该方法通常考虑的是异质弱学习器，并行地学习它们，并通过训练一个「元模型」将它们组合起来，根据不同弱模型的预测结果输出一个最终的预测结果。

非常粗略地说，我们可以说 bagging 的重点在于获得一个方差比其组成部分更小的集成模型，而 boosting 和 stacking 则将主要生成偏置比其组成部分更低的强模型(即使方差也可以被减小)。

在接下来的章节中，我们将具体介绍 bagging 和 boosting 方法(它们比 stacking 方法使用更广泛，并且让我们可以讨论一些集成学习的关键概念)，然后简要概述 stacking 方法。

常用的模型集成方法介绍：bagging、boosting 、stacking

我们可以将弱学习器结合起来以得到性能更好的模型。组合基础模型的方法应该与这些模型的类型相适应。

1. 关于 Bagging

在「并行化的方法」中，我们单独拟合不同的学习器，因此可以同时训练它们。最著名的方法是「bagging」(代表「自助聚合」)，它的目标是生成比单个模型更鲁棒的集成模型。

自助法：

这种统计技术先随机抽取出作为替代的 B 个观测值，然后根据一个规模为 N 的初始数据集生成大小为 B 的样本(称为自助样本)。

常用的模型集成方法介绍：bagging、boosting 、stacking

自助抽样过程示意图

在某些假设条件下，这些样本具有非常好的统计特性：在一级近似中，它们可以被视为是直接从真实的底层(并且往往是未知的)数据分布中抽取出来的，并且彼此之间相互独立。因此，它们被认为是真实数据分布的代表性和独立样本(几乎是独立同分布的样本)。

为了使这种近似成立，必须验证两个方面的假设。

首先初始数据集的大小 N 应该足够大，以捕获底层分布的大部分复杂性。这样，从数据集中抽样就是从真实分布中抽样的良好近似(代表性)。

责任编辑：CQITer新闻报料：400-888-8888 本站原创，未经授权不得转载

继续阅读

热新闻