首页资讯机器学习第5步：模型评估的集成学习自适应法

机器学习第5步：模型评估的集成学习自适应法

来源：爱乐趣网时间：2021年04月09日 06:05

原标题：机器学习第5步：模型评估的集成学习自适应法

本文属于李福东《人工智能100讲》原创内容，了解更多请**下载知识星球APP，找“84404036”，**点我获取**数智萤火虫原创精品列表。

内容摘要

集成学习的自适应法Boosting着力解决分类难度大的训练样本，让弱分类器从错误分类的训练样本中学习，以改进集成学习的性能。它是一种从错误中不断吸取教训，借助调整权重不断改进的一种方法，逐步实现了由弱到强。

文章编号：AI-0025-V1.1

所属类别：人工智能

文章正文

自适应法Boosting与套袋法Bagging相比，自适应Boosting算法使用训练样本中的随机子集，并没有替换样本数据。

自适应法Boosting工作原理如下：

1、从训练样本D中随机抽取一个子集d1，不需要从训练数据集中进行替换，来训练弱分类器C1。

2、提取第二个随机训练子集d2，不需要从训练数据集中进行替换，并添加50%的已错误分类的样本数据，用于训练弱分类器C2。

3、从训练数据集D中寻找训练样本d3，d3中的样本是弱分类器C1和弱分类器C2否定过的，用于训练弱分类器C3。

4、用多数投票法合并弱分类器C1、C2、C3。

与原生的自适应法Boosting实现过程不同，AdaBoost（Adaptive Boost，自适应Boost）使用完整的训练数据集训练弱分类器，在每次迭代过程中对训练样本重新加权，以构建一个强分类器，该分类器从先前的弱分类器犯过的错误中学习。

为了弄清AdaBoost的实现原理，我们首先看一下下面这张图：

从上图可以看出，子图形1（左上角）代表二分类训练数据集，全部样本分配同样的权重，用训练数据集训练的决策树桩（以虚直线表示），将样本数据分为两类。

子图形2（右上角）为下一轮训练结果，将前两个错误分类的样本（圆圈代表）设置为更大的权重，也就是降低了正确分类样本的权重。

下个决策桩更加关注具有最大权重的、更难以分类的训练样本。

子图形2是弱分类器错误地分类了3个不同的、用圆形表示的样本，在子图形3（左下角），这几个圆形样本又被分配了一个更大的权重。

假设AdaBoost集成只包括了3轮提升（Boosting），然后我们通过加权的多数投票法，将三个在不同的、重新加权的训练子集上训练的弱分类器结合起来，分类结果如子图形4（右下角）所示。

我们通过一个包含10个样本的具体实例看一下AdaBoost权重更新的思路与方法，如下图所示：

从上图可以看出，x为样本数据，y为预测的类别，初始权重为0.1，切分条件为x<=3.0，最后一列是根据规则更新后的权重值。

下面是采用scikit-learn算法库，对比决策树和自适应Boosting的分类能力，分类效果图如下所示：

从上图看出，自适应Boosting比决策树算法的分类能力要好一些。

内容总结

从集成学习自适应法Boosting的实现原理可以看出，它是一种从错误中不断吸取教训，借助调整权重不断改进的一种方法，逐步实现了由弱（weak）到强（strong）。

名词术语

weak learners：弱分类器

decision stump：决策树桩，形象地称其为“一刀切”

以上是《人工智能100讲》中关于机器学习第5步：模型评估的集成学习自适应法Boosting，下一节将进入机器学习应用部分，先看看如何基于电影评论数据判断观影者的情绪，喜欢还是不喜欢。

如需获取实现代码，请进入本文作者知识星球下载（下载知识星球APP，找“84404036”）。

了解更多关于大数据、人工智能、数字化转型的相关内容，请**微信公号：李福东频道。

人工智能 100讲系列文章

以蒸汽机、电力、计算机、机器人等代表的四次工业革命，以及人工智能时代的到来

人工智能应用在中国遍地开花，助力千行百业转型升级

美国在人工智能技术与应用方面不断创新突破

为什么机器能够产生智能？揭开机器智能的神秘面纱

机器学习在人工智能体系架构中的定位及其学习方式

机器是怎样学习的？机器学习的方法与步骤

鸢尾花分类，一个经典的机器学习教科书案例

机器学习第2步：数据预处理的归一化、标准化等方法

机器学习第3步：特征工程的PCA降维法

机器学习第3步：特征工程的线性判别分析LDA降维法

机器学习第3步：特征工程的主成分分析KPCA降维法

机器学习第4步：模型选择的机器学习过程管道化

机器学习第4步：模型选择的Holdout交叉验证法

机器学习第4步：模型选择的K折交叉验证法

机器学习第4步：模型选择的学习曲线调测法

机器学习第4步：模型选择的验证曲线调测法

机器学习第4步：模型选择的网格搜索法

机器学习第5步：模型评估的嵌套交叉验证法

机器学习第5步：模型评估的性能度量指标

机器学习第5步：模型评估的ROC曲线法

机器学习第5步：模型评估的多级分类与类失衡问题

机器学习第5步：模型评估的集成学习多数投票法

机器学习第5步：模型评估的集成学习套袋法

数智萤火虫

愿景目标：致力于为学员提供以大数据、人工智能、数字化转型为核心，从技术到产品，从战略到运营的系统化、高品质知识服务，培养专家型、应用型、实战型人才。

服务内容：会按需延伸至企业架构、产品经理、区块链、5G、AR、VR等领域，帮助您掌握最新的理念、思维、方法、技术与工具，与时俱进，创新发展。

交付理念：起步于技术、聚焦于产品、深耕于运营、决胜于战略，帮助学员实现从点到线，再从面到体的蜕变式修炼与进阶。

交付形式：文章、PPT、音频、视频、微信群、直播、沙龙、答疑、考评等多种形式，多媒体、多触点、线上线下相融合，切实解决工作与学习中遇到困难和问题，提升实战能力。

加入知识星球，您将至少获得：

1、高薪职位推荐。星球帮助学员存放简历，免费对接优选岗位。

2、职业规划指导。帮助学员少走弯路，快速平滑晋级、晋升。

3、精品内容尝鲜。每周至少分享1篇原创精编长文。

4、PPT干货下载。定期推送最新培训、项目、公开课资料。

5、精美礼物赠送。小礼品、红包、作者签名书等。

6、在线问题答疑。72小时内答复个性化问题。

本星球属于你我共同成长的家园，希望我们有缘相聚，共同拥抱数字化时代的新浪潮、新机遇，不负韶华、共创共赢！

选择精品，高效进阶

责任编辑：

机器学习第5步：模型评估的集成学习自适应法

推荐资讯

稻盛和夫的成功学：一切始于心，终于心

马嘉祺TNT时代少年团演唱会（时间+场馆+票价）

女子5天吃掉6斤车厘子，一夜“血便”20多次后晕倒……

林允脸部变化微妙这3个手段让你也能一路美下去

机器学习第5步：模型评估的集成学习自适应法

推荐资讯

稻盛和夫的成功学：一切始于心，终于心

马嘉祺TNT时代少年团演唱会（时间+场馆+票价）

女子5天吃掉6斤车厘子，一夜“血便”20多次后晕倒……

林允脸部变化微妙 这3个手段让你也能一路美下去

林允脸部变化微妙这3个手段让你也能一路美下去