首页 资讯 机器学习第5步:模型评估的集成学习自适应法

机器学习第5步:模型评估的集成学习自适应法

来源:爱乐趣网 时间:2021年04月09日 06:05

原标题:机器学习第5步:模型评估的集成学习自适应法

本文属于李福东《人工智能100讲》原创内容,了解更多请**下载知识星球APP,找“84404036”,**点我获取**数智萤火虫原创精品列表。

内容摘要

集成学习的自适应法Boosting着力解决分类难度大的训练样本,让弱分类器从错误分类的训练样本中学习,以改进集成学习的性能。它是一种从错误中不断吸取教训,借助调整权重不断改进的一种方法,逐步实现了由弱到强。

文章编号:AI-0025-V1.1

所属类别:人工智能

文章正文

自适应法Boosting与套袋法Bagging相比,自适应Boosting算法使用训练样本中的随机子集,并没有替换样本数据。

自适应法Boosting工作原理如下:

1、从训练样本D中随机抽取一个子集d1,不需要从训练数据集中进行替换,来训练弱分类器C1。

2、提取第二个随机训练子集d2,不需要从训练数据集中进行替换,并添加50%的已错误分类的样本数据,用于训练弱分类器C2。

3、从训练数据集D中寻找训练样本d3,d3中的样本是弱分类器C1和弱分类器C2否定过的,用于训练弱分类器C3。

4、用多数投票法合并弱分类器C1、C2、C3。

与原生的自适应法Boosting实现过程不同,AdaBoost(Adaptive Boost,自适应Boost)使用完整的训练数据集训练弱分类器,在每次迭代过程中对训练样本重新加权,以构建一个强分类器,该分类器从先前的弱分类器犯过的错误中学习。

为了弄清AdaBoost的实现原理,我们首先看一下下面这张图:

从上图可以看出,子图形1(左上角)代表二分类训练数据集,全部样本分配同样的权重,用训练数据集训练的决策树桩(以虚直线表示),将样本数据分为两类。

子图形2(右上角)为下一轮训练结果,将前两个错误分类的样本(圆圈代表)设置为更大的权重,也就是降低了正确分类样本的权重。

下个决策桩更加关注具有最大权重的、更难以分类的训练样本。

子图形2是弱分类器错误地分类了3个不同的、用圆形表示的样本,在子图形3(左下角),这几个圆形样本又被分配了一个更大的权重。

假设AdaBoost集成只包括了3轮提升(Boosting),然后我们通过加权的多数投票法,将三个在不同的、重新加权的训练子集上训练的弱分类器结合起来,分类结果如子图形4(右下角)所示。

我们通过一个包含10个样本的具体实例看一下AdaBoost权重更新的思路与方法,如下图所示:

从上图可以看出,x为样本数据,y为预测的类别,初始权重为0.1,切分条件为x<=3.0,最后一列是根据规则更新后的权重值。

下面是采用scikit-learn算法库,对比决策树和自适应Boosting的分类能力,分类效果图如下所示:

从上图看出,自适应Boosting比决策树算法的分类能力要好一些。

内容总结

从集成学习自适应法Boosting的实现原理可以看出,它是一种从错误中不断吸取教训,借助调整权重不断改进的一种方法,逐步实现了由弱(weak)到强(strong)。

名词术语

weak learners:弱分类器

decision stump:决策树桩,形象地称其为“一刀切”

以上是《人工智能100讲》中关于机器学习第5步:模型评估的集成学习自适应法Boosting,下一节将进入机器学习应用部分,先看看如何基于电影评论数据判断观影者的情绪,喜欢还是不喜欢。

如需获取实现代码,请进入本文作者知识星球下载(下载知识星球APP,找“84404036”)。

了解更多关于大数据、人工智能、数字化转型的相关内容,请**微信公号:李福东频道

人工智能 100讲 系列文章

以蒸汽机、电力、计算机、机器人等代表的四次工业革命,以及人工智能时代的到来

人工智能应用在中国遍地开花,助力千行百业转型升级

美国在人工智能技术与应用方面不断创新突破

为什么机器能够产生智能?揭开机器智能的神秘面纱

机器学习在人工智能体系架构中的定位及其学习方式

机器是怎样学习的?机器学习的方法与步骤

鸢尾花分类,一个经典的机器学习教科书案例

机器学习第2步:数据预处理的归一化、标准化等方法

机器学习第3步:特征工程的PCA降维法

机器学习第3步:特征工程的线性判别分析LDA降维法

机器学习第3步:特征工程的主成分分析KPCA降维法

机器学习第4步:模型选择的机器学习过程管道化

机器学习第4步:模型选择的Holdout交叉验证法

机器学习第4步:模型选择的K折交叉验证法

机器学习第4步:模型选择的学习曲线调测法

机器学习第4步:模型选择的验证曲线调测法

机器学习第4步:模型选择的网格搜索法

机器学习第5步:模型评估的嵌套交叉验证法

机器学习第5步:模型评估的性能度量指标

机器学习第5步:模型评估的ROC曲线法

机器学习第5步:模型评估的多级分类与类失衡问题

机器学习第5步:模型评估的集成学习多数投票法

机器学习第5步:模型评估的集成学习套袋法

数智萤火虫

愿景目标:致力于为学员提供以大数据、人工智能、数字化转型为核心,从技术到产品,从战略到运营的系统化、高品质知识服务,培养专家型、应用型、实战型人才。

服务内容:会按需延伸至企业架构、产品经理、区块链、5G、AR、VR等领域,帮助您掌握最新的理念、思维、方法、技术与工具,与时俱进,创新发展。

交付理念:起步于技术、聚焦于产品、深耕于运营、决胜于战略,帮助学员实现从点到线,再从面到体的蜕变式修炼与进阶。

交付形式:文章、PPT、音频、视频、微信群、直播、沙龙、答疑、考评等多种形式,多媒体、多触点、线上线下相融合,切实解决工作与学习中遇到困难和问题,提升实战能力。

加入知识星球,您将至少获得:

1、高薪职位推荐。星球帮助学员存放简历,免费对接优选岗位。

2、职业规划指导。帮助学员少走弯路,快速平滑晋级、晋升。

3、精品内容尝鲜。每周至少分享1篇原创精编长文。

4、PPT干货下载。定期推送最新培训、项目、公开课资料。

5、精美礼物赠送。小礼品、红包、作者签名书等。

6、在线问题答疑。72小时内答复个性化问题。

本星球属于你我共同成长的家园,希望我们有缘相聚,共同拥抱数字化时代的新浪潮、新机遇,不负韶华、共创共赢!

选择精品,高效进阶

责任编辑:

相关知识

机器学习第5步:模型评估的集成学习自适应法
机器学习第5步:模型评估的集成学习套袋法
【重工的课】机器学习
硬核对话机器学习教父、走进斯坦福大学,全球AI峰会今日开幕|钛媒体“全球科技月”
人工智能、机器学习、数据挖掘的区别
顾景舟 时大彬 紫砂壶学习鉴定评估资料(市场)
万息集训精品打造【IT咱谈】讲座,行业大咖畅谈UOKO大数据机器学习
图灵奖得主辛顿谈无监督学习问题根源:忽略数据间关联捕捉
机器学习实现了脑机语言翻译,那距离“意念交流”还有多远?
原创 机器学习实现了脑机语言翻译,那距离“意念交流”还有多远?

网址: 机器学习第5步:模型评估的集成学习自适应法 https://www.alq5.com/newsview271290.html

所属分类:生活时尚

推荐资讯