机器学习第5步:模型评估的集成学习自适应法
原标题:机器学习第5步:模型评估的集成学习自适应法
本文属于李福东《人工智能100讲》原创内容,了解更多请**下载知识星球APP,找“84404036”,**点我获取**数智萤火虫原创精品列表。
内容摘要
集成学习的自适应法Boosting着力解决分类难度大的训练样本,让弱分类器从错误分类的训练样本中学习,以改进集成学习的性能。它是一种从错误中不断吸取教训,借助调整权重不断改进的一种方法,逐步实现了由弱到强。
文章编号:AI-0025-V1.1
所属类别:人工智能
文章正文
自适应法Boosting与套袋法Bagging相比,自适应Boosting算法使用训练样本中的随机子集,并没有替换样本数据。
自适应法Boosting工作原理如下:
1、从训练样本D中随机抽取一个子集d1,不需要从训练数据集中进行替换,来训练弱分类器C1。
2、提取第二个随机训练子集d2,不需要从训练数据集中进行替换,并添加50%的已错误分类的样本数据,用于训练弱分类器C2。
3、从训练数据集D中寻找训练样本d3,d3中的样本是弱分类器C1和弱分类器C2否定过的,用于训练弱分类器C3。
4、用多数投票法合并弱分类器C1、C2、C3。
与原生的自适应法Boosting实现过程不同,AdaBoost(Adaptive Boost,自适应Boost)使用完整的训练数据集训练弱分类器,在每次迭代过程中对训练样本重新加权,以构建一个强分类器,该分类器从先前的弱分类器犯过的错误中学习。
为了弄清AdaBoost的实现原理,我们首先看一下下面这张图:

从上图可以看出,子图形1(左上角)代表二分类训练数据集,全部样本分配同样的权重,用训练数据集训练的决策树桩(以虚直线表示),将样本数据分为两类。
子图形2(右上角)为下一轮训练结果,将前两个错误分类的样本(圆圈代表)设置为更大的权重,也就是降低了正确分类样本的权重。
下个决策桩更加关注具有最大权重的、更难以分类的训练样本。
子图形2是弱分类器错误地分类了3个不同的、用圆形表示的样本,在子图形3(左下角),这几个圆形样本又被分配了一个更大的权重。
假设AdaBoost集成只包括了3轮提升(Boosting),然后我们通过加权的多数投票法,将三个在不同的、重新加权的训练子集上训练的弱分类器结合起来,分类结果如子图形4(右下角)所示。
我们通过一个包含10个样本的具体实例看一下AdaBoost权重更新的思路与方法,如下图所示:

从上图可以看出,x为样本数据,y为预测的类别,初始权重为0.1,切分条件为x<=3.0,最后一列是根据规则更新后的权重值。
下面是采用scikit-learn算法库,对比决策树和自适应Boosting的分类能力,分类效果图如下所示:

从上图看出,自适应Boosting比决策树算法的分类能力要好一些。
内容总结
从集成学习自适应法Boosting的实现原理可以看出,它是一种从错误中不断吸取教训,借助调整权重不断改进的一种方法,逐步实现了由弱(weak)到强(strong)。
名词术语
weak learners:弱分类器
decision stump:决策树桩,形象地称其为“一刀切”
以上是《人工智能100讲》中关于机器学习第5步:模型评估的集成学习自适应法Boosting,下一节将进入机器学习应用部分,先看看如何基于电影评论数据判断观影者的情绪,喜欢还是不喜欢。
如需获取实现代码,请进入本文作者知识星球下载(下载知识星球APP,找“84404036”)。
了解更多关于大数据、人工智能、数字化转型的相关内容,请**微信公号:李福东频道。
人工智能 100讲 系列文章
以蒸汽机、电力、计算机、机器人等代表的四次工业革命,以及人工智能时代的到来
人工智能应用在中国遍地开花,助力千行百业转型升级
美国在人工智能技术与应用方面不断创新突破
为什么机器能够产生智能?揭开机器智能的神秘面纱
机器学习在人工智能体系架构中的定位及其学习方式
机器是怎样学习的?机器学习的方法与步骤
鸢尾花分类,一个经典的机器学习教科书案例
机器学习第2步:数据预处理的归一化、标准化等方法
机器学习第3步:特征工程的PCA降维法
机器学习第3步:特征工程的线性判别分析LDA降维法
机器学习第3步:特征工程的主成分分析KPCA降维法
机器学习第4步:模型选择的机器学习过程管道化
机器学习第4步:模型选择的Holdout交叉验证法
机器学习第4步:模型选择的K折交叉验证法
机器学习第4步:模型选择的学习曲线调测法
机器学习第4步:模型选择的验证曲线调测法
机器学习第4步:模型选择的网格搜索法
机器学习第5步:模型评估的嵌套交叉验证法
机器学习第5步:模型评估的性能度量指标
机器学习第5步:模型评估的ROC曲线法
机器学习第5步:模型评估的多级分类与类失衡问题
机器学习第5步:模型评估的集成学习多数投票法
机器学习第5步:模型评估的集成学习套袋法
数智萤火虫
愿景目标:致力于为学员提供以大数据、人工智能、数字化转型为核心,从技术到产品,从战略到运营的系统化、高品质知识服务,培养专家型、应用型、实战型人才。
服务内容:会按需延伸至企业架构、产品经理、区块链、5G、AR、VR等领域,帮助您掌握最新的理念、思维、方法、技术与工具,与时俱进,创新发展。
交付理念:起步于技术、聚焦于产品、深耕于运营、决胜于战略,帮助学员实现从点到线,再从面到体的蜕变式修炼与进阶。
交付形式:文章、PPT、音频、视频、微信群、直播、沙龙、答疑、考评等多种形式,多媒体、多触点、线上线下相融合,切实解决工作与学习中遇到困难和问题,提升实战能力。
加入知识星球,您将至少获得:
1、高薪职位推荐。星球帮助学员存放简历,免费对接优选岗位。
2、职业规划指导。帮助学员少走弯路,快速平滑晋级、晋升。
3、精品内容尝鲜。每周至少分享1篇原创精编长文。
4、PPT干货下载。定期推送最新培训、项目、公开课资料。
5、精美礼物赠送。小礼品、红包、作者签名书等。
6、在线问题答疑。72小时内答复个性化问题。
本星球属于你我共同成长的家园,希望我们有缘相聚,共同拥抱数字化时代的新浪潮、新机遇,不负韶华、共创共赢!
选择精品,高效进阶
责任编辑:
相关知识
机器学习第5步:模型评估的集成学习自适应法
机器学习第5步:模型评估的集成学习套袋法
【重工的课】机器学习
硬核对话机器学习教父、走进斯坦福大学,全球AI峰会今日开幕|钛媒体“全球科技月”
人工智能、机器学习、数据挖掘的区别
顾景舟 时大彬 紫砂壶学习鉴定评估资料(市场)
万息集训精品打造【IT咱谈】讲座,行业大咖畅谈UOKO大数据机器学习
图灵奖得主辛顿谈无监督学习问题根源:忽略数据间关联捕捉
机器学习实现了脑机语言翻译,那距离“意念交流”还有多远?
原创 机器学习实现了脑机语言翻译,那距离“意念交流”还有多远?
网址: 机器学习第5步:模型评估的集成学习自适应法 https://www.alq5.com/newsview271290.html
推荐资讯
- 1李清照“两处相思同淋雪,此生 21150
- 2中华民国双旗开国纪念币一枚能 16059
- 3佟丽娅现状如何佟丽娅与陈思诚 15472
- 4马库斯世界和平艺术展圆满落幕 15420
- 5第十届中国花卉博览会,其中复 13292
- 6张家界____是张家界市永定 11809
- 7《交换的乐趣》林媚阿强苏小婉 11132
- 8《绝叫》-叶真中显 (pdf 10925
- 9《稻盛和夫给年轻人的忠告》电 9754
- 10《三嫁惹君心》中的美女,董馨 9549
