在1000个实验中对整体进行了对比。数…… — 在1000个实验中对整体进行了对比。显示的数字是x轴集合优于y轴集合的实验百分比。M1表示单个模型。A和T分别为所有模型组合和top-N系综，附加数为系综中模型个数。在每个x轴系综下是该系综达到最低平均绝对偏差的实验百分比。

02.12.2019•

集成提高了机器学习模型的性能

根据一项研究，使用提交给RSNA儿童骨年龄机器学习挑战的模型创建的集成，令人信服地优于单模型预测骨年龄。

集成学习是机器学习中的一种方法，在这种方法中，为完成同一任务而设计的不同模型被组合成一个单一的模型。模型异质性是集成学习的一个重要方面。当每个单独的模型在各自的权利方面表现良好时，集合往往表现最好，而且单个模型预测之间的相关性相对较低。

由于集合从模型预测之间的低相关性中获益，因此方法的潜在差异越大，改进就越大，只要它们实现类似的性能。在这方面，一个鼓励参赛者提交他们最好的模型的比赛，提供了一个理想的环境，从集合使用不同技术的高性能模型。“竞赛提供了一个独特的机会来研究结合来自异质模型的预测的影响，”研究作者Ian Pan说，他是位于罗德岛州普罗维登斯的布朗大学沃伦阿尔珀特医学院的一名医科学生

为了研究可以通过模型集成获得的自动骨年龄估计的性能改进，Pan和同事使用了来自2017年RSNA儿童骨年龄机器学习挑战的48份提交材料。

研究人员为参与者提供了12611张儿科手x光片，其中包含由儿科放射科医生确定的骨年龄，以开发确定骨年龄的模型。最终的结果是通过200张x光片的测试来确定的，这些x光片的加权平均值为6。研究人员使用平均绝对偏差(MAD)评估了多达10个模型集合的平均两两模型相关性和所有可能的模型组合的性能。为了估计真正的泛化MAD，他们使用200张测试x光片进行了bootstrap分析。

单模型估计的一般化MAD为4.55个月。表现最好的组合是4个模型，MAD为3.79个月。该集合中模型的平均两两相关性为0.47。相比之下，8个模型结合根据个体得分排名最高的模型可获得的最低MAD为3.93个月，平均成对模型相关性为0.67。潘说:“随着计算机视觉和其他机器学习算法开始从研究转向临床环境，我们的结果让人们注意到一个具有实质性实际意义的概念。”“也就是说，最好的结果可能是通过结合多个精确和多样的模型，而不是单一的模型。”

因此，致力于将机器学习算法纳入其工作流程的从业者将受益于从不同的模型中获得的预测，这类似于使用多个阅读器可以提高放射学解释的准确性。

潘补充说，这些发现也突出了2017年RSNA儿童骨年龄机器学习挑战等公开竞赛的重要性，因为它们提供了一个标准化的用例，一个通用的训练集，以及一个平等适用于所有模型的客观评估方法。他说:“应该鼓励在放射学领域的机器学习竞赛，以促进异构模型的发展，这些模型的预测可以结合起来实现最佳性能。”

在2019年RSNA颅内出血检测和分类挑战中，研究人员致力于开发能够在头部CT扫描上识别和分类出血亚型的算法。该数据集包括多家研究机构贡献的2.5万多张头部CT扫描图，是首个用于RSNA人工智能挑战的多平面数据集。