15.02.2021•

设计医疗深度学习系统

奥斯陆大学医院的研究人员分析了更好的深度学习研究设计是否会导致医疗惯例的转型更快。

“我们提出了几个应在评估外部队列之前定义的若干协议项目，”奥斯陆大学医院癌症诊断和信息学研究所第一次作者Andreas Kleppe。“通过这种方式，评估变得严格，更可靠。这种评估将更清楚地更清楚哪些系统在临床实践中运作良好，并且这些系统应进一步评估III期随机临床试验。”

实施缓慢的实施是评估和调整影响患者治疗的系统所需的时间的自然结果。然而，许多评估功能良好系统的研究具有很高的偏见风险。

根据Kleppe的说法，即使在评估外部队列的看似最好的研究中，很少预定义的主要分析。适应的深度学习系统，患者选择或分析方法可以使结果过于乐观。

特别令人关切的是经常缺乏对外部数据的严格评估。有些系统的开发或评估是基于太狭窄或不合适的数据，不适用于预期的医疗环境。缺乏完善的评估步骤序列，将有希望的原型转化为适当评估的医疗系统，限制了深度学习系统的医疗应用。

数百万可调参数

深度学习通过直接学习原始输入数据和目标输出之间的相关性，提供了可以在高维输入数据中使用复杂结构的系统来准确地利用大量数据集来利用，以便准确地利用高维输入数据中的复杂结构来模拟与目标输出的关联。而监督机器学习技术传统上利用精心选择的输入数据表示来预测目标输出，现代深度学习技术使用高度灵活的人工神经网络将输入数据直接关联到目标输出。

通过这种直接关联学到的关系通常是真实的，但有时可能是用于学习的数据所独有的虚假现象。数以百万计的可调节参数使深度神经网络能够在训练集中正确地执行，即使目标输出是随机生成的，因此，完全没有意义。

设计和评估挑战

神经网络的高容量诱导设计和开发深层学习系统并在预期的医疗环境中验证其性能的严重挑战。只有在培训数据中没有包含的受试者具有良好的普遍性，才有足够的临床表现。

设计的挑战包括选择适当的训练数据，如目标人群的代表性。它还包括建模问题，例如如何人为地增加训练数据的变化，而不损害训练数据中输入数据和目标输出之间的关系。

“为了让新患者获得良好的表现，使用各种培训数据是至关重要的。自然变异总是必不可少的，但引入人工变异也是如此。”

Andreas Kleppe.

验证挑战包括验证系统概括的良好状态。例如，当使用不同的实验室程序或替代设备获得输入数据时，它在评估相关患者群时令人满意地表演吗？此外，通常迭代地开发深度学习系统，重复测试和各种选择过程可以偏置结果。多年来，类似的选择问题被认为是医学文献的一般问题。

因此，在选择诊断性深度学习系统的设计和验证过程时，应该关注泛化挑战，并防止数据分析中更经典的缺陷。“为了让新患者获得良好的表现，使用各种培训数据是至关重要的。自然变异总是必不可少的，但引入人工变异也是如此。这些类型的变异相互补充，促进了良好的普遍性，”Kleppe说。

该研究发表于自然评论癌症。