“我们提出了几个应在评估外部队列之前定义的若干协议项目,”奥斯陆大学医院癌症诊断和信息学研究所第一次作者Andreas Kleppe。“通过这种方式,评估变得严格,更可靠。这种评估将更清楚地更清楚哪些系统在临床实践中运作良好,并且这些系统应进一步评估III期随机临床试验。”
实施缓慢的实施是评估和调整影响患者治疗的系统所需的时间的自然结果。然而,许多评估功能良好系统的研究具有很高的偏见风险。
根据Kleppe的说法,即使在评估外部队列的看似最好的研究中,很少预定义的主要分析。适应的深度学习系统,患者选择或分析方法可以使结果过于乐观。
特别令人关切的是经常缺乏对外部数据的严格评估。有些系统的开发或评估是基于太狭窄或不合适的数据,不适用于预期的医疗环境。缺乏完善的评估步骤序列,将有希望的原型转化为适当评估的医疗系统,限制了深度学习系统的医疗应用。
设计和评估挑战
神经网络的高容量诱导设计和开发深层学习系统并在预期的医疗环境中验证其性能的严重挑战。只有在培训数据中没有包含的受试者具有良好的普遍性,才有足够的临床表现。
设计的挑战包括选择适当的训练数据,如目标人群的代表性。它还包括建模问题,例如如何人为地增加训练数据的变化,而不损害训练数据中输入数据和目标输出之间的关系。
验证挑战包括验证系统概括的良好状态。例如,当使用不同的实验室程序或替代设备获得输入数据时,它在评估相关患者群时令人满意地表演吗?此外,通常迭代地开发深度学习系统,重复测试和各种选择过程可以偏置结果。多年来,类似的选择问题被认为是医学文献的一般问题。
因此,在选择诊断性深度学习系统的设计和验证过程时,应该关注泛化挑战,并防止数据分析中更经典的缺陷。“为了让新患者获得良好的表现,使用各种培训数据是至关重要的。自然变异总是必不可少的,但引入人工变异也是如此。这些类型的变异相互补充,促进了良好的普遍性,”Kleppe说。
该研究发表于自然评论癌症。
来源:奥斯陆大学医院