03.06.2021•

COVID-19: AIs捷径导致误诊

华盛顿大学的研究人员发现，人工智能模型和人类一样，有寻找捷径的倾向。在人工智能辅助疾病检测的情况下，如果应用在临床环境中，这些捷径可能会导致诊断错误。

研究人员检查了最近提出的多种模型，作为精确检测的潜在工具新型冠状病毒肺炎胸部x光片，又称胸片x射线．研究小组发现，这些模型不是学习真正的医学病理学，而是依赖于快速学习，在医学无关因素和疾病状况之间建立虚假的联系。在这里，模型忽略了临床显著指标，而是依赖于文本标记或特定于每个数据集的患者位置等特征来预测某人是否患有COVID-19。

“医生通常会认为，通过x光检查发现的COVID-19是基于反映疾病过程的图像中的特定模式，”亚历克斯·德格雷夫说，他正在保罗·g·艾伦计算机科学与工程学院攻读博士学位，并作为华盛顿大学医学科学家培训项目的一部分获得医学学位。“但是，使用快捷学习的系统可能不会依赖于这些模式，例如，它可以判断某人是老年人，从而推断他们更有可能患这种疾病，因为这种疾病在老年患者中更常见。”这个快捷方式本身并没有错，但是关联是意外的，而且不是透明的。这可能会导致不恰当的诊断。”

研究小组表示，“捷径学习”不如真正的医学病理学健壮，这通常意味着该模型在原始环境之外无法很好地推广。“依赖捷径的模式通常只在开发该系统的医院有效，所以当你将该系统带到一家新医院时，它就会失败——而这种失败会将医生引向错误的诊断和不当的治疗，”德格雷夫说。

将鲁棒性的缺乏与典型的不透明度相结合人工智能决策，这样一个工具可能会从一个潜在的救星变成一个累赘。

缺乏透明度是导致该团队专注于医学和科学领域可解释的人工智能技术的因素之一。大多数人工智能被认为是黑盒——这个模型是在大量数据集上训练的，它会在没有人知道模型如何得到给定结果的情况下给出预测。有了可解释的人工智能，研究人员和从业人员能够详细地理解各种输入及其权重如何对模型的输出产生影响。

该团队使用同样的技术来评估最近被吹捧的模型的可信性，这些模型似乎能从胸部x光片中准确识别COVID-19病例。尽管已经发表了很多论文来预示这个结果，但研究人员怀疑，黑匣子里可能发生了其他事情，导致了模型的预测。

具体来说，该团队推断，由于缺乏针对这种新疾病的训练数据，这些模型可能会出现一种被称为“最坏情况混杂”的情况。这种情况增加了模型依赖捷径的可能性，而不是从训练数据中学习疾病的潜在病理。

该研究的联合首席作者约瑟夫·亚尼泽克(Joseph Janizek)说:“最坏情况混淆是让人工智能系统只学会识别数据集，而不是学习任何真正的疾病病理学。”亚尼泽克也是艾伦学院的一名博士生，在华盛顿大学获得医学学位。“当所有COVID-19阳性病例都来自一个数据集，而所有阴性病例都来自另一个数据集时，就会发生这种情况。虽然研究人员已经想出了一些技术来缓解这种关联，在这些关联不太严重的情况下，这些技术在COVID-19状态等结果和数据源等因素之间有完美关联的情况下不起作用。”

“最坏情况混淆是指允许AI系统学习识别数据集，而不是学习任何真实的疾病病理。”

约瑟夫Janizek

该团队训练了多重深度卷积神经网络从一个数据集中复制了在发表的论文中使用的方法的x射线图像。首先，他们在一组内部图像上测试了每个模型的表现，这些图像来自于从训练数据中截取的初始数据集。然后，研究人员测试了模型在第二个外部数据集上的表现，这些数据集代表了新的医院系统。

虽然在内部数据集的图像上测试时，模型保持了较高的性能，但在第二组图像上，模型的准确性降低了一半。研究人员将其称为“泛化差距”，并将其作为一个强有力的证据，证明混杂因素是模型对初始数据集预测成功的原因。

然后，该团队应用了可解释的人工智能技术，包括生成对抗网络和显著图，以确定哪些图像特征对确定模型的预测最重要。

研究人员根据第二个数据集对模型进行训练，该数据集包含来自类似来源的阳性和阴性COVID-19病例，因此被认为不太容易混淆。但即使是这些模型在外部数据测试时也表现出相应的性能下降。

这些结果颠覆了传统观点，即当数据集来自相似的来源时，混淆造成的问题更少。它们还揭示了高性能医疗人工智能系统在多大程度上可以利用不受欢迎的捷径，而不是期望的信号。

“我和我的团队仍然对人工智能的临床可行性持乐观态度医学成像．我相信我们最终会有可靠的方法来阻止人工智能学习捷径，但要实现这一点还需要做更多的工作，”艾伦学院教授、资深作者李秀仁(Su-In Lee)说。“未来，可解释的人工智能将成为确保这些模型能够安全有效地用于增强医疗决策、为患者实现更好结果的重要工具。”

DeGrave说，尽管研究小组的发现引起了人们的担忧，但他们研究的模型不太可能在临床环境中广泛应用。虽然有证据表明，至少有一种有缺陷的模型covid - net被部署在多家医院，但尚不清楚它是用于临床目的还是仅仅用于研究。

“关于这些模型在哪里以及如何部署的完整信息是不可获得的，但可以肯定的是，这些模型的临床应用很少或根本不存在，”DeGrave说。“大多数时候，医疗保健提供者使用实验室检测PCR诊断COVID-19，而不是依靠胸部x光片。而且医院不愿意承担责任，这使得他们更不可能依赖一个相对未经测试的人工智能系统。”

Janizek说，希望将人工智能应用于疾病检测的研究人员需要改进他们的方法，然后这些模型才能用于为患者做出实际的治疗决定。Janizek说:“我们的发现指出了应用可解释的人工智能技术严格审计医疗人工智能系统的重要性。”“如果你看几张x光片，你会发现人工智能系统表现良好。只有当你看了许多图像后，问题才会变得清晰。在我们有方法使用更大的样样本更有效地审计这些系统之前，更系统地应用可解释AI可以帮助研究人员避免我们在COVID-19模型中发现的一些缺陷。”

这个团队已经证明了可解释的人工智能在成像以外的一系列医疗应用中的价值。这些工具包括评估患者手术并发症的风险因素，以及基于个人分子特征的靶向癌症治疗。

这项研究发表在自然机器智能．