18.03.2021•

COVID-19:人工智能模型尚不适合临床使用

研究人员发现，在2020年的科学论文中描述的300多个COVID-19机器学习模型中，由于偏见、方法缺陷、缺乏可重复性和“弗兰肯斯坦数据集”，没有一个模型适合从标准医学成像检测或诊断COVID-19。

由剑桥大学领导的研究小组对1月1日至2020年10月3日发表的科学手稿进行了系统的回顾。机器学习声称能够通过胸片（CXR）诊断或预测新冠病毒-19的模型，以及计算机断层扫描（CT）图像。其中一些论文经过了同行评审，而大多数论文没有经过同行评审。

他们的研究确定了2212项研究，其中415项是在初步筛选后纳入的，在质量筛选后，62项研究被纳入系统综述。62种模型都没有潜在的临床应用，这是一个主要的弱点，考虑到验证的紧迫性新型冠状病毒肺炎需要模型。

机器学习是一种很有前途和潜在的强大的疾病检测和预后技术。机器学习方法，包括将成像和其他数据流与大型电子健康数据库相结合，可以通过改进诊断和预测个体对治疗的反应，实现个性化的医疗方法。

第一作者、剑桥大学应用数学和理论物理系的迈克尔·罗伯茨博士说：“然而，任何机器学习算法的好坏都取决于它所训练的数据。”。“特别是对于像新冠病毒-19这样的全新疾病，训练数据尽可能多样化是至关重要的，因为正如我们在整个大流行中看到的那样，有许多不同的因素影响疾病的外观和行为。”

剑桥大学医学系联合资深作者詹姆斯·路德博士说：“国际机器学习界做出了巨大努力，利用机器学习来应对新冠病毒-19大流行。”。“这些早期研究显示了希望，但它们在方法学和报告方面的缺陷非常普遍，我们审查的文献中没有一篇达到支持临床实践所必需的鲁棒性和再现性阈值。”

许多研究因数据质量差、机器学习方法应用不佳、重现性差和研究设计偏差等问题而受阻。例如，一些训练数据集将儿童的图像用于“非COVID-19”数据，将成年人的图像用于COVID-19数据。罗伯茨说:“然而，由于儿童感染COVID-19的可能性远远低于成年人，机器学习模型能做的所有有用的事情就是区分儿童和成年人，因为包括儿童的图像使模型高度偏误。”

许多机器学习模型都是在样本数据集上进行训练的，这些样本数据集太小，不太有效。陆克文说:“在疫情早期，人们对信息的渴求非常强烈，一些出版物无疑是仓促出版的。””,但如果您的模型是基于数据从一个医院,它可能不工作数据从医院在下一个小镇:需要多样化和理想国际的数据,否则你设置你的机器学习模型测试失败的时候更广泛。”

AI用于对抗新冠病毒-19的5种方法

了解更多关于科学家和医生如何使用人工智能在抗击冠状病毒方面做出贡献的信息。

在很多情况下，这些研究并没有说明它们的数据来自哪里，或者这些模型是根据相同的数据进行训练和测试的，或者它们是基于公开可用的“科学怪人数据集”，这些数据集随着时间的推移不断演变和合并，使得不可能重现最初的结果。

许多研究中另一个普遍存在的缺陷是缺乏放射科医生和临床医生的参与。罗伯茨说：“无论你是用机器学习来预测天气还是疾病的发展，确保不同的专家一起工作，讲同一种语言是非常重要的，这样才能关注正确的问题。”。

尽管他们在COVID-19模型中发现了缺陷，但研究人员表示，通过一些关键的修改，机器学习可以成为抗击疫情的强大工具。例如，他们警告不要天真地使用公共数据集，这可能导致严重的偏见风险。此外，数据集应该是多样化的和适当的大小，以使模型对不同的人口群体有用，并且应该策划独立的外部数据集。

除了更高质量的数据集，还需要具有足够文档的手稿，以便可复制和外部验证，以增加模型被推进和纳入未来临床试验的可能性，以建立独立的技术和临床验证以及成本效益。

研究结果发表在自然机器智能．