26.04.2021•

是否对AI设备进行了适当的评估?

区分好算法和坏算法:斯坦福大学的一项研究发现，美国食品和药物管理局(Food and Drug Administration，简称fda)的审批程序存在局限性。

就在过去的两年里，人工智能已经嵌入到许多医疗设备中，为急诊室医生、心脏病专家、肿瘤专家和无数其他医疗保健提供者提供建议。FDA已经批准了至少130款人工智能驱动的产品医疗设备在美国，仅去年一年就有一半死亡，未来几年死亡人数肯定会大幅上升。

一些人工智能设备旨在发现肺部疑似血块，并向医生发出警报。一些分析乳房x光检查和超声通过图像发现乳腺癌的迹象，而通过脑部扫描发现出血的迹象。心脏人工智能设备现在可以标记出一系列隐藏的心脏问题。

但监管机构或医生对这些工具的准确性究竟了解多少呢?斯坦福大学(Stanford)的研究人员(其中一些人自己也在开发设备)领导的一项新研究表明，证据并不像它应该的那样全面，可能会忽略人工智能带来的一些特殊挑战。

许多设备仅根据历史上的——可能已经过时的——病人数据进行测试。很少有人在实际的临床环境中进行测试，在这种环境中，医生将自己的评估与人工智能生成的建议进行比较。而且许多设备只在一两个地点进行了测试，这可能会限制患者的种族和人口多样性，并产生意想不到的偏见。

该研究的合著者、斯坦福大学生物医学数据科学助理教授、斯坦福大学以人为中心的人工智能研究所(HAI)的教师詹姆斯·邹(James Zou)说:“令人惊讶的是，很多人工智能算法没有得到非常全面的评估。”

在这项研究中，斯坦福大学的研究人员分析了2015年至2020年FDA批准的每一个人工智能医疗设备提交的证据。

测试挑战，有偏见的数据

这组科学家发现，与新药所需的大量临床试验形成鲜明对比的是，大多数基于人工智能的医疗设备都是根据“回顾性”数据进行测试的这意味着，他们的预测和建议并不是为了测试他们在真实情况下评估患者的能力，而是为了测试如果在历史案例中使用这些预测和建议会有怎样的表现。

邹涛说，这种方法的一个大问题是，它未能捕捉到医疗服务提供者在实际临床实践中如何使用人工智能信息。预测算法主要是用来帮助医生的工具，而不是代替他们的判断。但它们的有效性在很大程度上取决于医生实际使用它们的方式。

研究人员还发现，许多新的人工智能设备只在一两个地理位置进行了测试，这可能严重限制了它们在不同人口群体中的工作效果。邹教授说:“一种算法可能适用于一个群体，而不适用于另一个群体，这是人工智能面临的一个众所周知的挑战。”

揭示重大差异

研究人员通过对一种深度学习模型进行案例研究，为这种风险提供了具体的证据，该模型可以分析胸部x光片以发现肺萎陷的迹象。该系统是根据斯坦福健康中心的患者数据进行训练和测试的，但邹市明和他的同事们将它与另外两个网站的患者数据进行了对比，这两个网站分别是位于马里兰州贝塞斯达的国家健康研究所和位于波士顿的贝斯以色列女执事医疗中心。果然，在其他网站上，算法的准确率几乎要低10%。此外，在波士顿，他们发现他们对白人病人的准确率要高于黑人病人。

邹涛指出，人工智能系统很容易受到固有的种族和性别偏见的影响。例如，面部和语音识别系统被发现对白人比对有色人种更准确。如果不加以识别和纠正，这些偏见实际上会变得更糟。

邹涛表示，人工智能带来了传统医疗设备无法带来的其他新挑战。一方面，人工智能算法所依据的数据集很容易过时。例如，COVID-19大流行后，美国人的健康特征可能会有很大的不同。

或许更令人吃惊的是，人工智能系统通常会在将额外经验融入算法时自行进化。邹涛表示:“人工智能和传统医疗设备的最大区别在于，这些设备是学习算法，而且它们会不断学习。”“他们也容易产生偏见。如果我们不严格监控这些设备，偏见可能会变得更糟。患者群体也可能会进化。”

邹丽红补充道:“我们对人工智能在医学领域的总体前景感到非常兴奋。”事实上，他的研究小组正在开发自己的人工智能医疗算法。“我们不希望事情被过度监管。与此同时，我们希望确保有严格的评估，特别是对高风险的医疗应用。你要确保你服用的药物经过了彻底的审查。这里也是一样的。”

这项研究发表在自然医学．