该图像可视化了该团队的多任务卷积神经网络……
该图像显示了该团队的多任务卷积神经网络如何对原发癌症部位进行分类。
来源:Hong-Jun Yoon / ORNL

一个“多任务”人工智能工具可以快速提取癌症数据

为了更好地利用癌症数据进行研究,科学家们正在开发一种基于人工智能的自然语言处理工具,以改进从病理文本报告中提取的信息。

作为美国的第二大死因,癌症是一场公共卫生危机,在一生中有近二分之一的人受到影响。癌症也是一种令人压抑的复杂疾病。国家癌症登记处记录了影响70多个器官的数百种癌症类型——癌症病例信息数据库,为医生、研究人员和政策制定者提供了至关重要的统计数据。美国能源部橡树岭国家实验室(Oak Ridge National Laboratory)健康数据科学研究所(health Data Sciences Institute)和国家计算科学中心(National Center for computing Sciences)主任Gina Tourassi说:“人口层面的癌症监测对于监测旨在预防、检测和治疗癌症的公共卫生举措的有效性至关重要。”“我的团队正在与美国国家癌症研究所合作,通过将耗时的数据采集工作自动化,并提供近乎实时的癌症报告,开发先进的人工智能解决方案,使国家癌症监测项目现代化。”

通过数字癌症登记,科学家可以确定癌症诊断和治疗反应的趋势,这反过来可以帮助指导研究资金和公共资源。然而,就像他们追踪的疾病一样,癌症病理报告是复杂的。符号和语言的变化必须由经过培训的分析报告的人类癌症登记人员解释。

为了更好地利用癌症数据进行研究,ORNL的科学家们正在开发一种人工智能的自然语言处理工具,以改善文本病理报告的信息抽取。该项目是能源部与美国国家癌症研究所合作项目的一部分,该项目被称为癌症高级计算解决方案联合设计(JDACS4C),该项目通过将癌症数据与高级数据分析和高性能计算相结合来加速研究。

作为美国能源部最大的科学实验室办公室,ORNL拥有独特的计算资源来应对这一挑战,包括世界上最强大的人工智能超级计算机,以及处理健康数据等受保护信息的安全数据环境。通过其监测、流行病学和最终结果(SEER)计划,NCI从癌症登记处接收数据,如路易斯安那肿瘤登记处,其中包括癌症肿瘤个案的诊断和病理信息。“人工提取信息成本高、耗时长,而且容易出错,所以我们正在开发一种基于人工智能的工具。”ORNL计算和计算科学理事会的研究科学家Mohammed Alawad说,他是发表在《美国医学信息学协会杂志》上一篇关于该团队人工智能工具结果的论文的第一作者。

在癌症病理学报告中,该团队首次开发了一种多任务处理技术卷积神经网络,或者cnn深度学习一种学习执行任务的模型,例如通过将语言处理为一个二维数值数据集来识别文本主体中的关键词。Alawad说:“我们使用一种叫做单词嵌入的常用技术,它将每个单词表示成一个数值序列。”

具有语义关系或共同表达意义的单词在维度空间中作为向量(具有大小和方向的值)彼此接近。这个文本数据被输入到神经网络中,并根据在数据中找到连接的参数通过网络层进行过滤。随着处理的数据越来越多,这些参数也越来越精确。

虽然一些单任务的CNN模型已经被用来梳理病理报告,但每个模型只能从报告的信息范围中提取一个特征。例如,可以训练一个单任务CNN只提取原发癌症部位,输出检测到癌症的器官,如肺、前列腺、膀胱或其他。但是,提取有关组织学等级或癌细胞生长的信息,将需要训练一个单独的深度学习模型。

研究小组开发了一种网络,它可以在与单任务CNN大致相同的时间内完成多个任务,以此衡量效率。该团队的神经网络同时提取五个特征的信息:原发部位(身体器官)、侧性(如果适用的话,左右器官)、行为、组织学类型(细胞类型)和组织学等级(癌细胞生长或扩散的速度)。

该团队的多任务CNN在相同的时间内完成了所有五个任务,并且比单任务CNN的表现更好——速度是单任务CNN的五倍。然而,Alawad说:“这并不是说它的速度是它的五倍。而是n倍的速度。如果我们有n个不同的任务,那么每个任务只需要1 / n的时间。”

该团队成功的关键是开发了一个CNN架构,使各层能够在不降低效率或降低性能的情况下在任务之间共享信息。Alawad说:“这是计算效率和性能效率。”“如果我们使用单任务模型,那么我们需要为每个任务开发一个单独的模型。然而,在多任务学习中,我们只需要开发一个模型——但是开发这个模型,找出它的体系结构,是计算时间的消耗。我们需要一台超级计算机来开发模型。”

为了打造一个高效的多任务CNN,他们召集了世界上最强大、最聪明的人超级计算机——ORNL的200-petaflop Summit超级计算机,拥有超过27,600个深度学习优化的gpu。该团队首先开发了两种多任务CNN架构,一种是被称为“硬参数共享”的常见机器学习方法,另一种是被称为“十字缝”的图像分类方法,这种方法已经取得了一些成功。硬参数共享在所有任务中使用相同的几个参数,而十字绣使用更多任务之间的碎片化参数,导致输出必须“缝合”在一起。

为了用真实的健康数据训练和测试多任务cnn,该团队使用了ORNL的安全数据环境和路易斯安那州肿瘤登记处的超过95,000份病理报告。他们将他们的CNN与其他三个已建立的人工智能模型进行了比较,其中包括一个单任务的CNN。Alawad说:“除了提供高性能计算和科学计算资源外,ORNL还有一个地方来训练和存储安全数据——所有这些都是非常重要的。”

在测试中,他们发现硬参数共享多任务模型优于其他四种模型(包括十字绣多任务模型),并通过减少计算时间和能源消耗提高了效率。与单任务CNN和传统人工智能模型相比,硬共享参数多任务CNN在较短的时间内完成了挑战,并最准确地分类了5个癌症特征。“下一步是发起一项大规模的用户研究,将该技术部署到各个癌症登记处,以确定在登记处工作流程中最有效的整合方式。我们的目标不是取代人类,而是增强人类。”Tourassi说。

订阅我们的时事通讯

相关文章

人工智能系统加速癌症发现的搜索

人工智能系统加速癌症发现的搜索

有了一种新的人工智能系统,科学家们可以更容易地搜索已发表的癌症研究成果。

人工智能能够识别结直肠癌的突变

人工智能能够识别结直肠癌的突变

深度学习算法比现有方法更准确地提取分子路径和关键突变的发展。

水凝胶改善了癌症诊断方法

水凝胶改善了癌症诊断方法

研究人员测试了专用水凝胶的有效性。

胰腺的“类器官”模仿真实的东西

胰腺的“类器官”模仿真实的东西

研究这些类器官可以帮助研究人员开发和测试胰腺癌的新治疗方法。

人工智能能够快速计算蛋白质结构

人工智能能够快速计算蛋白质结构

科学家们创造了一种深度学习方法,RoseTTAFold,以提供高度精确的蛋白质结构预测。

美丽的虚拟现实设置可以减少痛苦

美丽的虚拟现实设置可以减少痛苦

沉浸在令人惊叹的“虚拟”冰岛景观中,可以减少因不舒服的医疗程序而造成的痛苦。

用于高科技癌症诊断的医用针头

用于高科技癌症诊断的医用针头

现代医学需要比传统活检针提供更好质量的样本,超声振荡针可以改善治疗和减少不适。

可穿戴设备帮助超重人士减肥

可穿戴设备帮助超重人士减肥

可穿戴健身追踪器和计步器可以帮助超重/肥胖和/或有体重相关健康问题的人减肥。

人工智能方法可以检测到宫颈癌的前体

人工智能方法可以检测到宫颈癌的前体

利用人工智能和移动数字显微镜,研究人员希望创造出能够在资源有限的环境中检测宫颈癌前体的筛查工具。

受欢迎的文章

订阅简报
Baidu