尽管我们在医学和保健方面取得了显著进步,但治愈癌症继续躲避我们。乐观的一面是,我们在早期发现几种癌症方面取得了相当大的进展,使医生能够提供提高长期生存率的治疗。这归功于“综合诊断”,一种结合分子信息和医学成像数据来诊断癌症类型并最终预测治疗结果的病人护理方法。
然而,其中有几个错综复杂的问题。分子模式(如基因表达和突变)与图像特征(如肿瘤如何在一个CT扫描),通常被称为“放射基因组学”。该领域受限于频繁使用高维数据,其中特征的数量超过了观测的数量。
放射基因组学还受到几个简化模型假设和缺乏验证数据集的困扰。而机器学习诸如深层的技术神经网络可以通过从基因表达模式提供准确的图像特征预测来缓解这种情况,但出现了一个新的问题:我们不知道模型学到了什么。
加州大学洛杉矶分校(University of California, Los Angeles)放射科学副教授、综合诊断共享资源(Integrated Diagnostics Shared Resource)主任威廉·许(William Hsu)解释说:“质疑模型的能力,对于理解和验证已知的放射基因组关联至关重要。”
徐的实验室主要研究数据集成、机器学习和成像信息学。在早期的一项研究中,Hsu和他的同事使用了一种解释神经网络的方法,称为“基因掩蔽”,以询问训练过的神经网络,以了解基因和成像表型之间的习得关联。他们证明了他们的模型发现的放射基因组关联与先前的知识是一致的。然而,他们在之前的研究中只使用了单一的脑肿瘤数据集,这意味着他们方法的泛化性仍有待确定。
在此背景下,许和他的同事,前研究生和主要作者Nova Smedley,以及胸科放射科医生Denise Aberle,已经开展了一项研究,研究深度神经网络是否可以代表基因表达、组织学(生物组织的微观特征)、ct衍生图像特征。他们发现,该网络不仅能够重现之前报道的关联,而且还能识别新的关联。
研究人员使用262名患者的数据集,训练他们的神经网络,从21766个基因表达的大量集合中预测101个特征。然后,他们在89名患者的独立数据集中测试了它的预测能力,同时将其能力与训练数据集中的其他模型进行比较。最后,他们应用基因掩蔽来确定基因亚群与肺癌类型之间的学习相关性。
他们发现,神经网络在表示这些数据集方面的整体性能优于其他模型,并且可以推广到来自另一个群体的数据集。此外,基因掩蔽的结果表明,每个成像特征的预测与受生物过程支配的独特基因表达谱有关。
研究人员被他们的发现所鼓舞。“虽然放射基因组关联之前已经被证明可以准确地对患者进行风险分层,但我们很高兴我们的模型可以更好地识别和理解这些关联的意义。我们希望这种方法能提高放射科医生在CT扫描中评估肺癌类型时的信心。这些信息对制定个体化治疗计划非常有帮助。”
这项研究的结果发表在医学影像学杂志.
来源:国际光学与光子学学会