AI Eve增强了基因测试

一种名为EVE的人工智能模型显示出一种非凡的能力,可以解释人类基因变异是良性的还是致病的。

照片
来源:Pixabay /主晚礼服

没有两个人是完全相同的,这是一种生物奇点,由组成我们个体DNA的分子的独特排列编码而成。变异是生物的基本特征,是多样性的驱动因素,也是进化的引擎,但它也有黑暗的一面。DNA序列的改变以及由此产生的构建细胞的蛋白质有时会导致生理功能的严重破坏,并导致疾病。

但是,哪些基因改变是正常的,或者至少是无关紧要的,哪些是疾病的前兆呢?

对于少数几个众所周知的基因突变,答案是明确的,尽管出现了戏剧性的飞跃基因组测序在过去20年的技术发展中,我们对通过测序确定的数百万个基因变异的解释能力仍然落后。

为了弄清楚这一切,哈佛医学院和牛津大学的研究人员设计了一个AI工具它使用一种复杂的机器学习来检测数十万非人类物种的遗传变异模式,然后用它们来预测人类基因变异的意义。

在一项分析中,研究人员使用EVE评估了多个物种的3600万个蛋白质序列和3219个与疾病相关的基因。结果表明,以前发现的25.6万个目前意义不明的人类基因变异,实际上应该被重新归类为良性或致病性。

研究人员说,该工具可用于扩大目前用于确定基因变异意义的临床方法。而且,当与这些工具结合使用时,EVE可以提高诊断、预后和治疗选择的精确度和准确性。

“越来越多的人可以测序自己的基因组,但理解这些数据并不总是那么简单。关于它对疾病或疾病进展的可能性意味着什么,几乎没有什么信息。”该研究的资深作者Debora Marks说,她是HMS布拉瓦特尼克研究所的系统生物学副教授,她与牛津大学的同事Yarin Gal,哈佛医学院的Jonathan Frazer和Mafalda Dias,以及牛津大学的Pascal Notin共同领导了这项研究。

研究人员强调,EVE不是一种诊断测试,但它的计算能力可以增强目前遗传学家和其他医生使用的临床工具,用于诊断、预测疾病进展,甚至根据某些致病基因突变的存在选择治疗方法。

“我们相信我们的方法可以作为当前临床评估的一个附加工具,并提供了一种强有力的新方法,以减少不确定性和明确决策,特别是在临床环境中,”Marks补充道。

事实上,分析表明,EVE在预测临床效果方面优于其他计算预测模型,而且得分与目前测试突变对生物功能影响的高通量实验的金标准一样高,甚至更高。

准确解释基因变异的意义是非常重要的。将良性变异解读为致病因素可能会导致错误诊断,引发一系列进一步的检测、焦虑,甚至不必要的医疗干预。相反,当需要仔细观察、进一步检测和采取预防措施时,将引发疾病的DNA变化误解为无关紧要或良性的可能会提供错误的安慰。

盖尔说:“我们希望这种方法能够产生强大的数据,使前线的临床医生能够做出正确的诊断、预后和治疗决定。”

数据越多,问题就越多

2003年人类基因组的历史性测序,建立了一个参考人类基因组,与新测序的人类基因组进行比较。然而,这个参考基因组并不是“正常”人类基因组的标准或基线。DNA测序数据的快速增长使参考基因组不再是一个标准,而更多的是一个流动的基线,随着研究人员更好地掌握遗传变异的含义,这一基线会随着时间的推移而变化。

将人类基因组的特定变化与疾病的发生联系起来继续困扰着临床遗传学领域,因为人类基因组变异的数量使科学家能够研究的数量相形见绌。尽管只对一小部分人进行了测序,但研究人员已经发现了数百万种变异,它们的意义和意义尚不清楚。在这些变异中,只有2%被归类为良性、中性或致病性。剩下的98%已确认的基因变异目前被认为具有“未知的重要性”。

在人类基因组中,仅蛋白质编码区就引起了观察到的650万个突变,这些突变涉及到基因产生的蛋白质中单个氨基酸的位置。这些所谓的错义突变可能对蛋白质的功能没有影响,或者它们可能使蛋白质功能失调,导致疾病。事实上,研究人员估计,居住在地球上的90亿人的基因组中,每一个蛋白质位置(除了致命的位置)都可能有一个变体。与其他人相比,每个人的基因组与参考人类基因组相比,都有许多变体。

人类从父母那里继承了每个基因的两个版本。而且,随着人们年龄的增长,基因可能会发生变化,即体细胞突变。

“在很多方面,一个人不仅仅只有一个基因组,”马克斯说。“你可能在一个基因副本上有不同的变异,随着我们年龄的增长,会出现各种各样的体细胞变异——不仅与癌症的发展有关,而且与神经退行性变有关,两者都是由突变驱动的与年龄有关的过程。”

可以肯定的是,研究人员已经发现了一些与疾病相关的基因的突变,这些基因具有很高的临床疾病风险,比如乳腺癌和卵巢癌的BRCA1和BRCA2,以及一系列癌症的肿瘤抑制基因p53。但即使是这些基因也出现了其他未经研究的突变,其意义尚不清楚。

马克斯说,所有这些都迫切需要澄清人类基因变异的重要性——在这个过程中,计算将在提供答案方面发挥越来越重要的作用。

进入人工智能

一个明确的特征神经网络当有新数据可用时,他们是否有能力不断地重新评估和更新假设的可能性。这意味着神经网络可以使用新知识重新评估证据,因此可以检测传统方法遗漏的模式和含义。

在目前的研究中,研究人员使用了一种复杂的分析,称为无监督机器学习,这是一种人工智能,不是基于预定义的参数和规则,而是涉及自适应学习。这意味着,当面对新数据时,机器学习算法会变得更擅长识别模式随着时间的推移。相比之下,在有监督的机器学习中,算法学习从预先标记的数据中检测模式——它的训练是有监督的。

在一个由信息学家给出的经典例子中,该算法先给出猫和狗的图像,然后告诉它哪些是哪些,然后再挑战识别未标记的猫和狗的图像。在无监督机器学习中,该算法被赋予一组猫和狗的图像,而不告诉它们是哪些。它必须自己辨别模式。

这两种类型都为特定的任务提供了优势。无监督模型的一个优点是,没有机会通过向他们提供预先标记的数据而使他们的学习产生偏差。此外,它们可以随着数据的变化进行调整,以执行更复杂的分析。研究人员说,目前大多数用于评估基因变异重要性的计算方法都采用了基于临床标签的监督训练,这可能会使这些工具产生偏差,并导致在现实世界中预测的准确性被夸大。

“因为算法不需要预先知道哪些图片是猫,哪些图片是狗——它只需要一堆猫和狗的图片——没有办法使用它不应该知道的信息,”盖尔说。

正是这种无监督机器学习从从未遇到过的数据中检测新模式的能力,使得这种方法特别适合分析来自非人类的基因序列。

来自我们进化亲戚的线索

在这项工作中,研究人员转向了一个古老的希望——通过研究多个物种的遗传变异,他们可能会收集到关于人类变异重要性的线索。

进化倾向于保存那些至关重要的特征,或者至少是重要的,对于跨物种的功能和生存来说。因此,跨物种重复出现的氨基酸排列是生物重要性的标志,表明它们对生物体的功能和进化适应性很重要。因此,改变这种高度保守的序列可能会带来麻烦,并与致病性有关。

“从进化的角度来说,这些物种还有很长的路要走,它们有很多基因差异,但综合起来,它们给了我们信息,”马克斯说。“这就是为什么这个模型在与人类和人类变异相关的模式方面如此强大。”

EVE寻找进化上保守的模式来得出结论。它分析了14万个物种的数据,包括濒危和灭绝的生物。

多年来,科学家们一直使用比较遗传学来检测DNA或蛋白质序列的相似性区域,以得出意义。哈佛大学和牛津大学的研究小组使用神经网络进行了更大规模的研究。

培训前夕

在对2.5亿个蛋白质序列进行训练后,EVE估计了每个氨基酸变体是良性或致病性的可能性。为了确定EVE是否做出了准确的预测,研究人员将其得分与已知的人类突变进行了比较。该团队发现,该工具的结果与临床数据非常一致。

接下来,研究人员将EVE应用于一组3219个与疾病相关的人类基因。研究人员说,EVE对所有基因(包括60个“临床可操作”基因)的突变是致病的还是良性的做出了正确的判断。当研究人员将EVE的表现与其他有监督和无监督的工具进行比较时,它的预测精度明显更高。

但是,伊芙的预测与实际临床实验的结果相比如何呢?临床实验是评估基因突变如何影响生理功能的黄金标准。

为了回答这个问题,研究小组将EVE的得分与临床实验的结果进行了比较,这些实验涉及了五个基因的充分研究的突变,其中包括与各种形式的癌症、几种癌症综合征和心律失常相关的基因。EVE的预测与目前实验数据中的标签重叠。

“结果远远好于我们的预期,”马克斯说。“似乎只要简单地训练一个模型来适应进化过程中序列的分布,我们就可以提取信息,使我们能够对给定的遗传变异引起的疾病风险做出出乎意料的精确预测。”

信任的问题

EVE与当前方法相比的一个显著优势是,它分配的是连续分数,而不是二进制分数。这是因为即使基因变异被标记为良性或致病性,突变在生理上的表现也更加微妙。

“有一个完整的连续的致病性,”Marks说。“连续评分对于预测致病性水平非常重要。这种突变是否意味着我的小拇指会疼痛,还是说我明天就会死去?”

该工具的另一个重要方面是,它在一个基因一个基因的基础上给预测的可信度打分。这可以帮助临床医生了解任何预测的确定性程度。换句话说,对于每个基因变体,EVE都会告诉专家他们有多相信它的判断。研究人员说,这是一个值得信赖的问题,是对模型的信心问题。

盖尔说:“我们不仅向临床医生提供一个数字,而且还告诉他们伴随而来的不确定性程度。”这是专家在决策过程中可以借鉴和使用的东西。该工具会说,‘我认为这个变体属于那一堆,但我以前从未见过任何类似的变体,所以对此持保留态度。’或者工具也可以说,‘我认为另一种变体属于这一堆,我在过去看到过与那一堆非常相似的变体,我看到它们属于这一堆,因此我将高度自信地将它分配给这一堆。在工具和专家之间建立信任是这项工作的一个重要方面。”
展望未来

研究人员说,这种类型的建模仍处于初级阶段,很明显,进化和遗传变异在疾病方面仍有很多可以教给我们的东西。他们补充说,他们计划将这项工作扩展到蛋白质编码区域以外的基因组其他部分。

然而,在不久的将来,最紧迫的任务是对我们已经了解的基因变异进行临床应用。为此,研究人员已经与一家基因组测序公司合作,并通过“陈-扎克伯格倡议”(Chan Zuckerberg Initiative)与多个团体合作。

该团队还参与了变异效应图谱联盟(Atlas of Variant Effects Alliance),这是一个全球性的研究项目,其任务是绘制基因组变异的影响,并创建一个全面的图谱,包括所有可能的人类基因变异及其对蛋白质功能和生理的影响。这项工作的最终目标是改善人类疾病的诊断、预后和治疗。

这项研究发表在自然

订阅我们的时事通讯

相关文章

研究人员对人工智能进行心理分析

研究人员对人工智能进行心理分析

我们可以进行测试和实验,但我们不能总是预测和理解为什么人工智能会做这些事。

人工智能的进展和风险

人工智能的进展和风险

一个国际专家小组表示,人工智能已经达到了其进化的一个关键转折点。

人工智能发现与疾病相关的基因

人工智能发现与疾病相关的基因

人工神经网络可以揭示大量基因表达数据的模式,并发现与疾病相关的基因组。

像人类一样“思考”的人工智能

像人类一样“思考”的人工智能

创造类似人类的人工智能不仅仅是模仿人类的行为——如果要完全依赖这种技术,技术还必须能够处理信息或“思考”。

在不牺牲隐私的情况下实现人工智能驱动的进步

在不牺牲隐私的情况下实现人工智能驱动的进步

安全人工智能实验室正在扩大对加密医疗保健数据的访问,以推进该领域的人工智能驱动的创新。

深度学习帮助x射线数据在三维可视化

深度学习帮助x射线数据在三维可视化

科学家们利用人工智能训练计算机来跟上先进光子源所采集的大量x射线数据。

人工智能使伟大的显微镜比以往任何时候都更好

人工智能使伟大的显微镜比以往任何时候都更好

机器学习帮助一些最好的显微镜看得更好,工作更快,处理更多数据。

人工智能可以破解癌症的语言

人工智能可以破解癌症的语言

Netflix、亚马逊和Facebook使用的强大算法可以“预测”癌症和阿尔茨海默氏症等神经退行性疾病的生物学语言。

可解释的人工智能解码基因组生物学

可解释的人工智能解码基因组生物学

研究人员已经开发出先进的可解释人工智能,这是一项技术绝招,可以破译DNA编码的调控指令。

受欢迎的文章

订阅简报
Baidu