任何生物的基因组都包含着数千种蛋白质的蓝图,这些蛋白质控制着生命的几乎所有功能。有缺陷的蛋白质会导致严重的疾病,如癌症、糖尿病或痴呆。因此,蛋白质也是药物最重要的靶点。
为了更好地理解生命过程和疾病,并开发更合适的治疗方法,有必要同时分析尽可能多的蛋白质。目前,质谱分析法用于测定生物系统中蛋白质的种类和数量。然而,目前的数据分析方法继续产生许多错误。
由生物信息学科学家Mathias Wilhelm和生物化学家Bernhard Küster(慕尼黑工业大学蛋白质组学和生物分析学教授)领导的慕尼黑工业大学团队,现在已经成功地使用蛋白质组学数据来训练神经网络,使其能够更快地识别蛋白质,而且几乎没有错误。
解决严重问题的方法
质谱仪不能直接测量蛋白质。他们分析由氨基酸序列组成的更小的部分,氨基酸序列有30个组成单元。测量到的这些链的光谱与数据库进行比较,以便将它们分配给特定的蛋白质。然而,评估软件只能使用光谱包含的部分信息。因此,某些蛋白质不能被识别或被错误地识别。
“这是一个严重的问题,”Küster解释道。由TUM团队开发的神经网络使用了所有的光谱信息来进行识别。Bernhard Küster说:“我们遗漏的蛋白质更少,出错的次数也少100倍。”
研究人员称这种人工智能软件为“Prosit”,它“适用于世界上所有的生物,即使它们的蛋白质组以前从未被研究过,”马赛厄斯·威廉(Mathias Wilhelm)解释说。“这使得以前难以想象的研究成为可能。”
在1亿个质谱的帮助下,该算法得到了广泛的训练,无需任何额外的训练就可以用于所有普通质谱仪。“我们的系统是这个领域的全球领导者,”Küster说。
一个价值数十亿美元的市场
诊所、生物技术公司、制药公司和研究机构正在使用这类高性能设备;这个市场已经价值数十亿。有了“Prosit”,未来将有可能开发出更强大的仪器。研究人员和医生也将能够更好更快地在患者血液或尿液中寻找生物标记物,或监测治疗的有效性。
研究人员对基础研究也抱有很高的期望。“这种方法可以用来追踪细胞中新的调节机制,”Küster说。“我们希望在这里获得相当多的知识,从中长期来看,这些知识将反映在治疗人类、动物和植物所遭受的疾病上。”
Wilhelm还预计,“像Prosit这样的人工智能方法将很快改变蛋白质组学领域,因为它们几乎可以用于蛋白质研究的每个领域”。
来源:慕尼黑工业大学