该论文的第一作者、圣约翰学院(St John 's College)研究员卡迪·利斯·萨尔(Kadi Liis Saar)博士使用类似的机器学习技术训练了一个大规模的语言模型,以观察当体内蛋白质出现问题导致疾病时,会发生什么。
她说:“人体是成千上万种蛋白质的家园,科学家还不知道其中许多蛋白质的功能。我们问了神经网络基于语言模型学习蛋白质的语言。我们特别要求节目学习变形的生物分子凝聚物(细胞中发现的蛋白质液滴)的语言,科学家们真正需要了解的是,以破解导致癌症和神经退行性疾病(如阿尔茨海默氏症)的生物功能和功能故障的语言。我们发现,在几十年的研究中,科学家们已经发现了蛋白质的语言,它可以学习,而不用被明确告知。”
蛋白质是大而复杂的分子,在人体中起着许多重要的作用。它们在细胞中完成大部分工作,并且是人体组织和器官的结构、功能和调节所必需的。例如,抗体是一种具有保护人体功能的蛋白质。
阿尔茨海默氏症,帕金森症亨廷顿氏舞蹈病是三种最常见的神经退行性疾病,但科学家认为有几百种。在阿尔茨海默氏症(Alzheimer’s disease)中,蛋白质会失控,形成团块,杀死健康的神经细胞。一个健康的大脑有一个质量控制系统,可以有效地处理这些潜在的危险蛋白质团,即所谓的聚集物。
科学家们现在认为,一些无序的蛋白质也会形成被称为凝聚体的液状蛋白质液滴,这种凝聚体没有膜,彼此可以自由融合。与不可逆的蛋白质聚集体不同,蛋白质凝集物可以形成和重组,经常被比作熔岩灯中变形的蜡团。
诺尔斯教授说:“蛋白质缩合物最近吸引了科学界的大量关注,因为它们控制着细胞中的关键事件,如基因表达——我们的DNA如何转化为蛋白质——以及蛋白质合成——细胞如何合成蛋白质。”任何与这些蛋白滴相关的缺陷都可能导致癌症等疾病。这就是为什么如果我们想纠正导致疾病的细胞内的语法错误,将自然语言处理技术引入蛋白质故障的分子起源的研究是至关重要的。”
萨尔博士说:“我们将所有已知蛋白质上的数据都输入到算法中,这样它就可以学习和预测蛋白质的语言,就像这些模型学习人类语言的方式,以及WhatsApp如何知道如何为你推荐使用的词汇一样。”
“然后我们能够询问有关特定的语法,这些语法只引领一些蛋白质形成细胞内的凝聚态。这是一个非常具有挑战性的问题和解锁它将有助于我们学习疾病语言的规则。“
由于数据的可用性不断提高,计算能力不断增强,以及技术进步创造了更强大的算法,机器学习技术正在快速发展。机器学习的进一步应用可能会改变未来癌症和神经退行性疾病的研究。
这些发现可能会超越科学家目前对疾病的已知和推测,甚至可能超越人类大脑在没有机器学习的帮助下所能理解的知识。萨尔博士解释说:“机器学习可以不受研究人员认为的科学探索目标的限制,这意味着我们将发现我们甚至还没有想到的新连接。”这真的非常令人兴奋。”
来源:剑桥大学