神经网络是功能强大的AI模型,可以从各种类型的数据(例如图像,语音信号或文本)中学习复杂的模式,以高准确性预测相关属性。但是,许多人将这些模型视为无法解释的,因为很难从模型中提取学习的预测模式。这个黑盒子大自然阻碍了神经网络在生物学上的广泛应用,在这种生物学上,对预测模式的解释至关重要。
生物学中最大的未解决问题之一是基因组的第二个代码,即监管代码。脱氧核糖核酸碱(通常由字母A,C,G和T代表)不仅编码有关如何构建蛋白质的说明,还编码在生物体中制造这些蛋白质的何时何地编码。调节代码由称为转录因子的蛋白质读取,这些因子与短伸展DNA结合了称为基序。但是,主题的特定组合和排列如何指定调节活动是一个极其复杂的问题,难以固定。
现在,由Stowers调查员Julia Zeitlinger博士和斯坦福大学的Anshul Kundaje博士领导的生物学家和计算研究人员的跨学科团队,来自斯坦福大学的Anshul Kundaje博士设计了一个神经网络,为基本对网络提供了神经网络,该网络为BPNET。可以解释以通过前所未有的精度从DNA序列中预测转录因子结合来揭示调节代码。
关键是要以最高的分辨率进行转录因子-DNA结合实验和计算建模,直到单个DNA碱基的水平。这一增加的分辨率使他们能够开发新的解释工具来提取关键元素序列模式,例如转录因子结合基序和组序的组合规则,通过该规则将基序与调节代码一起起作用。
齐特林格说:“这非常令人满意,因为结果与现有的实验结果非常吻合,并且揭示了使我们惊讶的新颖见解。”
例如,神经网络模型使研究人员能够发现一条引人注目的规则,该规则控制着被研究良好的转录因子的结合,称为Nanog。他们发现,当其曲线的倍数以周期性的方式存在时,Nanog与DNA合作结合,以使它们出现在螺旋DNA螺旋的同一侧。
Zeitlinger说:“有很多实验证据表明,这种主题周期性有时存在于监管法规中。”“但是,确切的情况是难以捉摸的,而纳米格并不是一个可疑的嫌疑人。发现Nanog具有这种模式,并且看到其互动的其他细节,这令人惊讶,因为我们没有专门搜索这种模式。”
该论文的第一作者说:“这是将神经网络用于此任务的关键优势。”Avsec和Kundaje创建了该模型的第一个版本,当时Avsec在德国慕尼黑的技术大学朱利安·加格尼尔(Julien Gagneur)博士学位上访问了斯坦福大学的博士学位。
“更传统生物信息学使用基于现有知识的预定刚性规则来模拟数据。但是,生物学非常丰富且复杂,” AVSEC说。“通过使用神经网络,我们可以训练更灵活和细微的模型,这些模型从头开始学习复杂的模式,而无需以前的知识,从而允许新发现。”
BPNET的网络体系结构类似于用于图像中面部识别的神经网络。例如,神经网络首先检测到像素中的边缘,然后学习边缘如何形成眼睛,鼻子或嘴巴等面部元素,并最终检测到面部元素如何形成脸部。BPNET没有从像素中学习,而是从原始DNA序列中学习,并学会检测序列基序,并最终通过该元素预测基础分辨率结合数据的高阶规则。
一旦模型被训练为高度准确,就可以使用解释工具提取学习模式。输出信号可追溯到输入序列以揭示序列基序。最后一步是将模型用作甲骨文,并使用特定的DNA序列设计系统地查询它,类似于对实验测试假设进行测试的方法,以揭示以组合方式序列基序函数的规则。
Zeitlinger说:“美好是该模型可以预测我们可以通过实验测试的更多序列设计。”“此外,通过预测实验扰动的结果,我们可以确定最有用的实验来验证模型。”确实,借助CRISPR基因编辑技术,研究人员在实验上证实了该模型的预测高度准确。
由于该方法是灵活的,并且适用于各种不同的数据类型和细胞类型,因此它有望导致对调节代码的迅速了解以及遗传变异如何影响基因调节。Zeitlinger Lab和Kundaje Lab都已经在使用BPNET可靠地识别其他细胞类型的结合基序,将基序与生物物理参数相关联,并学习基因组中的其他结构特征,例如与DNA包装相关的结构特征。为了使其他科学家能够使用BPNET并根据自己的需求进行调整,研究人员使整个软件框架都提供了文档和教程。
该研究发表在自然遗传学。