想象一下,在你可以做晚餐之前,你首先必须重建厨房,专门为每种食谱设计。你会花更多的时间在准备上,而不是真正的烹饪上。对于计算生物学家来说,这是一个耗时的分析过程基因组学数据。在他们开始分析之前,他们会花费大量宝贵的时间格式化和准备大量数据集,并将其输入到深度学习模型中。
为了简化这一过程,来自Helmholtz协会(MDC) Max Delbrück分子医学中心的研究人员开发了一种通用编程工具,可以将各种基因组数据转换为深度学习模型分析所需的格式。“之前,你浪费了很多时间在技术方面,而不是专注于生物的问题你想的答案,”沃尔夫冈•科普博士说,一个科学家在生物信息学和组学数据科学研究小组MDC的柏林医学系统生物学研究所 (BIMSB),和论文的第一作者。“通过杖鼓,我们的目标是减轻一些技术负担,让尽可能多的人能够使用它。”
唯一名称,通用解决方案
杖鼓的名字来源于一种形状像沙漏的传统朝鲜鼓。沙漏的两个大部分代表了杖谷关注的领域:基因组数据的预处理、结果可视化和模型评估。中间的窄连接器代表了研究人员希望使用的任何类型的深度学习模型的占位符。
深度学习模型包括算法整理大量的数据,找到相关的特征或模式。虽然深度学习是一种非常强大的工具,但它在基因组学中的应用一直有限。大多数发布的模型倾向于只处理固定类型的数据,只能回答一个特定的问题。换出或添加新数据通常需要从头开始,并进行大量的编程工作。
杖谷将不同的基因组数据类型转换成一种通用格式,可以插入到任何使用python(一种广泛使用的编程语言)的机器学习或深度学习模型中。生物信息学和组学数据科学研究小组负责人Altuna Akalin博士说:“我们的方法的特别之处在于,你可以轻松地使用任何基因组数据集来解决深度学习问题,任何数据都可以以任何形式出现。”
分离是关键
阿卡林的研究小组有双重任务:开发新的机器学习工具,并利用它们研究生物学和医学中的问题。在他们自己的研究工作中,他们不断地为花在格式化数据上的时间感到沮丧。他们意识到问题的一部分是每个深度学习模型都包含了自己的数据预处理。通过将数据提取和格式化从分析中分离出来,它提供了一种更简单的方式来交换、合并或重用数据段。这有点像把所有的厨房工具和材料放在手边,随时准备尝试一份新食谱。“困难在于在灵活性和可用性之间找到适当的平衡,”科普说。“如果太过灵活,人们就会被各种各样的选择淹没,开始行动就会很困难。”
Kopp已经准备了几个教程来帮助其他人开始使用杖鼓,以及示例数据集和案例研究。该研究证明了杖谷在处理大量数据、结合数据流和回答不同类型的问题方面的通用性,如从DNA序列和/或染色质可及性预测结合位点,以及分类和回归任务。
没完没了的应用
虽然杖鼓的好处主要是在前端,但研究人员希望为深度学习提供一个完整的解决方案。杖谷还包括深度学习分析后的可视化结果,并评估模型所学到的内容。值得注意的是,该团队将“高阶序列编码”纳入包中,这允许捕获相邻核苷酸之间的相关性。这有助于提高一些分析的准确性。通过使深度学习更容易,更方便用户,杖鼓帮助打开了回答各种生物问题的大门。“最有趣的应用之一是预测突变对基因调控的影响,”Akalin说。“这令人兴奋,因为现在我们可以开始了解个体基因组,例如,我们可以确定导致调控变化的基因变异,或者我们可以解释肿瘤中发生的调控突变。”
科学家们在杂志中描述了这种新方法,Janggu自然通讯.