全球癌症研究吸引了全球范围内的大量资金,而现在的科学文献如此之多,以至于研究人员正在努力跟上:产生假设的关键证据现在往往是在发表很久之后才被发现的。
癌症是一类复杂的疾病,尚不完全了解,是全球第二大死亡原因。癌症的发展涉及许多化学和生化分子、反应和途径的变化,癌症研究正在广泛的科学领域中进行,它们描述相似概念的方式各不相同。“作为一名癌症研究人员,即使你知道自己在寻找什么,每天也有成千上万的论文出现,”Anna Korhonen教授说,她是剑桥大学语言技术实验室的联合主任,与英国剑桥大学癌症研究所的Masashi Narita博士和瑞典卡罗林斯卡学院的Ulla Stenius教授合作,领导了LION LBD的开发。“LION LBD利用人工智能帮助科学家了解他们领域中已发表的发现,但也可以通过在看似不相关的来源之间建立联系,将已知的文献结合起来,帮助他们获得新的发现。”
LBD是“基于文学的发现”(Literature-Based Discovery)的缩写,这个概念是在20世纪80年代提出的,它试图通过梳理来自不同来源的信息片段来获得新的发现。LBD最初版本背后的关键思想是,文献中从未明确关联的概念可能通过中间概念间接关联。LION LBD系统的设计允许实时搜索,在包含数千万出版物的数据库中发现实体之间的间接关联,同时保留用户在其原始上下文中探索每一个提及的能力。Korhonen说:“例如,你可能知道一种抗癌药物会影响特定通路的行为,但对于LION LBD,你可能会发现一种针对完全不同的疾病开发的药物会影响相同的通路。”
LION LBD是第一个专门为癌症研究需求开发的系统。它特别关注癌症的分子生物学,并使用最先进的机器学习和自然语言处理技术,以便在文本中检测到癌症的特征。对该系统的评估表明,它有能力识别未发现的链接,并在潜在的连接中对相关概念进行高度排序。
该系统使用开放数据、开放源代码和开放标准构建,可作为交互式的基于web的界面或可编程API使用。研究人员目前正致力于扩展LION-LBD的范围,以包括更多的概念和关系。他们还与癌症研究人员密切合作,帮助并改善终端用户的技术。
来源:剑桥大学