桑迪亚国家实验室（Sandia National Laboratories）开发的第一次COVID-19搜索确定... — 桑迪亚国家实验室（Sandia National Laboratories）开发了第一个COVID-19的搜索，确定，安排和代码相关文件。

资料来源：由桑迪亚国家实验室提供

23.07.2020•

人工智能在冠状病毒干草塔中找到covid-19的针头

Covid-19的研究人员在世界范围内面临着一项艰巨的任务，即筛选成千上万的冠状病毒研究，寻找可能有助于其紧急生物医学研究的共同点或数据。为了加速相关信息的过滤，桑迪亚国家实验室（Sandia National Laboratories）组装了数据挖掘，机器学习算法和基于压缩的分析的组合，以使最有用的数据在Office计算机上脱颖而出。

在最初的努力中，调查人员能够减少29,000多个发布新冠病毒通过在10分钟内识别语言和性格相似性来研究87篇论文。这是快速响应数据科学。桑迪亚计算机科学家特拉维斯·鲍尔（Travis Bauer）说：“医学和流行病学专家可以在不成为数据科学家的情况下几乎可以访问现有相关研究。”“通过一些精致，这个新过程可以阐明我们的公共卫生专家需要回答快速轨道的问题冠状病毒病-19研究，特别是随着新研究迅速出现。”

快速反应科学的性质是快速产生可靠的结果。在为期7天的努力中，桑迪亚科学家构思，配置，分析，测试和重新分析了一项实验，帮助生物安全性和公共卫生专家分离了关键的冠状病毒文件，以迅速访问最相关的信息，以击败COVID-199病毒。

鲍尔（Bauer）和数据科学家，工程师，人类因素专家和病毒学，遗传学，公共卫生，生物安全性和生物化的专家开发并进行了两项不同的搜索研究 - 一项具有两名专家，另一位为三个。专家研究了“SARS-CoV-2在3月18日美国国土安全部问题清单中提取的气溶胶液滴和其他矩阵中，旨在迅速向政府决策者迅速向政府决策者提供现有信息的现状，并鼓励联邦政府进行科学讨论。

应用算法和压缩数据技术

该项目中使用的数据是作为联邦呼吁采取行动的一部分，以“新机器可读的COVID-19”数据集向技术界提供，当时，该数据集包含29,315个研究文件，其中包含与冠状病毒相关的主题。为了加快专家研究特定问题的能力，Sandia的研究是在几个阶段进行的。

在最初的阶段，该研究的病毒学，遗传学，公共卫生，生物安全性和生物化专家索引了研究论文，并在二维图中绘制了该信息自然语言处理基于文档内容的技术。这些文档被转换为可搜索的自然语言矩阵，并进行了索引或评分以搜索性和相关性。

鲍尔说，在29,000个文档设置上测试了三种常用的可视化算法，以查看哪些最能将文档排列到有用的群集中。

单数值分解算法在文档术语之间发现了潜在信息。鲍尔说，就本研究而言，该算法没有提供足够的差异化来供用户探索，因此未选择。
统一的歧管近似和投影算法是一种流行的方法，用于在二维中广泛排列数据以进行可视化。但是，对于这项研究，UMAP被测试并没有在文档中提供足够的差异化，以使专家能够深入研究特定的COVID-19-19。团队认为，该算法的其他调整可能使其对该数据集更有用。
T分布的随机邻居嵌入算法是一种机器学习工具，可以批量或相关数据。该算法产生了明确定义的相关信息集合，使专家能够探索特定的Covid-19主题。鲍尔（Bauer）的团队确定，该算法可以进行挑战，以产生更好，更可用的结果。

同样在最初的阶段，同一专家被要求搜索与使用其选择的搜索系统或引擎相关的文章。

研究专家捕获了他们认为相关或有趣的信息有助于回答他们的Covid-19问题，并将其粘贴到Microsoft Word文档中。包含信息的文档成为了用于根据他们回答专家的问题的方式来创建文章分数的片段。

确定的摘要包括Covid-19和冠状病毒稳定性，案例研究，测试矩阵和其他主题。将结果绘制为二维图，指示相关和无关的文章簇。

然后，通过部分匹配的数据压缩技术在预测中的分析算法然后，每个摘要都对所有covid-19文档进行了评分。分数被用来为二维图上的文档上色，提供了颜色簇，以显示可以找到相关信息的专家。该图上约有87个群集文档被认为高度相关。超过23,000个文件被认为无关紧要。

桑迪亚国家实验室（Sandia National Laboratories）开发了第二次COVID-19搜索。 — Sandia National Laboratories开发的第二次Covid-19搜索使用户可以快速专注于与所提供的摘要非常匹配的特定文档。

资料来源：由桑迪亚国家实验室提供

经过30分钟的会议，要求专家解释他们的搜索词，他们如何决定要查看哪些文章以及他们在每篇文章中寻找什么内容。专家们交互式探索了与批处理相关的文档脱颖而出的对比颜色簇。他们可以研究任何文件，以确定它们是根据相关性适当批处理的还是与新摘要相关的。

检查结果的同一位专家说，这些文档是根据相关性准确批准的，并通过显示有关标题，作者，年度，期刊和摘要的信息来进一步完善界面的建议。专家说，他们在此工具上看到了很大的潜力。鲍尔说：“即使在我的办公室笔记本电脑上，我们也可以对数百万个文档进行排序，并将其提供给用户。”他承认，使用的某些算法提供了更多的差异化和视觉聚类，但是调整算法将提高性能。

鲍尔说：“从技术上讲，可以快速研究并适应专家通过数据集工作的需求。”“可以通过桌面计算机系统上合适的团队开发用户界面的敏捷性和速度可以快速响应特定查询并适应用户不断变化的需求。”