Kai On Wong发现，机器学习可以用来预测种族…… — 王启安发现，机器学习可以用来从公共卫生数据中预测种族背景，这将有助于填补信息空白，并最终为旨在减少卫生和社会不平等的政策提供信息。

资料来源：艾伯塔大学

23.11.2020 •

人工智能发现人口健康中种族信息缺失

根据艾伯塔大学研究流行病学家的研究，机器学习可以用来填补加拿大公共卫生数据与种族和原住民身份的显著差距。

北艾伯塔省临床试验和研究中心(NACTRC)真实世界证据部门的高级数据科学家Kai On Wong说，种族和土著身份被认为是健康的关键社会决定因素，但往往没有在跟踪急性和慢性疾病的大型数据库中报告慢性病例如气喘,流感,癌症,心血管疾病,糖尿病,残疾和精神病.

“如果一个数据库目前缺乏种族信息，我们将无法判断某些种族群体是否有较高的患病率或更差的临床结果，”Wong说，“这是一种从现有数据源中解开这一缺失维度的方法，有助于我们了解、监测和解决加拿大的社会不平等和种族主义等问题。”

一切都取决于一个名字和一个地点

王创建了一个机器学习该框架分析了1901年人口普查中480万人的姓名和地理位置，检查拼写和语音等特征，以预测他们是否属于13个民族之一。”不同的民族和语言组织有不同的表现特性,比如名字听起来如何,有多少字母的名字,多少个元音和独特的字母序列,等等,”王说,他创建了程序和共享它作为一个公共GitHub库作为其博士论文的一部分在美国公共卫生学院的。

他说：“机器学习就像有一个代理团队，他们被给予大量的信息。他们被指示检测并保留有用的模式，以解决实际问题，例如根据现成的信息预测种族。”。

Wong说，该项目在仅根据姓名识别中国、法国、日本和俄罗斯遗产方面表现最好，而在包括地点的情况下，土著分类的准确性得到了提高。

现有健康记录的新见解

世界卫生组织和加拿大政府都承认，族裔和贫困以及收入、教育和性别等其他因素是健康的决定因素。黄在担任西北地区政府的代理地区流行病学家时，首先对影响土著群体的医疗不平等感兴趣。

Wong说，虽然美国的健康记录往往包括有关种族的问题，但从出院记录到癌症登记册，加拿大的数据库并没有始终如一地收集这些信息。

通过使用机器学习来发现这些缺失的信息，研究人员和政策制定者将能够从现有记录中了解更多信息，而不必进行昂贵和耗时的新的人口水平调查。Wong说:“未来的一步将是使用真实世界的应用程序来验证这项研究，使用机器学习框架生成的带有种族特征的健康证据，并将其与现有文献进行比较，特别是关于健康和社会不平等的文献。”

Wong建议首先使用最新的人口普查信息更新种族预测工具，并测试其在应用于各种健康记录时的准确性。Wong说:“期望机器学习预测在任何时候都100%准确是不现实的。”“我们的目标是做出足够准确和概括的预测，以有意义的方式识别特定问题或应用的潜在模式。”

Wong感谢并表达了他的论文指导老师，公共卫生学院的Yutaka Yasui和Faith Davis，以及科学学院的计算机科学教授Osmar Zaïane。黄博士的研究得到了加拿大卫生研究所弗雷德里克·班廷和查尔斯最佳博士研究奖、阿尔伯塔大学校长杰出博士奖和伊丽莎白二世女王博士奖学金以及阿尔伯塔机器智能研究所(Amii)的资助。

从艾伯塔大学和其他机构的世界领先的学术研究中，Amii加速了工业领袖采用人工智能，通过亲自动手辅导来建立内部人工智能能力，并通过世界级的培训机会帮助阿尔伯塔工人为AIM的高需求职业做好准备。

这项研究发表在公共科学图书馆一号.