基于深度学习的咳嗽识别模型帮助检测咳嗽的位置。 — 基于深度学习的咳嗽识别模型能够实时检测出咳嗽声音的位置。

21.08.2020•

COVID-19:基于深度学习的咳嗽识别

韩国科学技术院(KAIST)噪音振动控制中心表示，“咳嗽检测摄像机可以识别咳嗽发生的位置，并将其可视化。”由此产生的咳嗽识别摄像机可以跟踪和记录有关咳嗽者的信息，他们的位置，以及实时的咳嗽次数。

机械工程系的朴永华教授开发了一个深度学习基于咳嗽识别模型对咳嗽声音进行实时分类。咳嗽事件分类模型与声音摄像机相结合，以可视化其在公共场所的位置。研究小组表示，他们获得了87.4%的最佳测试准确率。朴教授表示:“这将成为有用的医疗设备。流行在学校、办公室和餐馆等公共场所，并在医院病房中持续监测病人的状况。

发烧和咳嗽是最相关的呼吸道疾病症状，其中发烧可以通过热成像摄像机远程识别。这项新技术有望有助于以非接触的方式检测流行病传播。将咳嗽事件分类模型与声音摄像机相结合，以可视化咳嗽事件并指示视频图像中的位置。

为开发一种咳嗽识别模型，本研究采用监督学习的方法卷积神经网络(CNN)。该模型通过输入一秒钟的声音轮廓特征来进行二元分类，输出是咳嗽事件或其他事件。

在训练和评估中，收集了Audioset、DEMAND、ETSI和TIMIT等多种数据集。从Audioset中提取咳嗽等声音，将其余数据集作为背景噪声进行数据增强，从而将该模型推广到公共场所的各种背景噪声中。

通过将咳嗽声和其他来自Audioset和背景噪声的声音以0.15至0.75的比例混合在一起，增强数据集，然后将整体音量调整为0.25至1.0倍，以推广不同距离的模型。通过将增强数据集除以9:1构建训练和评估数据集，并在真实办公环境中单独记录测试数据集。

在优化过程中网络在7个优化器下，利用谱图、梅尔比例谱图和梅尔频率倒谱系数等5个声学特征的不同组合进行训练。将每个组合的性能与测试数据集进行比较。以mel尺度谱图为声学特征，以ASGD为优化器，测试精度达到87.4%。

训练后的咳嗽识别模型与声音摄像机相结合。声音摄像机由麦克风阵列和摄像模块组成。将波束形成过程应用于采集的一组声学数据，以确定入射声源的方向。集成的咳嗽识别模型决定了声音是否为咳嗽。如果是，咳嗽的位置将被可视化为一个轮廓图像，在视频图像中咳嗽声源的位置上有一个“咳嗽”标签。

在办公环境中进行的咳嗽识别摄像机的试验结果表明，即使在嘈杂的环境中，也能成功地分辨出咳嗽事件和其他事件。此外，它还可以跟踪咳嗽者的位置，并实时计算咳嗽次数。通过从医院和教室等其他真实环境中获得更多的培训数据，业绩将得到进一步改善。

朴教授表示:“在像COVID-19这样的大流行情况下，咳嗽摄像机有助于在公共场所预防和早期发现传染病。特别是当应用到医院病房时，患者的病情可以一天24小时跟踪，支持更准确的诊断，同时减少医务人员的努力。”