为了诊断抑郁症,临床医师需要采访患者,问他们一些特定的问题,比如过往病史、生活方式、情绪,并在患者回答的基础上辨别病症。

近些年来,机器学习已经成为诊断的有效助手。比如,人们开发出了机器学习模型,用以检测对话中具有抑郁症倾向的词汇和语调。不过,这些模型需要根据病患对特定问题的特定回答来判断其是否患有抑郁症。虽然诊断结果很精确,但对特定问题的高度依赖性限制了它的使用方法和使用范围。

图片来源:WHO

在Interspeech会议上亮相的一篇论文中,麻省理工学院的研究人员公布了有关神经网络模型的细节。该模型可以通过分析对话中的原始文本和音频数据,挖掘出抑郁症患者特有的语言模式。面对全新的受访者,该模型也可以精确辨别其是否患有抑郁症,无需提供问答以外的其他信息。

研究人员希望,人们可以用这种方法研发相关工具,以在自然对话中检测抑郁症。比如,人们可以将此模型应用在手机应用程序上,从而监测使用者的文本和语音,一旦精神抑郁的情况出现便发送提醒。对于那些因为距离、花费、缺乏警觉意识的患者来说,他们通常不会请临床医生来进行初次诊断,那么这种方法将对他们极为有利。

第一作者、计算机科学与人工智能实验室研究人员Tuka Alhanai表示:“通过对话,我们能得到第一层关于快乐、激动、悲伤或抑郁症等严重认知情况的暗示。如果你想通过可扩展的方式应用抑郁症检测模型……如果你想在最大程度上减少数据的限制;如果你想在所有常规对话中应用该模型,并在自然交互中检测个体状态的话。”

共同作者、计算机科学与人工智能实验室研究科学家James Glass补充称,这项科技还能用于辨别临床科室内日常对话里的精神沮丧倾向。他表示:“每位患者的说话方式不同。如果该模型检测到了差别,那它会向医生传达一个标志。这是一种进步,能更深入地帮助临床医师。”

该论文的另一位共同作者是医学工程与科学研究所成员Mohammad Ghassemi。

与上下文无关的建模

该模型的关键突破点在于,它能够识别表明抑郁症的模式,并将其与全新的个体匹配,无需额外信息。“我们将其称为‘与上下文无关’,因为你不需要对问答施加任何限制。” Alhanai说道。

其他模型都是提前设置好一系列特定的问题,并分别输入有和没有抑郁症的人的回答方式。比如,面对“你得过抑郁症吗”这种直接的问题,其他模型会利用已知的确切回答来判断使用者是否患有抑郁症。“但普通对话并不会这样。” Alhanai说道。

另一方面,研究人员利用了一种名为序列建模的技术,该技术一般用于进行语音处理。有了这项技术,研究人员可以让模型依次学习问答中的文本和语音序列,不论受访者是否抑郁。随着序列的积累,模型便能提炼出患有抑郁症和没患抑郁症的受访者的不同语言模式。“难过”、“低落”、“沮丧”等词可能会和具有奉承情绪且单调的音频信号结合起来。此外,抑郁症患者一般语速较慢,词语之间的停顿时间也较长。在此前的研究中,我们已经定义了精神沮丧患者的文本和语音编码,但最终决定哪种模式指向抑郁症的还是模型本身。

“模型在获取词语或语言风格的序列后,会决定到底是抑郁症患者还是非抑郁症患者更倾向于使用这些语言模式,”Alhanai说,“然后当模型在新的受访者身上获取到同样的序列后,它就能诊断出他是否患有抑郁。”

这种序列技术还能帮助模型从整体上观察对话,并在一段时间后,主动标记出抑郁症患者和非抑郁症患者之间的差别。

抑郁症的检查

通过142个DAIC(抑郁分析访谈语料库)数据库的互动数据组,研究人员对模型进行了训练和测试。该数据组涵盖了音频、文本、视频形式的采访资料,受访者为精神疾病患者和由人类控制的虚拟代理。根据个人健康问卷的问答,研究人员会对每位受访者的抑郁等级进行评分,评分区间为0至27。比中度(10至14)和中重度(15至19)这两个临界值高的话,受访者便会被判定为抑郁症患者,低于这个临界值的则非抑郁症患者。在数据组的所有采访对象中,28%的人患有抑郁症。

在实验中,研究人员会使用精确度和召回度评估模型。精确度用于衡量哪些被模型识别为抑郁症的对象的确是抑郁症患者,召回度则用于衡量模型在检测数据组中所有抑郁症患者方面的准确程度。该模型的精确度和召回度分别为71%和83%。考虑到所有错误后,该模型在这些指标方面的综合评分为77%。在大多数测试里,该模型的表现都比其他模型更好。

相关阅读

Alhanai指出,研究的重要发现在于,相比于文本,模型在实验中更需要音频数据来检测抑郁症。面对文本数据,该模型可以用平均7个问答序列来准确检测抑郁症,而面对音频数据则需要近30个序列。Alhanai说:“这表明,相比于音频数据,人们使用的含抑郁倾向的词语能在更短的时间间隔内形成模式。”有了这项发现,麻省理工学院的研究人员等人可以进一步修改该模型。

Glass表示,这篇研究是一个“非常振奋人心的”试点。不过,研究人员现在仍需探索,看看模型能在大量原始数据中提炼出哪些特定的模式。“现在这就有点像是个黑盒子,”Glass称,“不过,当你知道它的学习内容后,你将更加信任它……下一项挑战就是,找出它所利用的数据。”

研究人员还将用更多的受访者数据测试上述方法的其他认知功能,比如老年痴呆症。Alhanai称:“虽然这不是检测抑郁症,但评估的方法是类似的,即通过受访者每天的语言模式来判断其是否具有认知障碍。”

作者:Rob Matheson,《麻省理工科技评论》特约撰稿人

以上内容仅代表作者个人观点。

本文由世界经济论坛和MIT News联合发布,转载请注明来源并附上原文链接

翻译:叶枫

编辑:万鸿嘉

世界经济论坛是一个独立且中立的平台,旨在集合各方观点,讨论全球、区域及行业性重要话题。