李飞飞团队最新成果:通过口语和面部表情评估抑郁症严重程度腾讯云开发者社区

雷锋网按:本文作者Albert Haque, Michelle Guo, Adam S Miner和Li Fei-Fei。文章主要介绍了李飞飞团队的最新研究成果:一种基于机器学习的抑郁症症状严重程度测量方法,该方法使用了视频、音频和文本数据集,以及因果卷积神经网络模型,准确率超过80%。

抑郁症现在是一个全球性问题:已经有3亿多人患有抑郁症,严重时可导致自杀。

由于社会舆论、高昂成本和治疗缺位,60%的精神性疾病患者没有获得任何精神健康服务。就抑郁症来说,有效且高效的诊断服务依赖于临床症状检测,但是,抑郁症症状的自动检测正在打破这一传统,无需临床检测也可以潜在地提高诊断准确性和有效性,从而带来更快速的干预治疗。

在本文中,我们提出了一种机器学习方法来测量抑郁症症状的严重程度。此多模态方法使用了3D面部表情和口语,这些数据在现在的手机上很常见。结果显示,在经过临床验证过的病人健康问卷(PHQ, Patient Health Questionnaire)水平上,它的的平均误差仅有3.67分(相对误差为15.3%);对于检测重度抑郁症,模型则显示出了83.3%的敏感性和82.6%的特异性。

1、介绍

一般来说,精神障碍患者会由基础医疗服务医生等人员进行检查,包括基础医疗服务医生。然而,相比身体疾病,精神障碍更难被发现。而且,诸如社会舆论、经济成本和治疗缺位等治疗障碍又加剧了精神健康的负担。为了解决医疗服务中这些根深蒂固的障碍,人们呼吁采取可推广的方法来检测精神健康症状。如果成功了,早期检测可能影响到60%未接受治疗的精神病成年人,并让他们有机会获得治疗。

在临床实践中,医生首先通过面对面临床问诊测量抑郁症症状的严重程度,以此来甄别患者的抑郁症症状。在这些问诊中,临床医生同时评估抑郁症症状的语言和非语言指标:包括音高单调、语速降低、音量降低、手势较少和总向下看,如果这些症状持续了两周,可以认为患者重度抑郁症发作。

在临床人群中,结构化问卷早已用来评估抑郁症状的严重程度。最常见的问卷就是病人健康问卷(PHQ)。这种已被临床验证的工具会在多个个人维度上测量抑郁症症状的严重程度。评估症状的严重性虽然需要很多时间,但这对于初步诊断和进一步改善治疗服务都至关重要。

而基于人工智能的解决方案可以解决这些获得治疗的重重障碍。

图1:多模态数据。对于每个临床问诊,我们使用:(a)3D面部扫描的视频,(b)音频录音,可转化为可视化的log-mel声谱图,以及(c)患者讲话的转录文本。我们的模型使用了这三种模式预测抑郁症症状的严重程度。

我们设想了一种基于人工智能的解决方案:其中的抑郁个体们可以接受循证精神健康服务,同时又避免了现有的治疗获取障碍。这种解决方案可以利用多模态传感器或者文本消息(就是现代智能手机上常见的那些)来增多及时和效率高的症状筛查。对话式AI是另一种潜在的解决方案。我们的希望是自动化反馈将(i)为可能抑郁的个体提供可操作的反馈,并(ii)通过包括视觉、音频和语言信号来改进临床医生的抑郁自动化筛查工具。

贡献:我们提出了一种机器学习方法通过去识别化的多模态数据来测量抑郁症症状的严重程度。我们模型的输入是面部关键点的音频、3D视频以及患者在临床问诊中的说话转录文本。我们的模型的输出要么是PHQ评分,要么是表明重度抑郁症的分类标签。我们的方法利用了因果卷积网络(C-CNN),将句子们“概括”为单个嵌入,然后使用这个嵌入来预测抑郁症症状的严重程度。在我们的实验中,我们展示了我们基于句子的模型是如何与单词级嵌入以及前人的工作发生相互关系的。

2、数据集

我们使用了DAIC-WOZ数据集,其中包含了抑郁症和非抑郁症患者的音频和3D面部扫描。对于每一个患者,我们都提供了PHQ-8评分。这个语料库是用半结构化临床问诊数据创建的。在半结构化临床问诊中,病人与遥控数字助理对话,临床医生会通过数字助理询问一系列专门针对抑郁症症状的问题。数字助理用查询的方式提问每一个病人(例如,“你多久去一次你的家乡?”),并得到对话反馈(例如“酷”)。我们一共收集了来自142名患者的189次临床问诊的共50小时的数据。我们论文的结果来自验证集。更多的细节可以在附录中找到。这项工作中使用的数据不包含受保护的健康信息(PHI)。数据集管理员从音频录音和转录中删除了对个人姓名、具体日期和地点的信息。3D面部扫描是低分辨率的(68像素),并不包含足够的信息来识别出个人,只包含足够的信息来测量面部运动,比如眼睛、嘴唇和头部运动。虽然数据集是公开可用的,但是在未来,将此方法应用于其他数据集的研究人员可能会遇到PHI,那时他们应该合理的设计实验。

3、模型

我们的模型由两个技术部分组成:(i)一个句子级的“概要”嵌入(嵌入的目的是“概括”一个可变长度的序列,将它变为固定大小的数字向量。)和(ii)一个因果卷积网络(C-CNN)。概览如图2所示。

句子级嵌入:几十年来,单词和音素级嵌入一直是编码文本和语音的必备因素。虽然这些嵌入在某些任务中表现不错,但它们的句子级建模能力有限。这是因为单词和音素级嵌入智能捕获一个狭窄的时间范围,通常最多有几百毫秒。在这项工作中,我们提出了一种新的多模态句子级嵌入,这使得我们能够捕获更长期的声音、视觉和语言元素。

图2:我们的方法:学习一个多模态句子级嵌入。总的来说,我们的模型是因果卷积神经网络。输入到我们的模型是:音频,3D面部扫描和文本。多模态句子级嵌入被装到了抑郁症分类器和PHQ回归模型里(上面没有显示)。

表1:检测抑郁症的机器学习方法的比较。评估了两项任务:(i)重度抑郁症的二元分类和(ii)PHQ评分回归。模态:A:音频,V:视觉,L:语言(文本),AVL:三者组合。对于前人的工作,数字来源于原始出版物中的报告。破折号表示未被报告度量。

因果卷积网络:在临床问诊中,患者可能会结巴,并且经常在说话时停顿。这导致了抑郁症患者视听录像比非抑郁症患者时间更长。近来,因果卷积网络(C-CNN)在长序列上的表现优于递归神经网络(RNNs)。有作者甚至表明,RNNs可以由完全前反馈网络(即CNNs)来近似。结合扩张性卷积,C-CNN已经可以为抑郁症筛查问诊建立长序列模型。为了更全面地比较C-CNN和RNN,我们建议请读者查阅Bai et al。

4、实验

我们的实验分为两部分。首先,将我们的方法与现有测量抑郁症症状严重程度的工作进行了比较(表1)。我们预测PHQ评分,并输出关于患者是否患有重度抑郁症的二元分类,通常PHQ评分大于或等于10。其次,我们对我们的模型进行消融研究,以更好地理解多模态和句子级嵌入的效果(表2)。数据格式、神经网络结构和关键超参数可以在附录中找到。

4.1 抑郁症症状严重程度的自动测量

在表1中,我们将我们的方法与前人在测量抑郁症症状严重程度方面的工作进行了比较。我们的方法与前人工作的一个区别在于我们的方法不依赖于问诊情景。前人的工作在很大程度上取决于问诊情境,比如所问问题的类型,而我们的方法接受没有这种元数据的句子。虽然额外的上下文通常对模型有帮助,但是它可能引入技术性挑战,比如每个上下文分类的训练样本太少。我们方法的另一个区别是使用原始输入模态:音频、视觉和文本。前人的工作使用的是工程化的特征,比如最小/最大音调和词频。

表2:消融研究。1-2行是手工制作的嵌入,3-6行是前期训练的嵌入,7-8行表示我们学习的句子级嵌入。模态:A:音频,V:视觉,L:语言(文本),AVL:三者组合。TPR和TNR分别表示真阳性率和真阴性率。输入到7-8行的是log-mel声谱图、3D面部和Word2Vecs的序列。

4.2 消融研究

在表2中,1-6行表示手工制作的或前期训练的句子级嵌入。也就是说,整个输入语句(音频、3D面部扫描和转录)被概括为一个向量。然而,我们建议通过输入学习一个句子级嵌入。这些显示在7和8行里。要注意,我们的方法确实使用了手工制作和前期训练的单词级嵌入作为输入。然而,在内部,我们的模型学习句子级嵌入。在前期的句子级嵌入工作之后,再简单计算1-6行的平均值。为了学习句子级嵌入,我们评估了:(i)长短期记忆和(i i)因果卷积网络。

5、讨论

在我们的工作适用于未来的研究之前,有一些问题需要考虑。

首先,虽然一个人控制着数字助理,但是数据是从人与计算机的访谈中收集的,而不是人与人之间。研究显示,与真人相比,患者与助理交谈时对公开秘密的恐惧更小,并且表现出更高的情感强度。人们通过向聊天机器人表露情感还可以体验到心理上的安慰。

第二,虽然它通常用于治疗方案设置和临床试验,但症状严重程度评分(PHQ)与抑郁症的正式诊断不同。我们的工作旨在加强现有的临床方法,而不是发布一个正式的诊断。

最后,虽然预先存在的嵌入方便使用,但是最近的研究表明这些向量可能包含由于基础训练数据引起的误差。减小误差超出了我们的工作范围,但对于提供敏感的诊断和治疗至关重要。

未来的工作可以更好地利用纵向和时间信息,例如相隔数周或数月的问诊中的抑郁症评分。搞清楚为什么模型会做出某些预测也是很有价值的。诸如3D人脸上的置信度图谱和音频片段的“有用性”评分等可视化技术也可能会带来新的见解。

总的来说,我们提出了一种结合语音识别、计算机视觉和自然语言处理技术的多模态机器学习方法。我们希望这项工作将激励其他人建立基于人工智能并用来了解抑郁症以外的心理健康障碍的工具。

A 附录

A.1 数据格式

完整的数据细节可以在原始数据集网站找到。音频是用16kHz的头戴式麦克风记录。视频被微软Kinect以每秒30帧的速度记录。使用OpenFace提取了总共68个三维面部关键点。音频被数据集管理员转录并被分成具有毫秒级时间戳的句子和短语。我们使用数据集的train-val分割:训练(107名患者),验证(35名患者)。注意,当一个测试集存在时,标签不是公开的。我们规范了转录中的俚语。比如,bout被翻译成about,till被翻译成until,lookin被翻译成looking。所有文本都被小写,数字也规范化(例如,24代表二十四)。

A.2 实现细节

A.2.1 实验1:自动测量抑郁症症状的严重程度

输入“我们的方法”,比如如下的因果卷积神经网络:

• 音频:带有80个mel过滤器的log-mel声谱图。

• 视觉:68个三维面部特征点。

• 语言:Word2VEC嵌入。

网络结构是一个10层的因果卷积网络,内核大小为5,每层有128个隐藏节点。对于所有非线性层,归零概率为0.5。损失目标是用于分类的二元交叉熵,以及用于回归的平均方差。模型采用Adam优化器进行优化,β1=0.9,β2=0.999,L2的权重衰减是1e-4。最初的学习率为1e-3和1e-5,分别用来分类和回归。使用的批量大小为16。该模型在一块NVIDIA V100 GPU上训练,它的最大训练次数为100。我们的模型用Pytorch实现。

A.2.2 实验2:消融研究

对于表2,每一行的详细信息如下:

1.用80个mel过滤器计算log-mel声谱图。

2.用13个结果值计算mel-frequency倒谱系数。

3.数据集总共提供了68个三维面部关键点,它们是用OpenFace提取的。

6.通用句子级嵌入使用公开发行版的Tensorflow计算,每个向量的长度为512。

8.我们的因果卷积神经网络模型与附录A.2.1中所概述的模型相同。公共代码用于实现LSTM和因果CNN的核心网络结构的构建。

THE END
0.抑郁症和焦虑症是什么表现神经内科对于坐骨神经痛一般分成保守疗法和手术,保守疗法抱括药物疗法和许多锻练的方法,坐骨神经痛大多数用保守疗法。急性期可采用紫外线、短波、电疗法等。慢性期堪用针刺疗法、超声波疗法、音频电疗法等。中医治疗主要采取针灸疗法,同时换用吸扯疗法。另外在治疗之余要注意保持jvzquC41o0li4:3eqo4dp8ncum5wkn|132<6;@<6:0nuou
1.识别抑郁倾向通过语音语调特征分析从声音里读懂情绪:技术如何开始“倾听”抑郁? 人类说话时,声带振动、呼吸节奏、口腔肌肉控制等都会受到情绪影响。抑郁症患者常表现出动力减退、兴趣丧失、思维迟缓——这些内在变化会直接反映在语音中: 🎵音调更平:基频(F0)波动减少,听起来“没起伏” 🐢语速更慢:每分钟词汇量下降,句子间停顿拉长 jvzquC41dnuh0lxfp0tfv8|gkzooa<::;;9368ftvkimg8igvcomu86769712@9
2.抑郁症的表现是什么抑郁症发作时核心的表现就是情感低落、思维迟缓和言语动作减少,也就是抑的症状和郁的症状。 1、另外还有一些伴随症状,最常见的睡眠问题、食欲的减退、便秘的症状、腹泻的症状。 2、抑郁症还会有性欲的减退、身体的这种疼痛、不适等很多躯体的症状,这些都是抑郁症的临床表现。 jvzquC41yy}/t€~u0eun1jwvkerfexsvgpz08A;:
3.焦虑症惊恐发作疑病症怕失控的康复方法1(郑老师2025年讲座)主播信息 鄭氏心理 感谢关注,收听愉快关注 33 强迫症 社交恐惧症 焦虑抑郁,森田疗法 认知行为疗法 客体关系 自体心理学,中级心理治疗师。 24 心理知识 221 催眠放松音乐APP内查看主播 节目详情 # 焦虑症康复方法 # 惊恐发作症状表现 # 疑病症恐惧根源 # 心理学脱敏疗法 # 对抗排斥心理机制 # 心理接纳缓解焦虑 #jvzquC41o/vsg7vkpizjpp3ho1|djjspgny04:=3755qtxltcoy04B9972?91
4.老年焦虑症的症状及治疗焦虑抑郁烦躁欢迎收听蜻蜓FM焦虑、抑郁、烦躁专辑下的音频节目老年焦虑症的症状及治疗,主播:。在这里“老年焦虑症的症状及治疗”免费在线听,而且您可以下载蜻蜓FM,该音频节目对应焦虑、抑郁、烦躁mp3全集都可下载和收藏,随时随地在线收听。更多“老年焦虑症的症状及治疗”类型的有jvzq<84o0szgo7hp1xiicwsgnu52;;7521vsqpwcou569?6:455
5.出道即封杀!她是国内第一“傻白甜”,15岁被网暴逼到抑郁,31岁却靠现在,她每天下班后在家读读书,把声音上传到平台上,一个月就有百万的播放量,光是粉丝打赏的收入就有好几千! 而且平台还会自动给她的配音作品加上贴片广告,也就是说只要有人播放了她的音频,立马享有广告收入! 小辛的音频平台收入截图👆 小可认为,每个人都可以改变自己的声音,并通过声音赚到钱,只需要做两件事:jvzq<84m0uooc7hqo0io1jwvkerfa<<897877?8axg69hn9c527:29wnkl4ivvq
6.世界精神卫生日|产后抑郁不是罪专家教你如何应对产后抑郁:不容忽视的心理挑战 产后抑郁,是指产褥期发生的精神抑郁,主要表现为情绪低落、动力减低、失眠、悲观等一系列症状,严重影响母婴身心健康,甚至可能导致严重后果。据《2022年国民抑郁症蓝皮书》显示,每5个产妇中就有1个会出现不同程度的抑郁情绪。 产后抑郁有什么表现?家人如何察觉? 1.情绪改变:产妇可能长时间jvzquC41pg}t0lmcpiyic7hp1ziuv8mvon52396:91814=623252:>74;0nuou
7.基于多模态的抑郁症识别入门综述——DeepLearningforDepressionReco基于深度学习获得的特征表现良好,并且几乎不具有上述提到的主要问题,主要采用包括CNN、RNN在内的各种主要网络结构基于视听因素来提取多尺度的特征表征。 1.3 存在问题 当前已有的相关综述存在两个有待思考的问题:首先是很少有研究关注视频和音频两种及以上数据信息(多模态)同时参与ADE系统,其次是大多数现有研究仍采用传统jvzquC41dnuh0lxfp0tfv8_H327578ftvkimg8igvcomu86573>9:;7
8.《西塔波冥想》脑波音频(静心禅修深度放松催眠助眠)提供纯脑波音频、脑波音乐、脑波催眠等多种版本,用户可按需选择 用途广泛,有学习力、记忆力、专注力、冥想、放松、睡眠等丰富的单元 慧悦®超意识脑波音乐专业的脑波优化工具,可用于提升心灵能力,达到持久的个人成长。 慧悦超意识脑波音乐通过EasyPeace®脑波优化技术改变脑波。 jvzq<84yyy49:960pgz0ixtfu/=99;3jvor
9.一生中的社会经济地位及其变化与老年抑郁症状密切相关!具体来说,与SES下降组相比,中等童年SES与抑郁症状风险下降20%,高童年SES与风险下降30%,中等成年SES与风险下降25%,高成年SES与风险下降36%有关。变化轨迹方面,SES上升与风险下降31%,稳定低SES与风险上升37%,稳定中等SES与风险下降24%,稳定高SES与风险下降46%有关。 jvzquC41pg}t0knqqp4dqv4ctvodnn47g48:2n:868:/j}rn
10.构建语音情感识别系统在上述代码中,processAudioChunk函数被传递到不同的线程中,以并行方式处理分割好的音频块。通过std::thread,我们创建了线程池,并在所有音频块处理完成后,使用join方法等待所有线程结束。这样可以有效提高音频处理的效率。 2.2 C++实现音频信号的实时捕获和播放 2.2.1 利用声卡接口进行音频捕获 音频捕获是jvzquC41dnuh0lxfp0tfv8|gkzooa<::37=788ftvkimg8igvcomu867239:;@9
11.徐欣医生学术心得音频资料点击播放02:00 5.9万浏览 焦虑症有哪些症状 字面上解释焦虑症是担心、着急,急得六神无主、坐卧不宁,焦虑症的症状来源于身体的体验,最简单的表现胃紧张、担心、恐惧,患者会觉得心跳加快、心慌、胸闷,甚至会胸疼。 气急的时候,会出现神经系统和呼吸系统的更多 jvzquC41yy}/dxmg0et0fxhvqt5wqrhg1:=6:@<0jvsm
12.“小眼镜”“小胖墩”不少,儿童抑郁时有发生,医学专家送上儿童中国之声丨点击收听音频→ 00:00 04:53 视频播放失败 打开央视新闻 对于孩子的体征,我们常说的“小眼镜、小胖墩”不少。《中国居民膳食指南(2022)》数据显示,6至17岁儿童青少年超重肥胖率高达19%。《全国儿童青少年近视防控白皮书》表明,小学阶段人群筛查性近视患病率为54.00%。国家儿童医学中心主任、北京儿童医院院jvzquC41eqtugwy/uvgukl3eev|og€x0eezw0lto1utpy6gqqm5jpmjz0jznnHnvgoejfF73:6782@8364=38=5;5
13.抑郁症的通常表现症状一路听天下高音质在线试听你或你爱的人可能正在饱受抑郁症状的折磨 如果你有抑郁症 那么伤害你的症状也可能伤害到你的家庭 你的工作表现和你的人际关系 要牢记 这是一种真实疾病的真实症状 不要沉溺于自责及糟糕的感觉 相反 你应去看医生 谨遵医嘱 使你早日回归正常生活 近来编辑部里一向活泼开朗的小雪突然变得郁郁寡欢了 jvzquC41yy}/m~lqw0ipo8rkzuuoi8h{xruyhA3jvor
14.抑郁发作有什么特点抑郁的核心症状是情绪低落、兴趣减少、睡眠不好等。 1、抑郁症的病人可能会表现为情绪低落,如唉声叹气、爱哭,处于低沉、压抑的状态。 2、病人会存在兴趣的减少,比如原有兴趣突然完全丧失,也可以表现为情绪的减弱、减少。 3、患者的注意力可能会很难集中,并出现记忆力减退、睡眠不好的情况,部分患者还会觉得没劲、jvzquC41yy}/t€~u0eun1jwvkerfexsvgpz03@;969