在我写这篇博文时,你是处于劣势的,因为你看不到我的表情或者肢体语言,听不到传达意义的声音的变化,你只看到了我的文字。
因为太多的交流是非语言性的,这就很容易理解为什么人与计算机交互会有障碍。我们经历了从打孔卡到键盘的发展,随着诸如Siri等APP的兴起,我们可以进行语音输入,但是仅仅通过语言,机器还是不能理解我们。
这就是为什么最近机器情绪识别的发展会如火如荼的原因。由于照相机技术和计算机视觉算法的发展,计算机通过面部表情、眼动方式、肢体语言、说话方式甚至抬头等理解我们的能力显著提高。
想象一下:一位虚拟心理医生在临床诊断时可以通过分析患者的面部表情来确诊抑郁症,甚至可以随着病情的变化来量化情绪变化。销售人员能更好地分析客户对其产品和广告的反应,老师们能知道课程计划是否适用于全体学生,智能手机如果感觉到我们不安或困惑,会改变方式并提出建议。
换句话说,冷静的设备会通过我们的面部表情来得知我们的情绪。
计算机视觉研究者已经致力于这项研究几十年了。在这几十年中发生了哪些改变?照相机技术是一个改变。为了理解面部表情,通常需要对表情的微妙变化进行检测,比如脸颊肌肉、嘴部的变化以及挑眉。然而,直到最近,在许多网络相机中人脸看起来还是像一大团粉红色的物质。但是现在即使最原始的智能手机都具有高质量的照相机,能捕捉到诸多显示面部情绪和意图的面部动作。
另一个变化是常规可用计算能力与内存的提高,从而可以运行更加复杂的情绪感知算法。由于有大量训练面部表情算法的视频数据库可用,计算机视觉算法变得越来越正确、有效,还能实时工作。
卡耐基梅隆大学机器人研究所的Fernando De la Torre发明了特别强大的面部识别软件,被称作 IntraFace。他的团队采用机器学习的方法来教IntraFace如何以一种适用于大多数面孔的方式来识别和追踪面部表情。然后他们创建了个性化算法能够让软件对个人进行情感表达分析。不仅准确,而且高效,该软件甚至能在手机上运行。
De la Torre和匹兹堡大学心理学家Jeffrey Cohn已经在临床检测抑郁症上获得了令人鼓舞的结果。在自然环境下检测抑郁症要求能够捕捉微妙的面部表情,这就是他们正在做的事。
当然,这并不是万无一失的。演员可能会成功地伪造情感表达。但是,由于真假情绪在表达时间上的不一致,因此关注时间的算法不会轻易上当。此外,面部表情是嵌入到其他非语言行为中的。Cohn和其同事发现严重抑郁症和轻微抑郁症之间在声音的时间上有细微的差别。
另一位成员,语言技术研究所的Louis-Philipe Morency使用多模式机器学习来评估病人的非语言行为来帮助医生更好地评估抑郁症和焦虑。他设想这项技术不仅能帮助诊断疾病,还能在某种程度上量化情感反应,可以帮助医生追踪精神疾病,就像血液检测和X射线能够帮助医生监测身体疾病一样。
如果机器能理解我们的情绪,我们与机器的交互就会变得更加丰富。卡耐基梅隆大学的Justine Cassell研究虚拟同伴在教育行业的应用,她发现当虚拟同伴能对学生们的情绪状态做出适当反应,甚至在某些场合嘲笑他们时,学生们会更积极地参与也会学得更多。
不难想象企业中会如何使用此功能。广告者、营销人员以及电影制片人能得到客户群体更细节的信息。考虑到我们都无法摆脱公司电话的自动回复系统,那么想象一下,如果我们最终失去耐心或要挂断电话的时候,系统能感觉到并作出反应会是一种怎样的体验。
我们已经研究该功能很长一段时间了,我们正处于重大突破的前期。我预计2016年将是机器情绪识别的分水岭,而且情绪会成为我们与机器交互的强有力的新通道。