情感计算简介
我前段时间和其他学院的同学聊天,他问我:你现在在做哪个研究方向?我说在做情感计算。同学一脸迷惑。我花了一些功夫才讲明白这个方向都在做些什么,于是想写篇文章简要总结一下。
计算机科学发展迅猛,产生了诸多研究分支。我们首先来了解情感计算在整个学术谱系图中的位置。想象计算机科学是一棵大树。它主要有硬件和软件两个分支。其硬件分支包括CPU设计、显卡设计等子分支,致力于改善物理设备的性能;其软件分支包括操作系统和人工智能等分支,致力于提高算法的性能和效率。其中的人工智能分支主要通过计算机程序使机器具有一定程度的“智能”,使之可以处理人脸识别等简单任务。值得注意的是,目前的人工智能尚处于弱人工智能阶段。这里的弱,指的是机器只能处理一小部分工作。例如,人脸识别模型只能判断对方的身份,而不能检测对方的情绪。与弱人工智能相对,强人工智能指的是与人类智能相接近的、可以同时执行多项任务的智能。
人工智能领域内研究方向繁多且多有交叉,只能进行粗略的分类。例如,按研究对象划分,人工智能领域可分为图像处理、自然语言处理等领域。其中图像处理方向致力于让机器学会从图片中提取物体名称,或根据图像中的物体将其分成几个区域、或是自动合成具有不同风格的作品,等等。自然语言处理致力于让机器理解人类语言,以执行机器翻译或诗歌创作等任务。按研究方法分,人工智能可分为常规方法和深度学习方法。前者主要使用基于原理构建的模型(如SVM模型),后者主要使用人工神经网络(一个模拟人脑神经元的黑箱系统)。按研究目的划分,人工智能领域可分为知识表示和机器学习等领域。其中知识表示的目标是让机器存储相应的知识,并且能够按照某种规则推理演绎得到新的知识。而机器学习分支致力于用数据或以往的经验,以此优化计算机程序的性能。情感计算即是机器学习领域下的子分支。
借用维基百科的定义:情感计算(Affective computing)是一个跨学科领域,涉及计算机科学、 心理学和认知科学,旨在研发能够识别、解释、处理、模拟人类情感的系统。以我的理解,情感计算主要致力于用计算机算法使机器理解人的情感。这一研究方向与人工智能的子分支有着诸多交叉。例如情感计算与自然语言处理交叉,出现文本情感分析等方向。文本情感分析方向主要分析文本的情感属性,例如对于给定的文本,分析其传达了正向还是负向的情感。情感计算与音频合成相交叉,就有了情感语音合成等方向。情感语音合成致力于将文本转化为富有情感的声音,类似于人工智能播音员。情感计算与视频处理交叉,出现视频情感识别等方向。我所做的工作就属于这一方向。粗略地讲,对于给定的视频片段,视频情感识别致力于确定它所属的情感类别。例如,用户上传了他和宠物狗玩耍的视频,系统将自动识别该视频的情感属性为“高兴”。
我所在的课题组主要包含音乐组、语音组和视频组。我属于其中的视频组。课题组的总体目标是建成一套情绪疗愈系统,以缓解目前的抑郁症高发现象。该系统的使用场景可粗略描述如下。假设一位心情不好的用户打开了这个系统,他将与聊天机器人产生一些互动,而摄像头及传感器将记录他的神态、声音、肢体动作、心率等信息。这些信息被送入情感识别模块,以得出该用户当前的情感状态(如失落、悲伤)。这些情感信息被传递给系统的音乐生成模块,该模块基于用户的情感,为之创作独一无二的音乐。这些音乐信息又被送往语音合成模块,最终生成音频,播放给用户,以改善他的情绪。之后,情感识别模块将再度检测他的情绪,以验证音乐是否有效。在此过程中,用户不必和他人接触便能缓解自己的负面情绪。音乐组、语音组和视频组分别致力于建成其中的音乐生成模块、语音合成模块和情感识别模块。
情感计算目前是一个新兴分支,许多研究尚处于初始阶段。例如,目前的语音合成器声音仍然较为机械,缺乏人类声音所具有的自然变化;视频情感识别的准确率较低,在六分类下的准确率不到70%(六分类指的是将一个视频划分至六种情感类别之一)。但它作为对人类情感机制的探索,在实现强人工智能上以及哲学上以及都有着重要的意义。