情感计算简介 | 四方之云

情感计算简介

Jingyi 6月 12, 2020

　　我前段时间和其他学院的同学聊天，他问我：你现在在做哪个研究方向？我说在做情感计算。同学一脸迷惑。我花了一些功夫才讲明白这个方向都在做些什么，于是想写篇文章简要总结一下。

　　计算机科学发展迅猛，产生了诸多研究分支。我们首先来了解情感计算在整个学术谱系图中的位置。想象计算机科学是一棵大树。它主要有硬件和软件两个分支。其硬件分支包括CPU设计、显卡设计等子分支，致力于改善物理设备的性能；其软件分支包括操作系统和人工智能等分支，致力于提高算法的性能和效率。其中的人工智能分支主要通过计算机程序使机器具有一定程度的“智能”，使之可以处理人脸识别等简单任务。值得注意的是，目前的人工智能尚处于弱人工智能阶段。这里的弱，指的是机器只能处理一小部分工作。例如，人脸识别模型只能判断对方的身份，而不能检测对方的情绪。与弱人工智能相对，强人工智能指的是与人类智能相接近的、可以同时执行多项任务的智能。

　　人工智能领域内研究方向繁多且多有交叉，只能进行粗略的分类。例如，按研究对象划分，人工智能领域可分为图像处理、自然语言处理等领域。其中图像处理方向致力于让机器学会从图片中提取物体名称，或根据图像中的物体将其分成几个区域、或是自动合成具有不同风格的作品，等等。自然语言处理致力于让机器理解人类语言，以执行机器翻译或诗歌创作等任务。按研究方法分，人工智能可分为常规方法和深度学习方法。前者主要使用基于原理构建的模型（如SVM模型），后者主要使用人工神经网络（一个模拟人脑神经元的黑箱系统）。按研究目的划分，人工智能领域可分为知识表示和机器学习等领域。其中知识表示的目标是让机器存储相应的知识，并且能够按照某种规则推理演绎得到新的知识。而机器学习分支致力于用数据或以往的经验，以此优化计算机程序的性能。情感计算即是机器学习领域下的子分支。

　　借用维基百科的定义：情感计算（Affective computing）是一个跨学科领域，涉及计算机科学、心理学和认知科学，旨在研发能够识别、解释、处理、模拟人类情感的系统。以我的理解，情感计算主要致力于用计算机算法使机器理解人的情感。这一研究方向与人工智能的子分支有着诸多交叉。例如情感计算与自然语言处理交叉，出现文本情感分析等方向。文本情感分析方向主要分析文本的情感属性，例如对于给定的文本，分析其传达了正向还是负向的情感。情感计算与音频合成相交叉，就有了情感语音合成等方向。情感语音合成致力于将文本转化为富有情感的声音，类似于人工智能播音员。情感计算与视频处理交叉，出现视频情感识别等方向。我所做的工作就属于这一方向。粗略地讲，对于给定的视频片段，视频情感识别致力于确定它所属的情感类别。例如，用户上传了他和宠物狗玩耍的视频，系统将自动识别该视频的情感属性为“高兴”。

　　我所在的课题组主要包含音乐组、语音组和视频组。我属于其中的视频组。课题组的总体目标是建成一套情绪疗愈系统，以缓解目前的抑郁症高发现象。该系统的使用场景可粗略描述如下。假设一位心情不好的用户打开了这个系统，他将与聊天机器人产生一些互动，而摄像头及传感器将记录他的神态、声音、肢体动作、心率等信息。这些信息被送入情感识别模块，以得出该用户当前的情感状态（如失落、悲伤）。这些情感信息被传递给系统的音乐生成模块，该模块基于用户的情感，为之创作独一无二的音乐。这些音乐信息又被送往语音合成模块，最终生成音频，播放给用户，以改善他的情绪。之后，情感识别模块将再度检测他的情绪，以验证音乐是否有效。在此过程中，用户不必和他人接触便能缓解自己的负面情绪。音乐组、语音组和视频组分别致力于建成其中的音乐生成模块、语音合成模块和情感识别模块。

　　情感计算目前是一个新兴分支，许多研究尚处于初始阶段。例如，目前的语音合成器声音仍然较为机械，缺乏人类声音所具有的自然变化；视频情感识别的准确率较低，在六分类下的准确率不到70%（六分类指的是将一个视频划分至六种情感类别之一）。但它作为对人类情感机制的探索，在实现强人工智能上以及哲学上以及都有着重要的意义。