引言

　　在过去的几十年中，研究者对情感计算进行了广泛的研究，并且提出了许多方法来处理文本文档，图像，音乐和电影等各种信息。研究者首先关注了图像的情感识别，特别是人脸图片的面部情感识别。后来，研究人员探索了音频内容的情感分析。

　　互联网上用户生成视频的爆炸式增长为我们提供了一个了解人类情感的新前景。但是，视频中的情感与图像或音乐中的情感有很大不同。在整个视频中，情感通常不是均匀分布的，这表明视频的某些部分包含更多的情感。因此，很难在长视频中捕捉到情感。此外，视频的任何部分都包含人们的情感。例如，视频的音乐和图像共同表达了快乐的情感。在大多数情况中，视频中音频部分和视觉部分的情感分布不是线性的。因此，它给建模这些关系带来了新的挑战。在视频的情感分析方面，依然有许多需要解决的问题。视频方面的情感分类问题存在以下三个难点[1]。

在整部视频中，通常只有一些片段表达了情感内容，其它部分则是为情感表达提供故事背景。
在主要情感之外，一部视频可能表达了多种其他情感。因此研究者需要计算各种情感对视频整体情感的贡献程度（即视频情感特性，video emotion attribution）。
在用户自制的视频中，其背景多为日常生活环境，不同视频的背景环境差异较大。这使得情感分类容易受到背景中物体的干扰。

　　研究者在图像分析方面进行了广泛的研究，提出了SentiBank及基于深度神经网络的改进版本DeepSentiBank[2]。这些模型已经用于多语言环境和图像+文本情感分析领域。但是目前对于视频分析的研究较少[3]。视频情感分析是一项广泛的任务，包含各种需要解决的问题。

情感模型

　　为了准确刻画各种人类情绪，研究者提出了多种情绪模型。按照情绪类别，可以简要分为离散情感模型和连续情感模型。

离散情感模型

　　Paul Ekman在进行跨文化研究时，提出具有愤怒、恐惧、快乐、悲伤、厌恶和惊讶六种基本情绪的离散情绪模型[4]。值得注意的是，该模型中的情绪代表某一个体的情感状态。Plutchik提出了包含8种情感类别的离散模型。该模型包含愤怒、厌恶、恐惧、悲伤、期待、快乐、惊喜、信任。除此之外，Ortony,
　　Clore和Collins的情绪模型包含希望、感激等22种情绪。分类模型认为，人类通过数个不同的分类器辨别情感，每个分类器各自侦测不同的情感。

连续情感模型

　　在连续情感模型中，研究者通常在数个维度中定义情感类别。这些模型通常包括价态、唤起和强度等维度。Russell提出了价态-唤醒情绪模型，该模型在研究中被广泛使用。该模型将每种情绪类别分布于二维空间中，其维度分别为价态和唤醒。对于某种情感类别，其觉醒程度越高，代表其感受越不平静；其效价程度越高，说明其情感体验越愉快。
　　其他维度模型包括矢量模型，正激活-负激活（PANA）模型，Plutchik模型，PAD情绪状态模型和Lovheim情绪立方体。3-D价数控制空间，3-D自然-时间-能量内涵空间，3-D活动权重-热情绪因子。

特征提取

　　情绪识别系统的性能与所使用的特征相关。图像特征可以分为工程特征和基于学习的特征。前者是手动设计的描述符，后者是机器学习模型提取特征。
　　工程特征可以进一步分为基于纹理的局部特征，基于几何的全局特征和混合特征[5][6]。对于基于纹理的局部特征，Hu等人提取了SIFT，HOG和LBP等不同的特征，这些特征面部点用于训练各种姿势特定的分类器。他们将面部图像划分为子区域，然后从每个子区域提取SIFT描述符，并将其用作k-最近邻（kNN）分类器的输入[7]。
然而，有研究指出，与基于学习的特征相比，工程特征具有明显的局限性，因为它们对具有不同姿势的图像之间的建立语义对应，以实现稳定的性能。
　　对于基于学习的特征，有研究者探索了一种基于特征层次的情绪识别方法。研究者对特征层次结构进行训练，以获取引起面部图像变化的其他因素，例如主体身份，特定面部形态等。虽然这些特征已经被广泛使用并且在情绪识别上显示出很大的潜力，但是上面提到的特征表示总是简单地将面部图像描述为无序的;它们缺乏描述空间连贯图像的能力。最近，许多研究人员结合外观特征和几何特征来学习几何约束并提高情绪识别系统能力，使系统能够识别不同角度下的面部情绪特征。他们认为几何信息也有助于识别面部表情。
　　虽然上述大多数方法在控制实验条件的数据集中有效，但是在自然环境下的数据集中，视图通常被遮挡。在这种情况下，难以建立空间和外观相似性，这可能导致模型难以学习视图不变表示。另外，分类器或判别器都需要进行训练，这意味着不能通过本地或中级表征来固有地实现分类。此外，特征表示是高维的，在大量视频的情况下会引起维度爆炸。

模态融合

　　从视频中提取各种特征后，我们需要将这些特征进行融合，并送入模型分类器中进行分类[8]。根据进行融合时的时间，融合方式可以分为特征级融合、决策级融合和模型融合。

特征级融合

　　特征级融合是最为常见和直接的融合方法。该方法将所有提取到的特征直接连接到一个高维特征向量中，并使用该高维向量训练分类器。因此，特征融合方法也被称为早期融合（Early Fusion）。该融合方式直接将各种特征串联融合，因此很难对视频中复杂的情感关系进行建模。这种融合方法存在一些缺点，包括生成高维数据，数据稀疏性问题以及特征之间的相互作用。例如，从图像或音频中提取出的特征维度差异可能较大，该方法难以捕捉音频与视频之间的复杂联系。

决策级融合

　　决策级融合使用预先定义的代数规则，将多个情感特征进行融合。具体来说，每个情绪分类器生成一种情感模态，然后将代数规则应用于这些单模态特征。常见的代数规则有Max、Min、Sum等。因此，决策级融合也被称为延迟融合（Late Fusion）。这种融合方法最大化不同情绪表达的贡献，因此可以整合各种形式，而无需生成高维数据。

模型融合

　　模型融合旨在获得音频特征和视频特征的联合特征表示，其实现方式取决于研究者自行建立的融合模型。在融合效果上，是特征级融合和决策级融合的折中处理方式。其效果取决于研究者所采用的模型。

分类模型

SVM分类模型

　　在视频情感识别领域，研究者通常采用提取图像/音频特征，并使用SVM分类器进行情感类别分类。

　　Xu等人提出了一种模态融合框架，以结合动作，场景和对象模型中的概念和内容特征。我们进行概念选择以调查高级概念特征与情绪之间的关系[9]。Wu等人提出了两种方法将基于头部姿势和眼睛凝视线索的注意力机制整合到连续的情感识别中。它们分别被用于利用面部特征，以及辅助线以获取连续情感信息。该模型有助于从头部姿势和眼睛凝视中提取更多有用的情绪信息[10]。

　　Thuseethan等人提出了一种基于度量的主要情绪强度估计机制，以及一种基于深度混合卷积神经网络的方法。该方法可以从自然序列和姿势序列中识别主要情绪的定义强度。此外，我们扩展了强度估计方法以检测基本情绪[11]。Zhou等人研究了三种类型的模态内融合方法，即自注意力，关系注意力和变换器[12]。它们被用于学习框架特征的权重以突出显示重要框架。对于跨模式融合，Zhou等人探索了特征级联和分解双线性池（FBP）。此外，Zhou等人评估了不同的情感特征，包括使用语音频谱图和Log Mel频谱图的卷积神经网络（CNN）用于音频信息，以及具有不同CNN模型和不同情感预训练策略的多个面部特征。Hu等人提出了一种名为LEMHI（局部增强运动历史图像）的新方法，该方法使用MHI提取视频序列中连续帧的时间关系，并使用面部标志来强调更具表现力的面部成分[13]。

　　Ding Wan等人使用深度卷积网络和深层长短期记忆网络分别提取了面部表情特征和音频特征，然后对这些特征进行了分数级别的融合，最后用SVM进行分类[14]。Chen Shizhe等人从音频、图像和视频运动模式中提取了多种特征[15]。对于音频特征，作者提取了统计声学功能，MFCC语音袋和MFCC Fisher向量；对于图像特征，作者提取了手工特征（LBP-TOP和SPM Dense SIFT）和深度学习特征。改进的密集轨迹被用作运动相关特征。然后，作者使用SVM，随机森林和逻辑回归分类器对每种特征进行分类。

　　Mehdipour等人采用四种不同的方法从视频中提取静态和动态情感表示[16]。首先，使用三个正交平面的局部二进制模式来描述视频帧的时空特征。其次，将主成分分析应用于两步卷积网络中的图像块，以学习权重并从对齐的面部提取面部特征。第三，部署了VGG Face的深度卷积神经网络模型，以从对齐的面部提取深度面部表示。第四，基于对齐的面部图像的密集尺度不变特征变换描述符来计算视觉单词袋，以形成手工制作的表示。然后利用支持向量机对获得的时空表示和面部特征进行训练和分类。最后，应用分数级融合来组合分类结果并预测视频剪辑的情感标签。Bargal等人所提出的方法将来自挑战提供的音频-视频修剪剪辑的视频流作为输入，并生成与该视频序列相对应的情感标签，随后基于标签进行情感分类[17]。

神经网络模型

　　随着深度学习的发展，神经网络在视频情感识别领域也获得了引人注目的结果。

　　Ouyang Xi等人使用了深度迁移学习以提取特征信息，然后对其进行了模型级别的融合，最终送入半强化学习模型以习得情感特征[18]。Zhang等人提出了因式分解双线性池（FBP），以深度集成音频和视频的功能。具体地，通过嵌入的注意力机制从各个模态中选择特征，以获得与情感有关的区域。整个模型可以使用神经网络构建[19]。Wang等人提出了一种多注意融合网络（MAFN），其目的是通过对人类情感识别机制建模，提高情感识别性能[20]。 MAFN由两种类型的注意机制组成：模态内注意机制用于从单个模态帧序列中动态提取代表情绪特征；模态间注意机制可根据其重要性自动突出显示特定模态特征。

　　Zhao等人使用了基于卷积神经网络（CNN）以端到端的方式识别视频情绪[21]。具体来说，作者开发了一种深层的视听音频注意网络（VAANet），这是一种新颖的体系结构，可将空间，通道方向和时间上的注意力整合到视觉3D CNN中，并将时间上的注意力整合到音频2D CNN中。此外，Zhao等人基于极性-情感层次约束设计了特殊的分类损失，即极性一致的交叉熵损失，以指导模型生成注意力权重。Deng等人提出了MIMAMO Net架构，该架构使用两流网络和RNN来高效捕获宏运动和微运动[22]。

　　Qiu等人提出了双重关注网络以模仿人类情感识别过程[23]。首先，该模型从视频中提取出包括动作，对象和场景的三种特征。其次，两个注意模块用于分别从时间和空间维度关注视频的视觉特征。借助我们的双焦点注意力网络，我们可以有效地发现沿时间维度最为有效的视频帧，以及每个视频帧中效果最为显著的特征。对于图像信息，Nguyen等人首先检测了视频帧中的面部区域，然后将其输入C3D网络以提取时空特征[24]。对于音频信息，作者使用短时快速傅里叶变换和C3D网络提取了时空信息。然后使用双线性池融合这些信息，并输入DBN网络以确定最终类别。

总结

　　在视频情感识别中，通常基于离散情绪模型或连续情感模型对视频进行标注，然后提取视频中的图像特征、人脸特征及音频特征等。所提取的特征包括初步的手工特征，也包括基于深度学习的特征。在这之后，各种特征将进行融合，以生成用于最终分类的高维特征。在这一阶段，不同的融合策略将对模型效能产生较大影响。最后，通过SVM或神经网络等分类模型，所提取的高维特征将被模型归入不同的情感类别，以完成最终的分类目标。

参考文献

[1] Gao, Jiarui, Yanwei Fu, Yu-Gang Jiang, and Xiangyang Xue. “Frame-transformer emotion classification network.” In Proceedings of the 2017 ACM on International Conference on Multimedia Retrieval, pp. 78-83. ACM, 2017.
[2] Damian Borth, Tao Chen, Rongrong Ji, and Shih-Fu Chang. 2013. SentiBank: large-scale ontology and classifiers for detecting sentiment and emotions in visual content. In Proc. of ACM MM.
[3] Baecchi, Claudio, Tiberio Uricchio, Marco Bertini, and Alberto Del Bimbo. “Deep sentiment features of context and faces for affective video analysis.” In Proceedings of the 2017 ACM on International Conference on Multimedia Retrieval, pp. 72-77. ACM, 2017.
[4] Ekman, Paul Ed, and Richard J. Davidson. The nature of emotion: Fundamental questions. Oxford University Press, 1994.
[5] Perveen, Nazil, Debaditya Roy, and Chalavadi Krishna Mohan. “Spontaneous Expression Recognition Using Universal Attribute Model.” IEEE Transactions on Image Processing 27, no. 11 (2018): 5575-5584.
[6] Zhang, F., Mao, Q., Shen, X., Zhan, Y., Dong, M. (2018). Spatially Coherent Feature Learning for Pose-Invariant Facial Expression Recognition. ACM Trans. Multimedia Comput. Commun. Appl.,18, 14(1s), 21-27.
[7] Yuxiao Hu, Zhihong Zeng, Lijun Yin, XiaozhouWei, Jilin Tu, and Thomas S. Huang. 2008. A study of non-frontal-view facial expressions recognition. In Proceedings of the 19th International Conference on Pattern Recognition (ICPR’08). IEEE, 1–4.
[8] Timar, Y., Karslioglu, N., Kaya, H., Salah, A. A. (2018). Feature Selection and Multimodal Fusion for Estimating Emotions Evoked by Movie Clips. Paper presented at the ICMR ‘18. Retrieved from http://doi.acm.org/10.1145/3206025.3206074.
[9] Salah Rifai, Pascal Vincent, Xavier Muller, Xavier Glorot, and Yoshua Bengio. 2011. Contractive auto-encoders: Explicit invariance during feature extraction. In Proceedings of the 28th International Conference on Machine Learning (ICML’11). 833–840.
[10] Xu, Baohan, Yingbin Zheng, Hao Ye, Caili Wu, Heng Wang, and Gufei Sun. “Video emotion recognition with concept selection.” In 2019 IEEE International Conference on Multimedia and Expo (ICME), pp. 406-411. IEEE, 2019.
[11] Wu, Suowei, Zhengyin Du, Weixin Li, Di Huang, and Yunhong Wang. “Continuous Emotion Recognition in Videos by Fusing Facial Expression, Head Pose and Eye Gaze.” In 2019 International Conference on Multimodal Interaction, pp. 40-48. 2019.
[12] Thuseethan, Selvarajah, Sutharshan Rajasegarar, and John Yearwood. “Emotion intensity estimation from video frames using deep hybrid convolutional neural networks.” In 2019 International Joint Conference on Neural Networks (IJCNN), pp. 1-10. IEEE, 2019.
[13] Zhou, Hengshun, Debin Meng, Yuanyuan Zhang, Xiaojiang Peng, Jun Du, Kai Wang, and Yu Qiao. “Exploring emotion features and fusion strategies for audio-video emotion recognition.” In 2019 International Conference on Multimodal Interaction, pp. 562-566. 2019.
[14] Hu, Min, Haowen Wang, Xiaohua Wang, Juan Yang, and Ronggui Wang. “Video facial emotion recognition based on local enhanced motion history image and CNN-CTSLSTM networks.” Journal of Visual Communication and Image Representation 59 (2019): 176-185.
[15] Ding, Wan, Mingyu Xu, Dongyan Huang, Weisi Lin, Minghui Dong, Xinguo Yu, and Haizhou Li. “Audio and face video emotion recognition in the wild using deep neural networks and small datasets.” In Proceedings of the 18th ACM International Conference on Multimodal Interaction, pp. 506-513. 2016.
[16] Chen, Shizhe, Xinrui Li, Qin Jin, Shilei Zhang, and Yong Qin. “Video emotion recognition in the wild based on fusion of multimodal features.” In Proceedings of the 18th ACM International Conference on Multimodal Interaction, pp. 494-500. 2016.
[17] Ghazi, Mostafa Mehdipour, and Hazım Kemal Ekenel. “Automatic emotion recognition in the wild using an ensemble of static and dynamic representations.” In Proceedings of the 18th ACM International Conference on Multimodal Interaction, pp. 514-521. 2016.
[18] Bargal, Sarah Adel, Emad Barsoum, Cristian Canton Ferrer, and Cha Zhang. “Emotion recognition in the wild from videos using images.” In Proceedings of the 18th ACM International Conference on Multimodal Interaction, pp. 433-436. 2016.
[19] Qiu, Haonan, Liang He, and Feng Wang. “Dual Focus Attention Network For Video Emotion Recognition.” In 2020 IEEE International Conference on Multimedia and Expo (ICME), pp. 1-6. IEEE, 2020.
[20] Wang, Yanan, Jianming Wu, and Keiichiro Hoashi. “Multi-Attention Fusion Network for Video-based Emotion Recognition.” In 2019 International Conference on Multimodal Interaction, pp. 595-601. 2019.
[21] Zhao, Sicheng, Yunsheng Ma, Yang Gu, Jufeng Yang, Tengfei Xing, Pengfei Xu, Runbo Hu, Hua Chai, and Kurt Keutzer. “An End-to-End visual-audio attention network for emotion recognition in user-generated videos.” In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, no. 01, pp. 303-311. 2020.
[22] Deng, Didan, Zhaokang Chen, Yuqian Zhou, and Bertram Shi. “MIMAMO Net: Integrating Micro-and Macro-motion for Video Emotion Recognition.” arXiv preprint arXiv:1911.09784 (2019).
[23] Qiu, Haonan, Liang He, and Feng Wang. “Dual Focus Attention Network For Video Emotion Recognition.” In 2020 IEEE International Conference on Multimedia and Expo (ICME), pp. 1-6. IEEE, 2020.
[24] Nguyen, D., Nguyen, K., Sridharan, S., Dean, D., Fookes, C. Deep spatio-temporal feature fusion with compact bilinear pooling for multimodal emotion recognition., 174, 33-42, 2019.