本文共 1275 字,大约阅读时间需要 4 分钟。
心理学研究表明,人们对不同视觉刺激会产生多样的情绪反应。过去几年中,学术界围绕如何分析和预测人们对图像的情绪反应展开了大量研究。为此,专家提出了多种手动调谐特征,并在几个精心挑选的标记数据集上进行了验证,结果证实了这些特征的有效性。尽管卷积神经网络(CNN)在多个计算机视觉任务中取得了显著成果,但视觉情感分析领域仍未达到同样的水平,这主要归因于缺乏专门用于情感分析的高质量标注数据和较大的图像数据集。
本研究旨在解决这一问题,提出了一种全新的数据集。该数据集最初包含超过300万张带有弱标记的不同情绪图像,最终其规模比目前最大的公开视觉情感数据集高出30倍。我们希望通过此举,推动视觉情感分析领域的进一步研究。
在数据集构建过程中,我们参考了现有的情绪分类体系,采用了(Mikels et al., 2005)中的八种情绪分类。基于(Jia et al., 2012)的方法,我们使用这八种情绪作为关键词向Flickr和Instagram进行图像搜索,从而收集了超过300万张弱标记图像。随后,我们对数据进行了严格的清洗,删除了带有多于一种情绪标签的图像,以及通过fdupes2工具去除重复内容。图2展示了最终剩余图像的统计信息,可以看出不同情绪类别的图像数量存在明显不平衡,特别是在Flickr平台上,满意和厌恶类别的图片量较少,而恐惧和悲伤类别的图片量相对较多。这些结果与(http://goo.gl/vhBBF6)中的研究成果一致,即人们更倾向于在Instagram上分享悲伤相关的内容。
为确保数据质量,我们进一步通过Amazon Mechanical Turk (AMT)对这些弱标记图像进行了精准标注。我们设计了严格的资格测试,以筛选出能够准确完成任务的AMT工作者。具体而言,我们随机从公开可用ArtPhoto数据集中选取图像,并以groundtruth标签为标准,要求工人从这八种情绪中选择与图像最匹配的情绪类别。通过实验验证,发现该资格测试具有较高的挑战性,尤其是在需要为每张图片选择一种情绪时。
基于上述发现,我们将AMT任务设计为验证任务,而非注释任务。由于我们已经收集了所有带有情感查询标签的图像,因此需要验证每张图片的情感。每个HIT分配给五名AMT工作者,要求他们回答具体问题(如“你看到这张照片会感到愤怒吗?”),并选择“是”或“否”。在资格测试中,所有合格的员工必须至少正确回答20个问题中的至少10个。最终,我们通过AMT平台招募了超过1000名工人,其中有225名工人通过了资格测试,获得了验证任务的机会。为每个情感类别,我们随机选择了11000张图片。最终,我们保留了那些从五名AMT工作者那里获得至少三个“是”回答的图像。通过这种方式,我们建立了一个相对强标记的视觉情感分析数据集。表2总结了我们最终的数据集规模。值得注意的是,由于恐惧类别的图片数量较少,我们增加了2000张图片以确保这一类别的样本量超过1000张。最终,我们收集了约23000张图片,构建了一个涵盖八种主要情绪的高质量视觉情感分析数据集。
转载地址:http://merfk.baihongyu.com/