数据集是推动自然语言处理技术进步的基石。为应对自然语言处理技术应用中面临的多领域、多场景等诸多挑战,百度联合中国计算机学会、中国中文信息学会,于2020年8月共同发起中文自然语言处理数据共建计划——“千言”, 推进中文信息处理技术的进步。
发布一年多以来,“千言”已针对开放域对话、阅读理解和情感分析等8个任务,汇集了来自11所高校和企业的28个开源数据集。其中,情感分析作为自然语言处理技术的基本任务之一,涵盖了句子级情感分类、评价对象级情感分类、观点抽取三个经典任务数据集,吸引了来自京东、网易、小米、平安、OPPO、新浪等多家知名企业的近300支团队参加打榜。
近日,为了更好地推动情感分析技术在大规模产业化的应用,百度联合中国中文信息学会情感计算专业委员会、美团共同发布千言-情感分析2.0,实现两方面的重大提升。首先,在继续关注模型准确率效果的同时,加强对模型是否“可信”的评估,发布业界首个中文情感可信数据集DuTrust;其次,针对产业化中面临的任务类型、数据模态多样化的难题,提供面向真实应用场景的大规模、高质量、多模态的情感分析数据,发布业界最大规模的中文评论分析数据集ASAP和面向推荐场景的多模态情感标签数据集DuVideoSenti。
发布业界首个中文情感可信数据集DuTrust
“可信AI”的概念在近几年提出,并且逐渐成为全球共识。可信AI,就是保证AI系统的公平性、可解释性、鲁棒性和透明性,确保算法可被人信任。在情感分析技术的科学研究和产业落地中,可信情感分析系统需要模型具备较强的鲁棒性,还需要模型具备可解释能力,也就是需要模型既能给出精准的预测结果,还能给出其判断依据,从而保证模型的预测结果更加置信。
作为业界首个中文情感可信数据集,DuTrust基于人工标注的扰动数据和情感证据,全部来源于真实用户评论数据,同时测试模型的鲁棒性和可解释性,全面评估模型的可信能力。
输入样例 |
情感类别 |
判断依据 |
|
原始样例 |
非常不错的酒店,离海很近 |
积极 |
不错 酒店,离海近 |
扰动样例 |
非常不错的酒店,但离街道太近了 |
消极 |
不错 酒店,街道近 |
中文情感可信数据集DuTrust数据样例
以上述评论数据为例,DuTrust首先为每个样例对应标注一个扰动样本,并且标注原始样本和扰动样本的情感类别,通过计算模型在原始样例和扰动样例上预测的准确率(Accuracy)作为模型鲁棒性的评估指标。
此外,DuTrust还分别为原始样例以及扰动样例人工标注了情感的判断依据,在可解释性评估时,需要用户同时给出模型的情感判别依据,最终通过计算其与人工标注结果在字粒度上重合度F1值(F1-measure)作为模型可解释性的评估指标。
联合发布业界最大规模的中文评论分析数据集ASAP
在电商场景下,一般来说情感分析涉及评论得分预估和对象级情感分类两个最基础的任务。两个任务之间天然存在很强的关联性,且在商业应用中也通常一起使用。然而现有的中文公开数据集大都针对两个任务分别构建,未能将两类任务有效联系起来。
此次“千言”与美团联合发布的业界最大规模中文评论分析数据集ASAP,首次实现对评论得分预估和对象级情感分类两个任务的联合标注,数据全部源于真实的电商场景,从数据规模和标注质量上都远超其他数据集。
评论文本 |
评论得分 |
评价对象 |
情感类别 |
交通还挺方便的,环境看起来很高大上的样子,但是因为主厅在举办婚礼非常混乱,特别吵感觉,但是装修的还不错,感觉很精致的装修,门面很气派,周末去的时候还需要等位。味道的话我觉得还可以但是跟价格比起来就很一般了,性价比挺低的,为了去吃宫保虾球的,但是我觉得也就那样吧虾不是特别新鲜,不过虾球很大,味道还行。服务的话由于人很多所以也顾不过来上菜的速度不快,但是有送水果杯还挺好吃的。总之就是典型的婚宴餐厅不是适合普通朋友吃饭的地方了。 |
3 |
交通方便 |
积极 |
点菜/上菜速度 |
消极 |
||
性价比 |
消极 |
||
装修 |
积极 |
中文评论分析数据集ASAP数据样例
该数据集针对输入的评论文本,人工标注整体的评论得分(1-5分),以及对应不同评价对象的情感类别(积极、消极、中性三种),并且使用准确率(Accuracy)评估模型的预测效果。
发布面向推荐场景的多模态视频情感标签数据集DuVideoSenti
目前,个性化推荐技术迅猛发展,成为继搜索引擎之后的又一重要的信息获取途径。推荐系统的目的是为用户提供个性化的内容和服务,帮助用户快速高效的获取个性化信息。
在真实的应用场景中,往往存在大量内容题材、质量相同,但却能给用户带来不同视觉冲击和情感感受的资源。针对这类资源,需要构建能够刻画用户不同的视觉和情感感受的完备的标签体系,才能将其更好地应用于推荐系统,提升用户的体验。
千言面向推荐场景推出多模态情感标签数据集DuVideoSenti,引入视频情感泛标签预测任务,构建了视频情感泛标签体系。该体系由人工定义的“文艺清新”、“时尚炫酷”、“舒适温馨”等11个情感泛标签组成,用以刻画用户浏览视频后的视觉和情感方面的感受。数据集为每个小视频标注了情感泛标签,并且提供了视频的标题、帧图特征用于模型的训练和预测。在测试中使用准确率(Accuracy)用于评估模型的预测效果。本数据集聚焦情感分析技术在个性化推荐场景中的应用,同时有助于推动多模态学习技术的发展。
字段 |
样例 |
URL |
http://quanmin.baidu.com/sv?source=share-h5&pd=qmsharesearch&vid=5093910907173814607 |
标题 |
#创意简笔画#可爱小猫咪怎么画? |
情感泛标签 |
呆萌可爱 |
视频内容 |
多模态视频情感标签数据集DuVideoSenti数据样例
为了进一步推动情感分析相关研究,中国中文信息学会情感计算专业委员会与千言开源数据集项目组(www.luge.ai)还联合举办“千言情感分析常规评测比赛”,目前已有来自国内知名企业及高校超1000位选手报名参赛。
据悉,本次比赛就以千言-情感分析2.0为核心,全面评估情感分析模型在多种模态场景下的预测准确率、模型的鲁棒性和可解释性指标。除了有挑战性的赛题,百度飞桨 AI Studio 将为选手提供免费的Tesla V100 GPU算力,千言数据集还将为优胜团队颁发证书,并发放精美的定制礼品。
未来,希望有更多的情感分析领域科研学者、领域专家参与共建千言-情感分析榜单,共同推动中文情感分析技术的进步,建设世界范围内的中文情感分析影响力。