【51CTO.com原创稿件】WOT2016大数据峰会将于2016年11月25-26日在北京粤财JW万豪酒店召开,届时,数十位大数据领域一线专家、数据技术先行者将齐聚现场,在围绕机器学习、实时计算、系统架构、NoSQL技术实践等前沿技术话题展开深度交流和沟通探讨的同时,分享大数据领域***实践和最热门的行业应用。
51CTO记者对即将参加大会演讲的百分点研发副总监黄伟进行了专访,让我们先睹为快,探听他在基于深度学习的情感分析方面的心得。
【讲师简介】
黄伟,百分点科技研发副总监。主要负责机器学习和非结构化数据挖掘;特别是基于中文语义分析的商业应用,包括商品自动分类、商品画像、情感分析和口碑分析等。同时致力于研究非结构化数据在量化投资中的应用。毕业于上海交通大学计算机专业,曾就职于汤森路透等公司从事机器学习、图像识别、自然语言处理方面的工作。
何为文本情感分析
文本情感分析:用自然语言处理文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。通常来说,情感分析的目的是为了找出作者/笔者,在某些话题上或者针对一个文本两极的观点态度。这个态度或是个人判断,或是评估,也许是当时的情感状态,或是作者有意向的情感交流。
互联网中充斥着大量的非结构化文本数据, 这里面含有很多有价值的,但是无法简单处理、提取的信息。情感是其中一类比较重要的信息,这时候就需要通过文本情感分析来对这部分信息进行自动提取。
当机器能够自动对新闻或微博、论坛等非结构化文本数据进行情感提取,可以利用这些提取到的情感信息,应用到如公司负面检测,从而及时发现公司品牌的舆情风险或投资风险,应用到产品或服务的正负口碑检测,去改善产品设计或服务流程,还可以通过用户的正负情感反馈,应用到电影票房的预测甚至如美国大选结果的预测。
深度学习VS普通机器学习
深度学习和普通的机器学习***的区别在于特征处理和模型结构上。
首先是在特征处理的方式上:普通的机器学习核心在于特征工程,效果的好坏90%取决于特征是否有效,这需要数据分析师对业务问题深度剖析,设计出对症的特征,这样的工程量是非常大的。
随着数据量的大增和计算资源如GPU的发展,深度学习在大数据时代有了惊人的发展。在深度学习时代,可以通过数据本身的各种的特征让机器自动去做特征提取,当数据量足够大的时候,机器提取的特显著好于人工特征。
第二,在模型结构上:深度学习主要是以类人脑的多层神经网络模型为主,包括如DBM、RNN、CNN等不同的网络结构和训练方法。通过机器学习或浅层机器学习包括了若干种如LR、SVM、随机森林、***熵、HMM等一系列能够通过数据进行模型自动学习的模型。深度学习模型参数一般远远大于浅层学习模型,为了训练效率的提升,一般采用GPU训练。
情感分析的难点
人类的自然语言非常复杂。同一个意思可能有无穷尽的方式来表达,不同语境下同一段话,语义也可能有所不同。语义判别级别的文本情感分析也是非常困难的。
考虑到如苹果(水果)、苹果(公司)一词多义、如风险高(负面)、情绪高(正面)词的结合将产生不同的语义,同一个意思对不同的人产生不同的情感如价格高(卖者正面、买者负面),讽刺表达(你真厉害!这都不会)等情形, 虽然目前***的技术已经将效果大大提升,但还远未能达到人的判别能力,还有很大的发展空间以及技术挑战。
情感分析的利器:深度学习
深度学习为什么能解决情感分析这个难题?原因主要有三点:
一、 深度学习是神经网络模型,如运用CNN、RNN等模型,能保留词序信息。而这部分信息在浅层模型如LR、SVM、决策树的应用中是需要丢弃的。这部分词序信息,如果在大量训练数据时能够提升效果。
二、 深度学习,因为Embeddin特征的学习,具有很强的扩展性。神经网络的模型,需要将词进行向量化,利用如W2V\GloVe等离线模型(特征挖掘)向量的接入后,其特征已具备语义信息,训练出的模型具有了很强的扩展性。而浅层学习的输入多为词级别的特征,对于实际训练集非常有限的情形下,效果大受制约。
三、 情感分析是语义级别的文本任务,首先深度学习是多层的网络结构,天生具备了学习深层次语义信息的架构,更符合人类思考的方式。
深度学习在文本情感分析上主要是运用输入词的Embedding向量接入,利用如CNN、RNN(LSTM)等神经网络结构,通过SGD算法在训练数据上利用GPU进行训练。因为模型本身Embedding有包含语义信息和网络结构保留了词序信息,大量数据的训练结果会使得效果上是要好传统的机器学习。
但是也有一定的劣势,因为实际训练中没有***或足够大的标注集,模型的扩展性会扩大,因为标注集的问题(如数据不够大,不满足实际分布),会扩大错误率。所以模型的后期纠错异常重要,这样模型的效果(召回和精度)才能都提高。
百分点内部因为业务需要,持续进行情感分析模型的调优。从最早基于规则的情感模型(结合一定的语法规则以及简单进行正负词统计的模型),到利用机器学习的方法去学习情感模型(基于标注数据、SVM决策树等模型融合),***升级到利用CNN、LSTM去训练模型,每一步都显著的提升了效果,细节的做法和经验将在WOT大数据技术峰会上给出。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】