如何用主题模型帮助解决短文本类分类的稀疏表示分类器性问题

主题模型 文本分类免费文档下载_文档下载
亿万文档 免费下载
当前位置: > 主题模型 文本分类
主题模型 文本分类
2008 基于 Labeled -LDA 模型的文本分类新算法李文波 1) 2) 1) , 2) 孙...Allo cat ion) 模型是近年来提出 的一种能够提取文本隐含主题的非监督学习模型...关键词:文本分类文档网络主题模型EM算法
该付费资源由维普网提供
中国最大最早的专业内容网站 机构整体评分:3.8 在售版权资源:份 近七天成交量:18247份...应用到文本分类中存在的 问题,提出一种改进的LDA模型――Labeled―LDA(附加类别标签的LDA),将类别信息融人传统的 LDA模型,进而支持文档在全部类别的隐含主题上 ...[ 关键词] 主题 挖掘 [ 分类号] G202 DOI: 10. 13266 / j. issn. 0252 - . 02. 023 主题 演化动态 LDA 模型 文本内容挖掘与语义建模是...并在主题模型的基础上结合搜索引擎, 对短文本进行扩充处理和向量化表示。通过实验验证,本文提出的方法能够有效 表示短文本,提高短文本分类的效果。 相信随着短文本...(单词、概念)与分类的相关概率; (4) 特征抽取:从文档中抽取出反映文档主题的...根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习...中文短文本自动分类技术研究 Study on Chinese Short-Text Classification (申请...(Probabilistic latent semantic analysis) 统计主题模型(Statistical Topic Models)...中文短文本自动分类技术研究 Study on Chinese Short-Text Classification (申请...(Probabilistic latent semantic analysis) 统计主题模型(Statistical Topic Models)...为了克服这一困 难, 一些文本主题模型的方法被应用到图像场景 分类之中 , 这些方法可以将高维度的特征向量 变换到低维度的潜在语义空间之上。但是, 由于 主题...文本信息可视化;文本数据挖掘;信息可视化;可视分析;人机交互中图法分类号:TP391 ...一个主题模型很难满足不同用户的信息需求. 为了解决这一问题,研究人员将文本...摘要:为了使人们能够更准确地了解所关注微博话题的后续发展情况,针对微博文本具有时序性的特点,定义了时间窗口,对每个时间窗口进行聚类,去除小类别话题,得到热点话题,然后分析热点话题的发展趋势,从而可以进行热点话题跟踪。通过对淮安近两个月来微博文本集实验结果表明,该方法是准确且有效。
  关键词:微博;热点话题;跟踪技术   中图分类号:TP311 文献标识码:A 文章编号:(6-03   Abstract: In order to enable people to understand more accurately the subsequent development of the microblog concern topic, according to the characteristics of the micro blog this with scheduling, defines the time window, each time window for clustering, remove small categories, get hot topic, and then analyzed the development trend of the hot topics, which can be hot topic tracking. Micro blog by mean of huaian nearly two months in this episode, the experimental results show that the method is accurate and effective.   Key words: Micro blog; hot topic; tracking technology   随着互联网信息技术的快速发展,微博已经成为人们日常生活中信息交流的重要平台。每天微博信息传播着数以万计的信息,信息的正确性及传播范围都无法得到有效控制,舆论热点、焦点层出不穷。由于话题对社会的稳定和众多网民产生了重大影响,因此对网络中话题的有效发现与监控变得非常重要。话题跟踪技术就是根据用户的需求,按照一定的算法,对相关的话题内容进行跟踪,并将跟踪到的结果进行归类整合。当前话题跟踪技术主要包括两种:一是利用检索的思想,根据话题构造查询向量;二是构建话题模型,利用话题模型跟踪后续报道。本文将取得的有时序序列的微博文本序列进行时间窗口分割,对每一个时间窗口的微博文本集进行分类,去掉小类别后得到热点话题的序列,通过对每相邻热点话题发展趋势的分析来进行热点话题的跟踪。   1 相关研究   话题检测与跟踪(Topic Detection and Tracking,TDT)是指从大量的新闻中发现新的话题,并且要为此话题建立一个模型,然后对后续的报道进行辨别和分析,找出已知的这个话题的相关报道或者发现新的话题并为其建立模型。TDT主要深入研究关于事件的发现和追踪技术[1],目前,研究者对TDT的研究很多,成果也不少,国外这方面研究重点也主要集中在如何衡量报道之间的相关性,以确定报道所属的话题,而在相关时,大部分采用的是向量空间模型(VSM)[2]、语言模型(LM)[3]]等方法如(James Allan[4]采用VSM来实现)。而Leek[5]和Yamron[6]则采用LM来解决这个问题。VSM和LM都存在特征空间的数据稀疏性的缺陷,也有研究者采用数据平滑技术来解决这个问题,但是平滑得到的特征权重无法有效描述文本内容上的差异。与国外相比,国内大部分处于起步阶段,不少研究者经常使用不同的方法取得了一定的成果。李树平等人利用KNN分类算法,对新闻报道文本的进行了话题跟踪实验[7];夏春艳等人先是在介绍了话题跟踪的一些基本方法的基础上,改进了KNN算法,提出了GTKNN 算法,减少了数据漂移的问题[8];谌志群等针对论坛数据,综合考虑帖子篇数与帖子热度,提出了基于相对熵的语义距离计算方法,通过构造主题演化图实现论坛热点话题的自动跟踪[9];解放军信息工程大学的邹鸿程利用主题概率思想的LDA模型将话题和微博表示为主题向量,提出 SA-MBLDA算法实现微博话题跟踪。[10] 该算法希望在构建话题模型时考虑语义,但LDA模型的语义单元仍然是词,考虑语义存在一定的局限性。   2 微博的分类及主题提取模型   文[11]中进行了短信文本语义分类及主题提取,稍加改造即可为对微博文本的分类及主题提取算法。假设微博文本集中的文本已经使用香农信息论对给定的每一个短信文本进行特征抽取,进一步进行了分词,词义消岐、去掉了停用词及连词、代词等,转化为向量形式   MB={(Wi1,Wi2,…,Win)|i=1,2,…,s} (1)   定义1 对于给定的时间定值t,按t将时间轴划分为连续的小区段,每段时间内含有若干条微博文本,称每个时间段内的微博文本集为时间窗口,记为t。   微博集合的分类及主题提取算法如下:   MC_S_TH算法:   Step1 根据信息论,在MB集合中,利用文[12]算法1计算出每个词的信息量H(Wij),进一步确定特征词Wij,构建微博特征向量   Step2 利用时间轴划分时间窗口t   Step2 利用文[13]算法2对t进行分类,去掉小类别话题得热点话题类别集合[14]   Step3利用文[15]中算法对每一个热点话题THij进行主题特征词提取   3 微博热点话题的演变   对于微博中主线的热话题,随着时间的推移,热点话题会发生变化甚至演变,所以在跟踪的过程中,要根据后续跟踪的微博信息对话题模型(分类模型)进行动态调整。如日广东深圳光明新区一工业园区附近发生山体滑坡事故,致使多栋楼房倒塌、被埋。事件发生之处,微博中谈论的热点一般是事情发生的经过、人员伤亡及财产损失等话题。随着事态发展,人们关注热点也会慢慢发生转移,如事故发生的原因、相关责任人及后续处理情况等话题。
  3.1 热点话题模型更新、演变   热点话题模型更新是对初始训练集进行补充,也就是说微博信息谈论的话题仍然是原先的话题,只是关注点发生了变化。话题演变是指当一个初始话题被人们关注时,随着时态变化进入了新的话题,但这个新的话题与初始话题存在一定关联,但并不属于初始话题的范畴。   针对微博的时间序列,考虑所划分的时间窗口内的微博文本集。这样对于跨度小的热点话题,在短时间内会产生大量的相关微博,即在较短的时间内发现突发;相反,对于突发跨度大的热点话题,突发时间段内产生的微博数量相对较少。因为任何热点话题在夜间很少有人关注,因此本文在不正常时间的时间窗口(如晚上11:00-第2天6:00,偶尔几个时间窗口的微博数不符合可以不考虑不需要那么频繁检测,以提高系统的运行效率。   定义2 设按时序的某时间窗口t,则t中所含微博数量称为t的长度,记为|t|,t中所含热点话题HTi所含微博的数量成为话题的HTi强度,记为|HTi|。   3.2 微博热点话题生成与演变过程   谢耘耕[11]提出了以时序序列为基准的微博热点话题的传播可以视作一个消息循环模型。分为形成期、爆发期、缓解期和平复期四个时段,其实任何热点事件都不会无限期传播下去,应该增加一个消失期,才符合热点话题的生命周期。微博热点话题生命周期示意图如图1所示。   热点话题的演变过程反映到反映到时间窗口上,就是话题强度的变化变化趋势,生命周期内热点话题强度变化趋势如图2所示。   热点话题跟踪就是判定热点话题的走势。   3.3 话题漂移   如前例中,日广东深圳发生山体滑坡事故,随着时间及热点话题的推移,人们的热点话题可能会转移到近几年来的国内有关安全生产上来。一般来讲,如果一个话题漂移为另一个话题,他们的相关度也是比较高的,可以通过两个话题特征词集合所包含的公共特征词数量和主题的相关度[16]反映出来,如从广东深圳发生山体滑坡事故的热点话题漂移到近几年来的国内有关安全生产的热点话题上来,公共特征词如安全、事故、责任等。   定义3 对给定的正整数M,主题相关性阈值,如果热点话题HTi和HTj的特征词集合分别为HTi_W和HTj_W,满足HTi_W∩HTj_W>M,0<Sim(HTi的主题,HTj的主题)[11]<,则称热点话题HTj为热点话题HTi的漂移。   4 基于微博的热点话题跟踪   为了研究话题的演变轨迹,我们将后续微博数据按照时间窗口切分,将每个时间窗口中的微博集合先是进行预处理构成向量集,利用SVM_S进行分类,提取每个类别主题,然后根据3.2和3.3的方法进行话题跟踪判定。   定义4 如果时间窗口中i中有热点话题HTij,其下一个相邻时间窗口i+1中有话题HTi+1,k,如果对于给定的主题相关性阈值,满足Sim(HTij,HTi+1,k)> ,则称热点话题HTi+1,k是热点话题的延续。   微博话题跟踪算法如下:   MB_TT算法:   Step1 抓取微博构成历史数据集   Step2 利用2中介绍的方法对微博历史数据集进行预处理得到微博向量集MB   Step3 给定时间定值t,将MB划分为时间窗口 1,2,…,k   Step4 对每一个时间窗口i,(i=1,2…,k)利用2中介绍的方法进行分类、主题提取   Step5 对相邻时间窗口k和k+1中热点话题进行比较   Step6 对于给定的主题相关性阈值   if Sim(HTij,HTi+1,k)>   If(|HTij|与|HTi+1,k|相差不多)then 热点话题处于缓解期   Else   If (|HTij|>>|HTi+1,k|) then 热点话题处于消失期   If (|HTij|<<|HTi+1,k|) then 热点话题处于爆发期   Else   if 0<Sim(HTij,HTi+1,k)<   if HTij主题特征词集合∩HTi+1,k主题特征词集合=个数比较多   then 热点话题处于漂移   if HTij主题特征词集合∩HTi+1,k主题特征词集合=个数比较多   then 热点话题HTij结束   5 实验解结果分析   5.1 数据采集   利用Java编写网络爬虫从新浪微博上采集了淮安地区11、12月份以来的每天去掉6:00~11:00之间依微博数据,如图3所示。   对怕取得9954条微博去掉晚上11:00至明天6:00的微博,剩余9739条微博,每半个月划分为一个时间窗口,为四个时间窗口1、2、3、4,本文对微博语料进行分词,采用的是中科院计算所的 ICTCLAS 中文分词工具,利用MC_S_TH算法对i(i=1,…,4)进行分类热点话题和主题提取,本文只对与淮安相关的三个热点话题“淮安有轨电车”、“淮安楼盘”、“公务员考试”(分别记为HT电、HT楼、HT员)三个话题进行跟踪实验。实验结果如图4所示。   由图4可以看出,人们对“淮安有轨电车”话题关注度较大,分析器原因,从11月18日起,淮安现代有轨电车开展了连续20天的列车模拟试运营(跑图)工作,19日进行了首次载客试跑,于12月28日正式载客运营。楼盘在10月份、11月份较热,是因为淮阴区内9月底推新的三家楼盘分别为金鼎国际花园、联众光辉乾城及鼎泰公,清河区内东祺金域华府10月底推出多套楼盘,中天华庭自9月27日二期房源首开后,11月又推出多层洋房及小高层,新天地荣府决定于11月7日迎来首开盘,… 。到12月底就很少有微博信息了。公务员考试关注度较低,在12月低出现了上升期,查了相关政府网得知2016年江苏公务员考试报名时间为日9∶00至1月17日16∶00。从图4的折线图可以看出三个热点话题的2016年1月份发展趋势:“淮安有轨电车”话题处于缓解期,“淮安楼盘”话题处于消失期,“公务员考试”话题处于博发期。
  6 结束语   话题跟踪作为信息处理领域中的一项重要问题,自提出以来就受到了广泛的关注,尤其用于舆情分析等领域后,更显现出它的应用价值[17]。目前,大多数的话题跟踪系统研究都是针对新闻信息、博客信息等长文本,关于微博等社交网络短文本信息的研究还比较少。本文针对微博文本具有时序性的特点,将时间轴划分为等距时间片,定义了时间窗口,对每个时间窗口进行聚类,去除小类别话题,得到热点话题,然后分析热点话题的发展趋势,从而可以可以进行热点话题跟踪。本文中采集了新浪网淮安地区的近11-12月份的微博文本进行实验取得了较理想的效果。   参考文献:   [1] 刘星星,何婷婷,龚海军.网络热点事件发现系统的设计[J].中文信息学报,):80-85.   [2] 姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,):39-44.   [3] 骆卫华,刘群,白硕.面向大规模语料的语言模型研究新进展[J].计算机研究与发,):.   [4] 任晓东,张永奎,薛晓飞.基于K-Modes聚类的自适应话题追踪技术[J].计算机工程,2009(9).   [5] 张晓艳,王挺,梁晓波.LDA模型在话题追踪中的应用[J].计算机科学,2011(10).   [6] 席耀一,林琛,李弼程,等.基于语义相似度的论坛话题追踪方法[J].计算机应用,2011(1).   [7] 李树平,夏春艳,李胜东,等.基于KNN的话题跟踪研究[J].微计算机信息,4-265.   [8] 夏春艳,崔广才,李树平.话题跟踪方法的研究[J].计算机工程与应用,9-132.   [9] 谌志群,徐宁,王荣波.基于主题演化图的网络论坛热点跟踪[J].情报科学,7-150.   [10] 邹鸿程.微博话题检测与追踪技术研究[D].郑州:解放军信息工程大学,2012.   [11] 刘金岭.基于降维的短信文本语义分类及主题提取[J].计算机工程与应用,):159-161, 174.   [12] 刘金岭,倪晓红,王新功.手机短信文本信息流的自动文摘生成[J].现代图书情报技术,2013(2):43-49.   [13] 刘金岭.基于语义的高质量中文短信文本聚类算法[J].计算机工程,):201-205.   [14] 刘金岭,王新功.基于中文短信文本聚类的热点事件发现[J].情报杂志,):30-33.   [15] 刘金岭,严云洋.基于上下文的短信文本分类方法[J].计算机工程,):41-43.   [16] 刘金岭.基于主题的中文短信文本分类研究[J].计算机工程,):30-32.   [17] 谢耘耕,荣婷.微博舆论生成演变机制和舆论引导策略[J].现代传播,(5):70-74.
欢迎转载:
推荐:    面向产品评论分析的短文本情感主题模型
&&&&2016, Vol. 42 Issue (8):
面向产品评论分析的短文本情感主题模型[J]. 自动化学报, ): . doi:
XIONG Shu-Feng,
JI Dong-Hong
A Short Text Sentiment-topic Model for Product Review Analysis[J]. ACTA AUTOMATICA SINICA, ): . doi:
面向产品评论分析的短文本情感主题模型
熊蜀峰1,2,
武汉大学计算机学院 武汉 430072
平顶山学院 平顶山 467099
国家自然科学基金(133012)和国家社会科学重大招标计划项目(11&ZD189)资助
作者简介: 熊蜀峰 武汉大学计算机学院博士研究生,平顶山学院讲师.主要研究方向为自然语言处理,机器学习和观点挖掘.E-mail:
通信作者: 姬东鸿 武汉大学计算机学院教授.主要研究方向为自然语言处理,数据挖掘和生物信息处理.本文通信作者.E-mail:
情感主题联合生成模型已经成功应用于网络评论分析.然而,随着智能终端设备的广泛应用,由于屏幕及输入限制,用户书写的评论越来越短,我们不得不面对短评论中的文本稀疏问题.本文提出了一个针对短文本的联合情感--主题模型SSTM(Short-text sentiment-topic model)来解决稀疏性问题.不同于一般主题模型中通常采用的基于文档产生过程的建模方法,我们直接对整个语料集合的产生过程建模.在产生文档集的过程中,我们每次采样一个词对,同一个词对中的词有相同的情感极性和主题.我们将SSTM模型应用于两个真实网络评论数据集.在三个实验任务中,通过定性分析验证了主题发现的有效性,并与经典方法进行定量对比,SSTM模型的文档级情感分类性能也有较大提升.
情感分类&&&&
情感主题模型&&&&
主题模型&&&&
短文本主题模型&&&&
文本稀疏&&&&
A Short Text Sentiment-topic Model for Product Review Analysis
XIONG Shu-Feng1,2,
JI Dong-Hong1
Computer School of Wuhan University, Wuhan 430072
Pingdingshan University, Pingdingshan 467099
Foundation Item: Supported by National Natural Science Foundation of China (,
), and The Major Program of the National Social Science Foundation of China (11&ZD189)
Author brief: XIONG Shu-Feng Ph. D.
candidate at the Computer School of Wuhan University and lecturer at PingDingShan University. His research interest covers natural language processing, machine learning, and opinion mining.E-mail:
Corresponding author.
JI Dong-Hong Professor at the Computer School of Wuhan University. His research interest covers natural language processing,
data mining, and
biological information processing. Corresponding author of this paper.
Topic and sentiment joint modelling has been successfully used in sentiment analysis for opinion text. However, we have to face the text sparse problem in opinion text when the length of text becomes shorter and shorter with popularity of smart devices. In this paper, we propose a joint sentiment-topic model SSTM (short-text sentiment-topic model) for short text. Unlike the topic model which models the generative process of each document, we directly model the generation of the whole review set. In the generation process of corpus, we sample a word-pair each time, in which the two words have the same sentiment label and topic. We apply SSTM to two real life social media datasets with three tasks. In the experiment, we demonstrate the effectiveness of the model on topic discovery by qualitative analysis. On the quantitative analysis of document level sentiment classification, SSTM model achieves better performance compared with the existing approaches.
Key words:
Sentiment classification&&&&
sentiment topic model&&&&
topic model&&&&
short text topic mode&&&&
text sparse&&&&
产品评论挖掘技术是辅助分析海量评论信息的一种有效手段,其目标是检测出文本中所表达的对某一话题的情感(观点) 信息,根据分析的粒度可以分为文档级、句子级和元素级[-].对于评论文本而言,其包含的观点信息中两个最重要内容分别是评价目标(在产品评论中称为aspect)和情感极性.
情感极性通常是由情感词汇来表达,有情感表达词的地方通常都有评价目标词,然而,同一个情感表达短语在修饰不同的评价目标时可能会表示不同的极性.如所示,当“小"用来修饰不同的评价目标“耗电”和“音量”时,它的情感极性正好相反. 虽然“小"和“大"是一对反义词,但在句子R1中,分别修饰“耗电”和“内存"时,都表示正面极性.为了利用情感词与评价目标之间的相互依存关系,一些研究工作提出采用无监督(弱监督) 主题模型(Topic model)来处理此问题[-].
图 1(Fig. 1)
两条评论文本信息
Two opinion texts
学者们提出的无监督的主题模型解决了情感词与评价目标相互依存的问题.然而,随着互联网终端的广泛使用,又需要面临一个新的问题---文本稀疏.
随着移动互联网终端的广泛使用,为了适应较小的屏幕以及受限的输入设备,人们提交的产品评论文本的长度也变得越来越短[]. 如所示,在评论R1中,26个字表达了用户对7个主题(评价目标) 的观点.目前大部分购物网站和产品查询网站的用户评论文本都具有此类简洁的表达和鲜明的观点.随着文本内容的变短,数据稀疏性问题也越来越成为亟需解决的问题.本文的研究目的正是要为数据稀疏问题提供一种解决方案.
针对主题建模中的文本稀疏问题,一些研究工作将短文本组合成较长的伪文档后再进行训练学习[-];另一种建模方式是基于这样的假设:一段短文本只对应于一个单一的主题[-].最近,文献[]提出直接对词对共现过程进行建模.上述的所有工作都仅仅对短文本中的主题建模,而没有考虑情感极性信息.在我们的方法中,通过建模全局的词对生成过程,联合检测情感极性和主题.
尽管很多有监督学习方法也取得了较好的效果[-],但是有监督学习方法要依赖于高成本的人工标注语料. 为了减小人工成本,我们提出一个弱监督的短文本情感主题模型(Short-text sentiment-topicmodel,SSTM),该模型是一个概率混合模型,通过直接对全局范围内的词对(Word-pair)生成过程建模来学习短文本中的情感和主题信息.模型中的“词对”是指在特定的上下文中的两个无序的共现词. 具体而言,我们首先将整个语料看成是一个共现词对集合(A bag of co-occurredword-pairs). 然后对词对集合的生成过程进行建模,即通过一个混合模型依次采样语料中的每一个词对,这个混合模型包括一组主题语言模型和一组情感语言模型.通过学习SSTM模型,我们得到语料级别的情感--主题组成信息和全局的情感主题分布信息.并可以进一步推导出每个文档的情感分布和主题分布.我们在两个评论文本数据集上对提出的方法进行了评估.实验结果表明SSTM能够准确地发现文本中的主题并进一步检测出情感极性,检测准确率明显高于经典的同类方法.
本文的主要贡献概括为以下几点:
1) 针对评论文本短小的特性,提出了一个词对情感主题模型来同时检测评论文本中的主题和情感(第2.2节).
2) 对模型的Gibbs采样方法进行了推导,解决了模型的参数估计问题(第2.3节).
3) 提供了一种有效的方法来估计模型学习过程无法获得的文档级别的主题和情感极性(第2.4节).
4) 通过在两个真实数据集上的实验,我们证明了提出的SSTM模型同时检测评论文本的主题与情感极性的有效性(第4节).
1 相关工作
通过前面的讨论,我们知道主题(评价目标)和情感极性是观点文本中用户所关心的两项重要信息.因此采用概率混合模型对主题和情感极性联合建模是一种很自然的解决方案.已经有很多学者提出基于LDA~(Latent Dirichletallocation)的模型来解决这个问题[-]. 在文献[]中,作者根据一些特性将此类方法分成了若干类别.用于方法分类的这些特性如下:
用一个隐含变量建模词/用不同的变量分别建模目标词和星级.
2) 建模文本中的所有词/只建模观点表达词语.
3) 建模目标词与星级间的依存有关系/不考虑依存关系.
4) 只使用评论语料/额外使用附加数据.
由于前两项特性属于模型内在特性,两个不同的模型的内存特性通常不同,用于划分大类时粒度过细,而后两项涉及外部知识和外部数据,需要人工干预,因此我们根据后两项特性进行区分,将SSTM划分为不考虑依存关系且不使用附加输入数据一类.
根据这两项特性的划分,与SSTM模型同类的相关的方法主要包括以下几个代表性的工作:
1) JST (Joint sentiment-topic model). 此模型总体框架比LDA多了一层,也就是在文档层与主题层之间加入了一个附加的情感层[],形成词、文档、主题和情感四层结构. 在此结构中,情感极性与文档相关,主题与情感极性相关,而词同时与情感极性和主题相关. 在JST模型中,一个句子中的所有词的情感标签和主题各自独立,采样时完全依赖单个词在文档中的统计信息,其生成过程没有考虑文档内容的文本稀疏问题,而在SSTM模型中,一个词对有着共同的主题和情感标签,并且采样时统计词对在整个语料中的共现信息,在更大范围的统计学习下解决了稀疏问题.
2) ASUM (Aspect and sentiment unification model). 由文献[]提出,和JST一样由四层结构组成. 二者的不同之处在于ASUM模型中,同一个句子中的词都来自于同一个语言模型,而JST模型中句子中的词可以来自不同的语言模型. 在SSTM模型中,我们沿用ASUM中部分假设,即约束同一个句子生成的词对来自于同一个情感模型,但是只要求单个词对中的两个词来自于同一个主题模型.因为ASUM中的假设过强,特别是对于评论信息,因为用户在一句话中经常评论某实体的相关方面,如手机的屏幕与其电池的待机能力,这两方面相互影响,用户也经常在一句话中同时评论.
3) STDP (Senti-topic model with decomposed prior).文献[]提出先验分解的情感主题模型,作者将情感极性的生成过程分解为两个阶段. 在第一阶段中,先检测一个词是情感词还是主题词,如果是情感词则进入第二阶段.第二阶段主要是识别词的极性标签.STDP将极性标签与情感词检测分别独立进行,割裂了二者之间的天然联系和影响. 在SSTM模型当中,极性标签是由情感词和主题词共同决定的,而不是分开的两个阶段. 其次,STDP需要人工构造先验知识来检测一个词是情感词还是主题词.并且这样生成的先验规则并不一定适合于所有领域和不同语言(比如中文与英语).SSTM模型无需构造先规则,具有更好的领域适应性.由于人工指导行为需要消耗人力成本,为了尽量自动化地完成观点分析任务,我们的模型试图最小化人工指导. 因此,我们除了采用一个公共可用的情感词典用于对齐人类情感与机器识别的情感之外,模型中不再使用任何规则.
上面提到的三个模型主要针对足够长的传统媒体文本,比如电影评论、餐馆评论等(电影评论文档平均长度668,餐馆评论文档平均长度153.详细评测数据统计信息可查阅三个模型对应的文献)1.而我们采集的中文购物网站的评论数据,文档平均长度分别为32和20.如果不考虑短文本稀疏问题,传统模型的单个文档生成过程建模时没有足够数量的词统计信息来发现词之间的主题相关性.这个问题会进一步影响情感极性的识别.为了克服建模单文档生成过程会遇到的文本稀疏问题,我们采用类似于BTM模型[]中的方法,即对整个语料级别的词对生成过程建模. 不同之处在于,我们的混合模型联合检测情感与主题,而BTM仅考虑主题信息.
1尽管文献[]在短文本数据集上进行了实验,但STDP 模型本身并没有考虑文本稀疏问题.
近年来的一些其他主题建模工作也考虑到了短文本中的词稀疏问题[-].但所有这些工作都只是建模文本中的主题信息(不考虑情感信息),并且大部分方法都是应用于其他任务和不同的领域数据.
监督学习方法在评论分析任务上也取得了很好的效果.文献[]提出利用机器学习方法对文档的情感进行分类,通过实验说明传统的方法(朴素贝叶斯、最大熵和SVM)在情感分类任务上并没有达到基于主题的文本分类任务上那么好的性能,进一步说明了情感分类的任务面临的巨大挑战.文献[]提出一种包容层级(Subsumptionhierarchy)结构来形式化词汇特征信息,提高了观点分类任务性能.文献[]提出基于度量标签的元算法来对评论进行评级,该算法可以保证类似的元素可以获得相似的评级标签.文献[]利用句子中词语间的句法关系作为特征,采用SVM算法对文档进行情感分类,取得了很好的效果.
2 情感主题模型
前文的分析表明,情感词与评价目标是两个相互依存的部分,无监督的主题建模方法通过隐藏变量来定义文档的主题信息,通过在主题模型中加入情感层来定义隐藏的情感极性信息,从而在模型中自然地考虑情感词与评价目标(主题)间的依存关系.因此主题模型很适合本任务,并且能够将传统的评价目标发现与情感分类两个独立任务集成到一个统一的模型中,同时完成评价目标发现与情感分类任务. 因此,本文主要研究基于主题模型的主题学习和文档级的情感极性分类. 在本节,我们将描述所提出的SSTM模型,SSTM通过建模整个语料的生成过程来同时学习短文本中的主题与情感极性标签.在SSTM中,我们采用Gibbs采样方法来进行参数推断. 随后,我们对生成过程无法直接推断出的单个文档的主题与情感极性标签进行了估计.
2.1 观点文本的表示
直观上而言,一个词的情感极性标签是由情感词和其上下文所决定的.如所示,当出现在词对&耗电,小&中时,“小"的情感极性是正,而出现在词对&音量,小&中时,其情感极性为负.因此上下文中抽取的词对往往包含着用来检测情感极性的重要信息. 然而,当文本比较短时,上下文信息有限,主题-情感模型将遇到稀疏性问题. 如文献[]指出的那样,一个有效的方法是使用全局的词对共现模式来学习文本主题.所以我们将主题学习与情感极性识别融合到一个统一的框架中,即从词对生成过程中同时学习短文本中的主题与情感极性标签. 换句话说,SSTM使用全局的词对生成过程来代替传统的单个文档的生成过程来建立模型.
在SSTM中,第一步就是要将观点文本表示成词对集合,其中词对是从每篇文档中抽取出来的. 一个词对b是由两个无序的词组成,其含义是这两个词在一定的窗口大小范围内同时出现在文档中.在我们的实验中,窗口大小为10. 例如,在文档R2“上网慢!音量小!”,可以抽取出5个词对&上网,慢&、&上网,音量&、 &上网,小&、 &慢,音量&、&慢,小&和&音量,小&. 在生成过程中,每个词对中的词将被指派相同的主题和情感极性标签.我们从语料中抽取所有词对形成一个集合用来表示评论文本.
我们在实验部分证明了词对采样方法对文本稀疏问题进行了有效的解决,尽管模型可能会引入噪音数据(这是基于窗口的方法的通用问题). 实际上,这些噪音数据对模型的学习影响很小. 比如前面提到的一些词对,如&慢,音量&和&慢,小&都是噪音数据,可观察出这些词对不是描述同一主题(评价目标). 对于这种情况,我们有一个合理的解释:在对整个词对集合进行统计学习时,这些噪音词对的出现频率会非常小. 也就是说,通过全局性的共现规律的统计能够降低噪音数据对模型的负面影响.这也是统计学习方法的基于数据统计的优势体现. 事实上,除了文献[]以外,ASUM[]也使用了类似的基于窗口的方法.这两个方法都取得了较好的实验效果. 特别是ASUM模型,其假设一个句子中的所有词具有相同的主题和情感极性标签. 在SSTM模型中,我们放松了ASUM模型中的假设,将约束从整个句子范围内缩小到固定窗口内的两个词.
2.2 SSTM 模型
SSTM模拟所有用户发布的整个文档集的生成过程.按照用户的习惯,书写评论的时候,通常会对相关产品的某些方面进行评价,如中的例子,评论R1中用户对手机的7个方面进行了评价,并且对各方面的描述大概采用了相同数量的文字. 在某些情况下,用户可能会使用更多的文字来描述自己更关注的方面,如,长期出差的用户可能更在意手机的电池续航能力,在发表评论时也就会花更多的文字来描述对电池的观点. 在生成模型中,可以用概率分布来建模对各方面,用户使用更多文字描述的方面具有更高的概率分布.
从一个用户的角度来讲,文档的生成过程大致如下:
1) 用户要对某款笔记本电脑发表自己的观点,首先他用一个主题分布来确定评价目标的比例,比如,所有内容中30%关于内存,30%关于外观,20% 关于运行速度,最后10%关于电池.
2) 对于要评价的每一个主题,他确定要表达的情感极性比例,如80%正面和20%负面.
3) 随后他选择相应的词对来表达前面确定好的主题和情感极性下的观点.
假设我们有一个语料包含D篇文档,C ={d1,d2,d3,…,dD}; 采用第2.1节所描述的方法从C中抽取得到的词对集合B={b1,b2,…,bM}. SSTM首先建模集合B的生成过程,然后采用一种近似方法来估计每篇文档d的情感--主题分布.假设总共有T个主题,按索引{1,2,…,T}排列.对于一个主题T,有l个情感极性标签与之相关.给定α、β和γ为Dirichlet先验.论文中符号含义如所示.
表 1(Table 1)
论文中符号的含义
Meanings of the notations
符号描述符号描述
D文档数量βφ的非对称Dirichlet先验参数,
M词对数量β = {{{βz, l, i}k=1T}l=1S}i=1V
T主题数目αθ的Dirichlet先验参数
S情感极性数γπ的Dirichlet先验参数
V词汇表大小 Θ主题的多项式分布
wj)zt 第t个词的主题
w词lt第t个词的情感极性标签
z主题 B词对集合
l情感极性标签{z-t}除第t个词以外的其他所有词的主题分布
πk, l主题k和情感极性l上的分布
{l-t}除第t个词以外的其他所有词的情感极性
Π情感极性标签的多项式分布Nk, l, i词wi指派为主题k和情感极性l的次数
φk, l, w词w基于主题k和情感极性l的分布
Nk, l指派为主题k和情感极性l的词的数量
Φ词的多项式分布N'(·)句子计数
θk主题k的分布 Nk主题k中的词的数量
论文中符号的含义
Meanings of the notations
我们形式化地定义如所示的SSTM的生成过程如下:
图 2(Fig. 2)
SSTM模型的图表示
SSTM model
1) 采样一个主题分布θ ~ Dir(α).
2) 对于每个主题k ∈ {1,2,3,…,T}
a) 采样一个情感分布πk ~ Dir(γk);
b)对于每一个情感标签l ∈ {1,2,3,…,S};
c) 采样一个词分布φkl ~ Dir(β).
3) 对于每个词对b ∈ B
a) 选择一个主题z ~ Mult(θk);
b) 根据主题z,选择一个情感标签\l ~ Mult(πk,l);
c) 根据情感标签l和主题z,选择两个词wi,wj ~Mult(φl,z).
我们同时给出了JST和ASUM模型的图表示,如和所示,其中R表示同一句子中的词数量. 我们的模型与二者不同时之处在于: 1)SSTM模型不考虑文档的生成过程; 2)SSTM在同一个主题和情感标签下生成词对(wi,wj),而ASUM在相同主题和情感标签下生成同一个句子的所有词,JST中各个词的主题和情感标签均相互独立生成.
图 3(Fig. 3)
JST模型的图表示
图 4(Fig. 4)
ASUM模型的图表示
ASUM model
在情感模型中,需要提供合适的先验知识,使用模型能够建立正确的情感标签到真实的人类情感间的关系. 换言之,模型学习到的每个情感标签类别需要与人类情感一一对应. 在SSTM模型中,我们使用情感词典来引入人类情感信息. 具体而言,情感信息的引入是通过非对称先验参数β来实现的.假设一个词wi来自于情感词典,则它的情感分布的Dirichlet先验通过以下公式计算:
$\beta_{w_i,l} = P_{w_i}(l) * \beta_0$
其中,Pwi(l)是预先定义的词典中的词wi关于情感标l的概率,β0是一个基本因子(如 0.05).假设有三种情感极性:中性、正面和负面,且wi在情感词典中的极性为正面,我们预先定义中性的概率为Pwi(neutral) = 0.009,正面的概率Pwi(positive) =0.99和负面的概率Pwi(negative) = 0.001.这样定义的含义是wi有99%概率在语料中表示正面极性,0.9%概率表示中性和0.1%概率表示负面.
2.3 模型推断
为了估计SSTM模型中的参数θ、φ和π,需要计算后验分布P(z,l|{B}),也就是给出集合 B的条件下的,主题为z和情感标签为l 的条件概率. 此概率很难直接计算,所以我们采用Gibbs采样方法进行近似推断. Gibbs的全条件概率分布如式(2):
$\begin{align}
&P(z_t=k,l_t=l|{B,z_{-t},l_{-t}}) \propto\\&\quad \frac{P({B|z,l})}{P({B_{-t}|z_{-t},l_{-t}})} \cdot\frac{P({l|z})}{P({l_{-t}|z_{-t}})} \cdot \frac{P(z)}{P({z_{-t}})}
\end{align}$
式(2)中第一部分的分子,通过对φ积分,可以得到:
$P({B|z,l}) = \prod_{k=1}^{ T} \prod_{l=1}^S\frac{\Gamma(V \beta_{k,l})}{\Gamma(\beta_{k,l})^V}\frac{\prod\limits_{i=1}^V \Gamma(N_{k,l,i} + \beta_{k,l,i})}{\Gamma(\sum\limits_{i=1}^V N_{k,l,i} + V \beta_{k,l})}$
第二部分的分子,通过对π积分,可以得到:
$P({l|z}) = \prod_{l=1}^S \frac{\Gamma(T\gamma_{l})}{\Gamma(\gamma_{l})^{ T}} \frac{\prod\limits_{k=1}^{ T}\Gamma(N_{k,l} + \gamma_{k,l})}{\Gamma(\sum\limits_{k=1}^{ T}N_{k,l} + T \gamma_{l})}$
第三部分的分子,通过对θ积分,可以得到:
$P(z)=\frac{\Gamma(T \alpha)}{\Gamma(\alpha)^{ T}}\frac{\prod\limits_{k=1}^{ T} \Gamma(N_{k} +\alpha)}{\Gamma(\sum\limits_{k=1}^{ T} N_{k} + T \alpha)}$
通过类似的处理方式,三个分母也可以变换后得到:
$P({B_{-t}|z_{-t},l_{-t}})= \prod_{k=1}^{ T} \prod_{l=1}^S \frac{\Gamma(V \beta_{k,l})}{\Gamma(\beta_{k,l})^V} \frac{\prod\limits_{i=1}^V\Gamma({N_{k,l,i}}_{-t} + \beta_{k,l,i})}{\Gamma(\sum\limits_{i=1}^V {N_{k,l,i}}_{-t} + V \beta_{k,l})}$
$\begin{align}
P({l_{-t}|z_{-t}})=\prod_{l=1}^S \frac{\Gamma(T \gamma_{l})}{\Gamma(\gamma_{k})^{T}} \frac{\prod\limits_{k=1}^{ T} \Gamma({N_{k,l}}_{-t} +\gamma_{k,l})}{\Gamma(\sum\limits_{k=1}^{ T} {N_{k,l}}_{-t} + T\gamma_{l})}
\end{align}$
$\begin{align}
P({z_{-t}})= \frac{\Gamma(T\alpha)}{\Gamma(\alpha)^{ T}} \frac{\prod\limits_{k=1}^{ T}\Gamma({N_{k}}_{-t} + \alpha)}{\Gamma(\sum\limits_{k=1}^{ T}{N_{k}}_{-t} + T \alpha)}
\end{align}$
通过式(3)~(8)替换式(2)中对应的部分,并利用Gamma函数性质,可以推导出Gibbs采样每次迭代中的条件分布概率:
$P(z_t=k,l_t=l|{B,z_{-t},l_{-t}}) \propto \frac{({N_{k,l,w_{i,1}}}_{-t}+\beta)({N_{k,l,w_{i,2}}}_{-t}+\beta)}{({N_{k,l}}_{-t} + V\beta +1)({N_{k,l}}_{-t} + V\beta)} \frac{({N_{k,l}}_{-t}+\gamma_{k,l})}{({N_{k}}_{-t} + T\gamma_l)}\frac{({N_{k}}_{-t}+\alpha)}{(M_{-t} + S \alpha)}$
其中,M是词对的总数而不是词汇表大小.
给定超参 α、β 和 γ,词对集合B和其对应的主题z,情感标签l,我们可以利用贝叶斯规则和Dirichlet共轭特性推断出参数θ、φ和π:
$\theta_{k} = \frac{N_{k} + \alpha}{M + S\alpha}$
$\phi_{k,l,w} =\frac{N_{k,l,w} + \beta}{N_{k,l} + V\beta}$
$\pi_{k,l} = \frac{N_{k,l} + \gamma_{k,l}}{N_k + T\gamma_l}$
2.4 推断文档的情感极性和主题
为了解决文本稀疏问题,SSTM没有对文档的生成过程建模. 因此,我们需要提供一个必要的步骤来近似估计文档的情感和主题分布.我们用如下公式近似文档d的情感极性:
$\label{slabel} L_d = \arg\max_{l \in L} N^{(l)}_d$
其中,Nd(l)是文档d中情感标签为l的词数量.由于生成过程是基于词对,我们需要估计每一个词的情感标签,通过如下公式:
$L_w = \arg\max_{l \in L} P(l|w)$
其中,词w的情感标签为l的概率P(l|w)可以通过贝叶斯公式推导:
$P(l|w)=\frac{\sum\limits_z P(z)P(l|z)P(w_i|l,z)}{\sum\limits_l(\sum\limits_z P(z)P(l|z)P(w_i|l,z)}$
其中,P(z)=θk,P(l|z)=πk,l 且 P(wi|l,z)=φk,l,i.
同样可以近似估计词w的主题:
$P(z|w)=\frac{P(z)\sum\limits_l P(l|z)P(w_i|l,z)}{\sum\limits_z(P(z)\sum\limits_l P(l|z)P(w_i|l,z))}$
尽管我们采用这样一种频率计算的方式来近似文档的情感和主题,但其实验效果良好. 更复杂的处理方式可以进一步研究.
3 实验设置
3.1 数据集
我们使用两个在线购物网站的评论文本数据集来验证我们的方法.一个数据集是来自于京东的笔记本电脑产品评论,另一个是IT168网站的手机产品评论数据集. 在进行中文分词之后,我们的预处理工作还包括移除标点、数字和停用词.经过预处理后的数据集的统计信息如所示. 在实验中,我们随机选择其中50%作为验证集用于调试参数,另外50%用作测试集.
表 2(Table 2)
语料统计信息
Statistics of the text corpus
笔记本手机
文档平均词数2032
评论数3 9882 289
词汇表大小7 9648 787
正面评论数1 9931 146
负面评论数1 9951 943
语料统计信息
Statistics of the text corpus
3.2 情感词典
因为情感词典能够提供必要的知识用于识别情感极性,我们使用知网(HowNet)4情感词典为SSTM模型提供先验信息.知网情感词典包括大约5000正面和5000负面词汇. 如第2.2节所介绍,我们使用情感词典来影响先验参数β.
3.3 对比方法和参数设置
在主题识别任务上,我们与标准LDA和BTM进行了对比分析,结果见第4节.对于情感分类任务,虽然我们的方法是无监督学习(词典信息仅用于情感对齐),但是为了全面衡量SSTM的性能,除了选择三个代表性的方法进行定量对比外,我们还设计了与有监督的分类算法SVM的对比实验.
基线方法直接对文档中的词汇极性数进行统计,其中词汇的极性直接由情感词典获取,统计数量多的极性作为文档的极性.LDA是经典的主题模型方法,BTM类似于去掉情感层的SSTM.BTM、JST和ASUM已经在文章前面部分介绍过.
在实验中,对于其他主题模型均使用各自原始论文中相同的超参设置.对于SSTM模型,我们使用对称参数α的值为0.03、γ的值为0.02.参数β为非对称,如第3.2节所介绍,我们设置基本因子β0的值为0.05.
4 实验结果与分析
为了评估SSTM模型的性能,我们设计了三个任务:主题发现、情感相关的主题发现和文档级的情感极性分类.
4.1 主题发现
对于主题模型,发现主题词是一个主要任务.因为我们的模型是设计用来进行观点文本分析,评价目标自然地就作为主题来看待. 我们发现主题数目设置为25时,可以获得较好的主题发现与情感极性识别效果. 因此,本节中所有的实验都是基于此设置.和分别列出了SSTM发现的笔记本和手机数据集的主题词.其中加粗的词与当前的主题无关,也就是主题识别错误的词.我们可以看到SSTM和BTM的主题词错误小于LDA模型(定量对比见和).
表 3(Table 3)
笔记本数据集中发现的部分主题词列表
Example topics discovered from LAPTOP dataset
SSTMBTMLDA
外观电池散热性外观电池散热性外观电池散热性
指纹电池散热太电池散热容易电池好
钢琴小时热容易时间好指纹小时散热
漂亮长温度指纹小时不错外壳时间声音
烤漆比较好键盘键盘电池钢琴长风扇
好时间烫烤漆比较度烤漆续航小
模具续航CPU比较长热表面比较温度
屏幕使用硬盘不错好温度亮点使用热
外壳上网风扇外壳不错声音感觉键盘运行
文字小机器钢琴使用使用说小巧轻
呵呵芯比较屏幕续航CPU屏幕芯时
笔记本数据集中发现的部分主题词列表
Example topics discovered from LAPTOP dataset
表 4(Table 4)
手机数据集中发现的部分主题词列表
Example topics discovered from MOBILE dataset
SSTMBTMLDA
拍照媒体播放屏幕拍照媒体播放屏幕拍照媒体播放屏幕
拍摄播放屏幕像素MP3屏幕效果支持屏幕
功能速度好摄像头播放色摄像头MP3显示
支持不错显示拍摄耳机显示像素播放比较
屏幕影音色数码效果TFT拍照内存色彩
像素手机效果手机好效果照片蓝牙色
材质处理器彩色支持音乐色彩拍摄卡清晰
照片格式设计倍听手机拍格式高
摄像头MP3TFT效果功能好数码扩展铃声
拍照流畅机子相机不错26万相机文件方便
数码文件人拍照比较像素倍视频TFT
手机数据集中发现的部分主题词列表
Example topics discovered from MOBILE dataset
表 5(Table 5)
笔记本数据集上的CM值(%)
CM(%) on laptop dataset
方法标注员1标注员2标注员3标注员4平均值
LDA5850605656
BTM7066757270.75
SSTM6964726768
笔记本数据集上的CM值(%)
CM(%) on laptop dataset
表 6(Table 6)
手机数据集上的CM值(%)
CM(%) on mobile dataset
方法标注员1标注员2标注员3标注员4平均值
LDA6965717469.75
BTM7674818178
SSTM7572797876
手机数据集上的CM值(%)
CM(%) on mobile dataset
为了便于理解,我们给模型识别出的每一个主题人工指定一个标签.我们只列举出每一个数据集中的3个样例主题,每个主题取前10个词(按概率逆序排列). 可以看到: 1)每一个主题列表下的词很好的与产品的某一个属性(Aspect) 相关联; 2)这些词有较好的主题内部连贯性. 例如,中的第2列大概是关于电池,通过列表中的词,我们可以直接推测出该款笔记本的“电池”可使用较“长”“时间”,“续航”能力“不错”.
然而,在一些主题下有一些无关的“噪音词”. 例如,在第1列中的词“指纹”、“钢琴”好像与主题“外观”无关,但是通过语料分析,我们发现了其中的原因: 1)分词器错误地将“钢琴烤漆”分成了两个词“钢琴”和“烤漆”; 2)在一些评论中会提到“钢琴烤漆面成了指纹采集器,很容易留下指纹”.而且,还有一些情绪词出现在列表中,如第1列的“呵呵”. 这也不难解释,人们通常会利用情绪词来强调和描述情感.另外还有一些词同时出现在多个主题中,如第2列、第4列及第6列中的“手机”.这些词可以视为来自于一些全局主题,这些全局主题也可以看做是其他主题的公共子主题.如果要用于细粒度的主题发现,就需要过滤这些公共主题,我们留作将来的工作.
我们通过以上的定性分析证明了SSTM用于主题词发现的可行性,下面我们对发现的主题词内部的相关性进行定量评估.对于主题模型的量化评估仍然是一个有待研究课题[],各种评价方法都有一定的局限性. 最近,文献[]提出了一个合理的基于人工判断的评估方法CM~(Coherencemeasure). CM方法能够克服传统的基于困惑度(Perplexity)评价方法的缺点,评价方法的优缺点分析可参考文献[].我们沿用文献[]的CM方法来评估我们的实验结果.由4个标注员对每个主题中的前10个候选词进行评判. 首先,标注员判断能否从一个主题中的大部分(或全部)词中抽象出一个可理解的话题. 如果主题中的一组词不可以抽象为一个话题,那么10个词都被标记为不相关. 否则,标注员依次判断每一个词是否和抽象出的话题内容相关.CM则定义为主题内的相关词数目与候选词总数的比率. 对每个数据集,我们随机选择10个主题进行评估. 评估结果如和所示.SSTM模型的主题相关性结果与BTM相当,它们的结果均高于LDA模型.由于SSTM在BTM基础上增加了一个情感层,在对情感进行估计时不可避免地会产生误差,对一下层主题发现的效果产生了负面影响,因此SSTM在本任务上的性能略低于BTM.在手机数据集上的结果总体要好于笔记本数据集.主题发现任务的实验结果说明SSTM模型中的词对采样方法达到了与BTM模型中相当的水平,从一定程度上解决了文本稀疏性问题.下一节我们进一步测试SSTM模型的情感极性识别效果,这是LDA模型和BTM模型没有考虑的,因此我们只进行定性评估.
4.2 情感相关的主题发现
第二个实验是发现情感相关的主题.本实验是同时根据词的主题和情感极性进行分类.识别出来的主题可以用来提供与情感极性相关的信息,比如哪个主题是正面或者负面?为什么某个主题是负面评价?
如所示,我们列举了每个数据集中5个情感相关的主题(3个正面和2个负面).以笔记本数据集为例,对于一个问题:为什么做工得到负面评价?列表中的词回答了这个问题:触摸板不好用、盖子小而且产品有瑕疵.
表 7(Table 7)
SSTM 发现的部分情感相关的主题词列表
Example sentiment-specific topics discovered by SSTM
笔记本手机
正面负面正面负面
快递性价比外观做工售后铃声外观按键输入法信号
速度不错小有点电话铃声设计按键短信信号
东西价格漂亮禁用服务不错外观手感输入法网络
京东机器喜欢触摸板差耳机不错感觉键差
质量便宜买需要客服听好好切换无
好款外观外壳送货声音感觉操作拼音检测
发货性能本本盖子快递放喜欢不错数字移动
问题好不错小货音乐漂亮容易麻烦关机
比较电脑好老版无好时尚使用选质量
很快超值键盘掉态度耳朵手感摇杆手故障
送货降价适合瑕疵前台效果机身舒服标点符号通话
SSTM 发现的部分情感相关的主题词列表
Example sentiment-specific topics discovered by SSTM
4.3 文档级的情感极性分类
在本节,我们讨论 SSTM 模型情感极性识别的定量评估结果.对每一个数据集,其中的每条评论都有一个二元情感标签(正面和负面).我们的实验中采用不同主题数目进行了对比,主题数从5到30,步长为5. SSTM 在每个主题数设置下的结果均优于其他两个经典的情感主题模型.然而,只有主题数目接近实际评价目标时,主题情感模型的情感识别结果才能更精确,在第4.1节我们已经发现主题数设置为25时能取得较好的主题词发现结果.因此在本实验中,我们统一设置所有情感主题模型的主题数目为25.各种方法识别出来的情感极性准确率对比结果如所示.其中SVM~(Uni)表示采用一元词特征训练分类器,SVM~(Bi)表示采用二元词特征训练分类器. 对于SVM分类器,由于二元词特征考虑了前后词间的关系,因此其效果要好于一元特征,SSTM达到了接近算法SVM 的性能. 当然,由于SVM是监督学习算法,其总体性能还是要好于无监督方法. SSTM作为一种弱监督模型,达到了接近监督学习算法SVM的性能,这充分说明了其有效性.由于主题数目对于情感分类会产生影响,我们绘制了折线图来进行分析,如所示. 随着主题数目的增加,识别性能有一些波动,但SSTM模型的总体性能都要高于其他两个主题模型.由于不知道语料所讨论的真实话题数目,我们在开发集上对不同的主题数进行调试. 最初设定主题数目为5,相当于粗粒度的主题划分,随着粒度的细化,SSTM性能逐渐提升.因为SSTM考虑语料全局范围内关联的词对之间的情感与主题,而JST和ASUM模型不考虑,因此变化曲线不如SSTM明显.特别是ASUM由于假设较强(同一个句子具有相同主题和情感),因此主题数增多可能造成句子主题和情感的离散化,对其整体性能造成了负面影响,特别是手机数据集上的分类性能呈单调下降.
表 8(Table 8)
情感极性识别结果(主题数目设置为25)
Sentiment identification results
(The number of topics is 25.)
基线JSTASUMSSTMSVM (Uni)SVM (Bi)
笔记本0.6376450.506770.577540.655030.660470.70021
手机0.6021880.536980.436940.642010.644760.68953
情感极性识别结果(主题数目设置为25)
Sentiment identification results
(The number of topics is 25.)
对于两个数据集,SSTM模型的情感极性识别性能均好于其他方法.我们相信这主要得益于良好的主题发现,因为情感极性往往与其所描述的主题相关. 正如文献[]所讨论的那样,JST在其原始论文[]提供的电影评论数据集上取得较好的效果,但是在我们的数据集和文献[]的数据集上的性能有较大的下降.ASUM基于这样一个假设:同一个句子中的词来自于同一个情感--主题模型.对于短文本来说,这是一个很强的假设,采样过程中没有足够
图 5(Fig. 5)
主题数目对三个主题模型情感识别性能的影响
The impact of topic numbers in three topic models
的句子来估计模型参数. 我们放宽假设,使得一个句子中的词可以来源于多个主题,并能够进一步提高情感识别性能.在我们的实验中,JST和ASUM的效果都要低于基线系统. 值得注意的是,JST与ASUM模型在两个数据集上的情感识别效果正好相反.根据文献[]中报告的长文本数据集的结果和我们短文本数据集上的结果的差异,我们分析造成这种不稳定的原因是由于文本的稀疏所引起的.SSTM在两个数据集都取得了较好的效果,这也充分证明了我们模型的有效性.
在本文的工作中,我们提出了一个弱监督的短文本情感主题模型SSTM.此模型采用一个联合的情感主题识别方法,通过此方法可以减小评论文本稀疏性对识别效果的负面影响. 在SSTM模型中,我们将整个语料表示为一个词对集合. 然后通过模拟此集合的生成过程,SSTM发现了隐含于词共现模式中的信息,从而有效地识别了主题和情感极性,在两个真实数据集上的实验结果证明了SSTM模型不仅能学习出高质量的主题,还能准确地识别出文档级别的情感极性.
尽管SSTM模型取得了较好的效果,仍然还有一些方面可以进一步研究.比如,对于第4.1节提到的公共主题的过滤问题,可以尝试通过在模型中增加一个全局主题来解决. 另外,虽然我们目前的简单方法能有效估计文档级别的情感极性,探索更复杂的方法也是一项将来的工作.因为SSTM模型设计时考虑了商品评论文本的特殊性,所以可以更进一步修改模型以适用于其他社会媒体数据,如微博、微信等数据.
Fang L, Huang M L, Zhu X Y. Exploring weakly supervised latent sentiment explanations for aspect-level review analysis. In:Proceedings of the 22nd ACM International Conference on Conference on Information & Knowledge Management. New York, NY, USA:ACM, 66
徐冰, 赵铁军, 王山雨, 郑德权.
基于浅层句法特征的评价对象抽取研究.
Zhao Yan-Yan, Qin Bing, Liu Ting.
Integrating intra-and inter-document evidences for improving sentence sentiment classification.
Acta Automatica Sinica
, 2010, 36
赵妍妍, 秦兵, 刘挺.
基于图的篇章内外特征相融合的评价句极性识别.
Sentiment Analysis and Opinion Mining.
San Rafael, CA:
Morgan Claypool Publishers,
Pang B, Lee L.
Opinion mining and sentiment analysis.
Jo Y, Oh A H. Aspect and sentiment unification model for online review analysis. In:Proceedings of the 4th ACM International Conference on Web Search and Data Mining. New York, NY, USA:ACM,
He Y L, Lin C H, Alani H.
Automatically extracting polarity-bearing topics for cross-domain sentiment classification. In:Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies——Volume 1.
Stroudsburg, PA, USA:
Association for Computational Linguistics,
Lin C H, He Y L. Joint sentiment/topic model for sentiment analysis. In:Proceedings of the 18th ACM Conference on Information and Knowledge Management. New York, NY, USA:ACM,
Zhang Lin, Qian Guan-Qun, Fan Wei-Guo, Hua Kun, Zhang Li.
Sentiment analysis based on light reviews.
Journal of Software
, 2014, 25
张林, 钱冠群, 樊卫国, 华琨, 张莉.
轻型评论的情感分析研究.
Weng J S, Lim E P, Jiang J, He Q. TwitterRank:finding topic-sensitive influential twitterers. In:Proceedings of the 3rd ACM International Conference on Web Search and Data Mining. New York, NY, USA:ACM,
/academic/profile?id=&encoded=0&v=paper_preview&mkt=zh-cn
Hong L J, Davison B D.
Empirical study of topic modeling in twitter. In:Proceedings of the 1st Workshop on Social Media Analytics
Zhao W X, Jiang J, Weng J S, He J, Lim E P, Yan H F, Li X M.
Comparing twitter and traditional media using topic models. Advances in Information Retrieval.
Heidelberg, Berlin, Germany:
Gruber A, Weiss Y, Rosen-Zvi M. Hidden topic Markov models. In:Proceedings of the 11th International Conference on Artificial Intelligence and Statistics. San Juan, Puerto Rico:Omnipress,
Yan X H, Guo J F, Lan Y Y, Cheng X Q. A biterm topic model for short texts. In:Proceedings of the 22nd International Conference on World Wide Web. New York, NY, USA:ACM, 56
Riloff E, Patwardhan S, Wiebe J. Feature subsumption for opinion analysis. In:Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA:Association for Computational Linguistics,
/academic/profile?id=&encoded=0&v=paper_preview&mkt=zh-cn
Pang B, Lee L. Seeing stars:exploiting class relationships for sentiment categorization with respect to rating scales. In:Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA:Association for Computational Linguistics,
Matsumoto S, Takamura H, Okumura M.
Sentiment classification using word sub-sequences and dependency sub-trees. Advances in Knowledge Discovery and Data Mining.
Heidelberg, Berlin, Germany:
Pang B, Lee L, Vaithyanathan S.
Thumbs up? sentiment classification using machine learning techniques. In:Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing——Volume 10.
Stroudsburg, PA, USA:
Association for Computational Linguistics,
Titov I, McDonald R. Modeling online reviews with multi-grain topic models. In:Proceedings of the 17th International Conference on World Wide Web. New York, NY, USA:ACM,
/academic/profile?id=&encoded=0&v=paper_preview&mkt=zh-cn
Titov I, McDonald R T.
A joint model of text and aspect ratings for sentiment summarization. In:Proceedings of ACL-08:HLT.
Columbus, Ohio, USA:
Association for Computational Linguistics,
Li F T, Huang M L, Zhu X Y. Sentiment analysis with global topics and local dependency. In:Proceedings of the 24th AAAI Conference on Artificial Intelligence. Carol Hamilton, USA:Association for the Advancement of Artificial Intelligence, 76
Wang H N, Lu Y, Zhai C X. Latent aspect rating analysis without aspect keyword supervision. In:Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA:ACM,
/academic/profile?id=&encoded=0&v=paper_preview&mkt=zh-cn
Moghaddam S, Ester M. ILDA:interdependent LDA model for learning latent aspects and their ratings from online product reviews. In:Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA:ACM,
Mukherjee S, Basu G, Joshi S. Joint author sentiment topic model. In:Proceedings of the 2014 SIAM International Conference on Data Mining. Philadelphia, PA, USA:SIAM,
Zhao W X, Jiang J, Yan H F, Li X M.
Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid. In:Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing.
Stroudsburg, PA, USA:
Association for Computational Linguistics,
Li F T, Wang S, Liu S H, Zhang M.
Suit:a supervised user-item based topic model for sentiment analysis. In:Proceedings of the 28th AAAI Conference on Artificial Intelligence.
Carol Hamilton, USA:
Association for the Advancement of Artificial Intelligence,
Moghaddam S, Ester M.
The FLDA model for aspect-based opinion mining:addressing the cold start problem. In:Proceedings of the 22nd International Conference on World Wide Web.
Republic and Canton of Geneva, Switzerland:
International World Wide Web Conferences Steering Committee,
Zhang Y, Ji D H, Su Y, Wu H M.
Joint na?ve Bayes and LDA for unsupervised sentiment analysis. Advances in Knowledge Discovery and Data Mining.
Heidelberg, Berlin, Germany:
Zhang Y, Ji D H, Su Y, Sun C.
Sentiment analysis for online reviews using an author-review-object model. Information Retrieval Technology.
Heidelberg, Berlin, Germany:
Moghaddam S, Ester M. On the design of LDA models for aspect-based opinion mining. In:Proceedings of the 21st ACM International Conference on Information and Knowledge Management. New York, NY, USA:ACM,
/academic/profile?id=&encoded=0&v=paper_preview&mkt=zh-cn
Li C T, Zhang J W, Sun J T, Chen Z. Sentiment topic model with decomposed prior. In:Proceedings of the 2013 SIAM International Conference on Data Mining. Philadelphia, PA:SIAM,
Wang X R, McCallum A. Topics over time:a non-Markov continuous-time model of topical trends. In:Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA:ACM,
Phan X H, Nguyen L M, Horiguchi S. Learning to classify short and sparse text & web with hidden topics from large-scale data collections. In:Proceedings of the 17th International Conference on World Wide Web. New York, NY, USA:ACM,
/references/5692309
Lim K W, Buntine W. Twitter opinion topic model:extracting product opinions from tweets by leveraging hashtags and sentiment lexicon. In:Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. New York, NY, USA:ACM, 28
Chang J, Boyd-Graber J L, Gerrish S, Wang C, Blei D M.
Blei D M. Reading tea leaves:how humans interpret topic models. In:Proceedings of the 2009 Advances in Neural Information Processing Systems. San Diego, CA.
NIPS Foundation, Inc,
Xie P T, Xing E P.
Integrating document clustering and topic modeling. In:Proceedings of the 29th Conference on Uncertainty in Artificial Intelligence.
Cambridge, MA, USA:
Association for Uncertainty in Artificial Intelligence,

我要回帖

更多关于 最大熵模型 文本分类 的文章

 

随机推荐