基于复合特征模板下最大熵模型的产品属性挖掘研究Word文档下载推荐.docx
- 文档编号:18796771
- 上传时间:2023-01-01
- 格式:DOCX
- 页数:9
- 大小:30.92KB
基于复合特征模板下最大熵模型的产品属性挖掘研究Word文档下载推荐.docx
《基于复合特征模板下最大熵模型的产品属性挖掘研究Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《基于复合特征模板下最大熵模型的产品属性挖掘研究Word文档下载推荐.docx(9页珍藏版)》请在冰豆网上搜索。
1产品属性挖掘的研究现状
根据Kim和Hovy对意见的定义,意见由四个元素组成:
即主题(Topic)、持有者(Holder)、陈述(Claim)、情感(Sentiment)。
该四元素之间具有内在联系。
【2】。
PopescuAM在此基础上将产品意见挖掘划分为三个子任务:
(1)挖掘产品特征
(2)判定句子的语义倾向性(3)总结挖掘结果【3】,以此确立了产品意见挖掘的基本思路。
典型的深层次的产品意见挖掘致力于前两个子任务的研究,通常可分为属性驱动模式和情感驱动模式【4】,产品属性挖掘则是产品意见挖掘在属性驱动模式下的研究领域。
所谓产品属性挖掘,就是从句子si={w1,w2,…,wn}所构成的序列中找到{f1,f2,…,fn}集合中的产品属性fi,并以此辅助意见挖掘的研究。
由于属性多表现为名词和名词短语,因此属性挖掘可以理解为被评论的名词或名词短语的识别。
【5】在大量真实评论文本中,这些属性通常是以以下两种方式出现:
(1)产品的部分
(2)产品的特征及其外延。
【6】例如:
iphone4的屏幕很好看,但性价比不高。
上例中“屏幕”、“性价比”都是iphone4这款手机的属性,也是属性挖掘的对象。
产品属性挖掘早期大多是由人工完成,如ZhangL等人建立电影元素属性表【7】。
国内姚天昉团队在其汽车评论挖掘中引入了领域本体的思想【8】,构建汽车领域本体。
这两种方法本质上均属于人工定义形式的挖掘方式,均对个人有相当程度的依赖,需要本领域专家参与才能完成。
一旦领域迁移或产品功能发生变化,则需重新构造,因此也使得这些方法移植性与动态性较差,较难推广使用。
当前较为主流的方法是计算机辅助属性挖掘。
计算机辅助挖掘通过给定的模板、词典、标注语料等,利用计算机执行一定的规则,辅助挖掘评论中的产品属性。
按其依据的理论基础可分为两类。
第一类以语言学为基础,依靠人类语言中的结构、规则等来挖掘产品属性。
Hu在《MiningandSummarizingCustomerReviews》【3】中提出的一种较早的基于语言规则的“关联规则”法就是此类方法中的早期的典型。
Popescu在Hu的基础上提出点互信息法(Point-wiseMutualInformationPMI)作为改进,以较小查全率的代价大幅提升了该方法的查准率。
KimSM等人则首先定位句子中的主观极性词汇,然后以该主观极性词汇为中心,确定一定长度的窗口,向前或向后搜索名词或名词短语。
该类方法依赖模板、词典等,以单句为属性挖掘对象。
这类方法的优点是召回率高,不足之处在于容易产生冗余属性,而且需要较多的人工干预。
第二类方法以概率统计学为基础,依靠大量评论文本挖掘出特征最为突出的属性。
该类方法的优势在于能够很大程度上减少对人工干预的依赖,具有较高的自动化程度,同时不依赖于给定词典,具有较强的领域移植性,是具有相当发展潜力的一类方法。
这类方法典型代表有:
潜在语义分析法、潜在狄利克雷分布法、相关主题模型法等等。
但这类方法往往针对集合整体,对于单句属性则无能为力。
鉴于以上两类方法均具有各自不可替代的优势,一些研究者尝试将这两类方法结合起来,最大熵模型应用于产品属性挖掘就是这种结合的典型代表。
2最大熵模型与产品属性挖掘建模
2.1最大熵模型原理
最大熵模型是当前自然语言研究领域最为盛行的方法之一,【9】它最早由Borthwick引入到英文命名实体的识别中,它的特点是对于未知的事件,该模型总是使概率分布尽可能的均匀,以满足限定条件下的熵值最大化为准则,对各种不同类型的特征训练给出一组对应的权值,然后通过线性组合,把他们整合到一个统一的模型中,即熵最大。
[10]
它的主要优点是:
建模时,试验者只需集中精力选择特征,而不需要花费精力考虑如何使用这些特征;
特征选择灵活,且不需要额外的独立假定或内在约束;
模型应用在不同领域时的可移植性强;
可结合更丰富的信息等。
其基本思想为,对于给定的训练数据。
选择一个适当的统计模型,使其满足所有已知的事实,而对未知的事实则不作任何假设,这也使得最大熵模型从理论上来说更为客观。
[11]
2.2特征选择
特征的本意指事物异于其他事物的特点[10]。
在最大熵方法中,我们称规则为特征。
而规则是从语料中得到的语言知识。
一条规则一般由两部分组成,一部分是条件,另一部分是在条件满足时应采取的行动。
例如,如果“一个待定词的前后两个相邻词均是动词”,则“标注该待定词为名词”就由“如果…”和“则…”两部分组成的特征。
前者描述条件,后者描述行动。
这样一种用简单的语言描述复杂的语言现象,不做任何独立假设地承认已有的可观察事实的方法,就是最大熵模型中的特征选择,文本中的所有特征成为最大熵模型的特征集合。
最大熵模型的关键问题在于如何针对特定的任务选择最能代表对象的特征。
可以说,特征选择的好坏直接关系到最大熵模型的效果。
2.3特征模板
最大熵模型中的特征是通过使用人工构造的特征模板在语料库中匹配生成的。
特征模板的定义通常是首选固定一个窗口,然后考虑这个窗口中构成该语境的各种因素的影响,如词形、词性、特征标注等,在这些影响因素中词形与词性的影响是最为主要的,因此也是本文研究的对象[10]。
同时因为这些影响因素对于特征的影响是复杂的,既可以单独产生影响,又可以相互组合产生影响。
目前学者在进行相关研究时,通常将特征划分为原子特征与复合特征,与之相对应的用于挖掘这两类特征的模板可以分为简单模板与复合模板。
从目前最大熵模型特征选择的效果来看,在其他条件大体相同的情况下,简单模板效果较差,而且不具有太高的领域移植性。
鉴于此,本文使用复合特征模板作为最大熵模型特征选择的基础。
试图通过实验找出复合特征下词形与词性在模板中的平衡点,使最终结果不仅在本领域查全、查准率上取得较好成绩,同时在跨领域的属性挖掘上也取得良好效果。
2.4模型求解
在使用最大熵模型挖掘产品属性时,我们将语句看作由单个词构成的N元序列,对这些词进行状态标注,通过状态序列即可识别出句子中的属性。
若以X={x1,x2,x3…xn}表示待标注语句,Y={y1,y2,y3…yn}表示标注序列。
对于待标注语句X,从中提取出一些特征Y={y1,y2,y3…yn},使得对于每一个特征fi,其权重为wi,目标是为这个待标注语句X选择一个类别。
对于给定的实验对象X,每一个特定类别y的概率值可根据下式来计算:
Py(y|x)=
λifi(x,y)
z(x)=
exp(
λifi(x,y))
上式中,f(x,y)表示的是特征函数,它是一个二值函数,即当所有条件满足该特征条件是,该函数值为1,其他则为0。
λ表示该特征的权重。
z(x)是一个归一化因子,表示将x判别成各个y的模型得分总值
通过分析可以看出,结合最大熵模型后的产品属性挖掘问题常被转化成求解特征函数的权重值,这些权重值可通过数值计算方法求得,其中比较常用的是IIS迭代算法(TheImprovedIterationScalingAlgorithm)。
本文求解参数时采用的方法便是IIS迭代算法。
3研究实验
3.1实验设计思路
鉴于以往此类研究往往大多只讨论了特征模板的构造对于最大熵模型在本领域的挖掘效果的影响,关注的对象多为本领域实验语料下属性挖掘查全率与查准率的高低,缺乏对于其他领域属性挖掘的对比。
本文选取构造特征模板中的两个最主要且最具有代表性的影响因素:
词形与词性,通过不同的组合构造获取特征的不同复合模板。
通过设计实验找出这些不同复合模板中,能使属性挖掘效果不仅在本领域取得高查全率和高查准率,同时也在其他不同领域中取得良好效果的组合。
以此在基本保证本领域的挖掘效果的前提下,对跨领域产品属性挖掘中的影响因素做出初步探索。
3.2实验数据
本文采用来自中关村在线(
选取1000条笔记本相关语料与1000条手机相关语料作为实验对象。
每条评论均经过分词与标注两个步骤,分词使用中科院分词器ICTCLAS,然后用最大熵模型中的特征标注(以名词为中心),如下例:
“衡量打印机好坏的指标有三项:
打印分辨率,打印速度和噪声”
分词后得到:
“衡量/v打印机/n好坏/n的/ude1指标/n有/v三/m项/q:
/wp打印/v分辨率/n,/wd打印/v速度/n和/cc噪声/n。
”
标注后得到:
1.p=nf=衡量fp=va=好坏ap=n0
2.p=nf=打印机fp=na=的ap=ude10
3.p=nf=的fp=ude1a=有ap=v0
4.p=nf=打印fp=va=0ap=01
5.p=nf=打印fp=va=和ap=cc1
6.p=nf=和fp=cca=0ap=00
3.3构造模板
本文复合模板由各词词形与词性之间不同组合构成,为保证对于本领域属性的挖掘效果,每个模板中均加入了由简单特征构成的简单模板,在此基础上模板按照影响因素不同划分为:
前后词形影响、前后词性影响、中心词形影响、中心词性影响。
本文复合模板窗口大小设置为3,假设在分词后模板窗口内信息表示为:
“词1+词2(中心词)+词3”。
令
w1=词1词形,w2=词2词形,w3=词3词形
p1=词1词性,p2=词2词性,p3=词3词性
A=p1、p2、p3、w1、w2、w3
B1=p1/p2
B2=p1/p3
B3=p2/p3
B4=w1/w2
B5=w1/w3
B6=w2/w3
对以上特征进行组合,构成复合特征模板,共10组。
(1)A。
简单模板,仅包含前向、后向词汇的词形及词性。
该模板作为其他各组模板的效果对比。
(2)A+B1+B2+B3。
简单模板+词性影响,在模板
(1)之中加入了全部词汇的词性关系。
验证窗口中各词汇词性之间关系对于最终结果的影响。
(3)A+B4+B5+B6。
简单模板+词形影响,在模板
(1)之中加入了全部词汇的词形关系。
验证窗口中各词汇词形之间关系对最终结果的影响。
(4)A+B1+B2+B3+B4+B5+B6。
简单模板+词性影响+词形影响,在模板
(1)之中加入了全部词汇的词性和词形关系。
与
(2)、(3)结果进行对比。
(5)A+B2。
简单模板+中心词词形影响,在
(1)中加入中心词汇的词形。
验证中心词汇词形对最终结果的影响。
(6)A+B5。
简单模板+中心词词性影响,在
(1)中加入中心词汇的词性。
验证中心词汇词性对最终结果的影响。
(7)A+B1+B3。
简单模板+非中心词词形影响,在
(1)中加入非中心词汇的词形。
验证非中心词汇词形对最终结果的影响。
(8)A+B4+B6。
简单模板+非中心词词性影响,在
(1)中加入非中心词汇的词性。
验证非中心词汇词性对最终结果的影响。
(9)A+B2+B4。
简单模板+中心词形词性影响,在
(1)中加入中心词汇的词形词性。
验证中心词词形词性对最终结果的影响,对比(5)、(6)。
(10)A+B1+B3+B4+B6。
简单模板+非中心词词形词性影响,在
(1)中加入非中心词汇的词形词性。
验证非中心词词形词性对最终结果的影响,对比(7)、(8)
3.4实验结果与分析
一、实验中的性能指标定义如下:
查准率(Precision)=正确标注的命名实体数/标注的命名实体数*100%;
查全率(Recall)=正确标注的命名实体数/语料含有的命名实体数*100%。
令P1、R1为描述笔记本电脑语料实验指标,P2、R2为描述手机实验语料指标;
AP为笔记本语料及手机语料的平均查准率,AR为笔记本语料及手机语料的平均查全率,AF为考察查准率及查全率的综合性能指标;
则:
AP=(P1+P2)/2;
AR=(R1+R2)/2;
AF=(AP+AR)/2。
二、实验结果如下:
笔记本电脑实验语料
手机实验语料
查全率
查准率
(1)
83.21%
87.18%
60.53%
71.43%
(2)
80.77%
89.21%
55.24%
73.50%
(3)
73.21%
89.87%
51.22%
73.46%
(4)
71.28%
89.96%
50.22%
74.61%
(5)
83.54%
86.56%
63.25%
71.45%
(6)
83.22%
87.17%
61.26%
71.63%
(7)
82.25%
88.75%
59.25%
74.36%
(8)
85.46%
85.36%
58.63%
73.56%
(9)
84.23%
87.25%
62.10%
70.33%
(10)
83.45%
86.45%
61.02%
70.69%
AP
AR
AF
79.31%
71.87%
75.59%
81.36%
68.01%
74.68%
81.67%
62.22%
71.94%
82.29%
60.75%
71.52%
79.01%
73.40%
76.20%
79.40%
72.24%
75.82%
81.56%
70.75%
76.15%
79.46%
72.05%
75.75%
78.79%
73.17%
75.98%
78.57%
75.40%
三、实验结果分析
(一)查全率:
比较
(1)—(4),查全率随着限制条件的增多逐渐下降。
其中词形关系的加入使得查全率下降了平均9.66%,影响较大,词性关系对查全率的影响较小,仅3.87%。
比较(5)—(10),在词形词性对查全率的影响中,中心词限制对于查全率影响较小,而非中心词限制对查全率影响较大。
(二)查准率:
比较
(1)——(4),加入词形关系后查准率上升2.05%,加入词性关系后查准率上升2.36%,稍高于词形限制。
比较(5)——(10),词形词性对于查准率的影响中,中心词限制对于查准率影响较小,而非中心词限制对查准率影响较大。
(三)综合性能:
加入全部的限定关系(4),取得了最高的平均查准率82.29%,同时也使得查全率降到最低60.75%。
而取得最高平均查全率73.40%的(5),其查准率则为79.01%。
AF值最高方案为(5),最低位(4),且加入词形关系的方案均取得相对低的AF值。
通过对实验结果的分析、观察和比较,我们发现:
从总体上看,在基于复合模板的最大熵模型下进行属性挖掘,其查全率与查准率基本符合反比变化规律。
从影响因素上看,词形、词性关系对于实验的查全、查准均有一定影响。
在查全率上,加入词形关系使得查全率出现较大程度的减少,同时其在查准率上的提升并不明显。
单就词形、词性两个因素综合影响而言,使用词性限制的挖掘效果要优于词形。
中心词与非中心词对于挖掘效果的影响相对于词形、词性较小,使用中心词限制会使查全率有所提升,查准率出现相应的下降;
使用非中心词限制则出现相反效果;
但总的来说,两种限制在查全率与查准率的变化上基本平衡,最终综合效果相差无几。
如果对查全率有较高要求,可以使用中心词限制;
反之使用非中心词限制。
对于本领域语料,实验结果中查全率与查准率一般在80%以上,查准率更接近90%,基本与当前同类研究水平持平;
但对于非本领域语料(本文中为手机领域),查全率与查准率则相对较低,与本领域相比尚具有较大提升空间。
4总结与展望
本文通过实验探讨了在产品属性挖掘中,构造最大熵模型复合特征模板的两个主要影响因素:
词形与词性,对最终挖掘结果的影响,并比较了二者对于查全查准率的影响。
同时将这种影响划分为中心词汇与非中心词汇影响,利用实验数据对二者的影响力大小进行了测试,指出了中心词与非中心词影响的适用范围。
在保证本领域挖掘效果的基础上,对于跨领域属性挖掘做出了初步探讨。
下一步,笔者将继续基于复合模板下最大熵模型的探索,并将重点放在基于复合模板下最大熵模型的领域可移植性课题上。
参考文献:
[1]余传明.从用户评论中挖掘产品属性-基于SOM.现代图书情报技术2009(5):
61-66
[2]Soo-MinKim,EduardHovy.DeterminingtheSentimentofOpinions.COLING'
04Proceedingsofthe20thinternationalconferenceonComputationalLinguistics,2004
[3]MinqingHu,BingLiu.Miningandsummarizingcustomerreviews.KDD'
04ProceedingsofthetenthACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining,2004.168-177
[4]赫博一,夏云庆,郑方.PINAX:
一个有效的产品属性挖掘系统.第四届全国信息检索与内容安全学术会议论文集:
281-290
[5]余传明.从产品评论中挖掘观点:
原理与算法分析.情报理论与实践2009(7):
124-128
[6]宋晓雷,王素格,李红霞.面向特定领域的产品评价对象自动识别研究.中文信息学报2010,24
(1):
89-93
[7]LiZhuang,FengJing,Xiao-YanZhu.MovieReviewMiningandSummarization.CIKM'
06Proceedingsofthe15thACMinternationalconferenceonInformationandknowledgemanagement,2006
[8]姚天昉,聂春阳,李建超等.一个用于汉语汽车评论的意见挖掘系统.中文信息处理前沿进展——中国中文信息学会二十五周年学术会议:
260-281
[9]吴月萍,陈玉泉.基于Web的概念属性抽取的研究.中国管理信息化2009(10):
98-101
[10]王江伟.基于最大熵模型的中文命名实体识别[D].南京:
南京理工大学,2005
[11]余传明,黄建秋,郭飞.从客户评论中识别命名实体——基于最大熵模型的实现[J].现代图书情报技术2011(5)
作者简介:
李博男,本科生
董晓凯男,本科生
莫苏宁女,本科生
陆伟男,博士,教授,博士生导师,现任武汉大学信息管理学院实验中心主任,主要研究兴趣为信息检索、Web智能挖掘、数字图书馆、知识管理等
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 复合 特征 模板 最大 模型 产品 属性 挖掘 研究