一种基于向量空间模型的多层次文本分类方法文档格式.docx
- 文档编号:21003904
- 上传时间:2023-01-26
- 格式:DOCX
- 页数:9
- 大小:157.72KB
一种基于向量空间模型的多层次文本分类方法文档格式.docx
《一种基于向量空间模型的多层次文本分类方法文档格式.docx》由会员分享,可在线阅读,更多相关《一种基于向量空间模型的多层次文本分类方法文档格式.docx(9页珍藏版)》请在冰豆网上搜索。
相比而言,若能用计算机能直接对大量的文本进行自动分类,就能使人们从繁琐的手工工作中解放出来,并能极大地提高信息的利用率。
文本分类的目标是在分析文本内容的基础上给文本一个或多个比较合适的类别。
目前已经有许多机器学习方法和统计方法。
Vapnik提出的支持向量机(SVM)[2];
在文本分类研究一开始就引起关注的K近邻(KNN)分类器[3];
Yang提出的一种线性最小二乘方拟合法(LLSF)[4];
Apte采用决策树方法进行分类[5]。
另外,神经网络(NNet)和贝叶斯[6],方法也被广泛地应用到文本分类中。
上述大多数方法都采用了经典的向量空间模型(VSM)。
在该模型中,文档的内容被形式为多维空间中的一个点,以向量的形式给出,然后通过计算向量间的距离给定向量类别的归属。
而在向量空间模型中,经典的词语权重计算方法是if.idf,针对if.idf的不足,鲁松等[7]提出了一种结合信息论中信息增益的文档表示改进算法tf.idf.ig,并通过实验验证了该方法的可行性和有效性。
本文对tf.idf.ig方法进行了分析,改进了权重的计算公式,使之更加合理。
另外,在此改进的基础上,本文提出了一种多层次文本分类的方法。
本文组织如下:
第2节介绍对if.idf.ig方法中权重计算公式的改进;
第3节给出多层次文本分类的实现算法;
第4节列出实验结果和分析;
第5节给出结论。
2.权重计算公式的改进
在VSM中,每一篇文档都被映射多维向量空间中的一个点,对于所有的文档类和未知文档,都可用此空间中的向量(T1,W1;
T2,W2;
;
Tm,Wm)来表示(其中Ti为词,Wi为词对应的权值,用以刻画该词在描述此文档内容时的重要程度),从而将文档信息的表示和匹配问题转化为向量空间中向量的表示和匹配问题来处理。
2.1经典的计算公式
对于词权重的计算,经典的tf.idf考虑两个因素:
1)词语频率tf(ternfrequency):
词语在文档中出现的次数
2)词语倒排文档频率idf(inversedocumentfrequency):
该词语在文档集合中分布情况的一种量化,常用的计算方法是log(N/nk+0.01);
其中N为文档集合中的文档数目;
nk为出现该词语的文章数。
根据以上两个因素,可以得出公式:
Wik=tfiklog(N/nk+0.01),其中tfik为词语Tk在文档Di中出现的次数,Wik为词语Tk在文档Di中的权值,k=1,2,…,m(m为词的个数)。
为了计算方便,通常要对向量进行归一化,于是最后得到公式:
(1)
以上公式的提出是基于这样一个考虑:
对区别文档最有意义的特征词应该是那些在文档中出现频率足够高而在文档集合中的其它文档中出现频率足够少的词语。
2.2文[7]的改进
词语权重的计算公式
(1)还有一些不足,比如有些对区分文档毫无意义但出现频率差不多的词会被考虑成特征词,这是因为tf.idf方法虽然考虑了词语在文档集合中的分布情况,但是并没有考虑分布的比例情况。
针对这些不足,文[7]引入了信息论中信息增益的概念,即把文档集合D看成一个符合某种概率分布的信息源,依靠文档集合的信息熵和文档中词语的条件熵之间信息量的增益关系确定该词语在文本分类中所能提供的信息量,即词语在分类中的重要程度,然后将该信息量综合到权重计算公式中。
词语Tk信息量的计算公式为IGk=H(D)H(D/Tk)
其中文档集合D的信息熵
,
词语Tk的条件熵
而文档di的概率
说明:
|wordset(di)|表示文档di中词语集合的个数
这样权重计算公式就可以改为
(2)
文[7]通过文档分类试验验证了采用该公式分类效果得到了一定的提高,详细结果参见文[7]。
2.3我们的改进
公式
(2)也存在不足,在计算文档的概率时只考虑到词语的数目,两篇词语相同但是词语频率不相同的文档都会被认为概率相同,为了能进一步更加准确地反映文档分布的比例情况,我们重新定义
(3)
其中wordfreq(di)表示文档di中所有词的词频之后,其余的公式同2.2节中定义的一样。
3.多层次分类算法
一般的分类方法都采用全部类别共享一个分类器或者每个类别设置一个分类器的方法,又称为单分类器方法或者多分类器方法,而且这些方法中的类别都是在同一个层次,即处于同一个平面类空间上。
当类别的个数较多时,提取模型的时间耗费巨大,而且对新文档进行分类的时候要和全部类模型进行比较,以便给该文档分配合适的类别。
针对以上不足,我们提出一种基于向量空间模型的多层次文本分类方法,也就是将全部类别按照一定的层次关系组织成一个树状结构。
该方法的提出是基于这样一个考虑:
属于同一结点下的各类肯定比不属于同一结点下的各类更有共性,比如足球、篮球、羽毛球之间的共性肯定比足球、软件、音乐之间的共性多。
正是基于以上的假设,我们把分类任务划分成更小的与类层次结构对应的分类子问题。
比如,存在一个区分体育和电脑网络的分类器,另外还存在一个仅用于体育类的分类器,用来区分足球、篮球、羽毛球。
每一个子任务显然比原来的任务更加简单,因为在树结构中每个结点的分类器只需要在少部分类中区分,而且由于这部分类的共性较多,这样各类模型中所包含的特征词也比较少。
3.1`构建类模型
通过对给定的经过人工按照类层次结构进行分类的文档集合进行训练,经过特征选取(特征词和权值的选取)就可以构建对应的类模型,为自动分类提供基础。
在构造各类模型的算法中,每个模型由向量表示,包括该类的特征词和对应的权值。
在特征词的选取中,我们综合考虑了频度和集中度两种因素。
考虑频度因素的特征词选择方法认为,在某一类文档中出现次数越多的词能够代表这类文档;
考虑集中度因素的特征词选择方法认为,某类的特征词应该集中出现在该类的文档中,而不是均匀地分布在各类文档中[8]。
另外,在实际应用中组成某个类的模型的特征项的个数也不易过多,可以只保留权值较高(超过某权值阈值)的项,否则会大大降低系统的处理速度[9]。
在我们的算法中,每一个文档类中的所有训练文档都合并为一个类文档进行文档类的特征词的提取,至于权重的计算公式则采用2.3节所提到的。
为了进一步提高模型的代表性,我们的算法在考虑权值的基础上,也考虑了以上提到的词频、词的集中度因素。
详细算法CCM(CreateClassModel)如下:
输入:
人工确定的各类之间的层次关系,实际上是一树状结构,每一结点(除了根结点)代表一个类,各训练文档都被人工分在叶子结点对应的子类中
输出:
各类对应的类模型,以文本文件的方式存储
步骤:
对最底层到根结点自下而上的每一层的所有结点进行处理:
1.若该结点Node是叶子结点,则统计该结点对应的类文档中的词频信息,包括各词的词频统计、总词数和总词频的统计
2.若该结点Node不是叶子结点,假设该结点有V1,V2,,Vt共t个儿子结点,对应的文档类中有T1,T2,,Ts共s个词
1)根据公式(3)计算结点Vi对应的类文档di出现的概率p(di),其中i=1,2,…,t
2)计算H(D)和H(D/Tk),得到IGk,其中k=1,2,…,s
3)提取结点Vi对应的类模型Ci,i=1,2,…,t
a)初始化类模型Ci为空
b)根据公式
(2)计算词Tk的权值Wik,k=1,2,…,s
c)对各个词按照权值从大到小的顺序重新排列成T1,T2,,Ts
d)依次对从T1到Ts的各词进行判断:
若类模型Ci中的特征词个数已经达到阈值NUMT,则该类模型Ci提取结束;
否则若词Tk的权值超过一定的阈值、词频超过一定的阈值、词的集中度超过一定的阈值,而且该词不在事先已设定的停用词表中,则该词可以作为该类的特征词,和权值一起加入类模型中。
此算法提取各类模型时只在同层同一结点下的类训练文档间进行比较,而且各类模型中的特征词个数也不固定。
3.2文档自动分类
自动分类就是通过计算机对大量的新文档进行分类。
我们首先要把这些文档用归一化后的向量来表示,包括该文档中的词和该词在文档中的权重,文档中词权重的计算主要考虑词频、词的位置等因素;
然后对该文档向量根据类层次结构和各类模型从上往下一层一层匹配,直到叶子结点,即找到合适的最底层子类。
详细算法TC(TextClassification)如下:
人工确定的各类之间的层次关系,实际上是一树状结构,每一结点(除了根结点)代表一个类;
各类模型;
待分类的文档
分配好合适类别的文档
步骤1:
对待分类的文档进行向量化,设对应的向量为d=(T1,W1;
Tm,Wm)
步骤2:
结点X根结点,若结点X不是叶子结点,反复执行:
1)设结点X有V1,V2,,Vt共t个儿子结点,结点Vi,对应的类模型为Ci=(t1,w1;
t2,w2;
;
tn,wn),i=1,2,…,t
2)依次计算文档和各类之间的相似度,其中相似度Sim(Ci,d)用向量d和Ci之间的夹角来度量:
a)Sim(Ci,d)=0
b)若m>
=n,
ⅰ)则对Ci中的每个词tu(u=1,2,…,n)在向量d中查找是否存在,
若存在,对应的词为Tv,则Sim(Ci,d)=Sim(Ci,d)+Wvwu
ⅱ)否则对d中的每个词Tv(v=1,2,…,m)在向量Ci中查找是否存在,
若存在,对应的词为tu,则Sim(Ci,d)=Sim(Ci,d)+Wvwu
c)找到和向量d相似度最大的类Cmax,即Sim(Cmax,d)=Maxi(Sim(Ci,d)),i=1,2,…,t,结点X结点Vmax
步骤3:
结点X对应的类就是自动分给文档的类
4.实验结果及分析
我们实验室为某IT公司开发了关于文本分类方面的系统,主要思路是:
按照公司的需要构建具有树状结构的分类体系,通过对给定的经过人工按照类层次结构进行分类的文档集合进行训练,得到各个类对应的类模型;
然后对网络蜘蛛(Spider)爬回来的网页信息提取相应的文档内容,并且对该内容进行自动分词(包括正反向最大匹配切词、歧义处理、姓名识别,音译名识别、地名识别),再根据自动分类算法将该网页分类。
经过近半年的试运行和多次的修正,已取得了较为理想的分类效果。
在测试阶段,我们使用从新浪、FM365、网易等网站下载的网页中整理出11000篇文档,其中的9360篇作为训练集,1740篇作为测试集。
这些文档对应的类结构如下图所示:
整个实验分了两部分:
第一部分比较所有的类在同一层次和在不同层次下分类的准确率与召回率;
第二部分比较多层次分类方法下不同的权重计算公式对应的分类的准确率和召回率。
实验结果分别见表1和表2。
由表1可以看出,在对少数某些类别的文档进行分类时多层结构下的召回率或者准确率比单层结构下的要低,这是因为在每一层进行模型匹配时都会有一定的误差,层数也往下总误差就会越大。
但是从总体看,多层结构下分类的召回率和准确率都要好于单层结构下的,尤其是对于那些相对全部类来说特征比较模糊的类别提高的效果就比较明显,如篮球其它、体育其它等类。
从表2的实验结果分析,从总体看,改进后的tf.idf.ig方法好于if.idf.ig,而if.idf.ig又好于if.idf。
同时应该指出,尽管改进后的权重计算方法取得了一定的效果,但是针对整个文本分类问题的效果仍未出现明显提高。
正如Yang在文[3]中所述:
文本分类问题是涉及到文本表示、相似度计算和算法决策等多种复杂技术的综合应用。
5.结束语
为了能进一步更加准确地反映文档分布的比例情况,本文在文[4]的基础上对词语权重的计算方法进一步做了改进,经过实验验证,从总体上看性能要好于传统的方法。
考虑到各类别之间的关系,我们提出了一种基于向量空间模型的多层次文本分类方法,把分类任务划分成更小的与类层次结构对应的分类子问题,在提取各类模型时也只在同层同一结点下的类训练文档间进行比较,以减少计算量,使类模型更加正确,这无疑是对分类方法一种有益的尝试。
在此基础上我们开发的有关文本分类的系统运行状况良好,具有速度快、准确度较高等特点。
考虑到向量空间模型中的文档表示方法损失了大量的词语关联信息,如何在文档表示、分类模型提取、分类算法中弥补这些损失将是我们今后研究的重点。
参考文献
[1]李晓黎,刘继敏,史忠植.概念推理网及其在文本分类中的应用,计算机研究与发展,2000,37(9):
1032~1038
[2]VapnikV,TheNatureofStatisticalLearningTheory.NewYork,,Springer-Verlag,1995
[3]YangY,Expertnetwork:
effectiveandefficientlearningfromhumandecisionsintextcategorizationandretrieval.InProceedingsoftheFourthAnnualSymposiumonDocumentAnalysisandInformationRetrieval(SIGIR’94),1994,13~22
[4]YangY,ChuteCG.Anexample–basedmappingmethodfortextcategorizationandretrieval.ACMTransactiononInformationSystems(TOIS),1994,12(3):
252~277
[5]ApteC,DamerauF,andWeissS.Textminingwithdecisionrulesanddecisiontrees.InProceedingsoftheConferenceonAutomatedLearningandDiscovery,Workshop6:
LearningfromTextandtheWeb,1998
[6]MitchellT.MachineLearning.McGraw:
Hill,1996
[7]鲁松,李晓黎,白硕等.文档中词语权重计算方法的改进,中文信息学报,2000,14(6):
8-13
[8]李国臣.文本分类中基于对数似然比测试的特征词选择方法,中文信息学报,1999,13(4):
16-21
[9]邹涛,王继成,黄源等.中文文档自动分类系统的设计与实现,中文信息学报,1999,13(3):
26-32
[10]黄萱菁.大规模中文文本的检索、分类于摘要研究,复旦大学博士学位论文,1998
.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 向量 空间 模型 多层次 文本 分类 方法