文本挖掘主要技术研究.docx
- 文档编号:3867184
- 上传时间:2022-11-26
- 格式:DOCX
- 页数:15
- 大小:84.02KB
文本挖掘主要技术研究.docx
《文本挖掘主要技术研究.docx》由会员分享,可在线阅读,更多相关《文本挖掘主要技术研究.docx(15页珍藏版)》请在冰豆网上搜索。
文本挖掘主要技术研究
文本挖掘主要技术研究
摘要:
Web技术的发展日新月异,与此同时,因特网上的文本信息愈积愈多,浩如烟海。
如何从这些海量文
本数据挖掘出潜在的、有价值的信息,已经成为越来越多人的研究重点。
本文主要介绍了文本挖掘的基本方法,包括文本特征提取、特征子集选取、文本分类、文本聚类等,并对这些方法的改进进行了分析。
在此基础上,介绍了文本挖掘在当今一些领域的应用。
关键词:
文本挖掘特征提取特征子集选取文本分类文本聚类应用
ResearchofMajorTechnologiesinTextMining
【Abstract】WiththerapiddevelopmentofWebtechnology,textinformationontheInternethasatremendousgrowth.HowtodigoutthepotentialandvaluableinformationfromthetextinformationontheInternethasbecomethefocusofmanypeople'sresearch.Thispaperdescribesthebasicmethodsoftextmining,includingtextfeatureextraction,featuresubsetselection,textcategorization,textclustering,etc.,itmakessomeanalysisonhowtoimprovesomeofthesemethods.Inaddition,itintroducestheapplicationinsomefieldswithtextminingtechnology.
【Keywords】textmining,featureextraction,featuresubsetselection,textcategorization,textclustering,application
1文本挖掘概述
文本挖掘[1](TextMining,TM),又称为文本数据挖掘(TextDataMining,TDM)或文本知识发现(KnowledgeDiscoveryinTexts,KDT),是指为了发现知识,从大规模文本库中抽取隐含的、以前未知的、潜在有用的模式的过程[2]。
它的主要用途是从原本未经使用的文本中提取出未知的知识。
但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术[3]。
本文主要从文本挖掘的特征提取、文本分类、聚类等方面对文本挖掘技术进行全面的分析。
2、文本特征提取
与数据库中的结构化数据相比,Web文档具有有限的结构,或者根本就没有结构。
即使具有一些结构,也是着重于格式,而非文档内容。
不同类型文档的结构也不一致。
此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义。
文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。
我们需要对文本进行预处理,抽取代表其特征的元数据。
这些特征可以用结构化的形式保存,作为文档的中间表示形式。
文本特征指的是关于文本的元数据,分为描述性特征,例如文本的名称、日期、大小、类型等;以及语义性特征,例如文本的作者、机构、标题、内容等。
描述性特征易于获得,而语义性特征则较难得到。
W3C近来制定的XML[4]、RDF[5]等规范提供了对Web文档资源进行描述的语言和框架。
在此基础上,我们可以从半结构化的Wet文档中抽取作者、机构等特征。
特征表示[6]是指以一定的特征项(如词条或描述)来代表文档信息,特征表示模型有多种,常用的有布尔逻辑型、向量空间型、概率型等。
近年来应用较多且效果较好的特征表示法是向量空间模型(VectorSpaceModel,VSM)法[7]。
在VSM中,将每个文本文档d看成是一组词条(T1,T2,,,Tn)构成,对于每一词条Ti,都根据其在文档d中的重要程度赋予一定的权值Wi,可以将其看成一个n维坐标系,W1,W2-Wn为对应的坐标值,因此每一篇文档都可以映射为由一组词条矢量张成的向量空间中的一点,对于所有待挖掘的文档都用词条特征矢量(T1,
W1(d),T2,W2d)T-n,Wn(d))表示。
这种向量空间模型的表示方法,可以将d中出现的所有单词作为Ti,也可以将d中出现的所有短语作为Ti,从而提高特征表示的准确性。
Wi(d)一般被定义为Ti在d中出现率tfi(d)的函数,常用的有布尔函数,平方根函数,对数函数,TFIDF函数等。
3、文本特征子集选取
构成文本的词汇数量是相当大的,因此表
示文本的向量空间的维数也相当大,可以达到
几万维,因此需要进行维数压缩的工作。
目前对WWW文档特征所采用的特征子集[8]选取算法一般是构造一个评价函数,对特征集中的每一个特征进行独立的评估,这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作
为结果的特征子集。
一般用的评估函数[9]有几率比(Oddsratio)、信息增益(InformationGain)、期望交叉熵(ExpectedCrossEntropy)、互信息(MutualInformation)、词频(WordFrequency)等,限于篇幅,本文并不详细介绍。
4、文本分类
分类[10](CategorizationorClassification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。
分类是事先定义好类别,类别数不变。
分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。
本文介绍了常用的分类算法,其中对朴素贝叶斯和KNN算法进行了详细的介绍。
4.1朴素贝叶斯
贝叶斯分类是一种统计学分类方法,它基于贝叶斯定理,公式如下:
4、如果
RykIx)=maxf^|x),Ry?
Ix),...,Ry.Ix)}
,则xyk。
卿悔样木
怖有如邮報ft播平
呻曲RW
图1朴素贝叶斯分类流程图
它可以用来预测类成员关系的可能性,给出文本属于某特定类别的概率,分类时根据预测结果将该样本分到概率最高的类别中去即可。
朴素贝叶斯分类模型训练的过程其实就是统计每一个特征在各类中出现规律的过程,从理论上,讲贝叶斯分类的出错率最小,就试验结果来看,朴素贝叶斯在大型的数据集上表现出来难得的速度和准确度。
朴素贝叶斯分类的正式定义如下:
1、设x={印,a?
am}为一个待分类
项,而每个a为x的一个特征属性。
2、有类别集合C={yi,y?
...,yn}。
3、计算
P(yiIX),P(y2|X),...,P(ynIx)。
朴素贝叶斯分类器(nativeBayes假设特征对于给定类的影响独立于其它特征,即特征独立性假设。
对文本分类来说,它假设各个单词Wi和Wj之间两两独立。
设训练样本集分为k类,记为C={C1,C2,…,Ck},则每个类Ci的先验概率为P(Ci),i=1,2,…,k,其值为Ci类的样本数除以训练集总样本数n。
对于新样本d,其属于Ci类的条件概率是P(Ci|d)。
根据贝
叶斯定理,Ci类的后验概率为P(Ci|d);
P(d|G)RC)
P^
(1)
P(d)对于所有类均为常数,可以忽略,则式
(1)简化为:
RG|d)兰P(d|G)P(C)
(2)
为避免P(Ci)等于0,采用拉普阿斯概率估
计:
RC)=I^h
(3)
式中:
C为训练集中类的数目,DCi为训练集中属于类Ci的文档数,DC为训练集包含的总文档数。
在特殊情况下,训练样本集中各类样本数相等,此时类的先验概率
相等,式
(2)可以简化:
P(G|d)犬P(d|C)(4)
“)= 朴素贝叶斯分类器将未知样本归于类i 的依据如下: P(C|d)=argmax{P(C]|d)P(Cj)}, j二1,2,.・・,k. (5) 文档d由其包含的特征词表示,即d =(w1,…,wj,…,wm),m是d的特征词个数d,wj是第j个特征词,由特征独立性假设,则得 m P(Ci1d)=P((■1^2,…,■m)1Ci)P(■j1Ci) j土 (6) 式中: P(・打|C)表示分类器预测单 词wj在类Ci的文档中发生的概率。 因 此式 (2)可转换为 |d| P(G|d)氏R(C)门只叫|C) j丄 (7) 为避免式⑺中P(j|Ci)等于0,可以采用拉普拉斯概率估计。 有两种方法计算P(COj|C),即文档型计算公式和词频型计算公式。 (1)文档型: 不考虑单词在文档中的出现 频次,仅考虑单词在文档中是否出现,0表 示未出现,1表示出现,依式(8)计算: 式中: N(doqwj)|G)为Ci类文本中出现特征wj的文本数。 (2)词频型: 考虑单词在文档中出现的频 次,依式(9)计算: 1+TF(Wj,C) p(w|G)=『jJ 丨V丨吃TF(wk,Ci) k— (9) 式中: V表示特征词表中总单词数, TF(wj,Ci)表示单词wj在类Ci的所有文 档中出现的频次之和。 [11] 4.2K近邻分类K-nearestneighbor 图2KNN决策过程图 KNN分类算法的主要思想是: 先计算待分类样本与已知类别的训练样本之间的距离或相似度,找到距离或相似度与待分类样本数据最近的K个邻居;再根据这些邻居所属的类别来判断待分类样本数据的类别。 如果待分类样本数据的K个邻居都属于一个类别,那么待分类样本也属于这个类别。 否 则,对每一个候选类别进行评分,按照某种规则来确定待分类样本数据的类别[12]。 我们采用欧氏距离来确定样本的相似 性。 欧氏距离的计算公式为: d(x,y)二? '(Xj—yj2 KNN以简单和高鲁棒性而被广泛应用于机器学习和数据挖掘领域,被证实是向量空间模型(VSM)下最好的文本分类方法之一。 然而KNN算法有其固有的缺点,当训练样本集过大或特征过多时,KNN算法的效率会明显下降[13]。 鉴于此,卜凡军等提出了基于向量投影的PKNN算法[14]。 4.3KNN改进算法PKNN KNN算法的计算量主要花费在分类阶段: 每次对一个待分类样本分类时,都要计算其与所有训练样本的距离,如果对大量高维数据进行分类,那么计算开销将是非常大的。 因此,基于iDistance[15]降维思想和 向量投影理论的改进KNN的PKNN算法,能够快速准确地选取很小的训练样本库,可以大大提高效率。 PKNN算法流程 (1)读入训练样本Yi(i=1,2,…,n): 由式(3)求出训练样本的中心M。 (2)根据式 (1)计算各训练样本点与中心 点M的欧氏距离,可得距离M的最远点Ymax。 (3)根据文中的方法求出各训练样本点在 MYmax上的投影距离Di(i=1,2,…,n),(-|MYmax| 对Di排序。 (4)读入一个待分类点x,求x在向量max上的投影距离Dx。 (5)采用二分搜索的方法搜索获得训练样本中Di与Dx最近的n1个点。 (6)通过计算这n1个点与x的欧氏距离获得最近的K个点,根据这k个点的类别属性得出x所属的类。 (7)读入下一个待分类点,循环步骤 (4)~(6)。 4.4决策树DecisionTree 决策树(DecisionTree)是用于分类和 预测的主要技术,它着眼于从一组无规则的事例推理出决策树表示形式的分类规则,采 用自顶向下的递归方式,在决策树的内部节 点进行属性值的比较,并根据不同属性判断从该节点向下分支,在决策树的叶节点得到结论。 因此,从根节点到叶节点就对应着一条合理规则,整棵树就对应着一组表达式规则。 基于决策树算法的一个最大的优点是它在学习过程中不需要使用者了解很多背景知识,只要训练事例能够用属性即结论的方式表达出来,就能使用该算法进行学习[16]。 5、文本聚类 5.1聚类概述 聚类是根据数据的不同特征,将其划分为不同的数据类。 它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。 聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法[17]。 聚类流程如下: ^1~ 橐类方衆 图3聚类流程图[18] 5.2文本聚类概述 文本聚类主要是依据著名的聚类假设同类的文档相似度较大,而不同类的文档相似度较小。 作为一种无监督的机器学习方法,它在给定的某种相似性度量下把对象集合进行分组,使彼此相近的对象分到同一个组内。 文本聚类根据文档的某种联系或相关性对文档集合进行有效的组织、摘要和导航,方便人们从文档集中发现相关的信息。 文本聚类方法通常先利用向量空间模型把文档转换成高维空间中的向量,然后对这些向量进行聚类。 由于中文文档没有词的边界,所以一般先由分词软件对中文文档进行分词,然后再把文档转换成向量,通过特征抽取后形成样本矩阵,最后再进行聚类,文本聚类的输出一般为文档集合的一个划分。 5.3文本聚类的算法 5.3.1基于层次的方法 一个层次的聚类算法[19]将数据对象组织成一棵聚类的树。 根据层次分解是自底向上还是自顶向下形成,层次的聚类算法可以进一步分为凝聚的(agglomerative)和分裂 的(divisive)层次聚类。 凝聚的层次聚类,首先将每个文本对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者终止条件满足。 分裂的层次聚类,与凝聚的层次聚类相反,它首先将所有对象臵于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者终止条件满足。 对于给定的文档集合D={d1,? ,di,? ,dn},层次凝聚法的过程如下: (1)将D中的每个文本di看作是具有单个成员的类ci={di},这些类构成了D的一个聚类C={c1,? ,ci,? ,cn}; (2)计算C中每对类(ci,cj)之间的相似度sim(ci,cj); (3)选取具有最大相似度的类对,并将ci和cj合并为一个新的类ck,从而构成了D的一个新的聚类C={c1,? ,ci,? ,cn-1}; (4)重复上述步骤,直到C中剩下一个类为止。 5.3.2基于划分的方法(k-means及其改 进算法) k-means(K-平均)是一种典型的基于划分的方法。 是一种基于质心的聚类技术,其基本原理是首先选择k个文档作为初始的 聚类点,然后根据簇中对象的平均值,将每个文档(重新)赋给最类似的簇,并更新簇的平均值,然后重复这一过程,直到簇的划分不再发生变化[20]。 k-means的算法复杂度为0(kin),其中I为迭代次数,n为文档个数,k为类别个数。 k-means算法描述: 输入: 簇的数目k,包含n个文本的特征向量。 输出: k个簇,使平方误差准则最小。 步骤: (1)任意选择k个对象作为初始的簇中心; (2)repeat; (3)根据簇中对象的平均值,将每个对象(重新)赋给最类似的簇; (4)更新簇的平均值; (5)until不再发生变化。 本文通过C++实现了k-means算法, 划分结果示例截图如下: 图4k-means算法聚类示例图 由上述算法可知,k-means具有高效 率,并有效处理大文本集的优点。 k-means算法本质上是一种贪心算法。 可以保证局部最小,但是很难保证全局最小。 传统的k-means算法对初始聚类中心敏感,不同的初始中心往往对应着不同的聚类结果。 袁方等[21]提出了一种优化初始聚类中心的改进k-means算法。 优化初始聚类中心改进k-means算法 描述如下: 输入: 聚类个数k以及包含n个数据对象的数据集; 输出: 满足目标函数值最小的k个聚 类。 (1)计算任意两个数据对象间的距离 d(Xi,Xj); (2)计算每个数据对象的密度参数,把处于低密度区域的点删除, 得到处于高密度区域的数据对象的集合D; (3)把处于最高密度区域的数据对象作为第1个中心z1; (4)把z1距离最远的数据对象作为第2个初始中心z2,z2€D; (5)令z3为满足 max(min(d(Xj,Zi),d(Xj,Z2))) i=1,2,...,n 的数的数据对象Xi,JD; (6)令z4为满足 max(min(d(Xi,zj,d(Xi,Z2),d(\,Z3))) i二1,2,...,n 的数的数据对象Xi,Z4•D; (7) 令 zk 为 满 足 max(min(d(Xi Zj )) i =1,2,.. ., n;j =1,2,.. J k -1 的数据对象 Xi, Zk eD; (8)从这k个聚类中心出发 应用 k-means 聚类算法 ,得到聚类结果。 经改进的k-means 算法与原算法准确 率比较结果如下: 1 1 i £ 1 3 9 L35IDI 扯*1副 3I52K31 urn 脚J孔 5IWi I3JD53 ]5*JI I-125I-2 51W. 囲冬. 邊 LZJEft5弭玮 M.W 1415% NJI3 %«F. JM邸 M少廉门炉 观」 黑加刖 <51氏 训晒 35.1WM 1 EI.M51Mm 邮豪 51TJ% MW7I 血器对殊 用加 ilWi 程 】」欣 mu 5? 聃 口削打12鴨 2IJ9T.IS BU+5 酋铁 3b.3IJ« 中 LLW.IJ4Ji7? % HJ齐 沏」乂L0 闸序 Hun 512ft 耳胳 il辭 HJR.I算RP* I.4W WLfi 75热 ipjn 图5k-means算法与改进k-means算法的比较图 可见在多数数据集中,改进算法要比原k-means算法的准确率高。 6、文本挖掘应用 文本挖掘最大的动机是来自于潜藏于电子形式中的大量的文本数据。 利用数据挖掘技术处理公司大量的文本数据,将给企业带来巨大的商业价值。 另外人们对于文本挖掘的感兴趣的原因还在于: 人们有时候并不知道他们到底要找什么,而挖掘能够从数据库中抽取出许多有用的信息。 目前,文本挖掘在搜索引擎、舆情分析、用户推荐等各个领域都有所应用,本文简单介绍下其在舆情分析下[22]的应用。 6.1网络舆情分析 6.1.1对网络舆情进行描述 通过对网络舆情信息的文本挖掘,可以 生成有关网上针对某一社会公共事件存在的不同的民众情绪、态度、观点即网络舆情的总体概括的描述性信息。 如利用文本特征提取可以了解舆情信息涉及的具体社会问题、发现并追踪社会热点和焦点内容、利用文本分类技术可以判断该事件反映哪类社会问题。 6.1.2对网络舆情的关联性进行分析文本挖掘可以从时间与空间分析事件之间的关联性,发现从时空角度关联事件的发展规律及发展趋势。 如通过文本挖掘分析法可以明确舆情信息产生者与舆情信息特征之间的关联性,这样就能通过分析舆情信息的特征来追溯舆情信息的来源。 网络信息的主题检测和追踪技术可以在海量网络信息中,自动发现突发事件的舆情信息流主题。 文本挖掘技术可跟踪突发事件的相关信息,实现 网络舆情热点焦点信息的自动发现,可以有效的辅助发现并预警不良信息,起到辅助决策支持的作用。 6.1.3真实性进行判断分析,意图倾向推论 网上虚假信息和不良信息会引发错误舆情导向,需要通过文本挖掘对其进行判定和掌控。 网络舆情信息在大多数情况下真实地表达出了民众的态度和情绪,如通过网站所发 布的对时政问题的讨论,可以推断其观点和 立场。 事件发生的全貌及产生的影响。 网络还大量存在着歪曲、偏激地反映社会现实、现代社会的价值观念的舆情信息,甚至还有别有用 心的人,在网上散布虚假信息。 在这种情况下,通过文本挖掘分析法,可以比较网络舆情信息与社会现实状况,对虚假信息追根溯 源,及时消除其不良影响。 6.1.5预测和推论网络舆情信息的产生和变化趋势 舆情一经产生,便处在动态变化之中,对网络舆情变动趋势的预测,对于管理决策 者有着重要的意义[23]。 7、结束语 本文对文本挖掘的主要技术进行了详细的介绍和分析,并对相关技术的改进算法进行了探讨。 目前文本挖掘尤其是中文文本挖掘,还是有很大的研究空间。 现有的一些中文文本挖掘对语义理解方面做的还不够多,当然,这与中文的博大精深有一定的关系。 笔者导师的研究方向是Web海量信息处理 和垂直搜索。 目前笔者导师的团队在做垂直搜索引擎的过程中,一直都涉及文本处理、文本挖掘、文本分析等方面,现有的文本挖掘技术虽然比较成熟,但是在特定项目中,还是存在覆盖面不够的情况。 各类Web文本挖掘技术,技术虽然成熟,但大部分成果都是基于统计,很少有基于理论的,笔者希望在今后的研究道路上,能够对相关技术进行进一步的探讨与改进,尤其期盼在基于理论的文本挖掘技术方面能够有一些出彩的成果。 6.1.4对网络舆情的产生原因进行分析文本挖掘技术利用多维分析对舆情信息进行跨时间、跨空间的综合分析,描述起因 参考文献 NearestNeighborSearch[C],In: ACM [1]谌志群,张国煊.文本挖掘研究进展J].模式识 TransactionsonDatabaseSystems,Vol.V,No. 别与人工智能,2005: 65-74. N,Month2001,Pages1-3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 挖掘 主要 技术研究