人工智能人工智能的文本分类方法简述.docx
- 文档编号:25377193
- 上传时间:2023-06-07
- 格式:DOCX
- 页数:9
- 大小:42.14KB
人工智能人工智能的文本分类方法简述.docx
《人工智能人工智能的文本分类方法简述.docx》由会员分享,可在线阅读,更多相关《人工智能人工智能的文本分类方法简述.docx(9页珍藏版)》请在冰豆网上搜索。
人工智能人工智能的文本分类方法简述
(人工智能)人工智能的文本分类方法简述
人工智能的文本分类方法简述
摘要:
本文阐述了壹些基本的文本分类的方法,以及壹些改进的文本文类的方法,且包含了壹些文本分类的实际应用。
其中着重阐述了贝叶斯分类以及壹些其他的的文本分类方法。
最后提出了当下文本分类方法中存于的壹些问题。
关键词:
文本分类;贝叶斯方法;数据挖掘;分类算法。
0引言
文本分类是指于给定分类体系下,根据文本内容(自动)确定文本类别的过程。
20世纪90年代以前,占主导地位的文本分类方法壹直是基于知识工程的分类方法,即由专业人员手工进行分类。
目前于国内也已经开始对中文文本分类方法进行研究,相比于英文文本分类,中文文本分类的壹个重要的差别于于预处理阶段:
中文文本的读取需要分词,不像英文文本的单词那样有空格来区分。
从简单的查词典的方法,到后来的基于统计语言模型的分词方法,中文分词的技术已趋于成熟。
且于信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。
人工智能的基本方法就是对人类智能活动的仿真。
小样本数据能够见作是壹种先验知识不完全的数据集。
人类于处理类似的决策问题时,通常采用的策略为:
1,利用多专家决策来提高决策的可信度;2,专家的决策技能于决策的过程中能够得到不断的增强,即专家具有学习功能;3,于专家的技能得到增强的基础上,再进行决策能够提高决策的正确性。
这种方法同样适用于小样本数据的分类识别。
通过对上述方法的仿真,本文提出了智能分类器,它不仅能够对未知样本进行分类,同时它仍具有多专家决策、预分类和学习功能。
1分类的基本概念
分类就是根据数据集的特点找出类别的概念描述,这个概念描述代表了这类数据的整体信息,也就是该类的内涵描述,且使用这种类的描述对未来的测试数据进行分类。
分类的过程壹般分为俩个步骤:
第壹步,通过已知数据集建立概念描述模型;第二步,就是利用所获得的模型进行分类操作。
对各种分类方法的评估能够根据以下几条标准进行:
1)预测准确率,指模型能够正确预测未知数据类别的能力;2)速度,指构造和使用模型时的计算效率;3)鲁棒性,指于数据带有噪声或有数据遗失的情况下,模型仍能进行正确预测的能力;4)可扩展性,指对处理大量数据且构造相应有效模型的能力;5)易理解性,指所获模型提供的可理解程度。
2常用的分类算法
2.1基于决策树的分类
所谓决策树就是壹个类似流程图的树型结构,其中树的每个节点对应壹个非类别属性,每条边对应这个属性的每种可能值,而树的每个叶结点代表壹个类别(如图1)。
生成决策树的壹个著名的算法是Quinlan提出的ID3算法,ID3算法从树的根节点处的所有训练样本开始,选取壹个属性来区分这些样本,属性的每壹个值产生壹个分支。
将分支属性值的相应样本子集移到新生成的子节点上。
这个算法递归地应用于每个子节点,直到壹个节点上的所有样本均分区到某个类中。
属性选择采用信息增益的方法来确定。
选择具有最高信息增益(熵减少的程度最大)的属性作为当前结点的测试属性,这样保证所产生的决策树最为简单,工作量最小。
设S为壹个包含了S个数据样本的集合,且类别属性能够取m个不同的值{C1,C2……,Cm}。
假设Si为类别Ci中的样本个数;则对壹个给定数据对象进行分类所需要的信息量为:
其中pi=si/s。
设壹个属性A取v个不同的值{a1,a2……,av},利用属性A将S划分为v个子集{S1,S2……,Sv},设Sij为子集Sj中属于Ci类别的样本数。
那么利用属性A划分当前样本集合所需要的信息(熵)能够按如下公式计算:
这样利用属性A对当前分支结点进行相应样本集合划分所获得的信息增益就是:
通过之上公式计算每个属性的信息增益。
选择具有最高信息增益的属性作为给定集合S的测试属性,创建壹个节点,且以该属性标记,对属性的每个值创建分支,进行样本
划分。
ID3算法于选择属性时利用了信息增益的概念,算法的基础理论清晰;决策树的每个分支均对应壹个分类规则,因此产生的分类规则易于理解;同时,分类速度较快,准确率较高。
可是ID3算法也存于着许多不足:
1)不能够处理连续值属性;2)计算信息增益时偏向于选择取值较多的属性;3)对噪声较为敏感;4)于构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效;5)只适合于能够驻留于内存的数据集使用,当训练集大得无法于内存容纳时程序无法运行。
ID3的改进算法有C4.5,C4.5用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择属性值多的属性的不足。
此外,于树构造过程中或构造完成后进行剪枝,提高了抗噪声能力;能够对连续值属性进行离散化处理;能够对不完整数据进行处理。
常用的决策树算法仍有SLIQ算法。
SLIQ算法对C4.5分类算法的实现方法进行了改进,于决策树的构造过程中采用了预排序和广度优先增长策略,使得该算法能够处理更大的训练集,因此于壹定程度上具有良好的随记录个数和属性个数增长的可扩展性。
可是它仍然存于着壹些不足;1)由于需要将类别列表存放于内存,于壹定程度上限制了能够处理的数据集的大小;2)由于采用了预排序技术,而排序算法的复杂度本身且不是和记录个数成线性关系,因此使得SLIQ算法不可能达到随记数目增长的线性可扩展性。
2.2贝叶斯分类
贝叶斯分类是统计学分类于方法,它能够预测壹个给定样本属于某壹类别的概率。
贝叶斯分类是基于贝叶斯定理而构造出来的。
基本贝叶斯分类(NaiveBayes)首先假设壹个属性值对
给定类的影响独立于其它属性的值,即类条件独立,它能够帮助有效减少于构造贝叶斯分类器时所需要的计算量。
基本贝叶斯分类的工作过程如下:
给定壹个没有类标号的数据样本X,用X={x1,x2……,xn}表示,分别描述X于n个属性{A1,A2……,An}上的属性值。
设有m个类{C1,C2……,Cm},那么,将样本X分配给类Ci的条件就是:
根据贝叶斯定理:
其中,P(X)对于所有类来说为常数,P(Ci)=si/s。
假定各属性值相互条件独立(类条件独立),这样P(X|Ci)的计算可使用公式:
概率P(xk|Ci)能够由训练样本估算:
1)如果Ak是分类属性,则P(xk|Ci)=sik/si。
2)如果Ak是连续值属性,则通常假定该属性服从高斯分布,用高斯密度的数计算。
因而,对未知样本X分类,样本X被分类到类Ci,而且仅当
基本贝叶斯分类假定类条件独立,简化了计算。
当假定成立时,和其它分类算法相比,基本贝叶斯分类是最精确的。
但实际上变量间的相互依赖情况是较为常见的。
为解决这个问题,可使用贝叶斯信念网络描述这种相互关联的概率分布。
该网络能够描述各属性子集之间有条件的相互独立,它提供了壹个图形模型来描述其中的因果关系。
贝叶斯分类于处理大规模数据库时,表现出了较高的分类准确性和运算性能。
它仍可为其它分类算法提供理论判定。
可是,该算法没有直接的分类规则输出。
2.3神经网络
神经网络就是壹组相互连接的输入输出单元(又称神经元),单元之间的每个连接均和壹个权重关联联。
于网络学习阶段,网络通过调整权重来实现输入样本和其相应类别的对应。
神经网络训练完毕后,只要把数据输入到已训练好的神经网络输入端,就能够从输出端直接得到分类结果。
神经网络分类过程能够分为训练和分类俩个阶段。
于训练阶段,首先定义网络的拓扑结构,再对训练样本中的每个属性的值进行规范化预处理,然后用神经网络对已预处理的输入进行学习。
训练完毕后,用训练好的神经网络对标识样本进行分类。
目前的神经网络模型很多,而反向传播模型(BP模型)是使用最多的典型神经网络。
反向传播算法于多层前馈神经网络上学习,如图2。
其中的输入对应每个训练样本的各个属性取值;输入赋给输入层单元,这些单元的输出结合相应的权重馈给第二层(隐藏层)单元;隐藏层的带权输出又作为输入再馈给另壹隐层等等,最后的隐层结点带权输出馈给输出层单元,输出层单元最终给出相应样本的预测输出。
反向传播通过迭代的处理壹组训练样本,将每个样本的网络预测和实际知道的类标号进行比较、学习,通过修改权,使网络预测和实际类之间的均方误差最小。
这种修改是向后进行的,即由输出层,经过每个隐藏层,到第壹个隐藏层。
当权最终收敛时,学习过程停止。
神经网络法的优点是有较强的抗噪能力,对未经训练的数据也具有较好的预测分类能力。
神经网络的主要缺点是它的知识表示问题,也就是说用加权链连结单元的网络所表示的知识很难被人理解。
此外,神经网络法的学习时间较长,仅适用于时间容许的应用场合;对于如网络结构等关键参数,通常需要经验方能有效确定。
3智能文本处理策略
由于文本本身的复杂性、不规律性的特征,文本自动分类系统是壹个涉及多方面综合的系统,想获得良好的文本分类效果,不仅仅是单纯的分类处理算法的问题,必须运用多种手段加以解决,特别是文档分类系统作为壹个有指导的学习系统,和其它控制系统具有类似的特性,能够借鉴其它的智能控制技术加以解决。
为此,根据文本自动分类处理的特点,我们
给出壹种文本分类系统的多策略智能解决方案,从影响分类处理的几个主要环节入手,来优化处理分类系统的流程,从而从效果上大大提高分类处理效果,为文本分类处理提供综合的解决方法。
处理上主要从以下几方面对分类系统进行了改善
·训练文档的优化从整个系统的入口环节入手,对系统进行学习的样本进行控制,提高学习样本的质量,从而为分类模型的建立提供较好的保证。
·分类模型的运用策略从具体分类模式的运用上,进壹步增强系统的分类效果。
·分类系统的反债学习实现系统于使用过程中不断的自我学习、自我完善,从而达到其分类性能不断提高的目的。
·模糊分类处理提高分类处理的智能化,使分类处理结果更能反应文本类别的真实特征,从而达到减小误分类、提高分类精度的目的。
3.1多模型处理技术
对于信息分类技术的研究,长期以来形成了各种各样的方法,如Rule-based、NaiveBayesian、kNN、DecisionTree、SVM、Boosting等,不同的方法均有各自不同的特点,是从不同的方面实现了对分类问题的描述,且且,壹些简单的分类方法往往也能够达到壹个较好的效果就目前的研究来见,SMV方法作为性能较好的分类处理方法,比其它的分类方法具有壹定的优越性。
但从实验结果表明,其分类性能比传统的简单的分类方法,如kNN也且没有壹个太大的提高,这是由我们所提到的文本本身的复杂性所决定的同时,采用Boosting方法的试验结果表明其也可取得较好的分类效果,Boosting的主要思想用壹些弱的分类规则实现较高分类效果的目的。
因此,针对这种情况,于具体处理时,我们能够将几种不同的方法结合起来进行处理,如将支持向量机方法和基于规则的方法相结合等,使各种分类方法取长补短,互相补充,即几个不同分类器的结合,其整体分类性能将高于任何壹个,从而提高分类的精度和效率。
3.2模糊分类处理技术
模糊性是客观事物的本质特性。
于分类处理中,对于待分类的文本,均是于某种程度上属于某壹个类别,而且非是绝对二值逻辑。
于我们根据具体的分类模型进行分类处理时,我们得到的往往也是待分类文档属于各个类别的数值信息,于壹般情况下往往是根据最大的结果数值来判定系统的分类结果,这将会丢失大量的信息,造成大量的误分类情况。
而模糊处理技术正是根据事物本身模糊性的特征,于处理过程中根据模糊规则进行处理,从而更能真实地反映事物的本来面目因此,为提高分类的智能性、准确性,于进行分类处理时,能够运用模糊处理技术,对分类结果进行模糊规则处理,即先对分类模型的分类结果进行模糊化处理,将具体的数值量转换成模糊变量,然后根据具体情况制定相应的分类处理规则,实现模糊推理。
运用模糊分类处理,也能够很好地处理文本分类中的兼类、拒类等情形。
当只有属于某壹个类别的可信度为高时,则该类别为其所对应分类当同时对应于俩个或多个类别的可信度均高时,则该文档可同时被分为多个类,即是兼类而当文档所对应的所有分类的可信度皆为低时,则为拒类从而使分类处理具有了专家分类处理时的智能性,当然也就更能准确地反应文本本身所具有的实际类别特征。
4改进的贝叶斯分类于文本分类中的应用
关键的壹个技术是特征提取。
文本分类中特征提取的步骤包括:
词语切分,词频统计,加权计算和特征选择(二者通常结合于壹起进行)。
于文本分类中有很多权重计算和特征选择的公式,如信息增益、期望交叉嫡、文本证据权、zx统计量等,其中最著名的是TFIDF公式.那么,权重计算和特征选择的公式究竟哪个为优呢?
其实于这些公式中,关键于于特征选择时的倾向:
高频词或稀有词,也就是公式中的P(w)因子起很大作用。
因此,于特征选择时,理想的做法应该是充分考虑P(w)因子的作用,最好能兼顾到高权高频词和低频高权词。
有学者对TF*F和TF*IWF*IWFF公式进行了分析且作了壹些改进,认为关键词于某类的权重受3个因素的影响:
该词于当前类中的出现频率;该词于总语料中的出现频率;该词于不同类别之间出现频率的差异。
最终得到关键词于类中的权重计算公式:
其中,Lj是类cj含有的所有词的次数之和,Tij是词i于类cj出现的次数;,其中m为类别数;N(wi)表示训练语料中出现词wi的次数,N是训练语料中所有词出现次数之和;n≥1。
类别区别度用来表示某壹个词语对于文本分类的贡献程度,即词语的领域区别程度。
直观地见,如果壹个词语于每壹类中均比较均匀地出现,那么它对于分类的贡献几乎为零,类别区别度很低;如果某壹词语只于某壹类中出现,那么它对于分类的贡献很高,有的几乎能够壹词定类,类别区别度也就很高了。
比如,虚词“的、我、于”的类别区别度很低,而“魔兽争霸、重仓股、手机操作系统”这样的词语其类别区别度就很高。
5文本分类方法研究存于的问题
分词是影响文本分类的重要因素之壹,分词的速度和准确率和最终的分类结果密切关联。
尤其是Web上不断出现新词汇,对分词理论的创新和词典的构造均提出了较高的要求。
由于中文文本分类起步晚和中文不同于英文的特性,目前中文Web文本分类仍没有标准的开放的文本测试集,各研究者大多使用自己建立的文本集进行训练和测试,其分类结果没有可比性,不利于交流和提高。
将自然语言理解和处理技术、语义Web概念、Agent技术和机器翻译等技术应用于Web文本分类中,进壹步解决中文文本分类的难点,提高文本分类的智能化水平。
目前存于多种成熟的文本分类算法,大部分分类系统均是应用某壹种分类算法,分类性能受到制约。
6结束语
信息技术的发展,使得文本自动分类技术的应用日渐迫切,而文本本身的复杂性,使得文本分类处理不是壹个简单的过程,需要通过综合的策略加以解决。
本文从分类系统的特点出发,针对分类处理的多个环节,给出了综合的智能解决方案,通过该方法的实施,为进壹步提高分类系统的效果,提高分类系统的实际应用性能提供了有效的途径。
参考文献:
[1]钟代军浅析Bayesian分类的应用电脑知识和应用20081024-1025
[2]张海笑徐小明数据挖掘中分类方法的研究山西电子技术2005
(2)
[3]杨晔网上教学资源挖掘和文本自动分类系统广东商学院2005
(2)
[4]王卫东郑宇杰杨静宇智能分类器方法江苏科技大学学报2007
(1)
[5]蒲筱哥自动文本分类方法研究述评情报科学2008(3)
[6]孙晋文肖建国自动文本分类中的智能处理技术计算机科学2003(8)
[7]张小峰,邹海林,贾世祥,张利锋最优约简于分类问题中的应用计算机工程和应用2009(15)
[8]谷文祥李丽李丹丹规划识别的研究及其应用东北师范大学2007
(2)
[9]王利民李雄飞张海龙基于广义信息论的贝叶斯分类器动态建模吉林大学报2009(3)
[10]李文静浅谈数据挖掘中的分类算法信息技术2007(3)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 文本 分类 方法 简述