基于Web的文本分类挖掘的研究学士学位论文 精品Word文档下载推荐.docx
- 文档编号:13567287
- 上传时间:2022-10-11
- 格式:DOCX
- 页数:26
- 大小:253.30KB
基于Web的文本分类挖掘的研究学士学位论文 精品Word文档下载推荐.docx
《基于Web的文本分类挖掘的研究学士学位论文 精品Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《基于Web的文本分类挖掘的研究学士学位论文 精品Word文档下载推荐.docx(26页珍藏版)》请在冰豆网上搜索。
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
日期:
导师签名:
日期:
中文提要
文本分类最初是应文本信息检索的要求出现的,但是随着文本数据的激增,传统的研究方法己经不适合大规模文本分类,文本数据挖掘应运而生。
作为文本数据挖掘的一个重要功能,文本分类技术日益成为研究热点。
文本分类目的是对文本集有序组织,便于文本信息高效管理,为人的决策提供支持。
但是传统的人工分类的做法存在许多弊端,不仅是耗费大量人力、物和精力,而且受人为因素影响较大,分类结果一致性不高。
与之相比,文本自动分类具有快速、高效的特点,且分类准确率较高。
对文本分类技术进行研究,介绍文本分类的基本过程,论述文本特征提取方法,讨论朴素贝叶斯、K近邻、支持向量机、投票等常用的文本分类原理与方法,探讨中文文本分类技术。
采用支持向量机技术,设计并实现了一个开放的中文文档自动分类系统。
实验表明,它不仅具有较高的训练效率,同时能得到很高的分类准确率和查全率。
关键词:
文本挖掘文本分类支持向量机向量空间模型
外文提要
Textcategorizationappearsinitiallyfortextinformationretrievalsystem;
howevertextdataincreasessofastthattraditionalresearchmethodshavebeenimproperforlarge-scaletextcategorization.Sotextdataminingemerges,andtextcategorizationbecomesmoreandmoreimportantasamajorresearchfieldofit.
Thepurposeoftextcategorizationistoorganizetextbyorder,soastomanagetextinformationefficientlyandsupportdecisionsofhumanbeing.Howevercategorizationbyhandnotonlyconsumesplentyofmanpower,materialresourcesandenergy,butalsomakescategorizationaccuracyinconsistent.Comparedwithcategorizationbyhand,automatictextcategorizationclassifiestextsfasteranditscategorizationaccuracyrateshigher.
Introducesthetechniquesoftextcategorization,includingitsbasicprocess,thealgorithmsoftextfeatureextraction,thetheoriesandtechnologiessuchasNaï
vebayes,KNN,SVM,Votedandsoon.Chinesetextclassificationisdiscussed.
AnopenChinesedocumentclassificationsystemusingsupportisdesignedandimplemented.
Theexperimentshowsthatitnotonlyimprovestrainingefficiency,butalsohasgoodprecisionandrecall.
Keyword
textminingTextcategorizationSupportVectorMachine(SVM)
vectorspacemodel
目录
中文提要1
外文提要2
目录3
第一章绪论4
1.1 文本自动分类研究的背景和意义4
1.2 问题的描述6
1.3 国内外文本自动分类研究动态6
第二章中文文本分类技术研究8
2.1 文本预处理8
2.1.1 文本半结构化8
2.1.2 自动分词8
2.1.3 特征选择[12]8
2.2 分类模型9
2.2.1 贝叶斯(NaiveBayes)方法[14]9
2.2.2 K-近邻(KNN)方法9
2.2.3 决策树(DecisionTree)分类10
2.2.4 基于投票的方法10
2.2.5 支持向量机(SVM)方法[17]11
2.3 分类性能评价11
第三章基于支持向量机的中文文本分类12
3.1统计学习理论12
3.2 支持向量机原理14
3.3 支持向量机的特点16
第四章 基于支持向量机的中文文本分类器的实现17
4.1系统体系结构17
4.1.1文本训练模块设计18
4.1.2文本分类模块设计18
第五章系统的性能测试19
5.1 开发环境和数据集19
5.2 测试结果及分析19
第六章总结与展望21
6.1 全文总结21
6.2 进一步工作及展望21
附录(附图)22
参考文献25
致谢27
第一章绪论
1.1 文本自动分类研究的背景和意义
分类最初是应信息检索(InformationRetrieval,简称IR)系统的要求而出现的,也是数据挖掘应用领域的重要技术之一[1].随着全球计算机与通讯技术的飞速发展、互联网的普及与应用,信息爆炸的现实使人们越来越注重对自动分类的研究,文本自动分类及其相关技术的研究也日益成为一项研究热点。
信息检索系统必须操纵大量的文本数据,其文本信息库可能相当庞大。
如何在海量文本信息中获取潜在的、有价值的知识,模型或规则,这就需要引入文本数据挖掘概念。
数据挖掘是从大量的文本数据中提取出事先未知的、可理解的、可应用的信息和知识的过程。
数据挖掘融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。
文本数据挖掘(TextualDataMining),亦称文本挖掘(TextualMining),或者从文本数据库中发现知识,以文本数据为特定挖掘对象的数据挖掘,是数据挖掘的扩展。
文本挖掘抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。
1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。
文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。
从目前文本挖掘技术的研究和应用状况来看,从语义的角度来实现文本挖掘的很多,目前研究和应用最多的几种文本挖掘技术有:
文档聚类、文档分类和摘要抽取[2]。
(1)文档聚类
首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;
其次,文档聚类可以将一个文档聚类成若干个类,提供一种组织文档集合的方法;
再次,文档聚类还可以生成分类器以对文档进行分类。
文本挖掘中的聚类可用于:
提供大规模文档集内容的总括;
识别隐藏的文档间的相似度;
减轻浏览相关、相似信息的过程。
聚类方法通常有:
层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。
(2)文档分类
分类和聚类的区别在于:
分类是基于已有的分类体系表的,而聚类则没有分类表,只是基于文档之间的相似度。
由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况,所以在信息系统中使用分类的方法,能够让用户手工遍历一个等级分类体系来找到自己需要的信息,达到发现知识的目的,这对于用户刚开始接触一个领域想了解其中的情况,或者用户不能够准确地表达自己的信息需求时特别有用。
传统搜索引擎中目录式搜索引擎属于分类的范畴,但是许多目录式搜索引擎都采用人工分类的方法,不仅工作量巨大,而且准确度不高,大大限制了起作用的发挥。
另外,用户在检索时往往能得到成千上万篇文档,这让他们在决定哪些是与自己需求相关时会遇到麻烦,如果系统能够将检索结果分门别类地呈现给用户,则显然会减少用户分析检索结果的工作量,这是自动分类的另一个重要应用。
文档自动分类一般采用统计方法[3][4][5][6][7][8]或神经网络[9][10][11]以及机器学习来实现。
常用的方法有:
简单贝叶斯分类法,K-最近邻参照分类算法以及支持向量机分类方法等。
(3)自动文摘
互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。
自动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间。
简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。
自动文摘具有以下特点:
1)自动文摘应能将原文的主题思想或中心内容自动提取出来。
2)文摘应具有概况性、客观性、可理解性和可读性。
3)可适用于任意领域。
按照生成文摘的句子来源,自动文摘方法可以分成两类,一类是完全使用原文中的句子来生成文摘,另一类是可以自动生成句子来表达文档的内容。
后者的功能更强大,但在实现的时候,自动生成句子是一个比较复杂的问题,经常出现产生的新句子不能被理解的情况,因此目前大多用的是抽取生成法。
利用文本挖掘技术处理大量的文本数据,无疑将给企业带来巨大的商业价值。
因此,目前对于文本挖掘的需求非常强烈,文本挖掘技术应用前景广阔。
1.2 问题的描述
文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。
然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。
自动分类的一般做法是,根据文本数据集的特点构造一个分类器,利用分类器对未知类别的文本赋予类别。
构造分类器的过程一般分为训练和测试两个步骤。
在训练阶段,分析训练数据集的特点,为每一个类别产生一个相应数据集的准确描述或者模型。
在测试阶段,利用类别的描述或者模型对测试集合
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于Web的文本分类挖掘的研究学士学位论文 精品 基于 Web 文本 分类 挖掘 研究 学士学位 论文
![提示](https://static.bdocx.com/images/bang_tan.gif)