中文文本分类算法设计及其实现 精品Word文档下载推荐.docx
- 文档编号:15955882
- 上传时间:2022-11-17
- 格式:DOCX
- 页数:45
- 大小:474.90KB
中文文本分类算法设计及其实现 精品Word文档下载推荐.docx
《中文文本分类算法设计及其实现 精品Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《中文文本分类算法设计及其实现 精品Word文档下载推荐.docx(45页珍藏版)》请在冰豆网上搜索。
批准日期
毕业设计(论文)任务书
电信学院计算机系84班学生丰成平
毕业设计(论文)工作自2013年2月21日起至2013年6月20日止
毕业设计(论文)进行地点:
西安交通大学
课题的背景、意义及培养目标
随着文本文件的增多,对其自动进行分门别类尤为重要。
文本分类是指采用计算机程序对文本集按照一定的分类体系进行自动分类标记。
文本分类器的设计通常包括文本的特征向量表示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。
本毕设论文研究文本分类器的设计与实现。
通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。
设计(论文)的原始数据与资料
1、文本语料库(分为训练集与测试集语料库)。
2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。
3、中科院文本分词工具(nlpir)。
4、文本分类中需要用到的各种分类方法的资料描述。
课题的主要任务
1.学习文本特征向量的构建方法及常用的降维方法。
2.学习各种分类器的基本原理及其训练与测试方法。
3.设计并编程实现文本分类器。
4、对试验结果进行分析,得出各种结论。
5、撰写毕业论文。
6、翻译一篇关于文本分类的英文文献。
课题的基本要求(工程设计类题应有技术经济分析要求)
1、程序可演示。
2、对源代码进行注释。
3、给出完整的设计文档及测试文档。
完成任务后提交的书面材料要求(图纸规格、数量,论文字数,外文翻译字数等)
1、提交毕业论文
2、提交设计和实现的系统软件源程序及有关数据
3、提交外文资料翻译的中文和原文资料
主要参考文献:
自然语言处理与信息检索共享平台:
http:
//www.nlpir.org/?
action-viewnews-itemid-103
Svm(支持向量机)算法:
基于神经网络的中文文本分析(赵中原):
TF-IDF的线性图解:
东南大学向量降维文献:
指导教师相明
接受设计(论文)任务日期2013-02-21~2013-06-20
学生签名:
西安交通大学
毕业设计(论文)考核评议书
院系(专业)班级
指导教师对学生所完成的课题为
的毕业设计(论文)进行的情况,完成的质量及评分的意见:
指导教师
年月日
毕业设计(论文)评审意见书
评审意见:
评阅人职称
年月日
毕业设计(论文)答辩结果
院
系(专业)
毕业设计(论文)答辩组对学生所完成的课题为
的毕业设计(论文)经过答辩,其意见为
并确定成绩为
毕业设计(论文)答辩组负责人
答辩组成员
论文题目:
中文文本分类算法的设计及其实现
学生姓名:
丰成平
指导教师:
相明
摘要
随着当今社会,计算机的普遍使用,出现了连绵不断的文本文件,如何对这些毫无逻辑、毫无层次的文件进行分门别类的整理,做到井井有条,层次鲜明呢?
文本自动分类就是针对上述情况,采用机器,通过一定的约束条件和一些分类算法,自动的对这些文件进行遍历,从而实现分门别类。
这样用机器代替人来“阅读”文章,用机器代替人来“整理”文章,不仅减轻了工作人员的负担,而且大大节省了时间,工作人员可以去做更多有意义的事情。
文本分类主要有以下三个方面:
第一、文本的空间向量表示:
由于计算机并不能识别真正的文本,本质上只懂得0,1,因此若要对文本进行分类,首先要让计算机能够“读懂”每篇文章,引入文本空间向量表示,将文章里面的特征词形成空间向量,通过计算向量之间的差距,来实现分门别类。
第二、文本特征的降维:
由于中文词汇成千上万,那么形成的文本向量肯定也很长,计算起来会很麻烦,因此要对向量进行处理。
第三、文本分类器的设计:
文本分类方法例如:
KNN、朴素贝叶斯、SVM、决策树,BP神经网络,运用这些算法设计分类器,从而处理文本向量之间的关系,实现对文本的分门别类。
最后,将文本分类运用于众多领域,例如:
信息过滤、文档管理、网络安全、电子图书整理、网络图书馆,搜索引擎,这样则不是通过关键字过滤,而是基于文本内容的过滤或者是搜索,能大大提高过滤的可靠性以及搜索的准确性,无疑使文本领域的一项重大的突破
关键词:
文本向量;
特征降维;
分类算法;
分类器设计。
Title:
ThedesignandimplementationofChinesetextclassificationalgorithm
Name:
FengChengping
Supervisor:
XiangMing
ABSTRACT
Withtoday'
ssociety,thewidespreaduseofcomputers,thecontinuousofthetextfile,howaboutthesenologic,nolevelofsort,classifyfilesondoinperfectorder,hierarchyandbright?
Textautomaticclassificationisaccordingtotheabovesituation,usingthemachine,throughacertainconstraintconditionandsomeclassificationalgorithm,automatictotraversethesefiles,soastorealizeclassify.Sousingmachinesinsteadofpeopleto"
read"
to"
finish"
replacingworkerswithmachinesnotonlyreducetheburdenofthestaff,andgreatlysavestimeandstafftodomoremeaningfulthings.
Textclassificationismainlyhasthefollowingthreeaspects:
First,Textspacevectorsaid:
becauseofthecomputerandcan'
tidentifytherealtext,essentiallyunderstandonly0,1,soifyouwanttocategorizetext,firstofall,allowthecomputerto"
eacharticle,introductionoftextvectorspace,saidthearticleintheformationofkeyspacevector,vectorbycalculation,thegapbetweentoclassify.
Second,Textfeaturedimensionreduction:
duetothehundredsofthousandsofChinesevocabulary,thenformthetextvectorisalsoverylong,calculateitwillbeverytrouble,sowanttodealwithvector.
Third,Textclassifierdesign:
textclassificationmethodforexample:
KNN,naivebayes,theSVMandthedecisiontree,BPneuralnetwork,usingthesedesignclassifieralgorithm,toprocessthetextvector,therelationshipbetweentheimplementationoftextcategorization.
Finally,thetextclassificationusedinmanyfields,suchas:
informationfiltering,documentmanagement,networksecurity,electronicbooksandnetworklibrary,searchengine,itisnotbykeywordfiltering,butbasedontextcontentfilterorsearch,cangreatlyimprovetheaccuracyofthereliabilityofthefilterandsearch,nodoubtmakeasignificantbreakthroughinthefieldoftext
Keywords:
textvector;
Characteristicswillbe;
Classificationalgorithms;
Classifierdesign.
featurereduction;
第一章绪论
1.1、文本分类背景和意义
互联网发展,网上电子图书(txt文档、pdf文档、微小说、期刊论文等等),企业公司内部文件整理,电子文档的增加,为了高效访问和使用这些文档数据,如果人为的对这些文件信息进行处理,不仅需要花费大量的时间翻阅每一篇文章,了解每篇文章的大体内容,而且要付出很大的精力去统计。
毕竟人的大脑工作能力有限,长期处于这种工作环境中,会造成大脑极大的负担,很可能由于一时疏忽而出现了错误,甚至信息量太过庞大,人脑不可能记录这么多类别信息,在最后评估的时候也有可能做出错误的判断。
不仅耽误时间,而且不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文文本分类算法设计及其实现 精品 中文 文本 分类 算法 设计 及其 实现
