文本挖掘doc.docx
- 文档编号:659440
- 上传时间:2022-10-11
- 格式:DOCX
- 页数:12
- 大小:442.15KB
文本挖掘doc.docx
《文本挖掘doc.docx》由会员分享,可在线阅读,更多相关《文本挖掘doc.docx(12页珍藏版)》请在冰豆网上搜索。
文本挖掘doc
它在商业智能、信息检索、生物信息处理等方面都有广泛的应用;例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简历评审,搜索引擎等等。
文本挖掘可以通过下图有个大致理解。
它由三部分组成:
底层是文本挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本挖掘的基本技术,有五大类,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;在基本技术之上是两个主要应用领域,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。
文本挖掘过程(TextMining)
一、文本挖掘概念
在现实世界中,可获取的大部信息是以文本形式存储在文本数据库中的,由来自各种数据源的大量文档组成,如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面。
由于电子形式的文本信息飞速增涨,文本挖掘已经成为信息领域的研究热点。
文本数据库中存储的数据可能是高度非结构化的,如WWW上的网页;也可能是半结构化的,如e-mail消息和一些XML网页:
而其它的则可能是良结构化的。
良结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等等,也可能包含大量非结构化文本成分,如摘要和内容。
通常,具有较好结构的文本数据库可以使用关系数据库系统实现,而对非结构化的文本成分需要采用特殊的处理方法对其进行转化。
文本挖掘(TextMining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。
其中被普遍认可的文本挖掘定义如下:
文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。
文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。
文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。
但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:
文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。
因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。
文本挖掘是应用驱动的。
它在商业智能、信息检索、生物信息处理等方面都有广泛的应用;例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简历评审,搜索引擎等等。
二、文本挖掘过程
有些人把文本挖掘视为另一常用术语文本知识发现(KDD)的同义词,而另一些人只是把文本挖掘视为文本知识发现过程的一个基本步骤。
文本知识发现主要由以下步骤组成:
1)文本预处理:
选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。
2)文本挖掘:
在完成文本预处理后,可以利用机器学习、数据挖掘以及模式识别等方法提取面向特定应用目标的知识或模式。
3)模式评估与表示为最后一个环节,是利用已经定义好的评估指标对获取的知识或模式进行评价。
如果评价结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进,然后再进行新一轮的发现。
如果把文本挖掘视为一个独立的过程,则上面三个步骤可以细化为下图表示:
三、文本挖掘关键技术及文本分类
文本转换为向量形式并经特征选择以后,便可以进行挖掘分析了。
常用的文本挖掘分析技术有:
文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。
文本分类是其中一种很关键的挖掘任务也是在文本信息处理领域用得最多的一种技术。
下面做个简要介绍。
文本分类系统的任务是:
在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。
从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。
用数学公式表示如下:
f:
A->BA为待分类文本集,B为分类体系中的类别集合
文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。
然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。
一般来讲,文本分类需要四个步骤:
1)获取训练文本集:
训练文本集由一组经过预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类别标号;
2)选择分类方法并训练分类模型:
文本分类方法有统计方法、机器学习方法、神经网络方法等等。
在对待分类样本进行分类前,要根据所选择的分类方法,利用训练集进行训练并得出分类模型;
3)用训练好的分类模型对其它待分类文本进行分类;
4)根据分类结果评估分类模型。
下图是一个完整的文本分类过程:
四、文本挖掘应用
主要的应用方向和系统有:
1)基于内容的搜索引擎,代表性的系统有北京大学天网、计算所的“天罗”、XX、慧聪等公司的搜索引擎;
2)信息自动分类、自动摘要、信息过滤等文本级应用,如上海交通大学纳讯公司的自动摘要、复旦大学的文本分类,计算所基于聚类粒度原理VSM的智多星中文文本分类器
3)信息自动抽取,即将Internet上大量的非结构化的信息,抽取出格式化的数据,以备进一步的搜索应用。
目前是研究热点,至今还没有实用的系统;
4)自动问答、机器翻译等需要更多自然语言处理和理解的应用。
面对今天浩如烟海的文本信息,如何帮助人们有效地收集和选择所感兴趣的信息,如何帮助用户在日益增多的信息中自动发现新的概念,并自动分析它们之间的关系,使之能够真正做到信息处理的自动化,这已经成为信息技术领域的热点问题。
有数据表明,一个组织80%的信息是以文本的形式存放的,包括WEB页面、技术文档、电子邮件等。
由于整个文本集合不能被方便地阅读和分析,而且由于文本经常改变,要跟上变化的节奏,就要不停地回顾文本的内容,处理数量巨大的文本变得越来越来困难。
人们迫切需要能够从大量文本集合中快速、有效地发现资源和知识的工具。
在这样的需求驱动下,文本挖掘的概念产生了。
文本挖掘技术的发展
数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。
传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。
随着网络时代的到来,用户可获得的信息包含了从技术资料、商业信息到新闻报道、娱乐资讯等多种类别和形式的文档,构成了一个异常庞大的具有异构性、开放性特点的分布式数据库,而这个数据库中存放的是非结构化的文本数据。
结合人工智能研究领域中的自然语言理解和计算机语言学,从数据挖掘中派生了两类新兴的数据挖掘研究领域:
网络挖掘和文本挖掘。
网络挖掘侧重于分析和挖掘网页相关的数据,包括文本、链接结构和访问统计(最终形成用户网络导航)。
一个网页中包含了多种不同的数据类型,因此网络挖掘就包含了文本挖掘、数据库中数据挖掘、图像挖掘等。
文本挖掘作为一个新的数据挖掘领域,其目的在于把文本信息转化为人可利用的知识。
文本挖掘预处理
文本挖掘是从数据挖掘发展而来,但并不意味着简单地将数据挖掘技术运用到大量文本的集合上就可以实现文本挖掘,还需要做很多准备工作。
文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成,见图1。
◆文本收集
需要挖掘的文本数据可能具有不同的类型,且分散在很多地方。
需要寻找和检索那些所有被认为可能与当前工作相关的文本。
一般地,系统用户都可以定义文本集,但是仍需要一个用来过滤相关文本的系统。
◆文本分析
与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构;此外文档的内容是人类所使用的自然语言,计算机很难处理其语义。
文本数据源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上,需要对文本进行分析,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。
其目的在于从文本中扫描并抽取所需要的事实
◆特征修剪
特征修剪包括横向选择和纵向投影两种方式。
横向选择是指剔除噪声文档以改进挖掘精度,或者在文档数量过多时仅选取一部分样本以提高挖掘效率。
纵向投影是指按照挖掘目标选取有用的特征,通过特征修剪,就可以得到代表文档集合的有效的、精简的特征子集,在此基础上可以开展各种文档挖掘工作。
文本挖掘的关键技术
经特征修剪之后,可以开展数据文本挖掘工作。
文本挖掘工作流程见图2所示。
从目前文本挖掘技术的研究和应用状况来看,从语义的角度来实现文本挖掘的还很少,目前研究和应用最多的几种文本挖掘技术有:
文档聚类、文档分类和摘要抽取。
◆文档聚类
首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一个文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。
文本挖掘中的聚类可用于:
提供大规模文档集内容的总括;识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。
聚类方法通常有:
层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。
◆文档分类
分类和聚类的区别在于:
分类是基于已有的分类体系表的,而聚类则没有分类表,只是基于文档之间的相似度。
由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况,所以在信息系统中使用分类的方法,能够让用户手工遍历一个等级分类体系来找到自己需要的信息,达到发现知识的目的,这对于用户刚开始接触一个领域想了解其中的情况,或者用户不能够准确地表达自己的信息需求时特别有用。
传统搜索引擎中目录式搜索引擎属于分类的范畴,但是许多目录式搜索引擎都采用人工分类的方法,不仅工作量巨大,而且准确度不高,大大限制了起作用的发挥。
另外,用户在检索时往往能得到成千上万篇文档,这让他们在决定哪些是与自己需求相关时会遇到麻烦,如果系统能够将检索结果分门别类地呈现给用户,则显然会减少用户分析检索结果的工作量,这是自动分类的另一个重要应用。
文档自动分类一般采用统计方法或机器学习来实现。
常用的方法有:
简单贝叶斯分类法,矩阵变换法、K-最近邻参照分类算法以及支持向量机分类方法等。
◆自动文摘
互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。
自动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间。
简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。
自动文摘具有以下特点:
(1)自动文摘应能将原文的主题思想或中心内容自动提取出来。
(2)文摘应具有概况性、客观性、可理解性和可读性。
(3)可适用于任意领域。
按照生成文摘的句子来源,自动文摘方法可以分成两类,一类是完全使用原文中的句子来生成文摘,另一类是可以自动生成句子来表达文档的内容。
后者的功能更强大,但在实现的时候,自动生成句子是一个比
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 挖掘 doc