基于文献聚类的数据挖掘模型设计与实现论文.docx
- 文档编号:996490
- 上传时间:2022-10-15
- 格式:DOCX
- 页数:47
- 大小:279.73KB
基于文献聚类的数据挖掘模型设计与实现论文.docx
《基于文献聚类的数据挖掘模型设计与实现论文.docx》由会员分享,可在线阅读,更多相关《基于文献聚类的数据挖掘模型设计与实现论文.docx(47页珍藏版)》请在冰豆网上搜索。
基于文献聚类的数据挖掘模型设计与实现论文
基于文献聚类的数据挖掘模型设计与实现
摘要:
聚类分析是统计学中的一项重要技术。
通过聚类可以发现隐藏在海量数据背后知识。
本文首先建立空间向量模型,改进了传统相似度的计算模型,提出了一种基于摘要词对关键词加权贡献的相似度模型,使得文献的空间向量更加精确。
数据来源于05年CSSCI文献数据库图书情报学的3千多条文献数据,并通过中知网查询相关文献的摘要。
通过数据清洗、去噪声、降维、规格化处理、样本抽样等一系列步骤,得到最终用于聚类的681篇文献和108个学科特征原子词。
利用Matlab软件编程实现了FCM算法的文献聚类。
将聚类的结果通过基于学科原子特征词的学科交叉表来表示,统计出图书馆学、情报学和文献学三个学科的研究热点及交叉点,以及图书情报学新的学科增长点,并对结果进行了检验,检验结果表明该统计模型是科学的、有意义的。
关键词:
聚类;交叉学科;关键词;摘要;相似度;FCM
毕业设计(论文)原创性声明和使用授权说明
原创性声明
本人郑重承诺:
所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。
尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。
对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名:
日 期:
指导教师签名:
日 期:
使用授权说明
本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:
按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名:
日 期:
学位论文原创性声明
本人郑重声明:
所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。
除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律后果由本人承担。
作者签名:
日期:
年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
作者签名:
日期:
年月日
导师签名:
日期:
年月日
指导教师评阅书
指导教师评价:
一、撰写(设计)过程
1、学生在论文(设计)过程中的治学态度、工作精神
□优□良□中□及格□不及格
2、学生掌握专业知识、技能的扎实程度
□优□良□中□及格□不及格
3、学生综合运用所学知识和专业技能分析和解决问题的能力
□优□良□中□及格□不及格
4、研究方法的科学性;技术线路的可行性;设计方案的合理性
□优□良□中□及格□不及格
5、完成毕业论文(设计)期间的出勤情况
□优□良□中□及格□不及格
二、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
三、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
建议成绩:
□优□良□中□及格□不及格
(在所选等级前的□内画“√”)
指导教师:
(签名)单位:
(盖章)
年月日
评阅教师评阅书
评阅教师评价:
一、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
二、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
建议成绩:
□优□良□中□及格□不及格
(在所选等级前的□内画“√”)
评阅教师:
(签名)单位:
(盖章)
年月日
教研室(或答辩小组)及教学系意见
教研室(或答辩小组)评价:
一、答辩过程
1、毕业论文(设计)的基本要点和见解的叙述情况
□优□良□中□及格□不及格
2、对答辩问题的反应、理解、表达情况
□优□良□中□及格□不及格
3、学生答辩过程中的精神状态
□优□良□中□及格□不及格
二、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
三、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
评定成绩:
□优□良□中□及格□不及格
(在所选等级前的□内画“√”)
教研室主任(或答辩小组组长):
(签名)
年月日
教学系意见:
系主任:
(签名)
年月日
一、引言
1.研究背景
聚类分析(ClusteringAnalysis)是统计、模式识别和数据挖掘等领域中一个非常重要的技术,文献聚类就是依据文献之间的相似度按照一定的算法准则,挖掘隐藏在海量文献数据背后的有用知识:
如学科交叉、研究热点和新的研究方向。
科学研究需要创新。
科学技术的发展为每个学科的发展带来新的机遇的同时,也带来更为严峻的挑战。
目前,文、理、工、管等学科之间相互渗透、交叉、融合已经成为一种潮流和趋势,其深度和广度正在进一步深化。
众所周知,近代科学发展特别是科学上的重大发现和国计民生中的重大社会问题的解决,常常涉及不同学科的相互交充满和相互渗透。
学科交叉逐渐形成一批交叉学科,如化学与物理学的交叉形成了物理化学和化学物理学,化学与生物学的交叉形成了生物化学和化学生物学,物理学与生物学交叉形成了生物物理学等。
这些交叉学科的不断发展大大地推动了科学进步,因此学科交叉研究(interdisciplinaryresearch)体现了科学向综合性发展的趋势。
科学上的新理论、新发明的产生,新的工程技术的出现,经常是在学科的边缘或交叉点上,重视交叉学科将使科学本身向着更深层次和更高水平发展,这是符合自然界存在的客观规律的。
由于现有的学科是人为划分的,而科学问题是客观存在的,根据人们的认识水平,过去只有天文学、地理(地质)、生物、数学、物理、化学六个一级学科;而经过20世纪科学的发展和交叉研究,又逐渐形成了新的交叉学科,如生命科学、材料科学、环境科学等。
因此研究学科交叉可以反映学科的研究的热点和发展趋势。
本次统计建模正是基于以上的研究背景,通过文献聚类来研究学科交叉,其意义在于:
(1)通过对文献数据的聚类分析,挖掘学科交叉点,使研究者了解本学科目前的研究现状,如学科发展前沿与热点问题等,以提高研究者的创新意识和创新动力,为科学研究提供决策支持;
(2)为管理者和研究机构提供决策支持,如交叉学科的政策支持、研究经费投入、人才培养方向等;(3)通过学科交叉的比较,使学科本身获得动力,提升学科竞争力,使学科能更好地适应社会和经济的发展,更好地服务社会。
2.国内外研究现状
不同的数据库,对其文献进行分类有不同的方法,没有一种方法能对所有数据库的文献分类都具有高效率、高精确率。
对于科学文献的分类,目前主要采用的方法有[1]:
(1)引文分析法:
引文分析是指通过对文献中所附的参考引文进行计量统计分析,从而揭示科学技术发展的历史及现状。
其目的是寻找文献之间的联系来研究文献内在联系和科学结构的一种方法。
(2)关键词分析法:
关键词分析就是通过对反映文献主题内容的词进行关联性或相异性定量分析,研究文献内在联系和科学结构的一种方法。
(3)聚类分析法:
聚类分析是指根据分析对象彼此之间的相关程度把文献分成类群,使群内尽量相似,群间尽量相异,然后进行分析研究的过程。
(4)因素分析法:
因素分析的概念是英美心理统计学者们最早提出的,因素分析法是从试验所得的m×n个数据文献中概括和提取出较少量的关键因素,它们能反映和解释所得的大量观测事实,从而建立起最简洁、最基本的概念系统,揭示出事物间最本质的联系。
(5)关键词分析与共引聚类分析相结合研究法。
目前国内研究的主要热点集中在第一方面,而国外在该领域的最新研究是通过关键词分析和共引聚类分析相结合,以揭示文献的主题结构。
3.文本挖掘中的分词技术
中文文本挖掘技术成败的关键在于文本中词汇切分的成功与否。
由于汉语语言的特殊性和复杂性,使中文词汇的切分成为一个很伤脑筋的问题。
而如果不进行分词,中文信息处理的其它很多研究就无法进行。
分词技术中基于词库的算法目前使用较广,也较为成熟,如正向、逆向最大匹配法、逐词遍历法。
这类算法分词的正确性很大程度上取决于所建的词库。
一个词库应具有完备性和完全性两个方面,建立一个同时满足这两个要求的词库具有很大的难度[2]。
所以,对于中文文本挖掘来说,基于词库的分词技术可能会使某些具有重要意义的词汇被疏漏,从而导致挖掘的内容不是十分准确。
基于无词典的分词技术正处于研究发展阶段,其基本思想是:
基于频度的统计,不依靠于词典,将文本中任意几个字同时出现的频率进行统计,次数越高的越可能是一个词[3]。
文中设计了一个基于无词典分词的算法[4],能比较准确地切分出文本中的新词。
4.文本的特征提取
特征提取主要是识别文本中代表其特征的词项。
提取过程是自动的,提取的特征大部分是文本集中表示的概念。
文本特征分为一般特征和数字特征,其中一般特征主要包括动词和名词短语,如人名、组织名等;数字特征主要包括日期、时间、货币以及单纯数字信息。
这些特征包含重要的信息,因此特征提取是一种强有力的文本挖掘技术。
通过文本特征抽取,记录文本的特征,可以更好地组织文本,如文本的存储、检索、过滤、分类和摘要等。
中文姓名识别属于中文信息处理中未登录词处理的范畴,中文姓名在文章中的出现频率虽然不高,但绝非可以忽略,因为中文姓名本身包含着重要的信息,它可能是整个句子甚至整个段落的语义中心,如果不予处理,将影响文本挖掘的性能[5]。
数字特征反映一定的信息,但不能表达文本的中心思想,通常只作文本挖掘中的参考信息。
5.聚类分析的原理与方法
聚类分析主要包括统计学习和机器学习两种方法。
在基于统计学习的聚类分析中,主要研究基于几何
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 文献 数据 挖掘 模型 设计 实现 论文