信息资源开发与管理大作业.docx
- 文档编号:29239672
- 上传时间:2023-07-21
- 格式:DOCX
- 页数:22
- 大小:501KB
信息资源开发与管理大作业.docx
《信息资源开发与管理大作业.docx》由会员分享,可在线阅读,更多相关《信息资源开发与管理大作业.docx(22页珍藏版)》请在冰豆网上搜索。
信息资源开发与管理大作业
信息资源开发与管理
———基于文本挖掘的共词分析
专业:
信息管理与电子政务
学号:
21411058
姓名:
刘杰
1.研究内容
本实验是对文本挖掘相关文献的研究。
此次研究选择的数据资料是论文和期刊,集中来源于中国知网。
通过对文献资源的检索,寻找到相关的文献资源,并对文献资源进行分析,从而能够对文本挖掘这个研究题目进行一定的了解。
研究步骤:
(1)收集文献并整理文献;
(2)利用相关软件对文献进行一系列分析;
(3)得出对文献分析的结论(即对文本挖掘的研究热点有初步了解)。
2.文献获取
为了对文本挖掘的研究和特点等一些情况的了解,本研究选择了中国知网进行文献检索。
通过下载文献,并对文献进行收集。
主要收集过程为:
①为了保证是文献,首先将没有作者且没有刊名的筛选掉;
②设定的文献刊登时间在2008年—2012年之间;
③除了以上行为,还初步对收集的文献进行分析,若与办公自动化无关便将其删除。
最后,得到1100篇文献,准备对其进行处理。
将文献的主要信息制成文献数据结构表,如下:
表1文献数据结构表
题名
作者
关键词
单位
摘要
刊名
出版日期
以下为部分文件数据结构图:
图1文献数据结构图
3、关键字分列
4、关键词确定
使用Excel,通过其的统计功能,对关键词进行统计。
原始关键词有5534个,从中选择词频为8个及8个以上的,共有51个。
之后并对以下关键词进行删除:
出现频率过高(即比其它关键词高过多),有:
文本挖掘。
筛选后,得到比较高频的关键词50个。
表2高频关键词筛选结果(频次≥8)
4.建立共词相关矩阵、相似矩阵、相异矩阵
(1)共词矩阵
关键词词频表,表示其中的关键词是有关文本挖掘文献中出现频率最高的词,它们从一定程度上说明了这些词与文本挖掘的研究有着很密切的关系。
为了进一步对这些词与文本挖掘的关系有一定的了解,了解其中的联系,利用Excel对这些关键词进行两两共词检索,统计它们两两在文献中出现的频率,从而建立一个50
50的关键词共词矩阵。
部分共词矩阵如下:
共词矩阵为对称矩阵,主对角线的数据定义为缺失,非主对角中单元格的数据为两个关键词共同出现的次数。
如关键词“数据挖掘”与“文本聚类”的共词频次为7,即表示有7篇论文同时使用了这两个关键词。
由于下面运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,因此用系数将共词矩阵转换成相关矩阵,具体方法是将共词矩阵中的每个数字都除以与之相关的两个词的总出现频次的开方的积。
在相关矩阵中由于值过多,统计时误差过大,有可能影响分析结果。
为了方便进一步处理,用与全部相关矩阵上的数据相减,得到表示两词间相异程度的相异矩阵。
(2)相似矩阵
由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,本文将相关矩阵转化为相似矩阵和相异矩阵。
具体方法是,用Ochiia系数将共词矩阵转换成相似矩阵,即将共词矩阵中的每个数字都除以与之相关的两个关键字总频次开方的乘积,其计算公式是:
利用该公式进行计算,得到相似矩阵。
部分相似矩阵如下:
相似矩阵中的数字表明其对应两个关键词之间的亲疏关系,数值越大则表明关键词之间的距离越近,相似度越好;反之,数值越小则表明关键词之间的距离越远,相似度越差。
(3)相异矩阵
由于相似矩阵中的0值过多,统计时容易造成误差过大,为了方便进一步处理,用1与全部相似矩阵中的数据相减,得到表示两词间相异程度的相异矩阵。
部分相异矩阵如下:
相异矩阵中的数据表示不相似数据,数值越大则表明关键词之间的距离越远,相似度越差;反之,数值越小则表明关键词之间的距离越近,相似度越高。
5.聚类分析
本实验采用层次聚类(HierarchicalCluster),选择离差平方和法(WardsMethod)与离散数据类型(Count)中的斐方(Phi-squareMeasure)方法。
可以初步判断各关键词之间的关联程度。
本实验主要通过运用SPSS20.0版本进行聚类分析。
聚类分析结果树状图如下:
图2聚类分析结果树状图
6.因子分析
在聚类分析基础上,再利用因子分析对研究前沿进行进一步的论证,以利于解释。
因子分析(factoranalysis)是一种多变量分析方法,能将众多的具有错综复杂关系的指标归结为少数几个综合指标(公共因子或因子变量),达到降维和简化数据的目的。
因子分析要达到的目标就是用尽可能少的因子去描述众多的指标或因素之间的联系,其基本思想是根据关键词间的相关性大小把研究对象的变量分组使得同组内的变量之间相关性较高,而不同组的变量相关性较低。
每组变量代表一个基本结构,这个基本结构称为公共因子,这样较少的几个公共因子就可以反映原资料的大部分信息。
利用因子分析法,可根据因子得分值,在因子所构成的空间中把研究对象的变量点画出来,从而客观地达到分类的目的,并以此来对聚类分析结果进行完善。
通过下表,可以看出25个关键词中共有22个公共因子被提取,其方差累积贡献率为66.8%,它们能够解释全部信息的66.8%,从而说明50个关键词可以分别从属于22个不同的类别。
因子相关系数矩阵可以反映出各关键字在不同公共因子中的相关度,主要通过因子中各关键词的相关系数的大小进行相关性的判断,为关键词的聚类提供更加细致的依据(由于负载临界值越高,所确定的分类结构越简单。
根据本文的数据情况,为能较好反映关键词的组成结构,这里将负载临界值定为0.5,即负载临界值小于0.5的不予显示。
)
本实验是使用SPSS20.0版本进行因子分析。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
3.223
6.446
6.446
3.223
6.446
6.446
2
2.248
4.496
10.942
2.248
4.496
10.942
3
2.081
4.163
15.105
2.081
4.163
15.105
4
1.959
3.918
19.023
1.959
3.918
19.023
5
1.911
3.822
22.845
1.911
3.822
22.845
6
1.751
3.502
26.347
1.751
3.502
26.347
7
1.659
3.319
29.665
1.659
3.319
29.665
8
1.588
3.177
32.842
1.588
3.177
32.842
9
1.492
2.983
35.825
1.492
2.983
35.825
10
1.429
2.859
38.684
1.429
2.859
38.684
11
1.405
2.809
41.493
1.405
2.809
41.493
12
1.358
2.715
44.208
1.358
2.715
44.208
13
1.337
2.674
46.882
1.337
2.674
46.882
14
1.229
2.457
49.340
1.229
2.457
49.340
15
1.183
2.367
51.706
1.183
2.367
51.706
16
1.169
2.338
54.044
1.169
2.338
54.044
17
1.133
2.266
56.309
1.133
2.266
56.309
18
1.084
2.168
58.477
1.084
2.168
58.477
19
1.077
2.154
60.632
1.077
2.154
60.632
20
1.050
2.101
62.732
1.050
2.101
62.732
21
1.027
2.054
64.786
1.027
2.054
64.786
22
1.007
2.014
66.800
1.007
2.014
66.800
23
.986
1.971
68.771
24
.967
1.933
70.705
25
.955
1.910
72.615
26
.924
1.847
74.462
27
.898
1.796
76.258
28
.864
1.728
77.985
29
.835
1.670
79.656
30
.830
1.660
81.316
31
.795
1.589
82.905
32
.780
1.560
84.464
33
.746
1.493
85.957
34
.722
1.444
87.401
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
35
.710
1.420
88.820
36
.662
1.324
90.144
37
.627
1.254
91.398
38
.615
1.230
92.628
39
.595
1.191
93.818
40
.568
1.137
94.955
41
.523
1.046
96.001
42
.485
.970
96.971
43
.428
.856
97.827
44
.342
.683
98.510
45
.285
.570
99.080
46
.220
.440
99.520
47
.175
.349
99.869
48
.063
.127
99.996
49
.002
.004
100.000
50
-1.921E-016
-3.842E-016
100.000
提取方法:
主成份分析。
因子相关系数矩阵可以反映出各关键字在不同公共因子中的相关度,主要通过因子中各关键词的相关系数的大小进行相关性的判断,为关键词的聚类提供更加细致的依据。
成份矩阵a
成份
1
2
3
4
5
6
7
分类
-.058
.006
-.260
-.105
-.137
.464
.486
竞争情报
-.074
.018
.091
.014
.029
.009
-.103
关系抽取
-.108
-.442
.227
.006
.094
-.066
-.012
Hadoop
-.090
.240
-.183
-.349
.780
-.139
.106
应用
-.048
.058
-.095
-.011
-.090
-.045
-.257
命名实体识别
-.145
-.689
.342
.027
.154
-.158
.131
层次聚类
-.084
.193
.070
.069
-.089
-.220
.222
专利
-.028
-.028
-.111
-.014
-.064
-.053
-.200
知识管理
-.025
-.089
-.089
-.007
-.098
-.048
.074
文本相似度
-.085
.183
.079
.067
-.091
-.172
.141
条件随机场
-.101
-.461
.267
.044
.115
-.196
.161
数字图书馆
-.073
.005
-.086
.019
-.216
-.031
.182
MapReduce
-.096
.242
-.148
-.343
.794
-.147
.083
语义分析
-.038
.028
-.044
-.012
-.013
.170
-.047
遗传算法
-.097
.031
.121
.019
.014
.261
.012
信息分析
-.032
-.125
-.138
-.029
-.067
-.147
-.159
成份矩阵a
成份
8
9
10
11
12
13
14
分类
.131
-.089
.212
.048
-.025
-.001
.002
竞争情报
.033
-.130
-.051
.235
.005
-.246
.384
关系抽取
.050
-.066
.033
.170
.065
-.310
.336
Hadoop
-.079
.091
.133
-.051
.016
-.043
-.003
应用
-.016
-.079
.146
-.208
-.294
.031
-.003
命名实体识别
.066
.099
.106
.078
-.154
.018
-.134
层次聚类
.235
-.005
-.316
-.123
-.095
-.212
-.070
专利
-.031
-.360
.098
-.419
-.153
.071
.035
知识管理
-.349
.180
-.050
-.070
.084
-.059
.101
文本相似度
.282
.091
.041
-.027
.285
.347
.214
条件随机场
.145
.046
.149
.087
-.364
.256
-.246
数字图书馆
-.641
.260
-.055
-.004
-.088
.076
.113
MapReduce
-.097
.105
.075
-.068
.002
-.016
.010
语义分析
.043
-.137
.124
.085
-.001
-.188
-.267
遗传算法
-.316
.130
-.298
-.205
-.062
.219
-.014
信息分析
-.019
-.492
.078
-.408
.069
.098
.079
成份矩阵a
成份
15
16
17
18
19
20
21
分类
.113
.125
.094
-.038
-.019
-.105
-.019
竞争情报
.186
.146
-.301
.207
-.104
-.065
-.458
关系抽取
.201
-.011
-.160
-.104
.041
-.089
.062
Hadoop
.001
.002
-.004
-.033
.053
.007
.006
应用
.492
-.287
.142
.095
.135
.020
-.027
命名实体识别
-.006
.005
.138
.077
-.031
-.028
-.050
层次聚类
-.009
-.035
.045
.069
.000
.415
.085
专利
.265
-.199
-.016
.117
.222
.065
-.074
知识管理
-.238
-.303
-.022
.258
.070
.038
-.340
文本相似度
-.044
-.317
.023
.144
-.046
-.157
-.024
条件随机场
-.103
-.010
.033
.052
-.088
-.051
-.063
数字图书馆
-.127
-.032
-.102
.056
.145
-.075
.016
MapReduce
.011
.011
.019
-.052
.050
-.015
.001
语义分析
-.382
-.419
-.267
-.070
.017
.076
.033
遗传算法
.038
.066
-.256
.151
-.177
-.072
.156
信息分析
-.222
.247
-.004
.013
.030
.010
.042
成份矩阵a
成份
22
分类
.070
竞争情报
-.179
关系抽取
-.024
Hadoop
.020
应用
.005
命名实体识别
.005
层次聚类
.043
专利
.079
知识管理
.238
文本相似度
-.210
条件随机场
-.039
数字图书馆
-.022
MapReduce
.009
语义分析
-.196
遗传算法
-.269
信息分析
.033
提取方法:
主成份。
a
a.已提取了22个成份。
图3碎石图
表5因子分析确定文本挖掘研究结构
1.网络安全
2.办公动态服务
3.OA系统
4.计算机应用
5.医院信息化
网络
0.942
办公自动化系统
0.461
OA
0.961
应用
0.824
信息化
0.816
网络安全
0.981
ASP.net
0.906
OA系统
0.965
计算机
0.829
医院
0.813
安全
0.927
B/S
0.772
ASP
0.939
6.技术架构设计
7.工作流
8.企业网络
9.高校数据库管理
10.教学与政务
设计
0.844
工作流
0.790
Web
0.768
高校
0.839
电子政务
0.640
J2EE
0.825
Lotus
0.825
中小企业
0.834
管理
0.529
教学改革
0.625
数据库
0.557
高职院校
0.652
7.多维度分析
多维尺度分析通过测定观测量之间的距离来发现研究结构,其原理是通过指定观测量在概念空间的一个特定位置,得到空间中距离的相似性。
在结果中点的位置显示了对象之间的相似性,越在中间的对象处于越核心的地位。
通过SPSS17.0软件Scale功能中的多维尺度分析功能对相异矩阵进行多维尺度分析。
得到相关可视化结果如下:
8.结果分析
结合办公自动化领域的研究结构结合文献对结构逐一解读和阐述:
(1)网络安全(网络、网络安全、安全)。
为了使办公自动化更充分地利用,计算机要连接网络。
无论是连接互联网还是计算机之间的局域网,无法避免地,都要考虑网络安全。
网络安全,是网络得到应用以来不得不考虑的问题,办公自动化也不除外。
计算机与计算机之间,计算机与网络之间的互联,能更好地发挥办公自动化的优势。
(2)办公动态服务(办公自动化系统、ASP.net、B/S、ASP)。
ASP(ActiveServerPage,动态服务器界面)是微软公司开发的一种应用。
它可以与数据库和其它程序进行交互。
ASP的优势在办公自动化中的到了充分地体现。
ASP在协助建设办公自动化系统中发挥的作用也不容小觑。
(3)OA系统(OA、OA系统)。
OA(OfficeAutomation,办公自动化)系统是办公自动化的集中体现和承载物。
办公自动化从某种程度上来说就是依赖OA系统来实现的。
OA系统的应用程度也能体现出办公自动化的普及程度。
市场上,OA系统软件也不少,对其管理主要分四步,分别是:
OA选型、OA实施、OA推广和OA深化应用。
(4)计算机应用(应用、计算机)。
办公自动化离不开计算机的应用。
OA系统是办公自动化的软件支持,而计算机就是办公自动化的硬件支持。
一个组织,若想实现办公自动化,首先要做的就是购买计算机。
计算机系统的建成是实现办公自动化的基础中的基础。
计算机能承载各种非常丰富的软件,在这些软件充分利用的同时,办公自动化也就自然而然地形成了。
其中,计算机的配置也非常重要,不同程度的办公自动化需要不同程度的计算机配置,只有计算机配置达到相同水平,才能更好地应用办公自动化。
(5)医院信息化(信息化、医院)。
办公自动化已经深入到了医院,这是一个比较乐观的信息。
而在医院中使用办公自动化,主要是医院内外信息的交流。
例如:
若遇到做手术需要某种血型、器官等紧急的情况,办公自动化就能通过计算机网络在本医院或者其它医院中寻找需要的,从而节省了时间为患者治病,也节省了很多资源。
(6)技术架构设计(设计、J2EE)。
J2EE是一套全然不同于传统应用开发的技术架构,包含许多组件,主要可简化且规范应用系统的开发与部署,进而提高可移植性、安全与在用价值。
这个技术架构的优势在办公自动化中得到充分利用。
因为J2EE只是一种技术架构,它的使用范围非常广泛。
所以,为了在办公自动化中运用这种技术架构,就应该设计与办公自动化相应的形式。
(7)工作流(工作流、Lotus)。
Lotus是IBM公司的一款软件,在协作平台市场上占据了绝对优势的领导地位。
它在对工作流的帮助上起到了很大的作用。
而工作流从一方面体现了办公自动化。
因为要提高办公效率,就应形成工作流,工作流进行顺利,就能提高办公的效率,所以,办公自动化也要解决工作流的问题,提高了工作流的效率,办公自动化才明显。
(8)企业网络(Web、中小企业)。
企业中办公自动化的应用很大程度上是基于网络的,因为企业需要强大的、准确的信息流,而信息流的传播基于网络在当今是最迅速的。
企业需要的信息主要分两类,企业内部信息和企业外部信息。
企业内部信息交流非常关键,为了了解企业的发展情况,内部信息的整合起到很重要的作用,只有内部信息整合好了才能准确地体现企业发展情况。
企业外部信息的获取也相当重要,因为知道了市场信息,其它企业信息,才能根据这些制定企业的战略和战术。
(9)高校数据库管理(高校、管理、数据库)。
高校办公主要是基于学生的。
学生信息构成了很大的一个数据库,所以学校的办公自动化要集中在学生信息数据库的管理和分析。
所以,在学校中,办公自动化的发展应该主要针对学生信息数据库的管理。
(10)教学与政务(电子政务、教学改革、高职院校)。
学校管理和政府管理从性质角度上看时有些相似的。
因为学校是对学生,也就是人的管理,而政府是对人民,也是对人的管理。
所以,它们两个基于办公自动化在改革和发展的道路上应该也是非常相似的。
9.总结
本文是以办公自动化为主题,主要收集2007年——2011年的文献,以关键词为基础,运用了Excel和SPSS两个软件,进行了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息资源 开发 管理 作业