基于大数据的非物质文化资源挖掘研究论文设计.docx
- 文档编号:10543402
- 上传时间:2023-02-21
- 格式:DOCX
- 页数:20
- 大小:650.03KB
基于大数据的非物质文化资源挖掘研究论文设计.docx
《基于大数据的非物质文化资源挖掘研究论文设计.docx》由会员分享,可在线阅读,更多相关《基于大数据的非物质文化资源挖掘研究论文设计.docx(20页珍藏版)》请在冰豆网上搜索。
基于大数据的非物质文化资源挖掘研究论文设计
摘要
近年来,各个国家越来越重视非物质文化资源的发展。
尤其随着互联网的快速发展,利用数字化手段保护非物质文化资源的力度越来越大。
面对数量庞大,类型多样,分布广泛的非物质文化资源,数据挖掘技术在其挖掘和保护方面起了很大的作用。
它不仅能够将海量的非物质文化资源进行分类,而且能够通过数据挖掘中的聚类算法挖掘其中的价值。
其次,通过数据挖掘中的文本挖掘,了解非物质文化资源中文本信息的价值,
本文从中国非物质文化遗产网上获得非物质文化资源的文本文档,并对文本文档作预处理,将预处理后的文本分解为音乐、舞蹈、民间文学、戏剧、曲艺、民俗、医药、技艺、美术、体育十个类别,对比10个类别的文本数据的聚类效果,判断文本蕴含的文本信息和文本挖掘价值,通过实验证明,体杂文本聚类效果最好,说明体杂文本所蕴含的信息量小,文本挖掘的价值小;反之,技艺文本的聚类效果越差,说明技艺文本所蕴含的文本信息大,文本挖掘的价值大。
最后论文进行总结,对以后的发展做出展望。
关键词:
非物质文化资源;数据挖掘;K-means算法
Abstract
Inrecentyears,eachcountrypaysmoreandmoreattentiontothedevelopmentofimmaterialculturalresources.EspeciallywiththerapiddevelopmentoftheInternet,moreandmoreeffortshavebeenmadetoprotectintangibleculturalresourcesbydigitalmeans.Dataminingtechnologyplaysanimportantroleintheminingandprotectionofthehuge,diverseandwidelydistributednon-materialculturalresources.Itcannotonlyclassifymassiveimmaterialculturalresources,butalsominethevalueofthembyclusteringalgorithmindatamining.Inaddition,throughtextminingindatamining,wecanunderstandthevalueofimmaterialculturalresources'Chinesetextinformation.ThisarticlefromtheChineseintangibleculturalheritagegetintangibleculturalresourcesonlinetextdocuments,andpretreatmentoftextdocuments,afterpreprocessingofthetextisdecomposedintomusic,dance,folkliterature,drama,folkart,folk,medicine,art,art,sports,tencategories,comparedwith10categoriesoftextdataclusteringeffect,judgetextcontainsthetextmessagesandtextminingvalue,throughtheexperimentprovesthatthebodyoftheessaythebestclusteringeffect,thatessayalittleamountofinformationcontainedinthisbody,thevalueofthetextminingsmall;Onthecontrary,theworsetheclusteringeffectofcrafttextis,thelargerthetextinformationcontainedincrafttextis,andthegreaterthevalueoftextminingis.Atlast,thethesissummarizesandforecaststhefuturedevelopment.
Keywords:
non-materialculturalresources;Datamining;K-meansalgorithm
第1章绪论
1.1研究背景与意义
非物质文化资源一种表现形式,与群众生活密切相关,是人们世代相承的传统文化[1]。
他是中华民族传统文化不可或缺的一部分,也包含着中华民族最重要的精神和情感,更是先贤智慧的载体。
而现如今在科学技术发展的潮流中,传统文化正受到现代文化的强烈碰撞。
由于人们忽视非物质文化资源,导致一些优秀的传统文化被遗失,这种情况不利于我国的发展与进步。
现在,人们需要有更多的警示与思考,重视非物质文化资源的保护,留住民族记忆的背影。
信息化时代的出现带来了全民信息化水平的提高,也直接或间接地导致非物质文化传承人日益减少。
互联网的迅猛发展,使得新兴文化,外国文化成为主流,使我们忽视非物质文化资源对祖国发展和自身发展的意义。
数据挖掘技术的出现,为数据采集提供了新的思路和获取途径。
人们利用数据挖掘技术挖掘非物质文化资源,获取非物质文化资源信息,使非物质文化资源信息能够系统全面的展示在人们面前。
并通过文本聚类,将相似的非物质文化资源聚类在一起,了解其聚类效果,让人们更好的了解,保护和传承非物质文化资源,也让人们更好的了解数据挖掘技术,并将其运用于实际生活中。
1.2国内外研究现状
随着数字化大时代的来临,非物质文化资源的口传身教已经逐渐不再符合时代发展的脚步。
现在,我们都通过数字化手段,将非物质文化遗产转换成可共享的数字形态并加以保存[2]。
美国的非物质文化资源虽然有限,但对其的挖掘与保护手段却走在世界的最前沿,其中有名的“美国记忆”工程运用先进的大数据,将承载美国印象的非物质文化资源做成了可教育和终身学习的公众资源。
日本是最早提出保护非物质文化资源的国家,于1950年便提出了无形文化财产的概念并颁布了《文化财保护法》[3],积极的将非物质文化资源数字化,并建立非物质文化遗产数据库:
贵重图书图像数据库(2000年3月上网)[4],并且在该网页的电子展览会上公开了《数字式贵重图书展览会》和《世界中的日本》。
而面对非物质文化遗产被步步蚕食的情况之下,我们也有了相应的措施。
在2005年,中国国务院公布了《关于加强中国非物质文化遗产保护工作的意见》[5],并且提出运用各种方式,真实、系统和总体的记录非物质文化遗产,建立非物质文化资源档案和数据库。
确切的说就是通过计算机等设备把非物质文化进行文字、音频、视频的多媒处理,在储存、传播、应用等方面的突出优势来传承和发展非物质文化。
例如为了使挖掘到得曲艺有得到足够的重视,目前与曲艺相关的数据库有国曲艺家协会的“中国曲艺网”,星海音乐学院的“岭南音乐全文数据库”“岭南音乐音响数据库”等,
在国家的政策之下,我国的学者们也纷纷对非物质文化资源的保护出谋划策,陈思喜在《基于动作捕捉的名族舞蹈保护研究》中强调让非物质文化遗产“活”起来,与三维动态技术和动作模型结合,通过数据采集将非物质文化遗产生动灵活地展现出来[6];张博通过Web数据挖掘技术对少数民族非物质文化资源进行研究,实现少数民族非物质文化资源原型系统,对非物质文化进行信息化保护,实现非物质文化资源的传承和利用[7];雷明结合大数据处理技术与数据挖掘技术,对少数民族文化资源数据挖掘方法进行了研究,为促进少数民族文化的保护和传承提供有效途径[8]。
曹瑞以剪纸文化为研究对象,结合web页面信息采集及淘宝API程序设计了一种新的数据采集流程,全面挖掘剪纸的商业信息[9]。
从这些实例可以看出,数字化手段对非物质文化遗产的保护正在被我们广泛应用。
在如今的大数据时代的推动下,越来越多的非物质文化资源走向式微,而数字化手段的挖掘也是一个有良好发展前途的方式它存储灵活,传播迅速,应用广泛等优点,并且数字化手段有着十分可观的应用前景。
(1)可以用数字化手段对非物质文化资源所进行的场所,工具,产品甚至是非物质文化资源进行时的动态资料记录为图片,影像等并存储,保证他们不会遗失。
(2)可以在小的存储器中存储大量由文献,图片,碑刻,影像的非物质文化资源实物资料转化而成的数字化信息,借助现代化科技可随时浏览。
(3)可以在网络中建立虚拟的档案馆,图书馆,资料库等,并将非物质文化资源的各类资料进行整合,归纳分类,形成一个专门挖掘与保护非物质文化资源的平台。
(4)数字化手段突破了以往非物质文化资源的传统表演方式与场合,物质条件的限制可以打破,可利用数字化技术通过高清扫描,虚拟3D等让非物质文化资源跨空间与地域的限制,真实,动态的展现在我们眼前。
(5)数字化后的非物质文化资源,应用十分灵活,并且对庞大的数据有自动分析,整理的能力,同时对我们有更方便的查询与检索。
综上所述数字化手段对非物质文化资源的挖掘与保护有十分有效的作用。
不仅仅是我国在使用,世界各国也将其投入了不同的,更加广泛的领域。
在将来的时代中,数字化手段也应对非物质文化资源的挖掘与保护起到巨大的作用。
1.3非物质文化资源的特征
非物质文化资源并不是独立的存在,反而它的存在与我们的生活息息相关,比如说歌谣和舞蹈是为了欢庆某些特定的日子;瓷器工艺和竹编则是为了方便生活中东西的存放;各种传说是人们对某些生活或者精神的向往。
可以说,非物质文化的诞生不仅是满足人们物质方面的需求,同时也包含精神的需求。
非物质文化资源所包含的东西可以说是方方面面,特定的空间,不同的地域,传承方式的差异创造了形形色色的文化。
因此,非物质文化资源有以下几点特征:
1.3.1时空性
非物质文化资源刚开始的模样并不是我们今天见到的那样,它的开始也许是几个字,几句话,几个动作。
随着时间的齿轮推进,那些字,话,动作就像滚雪球一样愈来愈大,从而形成独特的文化。
比如瓷器,从刚开始的胎体和釉层十分粗糙,烧纸温度较低的“原始瓷”,到如今的瓷片质地细腻,釉面有光泽,胎釉结合紧密牢固的瓷器。
经历过无数的漫长岁月,先贤们用自己的经历书写智慧,为独特的文化不断积累经验,才有现在无数精彩的非物质文化的出现,因此,非物质文化资源的形成和发展与时间有密切关系。
而空间特征则是与空间地理相关的.一个地区的地理环境是该地区相应文化产生的前提条件[10]。
地理环境对文化的影响可谓十分巨大,不仅仅是文化本身,更是文化的流传都有着十分明显的地理特色。
就拿草原的非物质文化遗产来说,草原多属平原,以游牧民族为主,有着大量的牛羊马等牲畜,在独特的地理环境中,草原之上便有了独特的文化,比较有名的有传统节日“那达慕”,是蒙古族人民的盛会,其中有摔跤,三码,射箭等等,还有草原民族独特的民族乐器马头琴,都是独特的地理环境所形成的文化。
而在古代黑龙江流域的赫哲族聚居区,由于生长着大量的桦树,他们的文化便与桦树有着不解之缘,其中桦树皮制作技艺作为非物质文化遗产,也在生活中有巨大作用,包括餐具,住房,篱笆,服饰等等都是由桦树皮制作的,这些也便恰好证明了为物质文化遗产的空间特征。
1.3.2地域性
非物质文化资源具有很强的地域性特点。
有句老话说“百里而异习,千里而殊俗”,不同的地域之间文化差异巨大,哪怕是同一种文化,地域跨度一旦变大,便会形成两种截然不同的文化。
简单来说,舞蹈作为非物质文化资源中不可或缺的一部分,在不同地域便有着迥异的风格。
北方的秧歌舞古朴刚健,南方的花灯舞纤美柔曼,而少数民族在不同地域的舞蹈更加千姿百态,蒙古族安代舞粗犷有力,藏族锅庄舞舒展曼妙,苗族鼓舞平稳文雅,傣族孔雀舞婀娜多姿。
不仅仅是舞蹈,在服饰,刺绣,民乐等多个方面都可以体现出不同地域带来的非物质文化遗产的巨大差异。
由此可见,非物质文化资源的地域性特点十分鲜明。
1.3.3传承性
所谓传承,是后人继承前人留下的非物质文化资源,并在其基础上,进行研究,发展,享用。
当然,不同的非物质文化资源的传承方式各不相同,在以前的传承方式中,口传身教的传承方式较为常用,比如京剧,华阴老腔的传承,通过口传来传承。
当然,非物质文化资源的传承也有以物传承或通过节日活动传承,如唐山花吹中的唢呐,唐山皮影,玉田泥人等都是以物传承[11],而徐水狮舞的活动时间在春季和春季寺庙法会,苗族的“四月八”,布依族的“六月六”,彝族的“火把节”[12],都是每年所拥有的传统节日。
然而,以前的传承方式有很大的不稳定性,如石阡木偶戏的老艺人只有三位耄耋老人,并没有传人,而被誉为象形文字“活化石”的水书也面临着失传的危险。
因此数字化传承应运而生,我们将非物质文化资源的图片,物品,影像资料等储存在网络档案馆,使得非物质文化遗产更加立体化,全面化的被我们了解,学习。
这也同时体现了非物质文化资源的传承性。
第2章数据挖掘技术研究
随着互联网技术的高速发展,数据挖掘技术在当今社会有很深的影响,它不仅能够从海量的数据中找到对我们有用的数据,还可以对数据进行处理。
文本挖掘作为数据挖掘的一部分,能够挖掘文本中的信息,供我们使用。
文本聚类文本挖掘的一种技术,是一种无监督的学习方法。
、2.1数据挖掘
2.1.1数据挖掘定义
数据挖掘(DataMining,简称DM),简单地讲就是从大量数据中挖掘或抽取出不可知的,有意义的知识的过程,主要用于数据库系统及数据库应用,在人工智能、机器学习、模式识别、统计学、数据库、可视化技术等方面发挥了很大的作用。
例如:
在企业中,能够对其数据进行自动化的分析,并作出推理,从中得到未被挖掘的模式,帮助领导者做出能够适应市场变化的决策。
2.1.2数据挖掘流程
数据挖掘能够处理数据中的信息,选取其中的重要数据,从中寻找出有规律的数据,为领导者做出有效地数据分析报告,使得领导者更好的决策。
大概流程是:
从原始数据中选取需要的数据,经过预处理、转换等步骤选择其中的有效数据,对数据进行分析、解释,最终作为实用知识呈现在人们面前。
(1)数据选择:
确定发现任务的操作对象,即目标对象;它是从原始数据中抽取的用户需要的数据
(2)预处理:
清除噪声、对缺值数据进行推算、删除重复的数据记录、完成数据类型转换等[13];
(3)转换:
对数据进行降维,使得数据能够更好的应用
(4)数据开采:
明确定义数据开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等。
确定任务后,选择使用开采算法;算法可以根据数据的不同特点来决定,也可以根据用户或系统的需求来决定。
(5)解释和评价:
用户和机器在评价数据挖掘阶段发现的模式时可能存在冗余或无关的模式,需要将其清除,使用户更容易理解和应用。
2.2文本挖掘
2.2.1文本挖掘定义
文本挖掘(Text Ming,简称TM),是数据挖掘的一部分,是指从大量文本数据中抽取隐藏的,以前未晓的、可懂得的、最终能够运用知识的过程,同时能够将这些知识组织成信息,成为将来的参考,是Feldman在1995年正式提出的[14]。
简单地说,它就是从非结构化的文本中搜索知识的过程。
2.2.2文本挖掘预处理
文本挖掘预处理由三步完成:
分别是文本收集、文本分析和特征修剪[15]。
⑴文本收集
文本数据的挖掘可能具有不同的类型,而且分布在不同的地区。
文本收集就是根据需求寻求和搜索与当前工作相关的文本。
⑵文本分析
文本收集的文档的内容是人类所使用的自然语言,计算机不能够理解其中的语义,数据挖掘技术也不能够直接应用我们收集的文本,因此需要对收集的文本进行分析,取出数据中以结构化形式为特征的中介数据,作为文档的中间表示形式。
⑶特征修剪
它有两种方式,横向选择和纵向投影。
横向选择可以提高挖掘效率,纵向投影能够根据挖掘目标选取有效的特征。
通过特征修剪,就可以得到开展各种文档挖掘工作的代表文档集合的有用的特征子集。
2.3文本聚类
2.3.1文本聚类定义
,文本聚类以出色的聚类假设为主要依照:
同类的文档相似度较大,而不同类的文档相似度较小[16]。
文本聚类是一个将文本集分组的全自动处理过程,是一种无监督的机器学习方法,能够灵活地和自动化的处理问题,可以对文本信息进行很好地组织、摘要和导航。
2.3.2文本聚类流程
文本聚类的一般流程如下:
图2-1文本聚类流程图
⑴分词
分词这一步主要是对中文文档而言的,一般使用分词工具来完成。
⑵去除停用词
停用词就是我们在实际生活中常用的不能用于区分文档之间关系的一些词语。
如“的”,“你”,“我”,“他”等。
⑶构建词袋空间VSM(vectorspacemodel)
构建词袋空间的步骤如下:
①将程序中的所有文档读入,对每个文档进行切词。
②将每个文档中的停用词清除。
③对所有文档的词集合进行统计(sk-learn相关函数)。
④为每个文档构建一个向量,向量的值是对应词语在本文档中出现的次数。
⑷TF-IDF构建词权重
TF-IDF(termfrequency–inversedocumentfrequency)是一种加权技术,常用于资讯检索与文本挖掘。
TF(TermFrequency,词频)用于判断一篇文章中某个词或短语出现的频率。
如果词频高,并且在其他文章中很少出现,则认为该词或者短语具有很好的类别区分能力,适合用来分类。
IDF(inversedocumentfrequency,逆向文件频率)用于类别区分能力。
第3章基于TF-IDF和K-means的文本聚类方法的研究
利用jieba进行关键字提取时,有两种算法,基于TF-IDF算法和基于TextRank算法。
TF-IDF算法,完全基于词频统计来计算词的权重,TextRank相对于TF-IDF,也是基于统计的思想,只不过其计算词的权重时,不仅考虑了词的上下文(通过窗口滑动来实现),而且考虑了相关联系词的影响。
总的来说,TD-IDF计算简单,运行性能更好。
聚类就是把数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大。
目前,在很多个领域都应用这种方法。
K-means算法是应用比较广泛,较多的一种算法。
下面我们介绍基于TF-IDF算法和K-means算法。
3.1基于TF-IDF算法
TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文件频率)是一种统计方法,用以评估一个词语对于一个文件集或语料库中的一份文件的重要程度,其原理可概括为:
一个词语在一篇文章中出现次数越多,同时在其他文档中出现次数越少,越能够代表该文章。
计算公式:
TF-IDF=TF*IDF,其中:
TF(termfrequency,TF):
词频,某一个给定的词语在该文件中出现的次数,计算公式:
公式(3-1)
IDF(inversedocumentfrequency,IDF):
逆文件频率,如果包含词条的文件越少,则说明词条具有很好的类别区分能力,计算公式:
公式(3-2)
3.2K-means算法
3.2.1算法概述
K-means聚类算法是1955年由Steinhaus分别在他们各自研究的不同的科学领域独立提出的。
空间聚类分析方法是空间数据挖掘中一个十分重要的方法[13],是从数据中发掘知识的一种手段。
k-means算法在聚类分析中起着重要作用,目前仍然是应用最为广泛的划分聚类算法之一[17]。
3.2.2算法实现步骤
①首先确定一个k值,即我们希望将数据集经过聚类得到k个集合。
②随机选择k个数据点作为聚类中心。
③计算每个点分别到k个聚类中心的聚类,然后将该点分到最近的聚类中心,这样就行成了k个簇;
④把所有数据归好集合后,一共有k个集合。
然后重新计算每个集合的质心。
⑤重复以上2~4步,直到质心的位置不再发生变化或者达到设定的迭代次数。
伪代码如下[18]:
输入:
样本集D={x1,x2,....,xm};
输出:
聚类簇数k
1:
从D中随机选择k个样本作为初始均值向量{μ1,μ2,。
。
。
,μk}
2:
repeat
3:
令Ci=Ø(1≦ⅰ≦k)
4:
forj=1,2,...,mdo
5:
计算样本xi与各均值向量μi(1≦i≦k)的距离:
dji=||xi-μi||2
6:
根据距离最近的均值向量确定xi的簇标记:
λj=argmini
{1,2,...,k}dji
7:
将样本xi划入相应的簇:
Cλj=Cλj
{xj};
8:
endfor
9:
forj=1,2,...,mdo
10:
计算新均值向量:
μʹi=
11:
ifμʹi≠μithen
12:
将当前均值向量μi更新为μʹi
13:
else
14:
保持当前均值向量不变
15endif
16:
endfor
17:
until当前均值向量为更新
输出:
簇划分c={C1,C2,...,Ck}
3.2.3优缺点:
优点:
①能够简单、快速解决聚类问题
②在处理大数据集时,该算法保持可伸缩性和高效率[19]
缺点:
①定义簇的平均值才能使用,
②必须给出合适的k值(要生成簇的数目),而且对初值敏感,即对于不同的初值,可能会导致不同结果
③不适合大小差别很大的簇
第4章:
实验验证
4.1文本预处理
本实验所用的文本数据来自于“中国非物质文化遗产网”获得的文本文档。
实验文档页面如下所示:
图4-1实验文档
对文本数据所做的处理如下:
第一,采用正则表达式删除标点及无效文本,例如“你”“我”和“他”等对聚类效果不产生任何影响的文本特征。
第二,删除大篇幅的文本,由于文本篇幅太大,一方面硬件上CPU内存限制,另一方面,使用开发环境pycharm2019设置合适的虚拟内存也无法满足大篇幅语料的聚类效果。
4.2实验结果
我们将预处理后的文本分解为音乐、舞蹈、民间文学、戏剧、曲艺、民俗、医药、技艺、美术、体育十个类别,利用k-means算法对每个类别做文本的数据挖掘,计算每个类别的TF-IDF权重,然后采用样本距其最近的聚类中心的平方距离之和用以评价聚类的精准度,来分析文本信息挖掘价值的大小
A舞蹈:
将各种舞蹈种类聚类在一起,计算舞蹈的TF-IDF权重(wordfeaturelength)为13042,根据样本距其最近的聚类中心的平方距离之和,度量精确度为1440.2581770287636,得到簇数为3。
聚类图:
图4-2舞蹈聚类图
B音乐:
将各种音乐种类聚类在一起,计算音乐的TF-IDF权重(wordfeaturelength)为13953,根据样本距其最近的聚类中心的平方距离之和,度量精确度为1771.637532606441,得到簇数为4。
聚类图:
图4-3音乐聚类图
C民间文学:
将各种民间文学种类聚类在一起,计算明间文学的TF-IDF权重(wordfeaturelength)为7757,根据样本距其最近的聚类中心的平方距离之和,度量精确度为782.9073155431148,得到簇数为2。
聚类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 物质文化 资源 挖掘 研究 论文 设计
![提示](https://static.bdocx.com/images/bang_tan.gif)