基于语义分析的北京市十大热点景区网络游记大数据分析Word文档格式.docx
- 文档编号:17945919
- 上传时间:2022-12-12
- 格式:DOCX
- 页数:14
- 大小:1.90MB
基于语义分析的北京市十大热点景区网络游记大数据分析Word文档格式.docx
《基于语义分析的北京市十大热点景区网络游记大数据分析Word文档格式.docx》由会员分享,可在线阅读,更多相关《基于语义分析的北京市十大热点景区网络游记大数据分析Word文档格式.docx(14页珍藏版)》请在冰豆网上搜索。
(二)大数据获取
从蚂蜂窝、携程网、XX旅游等主流游记发布网站抓取北京十大热点景区的全部游记。
网页数据采集目前已经有很多较为成熟的软件,如集搜客(GooSeeker)、乐思软件、火车采集软件等,这些软件普遍具有迭代迅速、模式成熟、容易操作的优点,但同时也有各自的限制。
为抓取优质数据,使分析结果更加准确,本次研究根据以上抓取软件的基本思路和算法,用编制改良的抓取程序进行数据采集。
(三)大数据分析
旅游大数据分析包括搭建数据库、数据分析和结果输出等部分。
图1旅游大数据获取和分析流程
首先将数据进行结构化处理,按照游记标题、游记作者、游记正文等基本要素以及出游方式(家人/个人/朋友等)、出游天数、出游花费等出游信息,将下载的数据导入EXCEL中,成为本地原始游记数据库。
然后,对数据进行内容清洗:
根据出游时间删除非2015年的游记数据,删除基本信息大量缺失的数据,删除游记网站模板数据和浮动广告条等无效数据。
最后,对原始数据的游记正文进行格式处理:
包括纯文本化处理,删除重复行和空白行,删除过短或纯符号等无意义行,将文本按照句号、感叹号、问号等句末标点进行分行等处理。
将有效的游记正文保存为纯文本格式文件,得到2015年北京十大热点景区游记大数据库。
对游记正文进行分词处理,将798、古北水镇等较新的北京专有旅游词汇添加到分词词汇表中。
分词完成后进行词频统计,过滤掉各种副词、虚词等无意义词汇后,整理得到有效高频词汇表。
根据高频词汇表对游记文本的每一行进行特征词提取和所有行特征词的共现频次统计,得到行特征词共现矩阵。
将共现矩阵进行拓扑图可视化处理,形成语义结构图。
对语义结构图进行更深入、更准确的分析,得出结论。
并根据分析结论与语义结构图进行聚合、分色等结构化处理,进一步增加可读性。
三北京十大热点景区游记大数据语义分析
(一)故宫
“北京”是故宫游记的第一关键词,这说明故宫在很大程度上代表了北京旅游形象。
游客对故宫兴趣集中于“宫殿建筑”、“历史文化”和“皇家人物”。
游客关注度最高的故宫建筑主要集中在外朝三大殿、内廷中路(乾清宫)和内廷西路(养心殿、储秀宫)。
同时,天安门和景山成为故宫的高频关键词,可见天安门—故宫—景山是一组高度相关的旅游景区。
故宫人物中,明朝永乐皇帝作为故宫建造者受到游客关注,而清朝康熙和雍正皇帝以及“王公大臣”的高关注度,笔者则认为与近几年荧幕热播的清宫影视剧有关,“甄嬛”“小主”“储秀宫”等词都印证了这一点,充分说明相关影视作品对故宫旅游的影响。
但这种影响可能包括两方面:
一方面是真实历史信息的传递,另一方面是因为艺术表达需要而杜撰的情节对游客造成的误导。
笔者摘录了一些产生两种不同影响的游记原文:
“导游介绍说,清世祖……立了‘内宫不许干预政事’的铁牌在此殿(笔者注:
交泰殿),这一点在《甄嬛传》里面也有被提到,我记得原话是‘后宫不得干政’呵呵”;
“说道坤宁宫,《甄嬛传》是没提到这里,可《还珠格格》里的皇后和容嬷嬷倒是住在这里啊”;
“这里就是储秀宫,《甄嬛传》里的祺贵人住在这里”。
由此可见,游客从影视剧中得到“后宫不得干政”这一真实历史信息,同时也将甄嬛、还珠格格等历史上并不存在的人物带到了故宫旅游中。
游客对故宫历史文化的映像是“庄严”“威严”“皇威”“金碧辉煌”“遗产”“珍宝”“传统”“厚重”,也包括“沧桑”“斑驳”“悲凉”等情绪,这说明游客在认同故宫历史文化内涵和遗产价值的同时,也对故宫的朝代更替和文化兴衰表达出由衷的感慨。
图2故宫景区游记关键词语义结构
(二)颐和园
颐和园最大的旅游吸引力在于它是“保存完整”的“皇家园林”。
除了众多皇家建筑(“排云殿”“长廊”“文昌阁”“仁寿宫”等)和精美“彩画”外,颐和园最突出的特征,也是游客最关注的两处景点是“昆明湖”和“十七孔桥”。
划“游船”是昆明湖主要的旅游活动,同时,湖边颇具特色的“石舫”(清晏舫)也成为游客感兴趣的景点。
“石狮”是十七孔桥的主要吸引物,也是游客“拍照”留念的重要景点。
游客对颐和园的另一个兴趣点在于不同“天气”“季节”等自然因素赋予了这座人造园林更多的美丽景致,如颐和园和“蓝天”“白云”的组合;
如“大雪”之后,“白雪”“红墙”的对比;
以及“谐趣”园内的“梅花”。
因此,与故宫相比,颐和园虽然同样“宏伟”“气派”,但同时多了一些山水园林的“可爱”,这也成为游客喜爱颐和园的一个重要因素。
最后,“方便”的公交系统,尤其是“地铁”系统(颐和园“北宫门”外即有地铁站)提高了颐和园游客的满意度。
图3颐和园景区游记关键词语义结构
(三)三里屯
三里屯已经成为“朝阳区”甚至全北京的“时尚地标”,游客对三里屯充满了溢美之词:
“浪漫”“独特”“漂亮”“风格”“休闲”等。
“酒吧”“餐厅”“夜景”“建筑”“购物”成为三里屯最主要的旅游吸引力。
相应的,酒吧夜生活、参观拍照、购物逛街、品尝特色美食等成为三里屯的主要旅游活动。
三里屯的游客以年轻人为主,其中不乏“明星”“老外”“姑娘”和“艺术家”等时尚人群。
三里屯的旅游活动时间主要集中在“下午”到“晚上”,尤以“夏天”和“周末”的“晚上”为最多。
除了酒吧,参观夜景也成了三里屯夜间旅游活动的重要组成部分。
三里屯“漂亮”的“建筑”,以及隐藏在这些建筑中的“特色酒店”“创新餐厅”“西班牙餐厅”“苹果电子产品旗舰店”“冰激凌”“咖啡”等也成为三里屯重要的旅游吸引力。
另外,“南锣鼓巷”成为独立的关键词,游客往往会将南锣鼓巷和三里屯的游览串联起来,这也说明对北京新兴景区感兴趣的游客同时也对传统景区感兴趣。
图4三里屯景区游记关键词语义结构
(四)798
798景区最核心关键词是“艺术”,这是该景区最重要和最基础的特征。
798的艺术代表了当代一种“独特”的“文化”,这种文化可以概括为“开放”“时尚”“有想象力”“有创意”“前卫”等。
798主要依托原国营798厂等电子工业老厂区建成,这是游客比较关注和感兴趣的资源点。
在语义结构图中大量关于“厂房”“工厂”“工业”“厂区”等词的出现证明了一点。
值得注意的是,游客甚至对厂房的独特风格和历史沿革都很感兴趣。
原798工厂是20世纪50年代由东德援建的,其建筑风格是典型的包豪斯风格。
语义结构图的次要圈层中两个重要关联词语即是“德国”和“包豪斯”。
798聚集了大量的“艺术家”和相关工作室,其中游客最关注、数量最多的是“画廊”,如佩斯北京、常青画廊、尤伦斯当代艺术中心、伊比利亚当代艺术中心、程昕东国际当代艺术空间、东京艺术工程等很有名的画廊都聚集于此。
游客对这些画廊举办的画展,以及与之相关涂鸦、雕塑等关注度也较高,但与之关联的词语既包括“可爱”“自由”,也有“不懂”“失望”。
为了展现游客更真实的感受,重点摘录“不懂”和“失望”两个词的原文。
“这里的东西有些前卫地让人不懂,但是我们不要因为不懂而诋毁,因为它也是一种存在。
”“去了传说中北京现代艺术家的聚集地,一种感觉油然而生,难道越怪异,生僻越脱离生活就越艺术吗?
哈哈,不懂。
不过没关系,相信有人懂。
”“一些艺术让我们读不懂,却流连忘返。
这便是魅力!
”“这一次去,让我有些失望了,那边现在越来越商业化了,随便一走就是餐厅、卖水和休息的地方,画展和雕塑展少了,有好的还需要花钱进去看,越来越不如以前了。
”“刚下公交,却有抵挡不住的失望——红火的太阳炙烤着光秃秃的街道,嘈杂的汽车尾声,各种小商贩的叫卖,甚至还有某家小店的情趣用品……完全没有想象中的静谧与安然。
”由此看出,游客对798的艺术并非完全懂,但多数游客尊重这些艺术的存在。
但同时,由于798景区的不断商业化和周边缺乏管理,成为游客失望的重要因素。
图5798景区游记关键词语义结构
图6798景区典型的包豪斯风格建筑
(五)香山
“红叶”景观依然是香山景区重要的旅游吸引物,多数游客甚至了解香山红叶景观始于“清代”的历史(香山红叶的“黄栌”是清代乾隆年间栽植的,经过200多年来的发展,逐渐形成拥有94000株的黄栌树林区)。
但同时,与红叶相关联的词却是“遗憾”,这种遗憾可能与观赏天气、往返交通、景区管理等多方面因素有关系。
另外一方面,市郊“公园”成为香山新的重要的旅游职能,而“爬山”则是香山公园最主要的旅游活动。
香山最高峰海拔不足600米,但由于离市区较近、登山线路合理、基础设施完善、山顶风光秀美等原因,使大量游客热衷于爬香山。
从语义结构图看,“东门”是爬山游客重要的出入口,“北门”虽也有提及,但北门的登山路线风景少、坡度大,还是缆车线路的主要出入口,所以和登山活动的关联度并不高。
由此也可以判断游客爬香山更愿意选择景美、破缓的路线。
除了红叶和公园外,香山另一个重要特征便是“皇家”身份。
包括“建筑”(“勤政殿”)“园林”“清代皇帝”(“乾隆”)等都是游客关注的旅游资源。
香山游客的出行方式包括“自驾”和“公交”,两者比重接近。
另外,值得景区管理方注意的是,和香山“小吃”关联的高频词是“后悔”,说明香山景区的小吃还存在问题,这一点可能会直接影响游客对香山的整体满意度。
图7香山景区游记关键词语义结构
(六)八达岭长城
八达岭长城景区的语义结构图比较简单、清楚。
游客主要出行方式是“火车”和“公交车”,“北京北站”成为重要的出行始发站,很显然这与北京市郊铁路S2线(北京北站-延庆)有很大关系。
另外,从关联度较大的“停车场”一词看,八达岭游客的主要出行方式也包括“自驾”。
八达岭东段的“水关”“好汉坡”“关城”“敌楼”等成为游客感兴趣的长城节点。
值得注意的是,“居庸关”不属于八达岭长城部分,但也成为高频关键词,为了进一步弄清楚原因,笔者再次返回原文,并将代表性语句摘录出来。
“我们一路向长城驶去,一段长城出现在我们眼前。
原来是居庸关长城。
”“八达岭是居庸关的外口,是古代一条重要的交通要道和防卫前哨,素有‘京北第一屏障’之称。
”“八达岭长城位于军都山关沟古道北口,是居庸关长城的前哨。
”由此可见,居庸关成为八达岭长城游记高频关键词的原因在于,游客从北京城区去往八达岭会先经过居庸关,同时游客对八达岭和居庸关的历史渊源也较为了解。
“詹天佑纪念馆”和其创造性修建的人字形“铁路”遗址(“青龙桥”火车站等)也成为八达岭景区重要的旅游资源。
城墙上的中外“刻字”涂鸦同样受到较大关注,而与其关联的词汇为“破坏”,说明多数游客已认识到这种不文明行为对文物的破坏。
八达岭游记中出现一组相对独立的以“山脊”为核心的关键词群,研究原文后发现,八达岭附近有一条“八达岭—桃山顶—黄土梁北山脊岔口”的徒步路线受到很多户外爱好者的青睐,由此可见,长城景区已经不再是八达岭附近的唯一旅游热点。
图8八达岭景区游记关键词语义结构
(七)什刹海
什刹海的语义结构图较为繁杂,甚至出现了很多并不属于什刹海范围的景区或景点。
这说明,什刹海并不是游客在此附近游览的唯一目的地,游客会将“故宫”“北海公园”“鼓楼”“王府”及周边“胡同”“南锣鼓巷”等附近景区组织串联起来。
其中,南锣鼓巷属于核心关键词,说明游客同时游览什刹海和南锣鼓巷的可能性很大。
从这个角度讲,什刹海应该考虑和南锣鼓巷进行捆绑式旅游营销。
“酒吧”成为次要核心关键词,并且与其相关联的关键词群占据了整个语义结构图的1/3,由此可见酒吧文化已经成为什刹海区域最大旅游吸引力。
什刹海酒吧的游客群体主要为青年男女(“帅哥”“美女”),游览时间集中在“晚上”,旅游活动包括参观拍照、品尝美食、唱歌娱乐、社会交际(“偶遇”)等。
另外,“中国好声音”以及“王青”“冯建宇”等歌手成为2015年什刹海区域最受游客关注的年度事件或人物。
什刹海区域的小吃美食同样受到关注,并且大部分游客给予“馋嘴”“好吃”等评价,满意度较高。
图9什刹海游记关键词语义结构
(八)鸟巢、水立方
以“鸟巢”和“水立方”为关键词的游记语义结构图中,水立方却并没有成为和鸟巢同等重要的最核心关键词,说明游客对鸟巢的关注度更高。
参观拍照、观看文艺表演和体育比赛成为游客在鸟巢主要的旅游活动,于2015年3月正式启动“文化中心”也受到游客关注。
但从语义结构图看,并没有太多与文化中心相关联的词语,这说明由于开放程度、建设进度等原因,文化中心并没有举办足够的旅游活动。
但游客对刚刚启动的文化中心就表现出较高关注度,也说明这一景点的发展潜力巨大。
2015年7月举办的足球比赛——“拜仁慕尼黑季前第2场热身赛”成为鸟巢2015年最受游客关注的体育比赛。
据报道,这场比赛吸引了3万多人到场,规模浩大。
2015年10月举办“中国好声音”决赛和其他明星“演唱会”是2015年鸟巢最受游客关注的文艺表演。
从“演唱会-发车-车次”这组关联词来看,鸟巢游客中很重要一部分是专门乘车来观看演唱会的。
如何用其他旅游活动延长专程来观看比赛和表演的大规模游客的停留时间,是鸟巢管理方应该考虑的问题。
水立方最主要的旅游活动是游泳,同时夜间多彩的水立方成为吸引游客的重要景点。
游客到达鸟巢和水立方主要的交通工具是地铁和公交。
另外,鸟巢广场的市民休闲也是重要的旅游活动,这些活动包括:
特色餐饮(餐厅)、放风筝、散步、拍照等。
图10鸟巢、水立方景区游记关键词语义结构
(九)古北水镇
古北水镇景区有两个最核心关键词,分别是“古北水镇”和“司马台长城”,水镇位于长城“脚下”。
说明除了水镇本身外,司马台长城也是该景区特别重要的旅游资源。
古北水镇游客关注的旅游要素集中在“行、游、住”等方面,包括到达景区的“高速出口”,景区内的“酒店”“客栈”“门票”“夜景”等。
单从水镇角度看,其主要吸引力在是它与江南水乡的高相似度,以及“民国风”和整个小镇体现出的“休闲”氛围。
古北水镇仿“乌镇”而建,从游客给予的“细腻”“柔情”“典雅”等溢美之词可以看出,古北水镇的仿建是成功的。
而大量的民国时期“建筑”又给小镇增加了更多“韵味”。
除了参观,古北水镇还有可以参与其中的“体验”“永顺染坊”等活动,这些因素组合起来,构建了整个小镇的休闲氛围。
另外,司马台长城展现给游客的却是北方景区具备的“粗犷”“险峻”等特点,游客站在长城上“俯瞰”水镇,两种截然不同的风格形成鲜明对比,同时又有机地融合在一起,由此构成了古北水镇独特的吸引力。
图11古北水镇景区游记关键词语义结构
(十)欢乐谷
欢乐谷景区的语义分析基本可以概括为三方面:
游乐项目、时间(包括排队时间、出游时间、项目开放时间等)以及游客感受等。
“失落玛雅”和“蚂蚁王国”是欢乐谷最受关注的两个片区,其中,“水晶神翼(水晶之翼)”“奥德赛(激流勇进)”“太阳神车”“丛林飞车”“金面王朝演出”“特洛伊木马”“雪域金翅”等成为游客最感兴趣的项目。
同时这些项目几乎都和“排队”一词产生关联,而且项目开放时间和排队时间也存在联系。
人多、排队长、开放时间短都会降低游客满意度,如何有效组织热门项目之间的游览线路、如何及时疏导游客、是否可以延长项目开放时间都成为景区管理方应该认真考虑的问题。
图12欢乐谷景区游记关键词语义结构
游客出游季节以夏天为主,这符合欢乐谷冬天淡季夏天旺季的特点。
游客出发时间一般选在早上,说明欢乐谷“夜场”活动虽然也受到关注,日场活动仍然对多数游客具有更大吸引力。
游客对欢乐谷的总体评价为:
好玩、刺激、娱乐、神秘等。
四结语
综合2015年北京十大热点景区的大数据分析结果,可以总结出2015年北京热点景区的一些发展规律。
(一)注重传统和新型景区同步发展,打出北京旅游发展组合拳
北京传统景区和新兴景区在北京旅游中均具有较好发展水平,并未出现此消彼长、互不相容的情况。
三里屯成为朝阳区甚至北京新地标,798代表新生代艺术力量,古北水镇成为北京新的热点度假目的地……这些新兴景区的崛起并未影响到传统景区的发展。
以故宫、颐和园为代表的皇家文化仍然是北京旅游的中心,每年秋季到香山赏红叶的游客还是摩肩接踵,什刹海周边每晚依然灯红酒绿。
北京旅游应注重传统景区的升级发展,也应该加强新型景区的引导管理。
北京传统景区是北京作为历史古都的厚重文化底蕴的展示窗口,而新兴景区则是北京作为现代大都市,经济、文化、艺术、娱乐等多方面的时尚和国际化特点的表现平台。
两者是互相补充和互相促进的,游客通过北京传统景区和新型景区的组合游览,更能充分理解北京旅游的全部内涵。
(二)满足多样休闲旅游需求,完善北京旅游产品体系
北京热点旅游景区大多开始丰富各自的旅游产品,以满足多元的旅游市场需求。
新型景区中,鸟巢和水立方在2008年举办奥运会后除了基本的参观游览活动,开始承办各种文艺演出和体育赛事;
欢乐谷推出夜场项目,以吸引不同需求的旅游市场;
798景区除了不定期举办各种规模的艺术展出外,开始吸引越来越多的创意小店、时尚餐饮、特色住宿等进驻。
传统景区也开始改变,颐和园和香山作为北京市民休闲健身的城市公园功能越来越明显地显现出来;
什刹海区域除了传统的胡同文化和皇家文化外,酒吧已经成为该区域主要的商业业态。
北京旅游应紧扣供给侧改革的思路,在旅游需求多元化的背景下,满足不同休闲旅游需求。
而景区单一化的旅游产品可能将潜在的旅游市场拒之门外。
(三)结合影视剧等电视节目传播,丰富北京旅游营销系统
影视剧、真人秀和重大文艺会演等电视节目会对北京旅游产生较大影响。
《还珠格格》《甄嬛传》对故宫旅游的影响包括正确历史知识的传达以及为艺术表达需要杜撰情节的误导。
什刹海酒吧歌手王青和冯建宇因为参加电视选秀节目《中国好声音》而一度成为什刹海景区游客关注的焦点和重要吸引力。
2008年奥运会的举办让鸟巢参观游览活动至今受到追捧。
北京旅游可以充分利用现代电视节目传播速度快、影响范围大的特点,助力北京旅游营销。
同时考虑适度放大相关电视节目的影响力,延长影响时间,在不破坏景区资源、符合景区发展整体思路的前提下,可以配合电视节目,展示相关景点或开设相关项目。
但必须注意的是,需要传播准确的历史文化知识,传递积极向上的价值观念。
-全文完-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 语义 分析 北京市 热点 景区 网络 游记 数据