基于python的旅游信息爬取以及数据分析Word下载.doc
- 文档编号:13011525
- 上传时间:2022-10-02
- 格式:DOC
- 页数:42
- 大小:2.13MB
基于python的旅游信息爬取以及数据分析Word下载.doc
《基于python的旅游信息爬取以及数据分析Word下载.doc》由会员分享,可在线阅读,更多相关《基于python的旅游信息爬取以及数据分析Word下载.doc(42页珍藏版)》请在冰豆网上搜索。
关键词:
PythonHtml爬虫旅游马蜂窝
Abstract
Withthedevelopmentofcomputernetworktechnology,inrecentyears,newprogramminglanguageshaveemergedendlessly.Pythonisthemostpopularlanguageinrecentyears.Pythonhasmoreconvenientandpracticalmodulesandlibrariesthanotherhigh-levellanguages.,Hasthecharacteristicsofsimplesyntaxandclearstatements,whichmakesitmoreconciseandeasytouseintheprogrammingofcode.Inaddition,Pythonisparticularlywidelyusedasaversatilelanguage,fromwebsiteconstructiontodataprocessingtogadgets.Thedesignofsmallgamescanbedonebypython.Amongthem,theapplicationofreptilesmakespythonalanguagemoreknown.
Webcrawlerscannotonlycollectnetworkinformationforsearchengines,butalsoactasadirectionalinformationcollector.Undercertainconditions,theycancollectinformationaboutcertainwebpages,suchashouseprices,stocks,andrecruitmentinformation.Fortheseinformation,wecananalyzethedataProcessittogettheinformationweneed.
Thisarticleistoimplementacrawler'
sinformationcollectionandanalyzethedatacollectedbypythontogetthedesireddata.
Keywords:
PythonHtmlreptiletourismMafenwo
目录
第一章 引言 6
1.1 背景 6
1.2 国内外研究情况 6
第二章 爬虫语言以及工具的介绍 8
2.1 Python介绍 8
2.1.1 Python语言的产生以及发展 8
2.1.2 Python语言的特色 8
2.1.3 Python语言的缺点 9
2.2 URL介绍 9
2.2.1 URL的定义 9
2.2.2 URL的解读 9
2.3 HTML介绍 10
2.3.1 HTML的定义 10
2.3.2 爬虫与HTML 10
2.4 爬虫工具介绍 11
2.4.1 Chrome 11
2.4.2 Pycharm 11
第三章 项目的需求以及设计分析 13
3.1 项目的需求 13
3.2 项目的任务 13
3.3 设计分析 13
3.3.1 城市编号的获取 13
3.3.2 城市信息的爬取 13
3.3.3 爬取信息的处理 14
第四章 项目的实现 15
4.1 城市编号获取的实现 15
4.1.1 城市编号获取使用库的介绍 15
4.1.2 城市编号获取过程 16
4.2 城市信息获取的实现 22
4.2.1 城市信息获取使用库的介绍 22
4.2.2 城市信息获取过程 23
4.3 数据可视化处理 31
4.3.1 数据可视化处理所使用的库 31
4.3.2 柱状图数据可视化代码实现 31
4.3.3 饼状图可视化代码实现 32
4.3.4 热力图数据可视化代码实现 33
4.4 可视化图片展示 33
第五章 不足之处 39
第六章 期望与总结 40
参考文献 41
致谢 42
第一章引言
1.1背景
随着近些年来网络的快速发展,网络进入了大信息时代,网络上的信息呈现爆炸式的飞涨,五花八门的信息显示,这使得人们在网络上寻找自己所需要的信息时,显得越来越困难,当然,一个问题的出现,必然有一个方法去对应,信息的剧增,与之对应的,便是搜索引擎的出现,比如google、百度等等,搜索引擎通过搜集网络上数以万计的不同类型的网页信息,并为其建立起索引,通过搜索引擎,即使网络上的信息种类繁多,我们还是能够通过关键词的搜索,搜索得出与之对应的信息的网页。
网络爬虫是一个自动化的程序,也是搜索引擎的组成部分之一,不同的搜索引擎,可以通过不同的搜索需求,选择合适的爬虫方法来搜集网络上的信息,传统网络爬虫主要从一个url开始,通过爬取目标网页的url,观察其组成结构特点,按照结构规律,构建新的url,不停的将新的url放入队列中,循环爬取,最后直到需求完成为止。
优秀、高效的爬虫程序,能够使人们网络上找到更加精准的信息。
本文通过python语言,实现了一个对于马蜂窝旅游网站的信息采集分析,通过对马蜂窝旅游城市的城市编号爬取,根据马蜂窝网站的网址规则,通过拼接得到马蜂窝旅游网站的城市url,根据获取得到的url,进入马蜂窝旅游城市页面,观察页面组成结构,通过标签定位,爬取我们所需要的页面信息,将其保存入本地文件,再对文件里面的数据进行数据处理,可视化分析,告诉你旅游去哪儿好。
1.2国内外研究情况
python作为搜索引擎技术组成部分之一,自九十年代初诞生了第一个网络爬虫以来,python技术已经经过了20多年的发展,经过这么多年的发展,python技术也趋于成熟,逐渐覆盖了网页开发、游戏开发、爬虫分析可视化、脚本开发等等专业领域,并通过其简单易懂、代码编写效率高的特点,成为目前最为火热的开发编程语言,也正是其应用广泛,上手容易,语法强大,代码可读性强的特点,受到了很多人的喜爱,让很多人爱不释手。
同时,由于不同的人对于数据爬取内容的差异,常常会产生不同的需求,因此爬虫主要可以分为以下两种:
1、通用爬虫:
通用爬虫其实很简单,它的作用就是将网络上的网页下载下来,保存到本地,其实就是生成一个副本,作为网页的备份。
所以通用搜索一般得到的都是网页,对于用户来说,网页的内容十之八九都是没用的,要的只是网页中的某些特定的信息。
所以就有了我们第二种爬虫方法。
2、聚焦爬虫:
聚焦爬虫是比通用爬虫更加复杂一点,它不同与通用爬虫,通用爬虫是将网页保存到本地,但是聚焦爬虫,它不会将整个网页爬取下来,它会筛选得到网页中我我们所需要的东西,而筛选的条件规则是由我们自己定义的,相比通用爬虫,聚焦爬虫它做的工作更多,但是得到的数据更加符合我们的要求,本文所实现的爬虫,就是通过聚焦爬虫所实现的。
第二章爬虫语言以及工具的介绍
2.1Python介绍
2.1.1Python语言的产生以及发展
Python是上世纪八十年代末开始由Guido开发,九十年代初发行的一门编程语言,其作者参与过ABC语言的开发,所以对ABC语言其中的弊端有所了解,认为ABC语言虽然语言优美,功能强大,但是却受限于它的非开发性,没有得到广泛的应用,因此想开发出一门新的语言,能够摒弃掉ABC语言的弊端,打破这个限制,正是如此,python就诞生了,python刚刚推出不久,就迅速得到了各行人士的青睐,经过多年以来的不断改善,python语言已经逐渐稳固它在编程语言中的地位。
根据从TIOBE网站上得到的数据,从2002年开始,python语言就趋于一个稳定上升的状态,呈线性增长,正是如此,python成为了近年来最受欢迎的编程语言之一。
图2.1.1计算机编程语言热门排行榜
2.1.2Python语言的特色
首先,Python是一门强大、灵活的语言,与C、C++、Java等语言相比较,python的语法简单优雅,往往不用通过很复杂的代码,就能实现强大的功能,例如Java需要100行代码才能实现的功能,python往往只需要一半或者更加少,大幅度降低了学习与使用的难度,很适合人们的学习。
其次,python是一门开源免费的语言,简单的来说,就是不花钱就能使用,我们可以直接下载安装运行,也能对其源码进行修改,十分便捷。
再次,效率极高,python被称为胶水语言,拥有强大的第三方库,人们往往只需要将库下载调用,在库的基础上进行开发,就可以实现很多复杂的功能,节省了不少时间,避免了重复造轮子的现象。
最后,python语言可移植性强,正是由于python的开源性,使得python拥有了良好的可移植性性能,让其可以被移植到其他的平台之下,例如我们所熟知的window系统,Linux系统,安卓系统和苹果系统等等。
总而言之,python是一门用途广泛,又容易上手的编程语言。
2.1.3Python语言的缺点
Python虽然拥有众多的优点,但是事物往往很难做到十全十美,编程语言也一样,python虽然简单优美,但是运行速度相比其他编程语言来说,却显得缓慢,对比C语言来说,C语言是先编译后运行的,编译的时候就已经将代码转化成了CPU所能执行的机器码,而python是解释性语言,因此它的代码在运行的过程中,需要先将代码编译成CPU所能理解的机器码,这个过程就需要耗费很多时间,导致了python的运行缓慢。
另外,由于python的开源性,导致了python代码无法加密,实际上,如果我们要发布一个python程序,其实就需要将我们所敲打的源码发布出去,这样别人就直接得到了你的源码,能够轻易的使用并修
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 python 旅游 信息 以及 数据 分析
![提示](https://static.bdocx.com/images/bang_tan.gif)