《商务数据采集与处理》微课版教案Word下载.docx
- 文档编号:18390806
- 上传时间:2022-12-16
- 格式:DOCX
- 页数:40
- 大小:433.52KB
《商务数据采集与处理》微课版教案Word下载.docx
《《商务数据采集与处理》微课版教案Word下载.docx》由会员分享,可在线阅读,更多相关《《商务数据采集与处理》微课版教案Word下载.docx(40页珍藏版)》请在冰豆网上搜索。
(3)高速度
(4)可变性
(5)真实性
(6)复杂性
(7)高价值
大数据具有广泛的用途,主要体现在以下方面。
(1)对大数据的处理分析正成为新一代信息技术融合应用的结点。
(2)大数据是信息产业持续高速增长的新引擎。
(3)用好大数据将成为提高企业核心竞争力的关键因素。
二、数据的获取途径
1.产品自有数据
2.调查问卷
问卷的设计建议包含以下几个步骤。
(1)把握目的和内容,规定好问卷所需的信息。
(2)搜集资料。
(3)确定调查方法。
(4)确定内容,即每个问答题应包括什么,以及由此组成的问卷应该问什么,内容是否全面、能否切中要害。
(5)决定结构,确定问卷类型,是提问封闭性问题还是开放性问题。
(6)确定措辞、顺序与格式。
(7)制成问卷。
3.互联网数据导入
(1)Excel数据存储
(2)数据库数据存储
(3)微图数据存储及分析
第二节认识商务数据
一、商务数据的基本概念
随着消费者和企业商务行为的产生,各电商平台、第三方服务平台、社交媒体、智能终端和企业内部系统上分布了大量的数据。
这些数据就是商务数据。
商务数据主要分为商品数据、客户数据、交易数据、评价数据、基于电子商务专业网站的研究数据及基于电子商务媒体的报道、评论数据等。
二、商务数据的应用领域
1.制造业
利用商务数据帮助制造业企业提升制造业水平,包括产品故障的诊断与预测、工艺流程的分析与改进、工业供应链的分析与优化、生产计划和排期的制定。
2.金融业
商务数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。
3.出行生活
借助商务数据分析用户行为,在出行生活领域进行商品推荐和有针对性的广告投放,对于本地生活服务类企业的选品、体验管理、店铺选址都有着重大的帮助。
4.餐饮行业
餐饮行业借助商务数据可以做出行业分析,新品改善及当前潮流分析,指导自身产品改善或菜品创新。
5.能源行业
能源行业可通过商务数据进行电负荷预测、舆情监控,改善电网运行,合理设计电力需求响应系统。
6.个人娱乐
商务数据可用于建立个人用户画像,分析个人生活方式,为其提供更加个性化的服务。
三、商务数据的作用
1.监测行业竞争
2.提升客户关系
3.指导精细化运
第三节商务数据来源与采集
一、商务数据的主要来源
1.电子商务平台
(1)B2B平台
(2)B2C平台
(3)C2C平台
2.社交电商平台
(1)社交内容电商
(2)社交分享电商
(3)社交零售电商
3.O2O数据
(1)O2O电商平台数据
(2)展销平台
二、商务数据采集基础
网络数据在采集频率较低且数据量较少时,最初通常使用复制粘贴的方式进行人工采集,随着数据量的加大以及采集频率要求的提高,复制粘贴已不能满足需要,于是抓取网络数据的爬虫工具应运而生。
爬虫工具是一种按照一定的规则自动抓取万维网信息的程序或脚本,爬虫需要一定的计算机知识,因此最初流行于专业人士之间。
随着网络数据的丰富程度高速增长,个人与企业对数据的需求也日益增加,如何利用数据进行决策支持也成为普遍性的需求。
利用数据进行预测与优化分析,可以有效地增加效益与防范风险,数据采集能力也成为很多岗位的必备技能,此时网络爬虫是需要用户进行大量学习才能掌握的高成本学习技能。
数据采集器就是进行数据采集的机器或者工具,用于实现自动化从大批量网页上采集数据,抓取网站信息,包括图片、文字等信息的采集、处理及发布。
随着数据采集频率要求越来越高,数据采集数量日益增大,单一计算机的采集已不能很好地满足用户的需求。
云计算技术的出现正好解决了这个问题。
云计算将计算和数据分布在大量的分布式计算机上,云中的计算机提供强大的计算能力,能够完成传统单台计算机根本无法完成的计算任务。
同时,云中的计算机具有庞大的数据存储空间,使采集器可以实现多种采集需求。
三、商务数据的采集流程
第四节商务数据的采集方法
一、Web爬虫
Web爬虫主要分为通用网络爬虫及聚焦网络爬虫,用于HTML网页文本和图片数据的采集,需要具备一定的编程基础,可利用编程进行URL打开、HTML文件获取、HTML文件解析及数据提取等操作。
1.通用网络爬虫
通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。
通用网络爬虫的采集原理是:
通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页。
这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
通用网络爬虫的基本工作流程包括抓取网页、数据存储、预处理,以及提供检索服务和网站排名。
2.聚焦网络爬虫
聚焦爬虫指有选择性地爬行那些与预先定义好的主题相关页面的网络爬虫,和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。
聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块及内容评价模块。
聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同。
二、API
尽管可以通过网络爬虫的一些改进技术实现各类网络数据的采集,但网络爬虫获取的往往是整个页面的数据,缺乏针对性。
利用网站自身提供的应用程序编程接口(API)实现网络数据采集即调用网站API,可以很好地解决数据针对性的问题。
越来越多的社会化媒体网站推出了开放平台,提供了丰富的API,如推特、新浪微博、人人网、博客等。
这些平台中包含了许多关于“电子商务”的话题和评论、图片等,它们允许用户申请平台数据的采集权限,并提供相应的API接口采集数据。
API调取主要有开放认证协议和开源API调用两类。
1.开放认证协议
开放认证(OAuth)协议不需要提供用户名和密码来获取用户数据,它给第三方应用提供一个令牌,每一个令牌授权对应的特定网站(如社交网站),并且应用只能在令牌规定的时间范围内访问特定的资源。
2.开源API调用
开源API是网站自身提供的接口,可以自由地通过该接口调用该网站指定数据。
归纳与
提高
通过本章的学习,我们对商务数据有了一个大概的了解,知道了商务数据的定义及类型,也了解了商务数据的主要来源及用途,基本掌握商务数据采集和处理的基本方法。
数据被誉为“未来的石油”,商务数据则具备更广阔的应用场景。
通过对数据进行分析,企业不仅可以发现企业内部、客户体验及营销手段的问题,还可以了解客户的内在需求。
在电子商务行业中,掌握商务数据分析与应用的方法是电子商务从业人员的必备技能。
第2章新商务数据采集工具及应用
一、商务数据采集工具介绍
二、爬虫软件在商务数据分析中的应用
三、Python爬虫在商务数据采集中的应用
1.熟知数据采集方法。
2.了解常用的数据采集工具。
3.了解Python爬虫的优劣势。
1.了解常用的数据采集工具。
2.了解Python爬虫的优劣势。
第一节商务数据采集工具介绍
商务数据采集工具主要分为编程类及可视化采集工具两类。
编程类工具需要利用各类编程语言对网页内容实现抓取,当前主流的编程类采集工具主要有Python、Java和PHP等;
编程类采集工具具有通用性和可协作性,爬虫语言可以直接作为软件开发代码当中的一部分协作使用。
但是编程类采集工具的编码工作比较烦琐,针对不同类型的数据采集工作,需要定制化开发不同的程序代码,适于有较长时间系统性学习的使用者使用。
可视化采集工具有八爪鱼数据采集器等。
可视化采集工具具有学习简单、容易上手的特点,这种软件已经集成了很多常用的功能,也能支持复杂的网页结构类型,可以满足大部分用户的数据采集需求,且具有可视化的操作界面,是新手入门的较好选择。
目前,大数据技术被应用于各行各业,很多人通过数据采集工具来收集网页信息,下面列举一些典型的应用场景。
1.收集电商网站的商品数据
用户利用采集工具可以对电商网站的商品数据(如品牌、价格、销量、规格、型号等)进行收集,然后分析该网站的畅销品牌、畅销品类、价格走势等,涵盖的信息量非常大。
2.爬取微博、BBS允许的数据
用户利用采集工具可以针对某个主题从微博、论坛上爬取相关信息,挖掘出关于该主题的一些有趣的信息。
3.爬取新闻
用户利用采集工具可以爬取各大门户网站的新闻、各类电子报刊的新闻,例如,爬取XX新闻上关于某个关键字的信息,并于每周梳理出几个关键词,以抓住行业动向。
4.爬取学术信息
用户利用采集工具可以爬取一些学术网站上的信息以学习研究,例如,在中国知网查关键词“大数据”,就会出现很多与大数据相关的文献,点击进去就能看到每个文献的基本信息、文章摘要等。
但若逐个点击查看会很耗费时间,这时可以写一个爬虫脚本,将这些数据按照规范的格式全部爬取下来,以后无论是阅读还是做进一步分析,都会方便很多。
第二节爬虫软件在商务数据分析中的应用
一、常见爬虫软件
常见的爬虫软件主要有Java和Python,少部分场景会使用PHP编写爬虫。
下面分别介绍这三款爬虫软件。
1.Java
Java是典型的面向对象的语言,不仅吸收了C++语言的各种优势,还摒弃了C++中难以理解的多继承、指针等概念。
Java具有以下特征。
(1)纯面向对象。
(2)支持分布式。
(3)跨平台,移植性强。
(4)属于编译性语言。
(5)支持多线程,高性能。
Java平台不断迎来新功能,如移动互联网时代的Android,大数据时代的Hadoop,人工智能时代的TensorFlow。
Java是使用范围相对较广的语言,具有以下优点。
(1)面向对象。
(2)稳健、安全、可移植、高性能。
(3)跨平台。
(4)编译型静态语言。
Java的缺点是其占用大量内存,并且启动时间相对较长,编译速度较慢。
2.Python
Python是一款服务器端解释型开源非编译脚本语言。
它能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。
Python具有以下特征。
(1)解释性语言。
(2)拥有丰富的库。
(4)可移植、可拓展。
(5)支持GUI的编程。
(6)可嵌入。
Python学习简单,被誉为最容易学习的语言,具有以下优点。
(1)简单、易学。
(2)免费、开源。
(3)可移植性强。
(4)属于解释性的一门动态语言。
(5)面向对象。
(6)拥有丰富的库。
(7)强制性缩进代码使代码规范。
Python也有一些不足,主要集中在以下几方面。
(1)运行速度慢。
(2)中文资料匮乏。
(3)存在一些只有在特定情况下才会出现的bug。
3.PHP
PHP是一种通用开源脚本语言。
语法吸收了C、Java和Perl的特点,利于学习,使用广泛,主要适用于Web开发领域,具有以下特征。
(1)独特的语法,混合了C、Java、Perl以及PHP自创的新的语法。
(2)与其他编程语言相比,更快速地执行动态网页。
(3)PHP支持几乎所有流行的数据库以及操作系统。
(4)可以用C、C++进行程序扩展。
PHP学习简单,易于快速上手;
历久弥新的PHP拥有庞大而活跃的官方社区,开发者面临的大部分难题都有现成的解决方案,很多十几年前的解决方案在当代也有指导意义。
PHP具有以下优点。
(1)PHP是一门免费开源语言。
(2)开发快,运行快,语法简单,方便学习。
(3)跨平台,效率高。
(4)具有很多成熟框架。
(5)有成熟社区支持PHP的开发。
相比于其他语言,PHP的运行速度较慢,错误处理机制比较糟糕,具有以下缺点。
(1)PHP是个单进程的程序,不支持多线程。
(2)只支持做Web开发,不方便做.exe文件、桌面应用程序、手机程序。
(3)后期维护比较困难,提速空间局限性大。
二、爬虫软件应用案例
下面使用Python采集豆瓣电影数据,提取正在上映的电影名称、评分、图片的信息,提取的结果以文件形式保存下来。
1.准备工作
首先安装Python3,其次确保已经正确安装Requests库。
安装命令:
pip3installrequests。
2.抓取分析
抓取的目标站点为“豆瓣电影”。
页面中显示的有效信息包括影片名称、评分、图片等。
这样我们获取该页结果之后再用正则表达式提取出相关信息就可以得到所有正在上映的电影信息了。
3.抓取页面源代码
接下来我们要抓取页面源代码,首先实现一个get_page()方法,传入URL参数,然后将抓取的页面结果返回,再实现一个main()方法调用一下,初步代码实现。
4.正则提取电影信息
从Network选项卡部分查看原始请求得到的源码。
利用非贪婪匹配来提取data-title属性的信息,正则表达式写为:
<
li.*?
list-item.*?
data-title="
(.*?
)"
.*?
>
使用相同的判断方法来提取data-score属性的信息,正则表达式写为:
data-score="
提取img节点的src属性,正则可以改写如下:
img.*?
src="
/>
接下来通过调用findall()方法提取出所有的内容,实现parse_page()方法。
这样我们就可以成功提取出电影的图片、标题、评分内容了,并把它赋值为一个个的字典,形成结构化数据。
至此,我们成功提取了此页的电影信息。
5.写入文件
将提取的结果写入文件,在这里直接写入一个文本文件中,通过json库的dumps()方法实现字典的序列化,并指定ensure_ascii参数为False,这样可以保证输出的结果是中文形式而不是Unicode编码。
6.整合代码
到此为止,我们的爬虫就全部完成了。
7.运行结果
最后我们运行一下代码,可以看到这样就成功把电影信息爬取下来了。
第三节Python爬虫在商务数据采集中的应用
一、Python爬虫初步介绍
Python是一种非常适合开发网络爬虫的编程语言,提供了如urllib、re、json、pyquery等模块,同时又有很多成型框架,本身又十分简洁和方便。
作为一门编程语言,Python以简洁清晰的语法和强制使用空白符进行语句缩进的特点深受程序员的喜爱。
与其他静态编程语言相比,Python抓取网页文档的接口更简洁;
与其他动态脚本语言相比,Python的urllib2包提供了较为完整的访问网页文档的API。
此外,Python中有优秀的第三方包可以实现网页高效抓取,并可用极短的代码完成网页的标签过滤功能。
Python爬虫的构架组成:
Python的工作流程:
二、Python爬虫适用场景
Python爬虫应用领域广泛,涉及内容、人工智能、数据监控、金融风控、电商比价、舆情监控、互联网软件等领域,本书主要介绍内容、人工智能、舆情监控的部分应用。
1.内容
几乎所有的互联网内容平台,一开始都会遇到冷启动问题。
冷启动就是平台初期,没有内容、没有数据,一个没有内容的平台是无法吸引用户加入平台产生内容和数据的。
所以一般互联网内容平台的冷启动阶段最有效的解决方法就是使用爬虫,通过爬虫获取一定内容及数据以使平台变得有价值,再来更好地吸引用户加入。
Python还可以用来构建搜索引擎,搜索引擎是爬虫最早期的也是最成功的代表应用,搜索引擎主要先通过爬虫进行数据的爬取,之后对爬取到的数据做数据清洗,再入库进行倒排索引,同时对索引不断进行排序和优化,最后才能创建比较完好的搜索服务。
2.人工智能
人工智能的应用前期需要对模型进行大量的训练,训练模型需要正确的语料内容,这些内容往往通过爬虫来进行采集。
要提高自然语言处理的准确性和智能型,我们需要构建数据集,可以利用爬虫进行数据集的构建。
对于图片训练,我们可以利用爬虫自动补齐训练数据。
3.舆情监控
不论是企业还是国家,都需要做舆情监控等分析。
爬虫可以为舆情监控的分析提供大量的关联数据,分析热点、新闻、舆情动向等;
还可以通过爬虫爬取多种数据源,进行关联匹配,发现大数据中蕴含的规律。
三、Python爬虫商务数据采集案例
商务数据主要以电商数据为主,我们以某电商平台示例,采集商品标题及价格信息。
本案例会以用户动态输入爬取特定商品,最后采集信息并导出为Excel形式。
爬取思路介绍如下。
(1)查看搜索商品的接口信息。
(2)爬取出来的信息,利用正则表达进行抽取有用信息(商品名称,价格)。
(3)对抽取出来的信息进行拼接及优化展示。
爬取过程中,共需三个函数。
第一个利用requests调用搜索接口,获得返回信息。
第二个利用re模块通过正则表达规则去提取商品名称和价格。
第三个优化展示(美观&
直观效果)。
采集操作步骤具体介绍如下。
步骤1:
按“F12”键查看接口信息,获取接口名称、接口调用方法(post)、请求头及参数。
步骤2:
对于返回的信息r.text,我们需要进行提取关键信息,即商品名称和商品价格。
步骤3:
把数据展示得更美观。
通过本章的学习,我们了解了常用的爬虫编写语言、爬虫主要应用场景以及各类爬虫软件有哪些优势和劣势。
在网络时代,数据来自各个方面,庞大而复杂。
产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程,都需要进行数据分析。
“工欲善其事,必先利其器”,选择合适的数据采集工具可以更快速地获得精准的数据。
第3章数据采集方法与采集器
一、了解数据采集器
二、数据采集器的安装与界面
2.了解数据采集器的优势。
3.能够安装注册数据采集器。
1.了解数据采集器的优势。
2.能够安装注册数据采集器。
2课时
第一节初识数据采集器
一、数据采集器的优势
数据采集器是进行数据采集的机器或者工具,具备实时采集、自动存储、即时显示、即时反馈、自动处理、自动传输等功能,为现场数据的真实性、有效性、实时性、可用性提供了保证。
数据采集器用于实现自动化从大批量网页上采集数据,抓取网站信息,包括图片、文字等信息的采集、处理及发布。
当下运用比较广泛的采集器是八爪鱼采集器。
八爪鱼采集器是深圳视界信息技术有限公司研发的一款网页采集软件,具有以下优势。
(1)1分钟获得数据。
(2)千万级别数据采集。
(3)全场景解决方案。
(4)数据处理能力强。
二、数据采集器的架构
1.技术架构
八爪鱼数据采集系统采用C/S架构,云计算服务端基于分布式云计算平台,总体架构包括客户端、服务端、云采集端和系统监控端。
数据服务使用MongoDB与SQLServer进行存储。
八爪鱼数据采集系统的架构设计:
八爪鱼数据采集系统的系统接口:
2.数据存储
系统存储由MongoDB与SQLServer组成,采集结构化数据存储于MongoDB,系统参数配置存储于SQLServer。
(1)数据采集技术的原理
八爪鱼采集器在Windows系统中运行,其开发语言是C#。
客户端主程序负责任务配置及管理、任务的云采集控制、云集成数据的管理(导出、清理、发布)。
内核浏览器为Firefox浏览器。
八爪鱼采集器通过模拟人的操作习惯,对网页内容进行全自动提取。
通过XPath定位网页元素,通过正则表达式调整采集数据的格式。
数据导出程序负责数据的导出,支持Excel、SQL、TXT、MySQL等格式,一次可导出千万级别数据。
(2)云采集技术的原理
八爪鱼采集器通过一套中央控制处理机制连接了终端用户和云采集集群服务端。
中央控制器接收用户指令,把任务分派到云端的各个节点进行工作,实现自动负载均衡,可动态伸缩,热拔插。
云平台服务端采用分布式架构及MapReduce原理,系统自动配置节点与任务拆分,调度服务器进行采集,从而实现分布式高并发的性能要求。
云采集节点支持灵活横向扩展,可根据需求随时动态分配添加节点。
第二节数据采集器的安装与界面
一、数据采集器的注册与安装
在进行八爪鱼采集器登录或官网登录时,首先创建八爪鱼采集器的账号。
二、数据采集器界面介绍
1.主界面介绍
(1)用户名称、用户账号标识以及展开/收起侧栏按键。
(2)“新建任务”按钮、“用户设置”按钮及“联系客服”按钮。
(3)菜单栏包括任务、工具箱、市场、人工客服、教程和帮助及关于我们。
(4)软件版本信息。
八爪鱼采集器分为免费版、专业版、旗舰版、旗舰版+版、私有云版及企业版。
(5)窗口栏显示当前打开的所有窗口,可以随时在这里进行切换。
(6)各应用模式入口,界面显示为简易采集模式及自定义采集模式,自定义采集模式下拉菜单包括智能模式与向导模式。
各应用模式功能在第4章内进行详细介绍。
(7)软件教程,可在此处查看八爪鱼详细教程,单击“查看更多”链接会跳转官网教程区域,内含各功能视频教程。
2.任务栏介绍
(1)“新建”“导入”及“刷新”三个按钮。
其中,单击“新建”按钮可以创建自定义采集任务、简易采集任务及新建任务组,任务组相当于文件夹,可以将不同任务分别放置在不同的任务组中,方便查找;
单击“导入”按钮可以将八爪鱼规则导入任务列表中进行采集;
单击“刷新”按钮则主动对任务列表进行刷新。
(2)排序方式选择,可选择为升序或降序方式。
(3)任务信息界面,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务数据采集与处理 商务 数据 采集 处理 微课版 教案