统计学本科毕业论文初稿Excel在多元回归分析中的应用研究.docx
- 文档编号:10895209
- 上传时间:2023-02-23
- 格式:DOCX
- 页数:30
- 大小:401.91KB
统计学本科毕业论文初稿Excel在多元回归分析中的应用研究.docx
《统计学本科毕业论文初稿Excel在多元回归分析中的应用研究.docx》由会员分享,可在线阅读,更多相关《统计学本科毕业论文初稿Excel在多元回归分析中的应用研究.docx(30页珍藏版)》请在冰豆网上搜索。
统计学本科毕业论文初稿Excel在多元回归分析中的应用研究
Excel在多元回归分析中的应用研究
第一章绪论统计学是一门提供数据信息的收集、处理、归纳和分析的理论与方法的科学。
然而随着社会的发展,统计的运用领域越来越广泛,不管是在经济管理领域,还是在军事、医学、生物、物理、化学等领域的研究中人们对于数量分析与统计分析都提出更高的要求。
统计学作为高等院校经济类专业和工商管理类专业的核心课程,需要用到的数学知识较多,应用方面的灵活性也较强,计算量大且复杂。
而Excel是以其入门简单、使用直观、操作方便和功能强大等特点为广大用户所喜爱,在数据处理相关领域中Excel更是有大量的受众。
Excel系统中含有许多常用的统计分析方法,但大多数人由于缺乏基本的统计知识,对此望而却步。
1.1摘要网络购物则是给传统的零售产业带来了巨大而深远的影响,近几年越来越多的人通过当当、京东、淘宝这样的互联网平台进行交易,网络购物的兴起给人们带来了极大的便利和实惠。
淘宝网则是亚太最大的网络零售商圈,其致力于打造领先网络零售商圈,淘宝注册成员也覆盖了中国大部分网购人群,交易额占中国网络市场的80%。
本文不仅对于复杂的统计计算通过常用的计算机应用软件Excel来实现,同时通过对淘宝网的交易额与当今社会的发展现状相结合进行研究,通过Excel做多元线性回归分析,让大家对统计中的多元回归有所了解的同时,也可以了解到淘宝网近年来的发展情况以及未来的发展趋势。
本文通过实例对淘宝网未来发展趋势的研究运用通俗的语言和浅显的描述将
Excel在多元回归分析中的统计分析方法呈现在大家面前,并采用了2005年到2012年的居民消费水平,以及我国网络普及度,我国人人均纯收入以及我国的居民消费水平对淘宝网的未来发展趋势进行定量数据的研究而后提出我们对于淘宝未来发展趋势的预测和应对之策。
同时本文也运用了Spss和Eviews软件对数据进行分析,从而把起与Excel对数据进行处理的方法进行对比,找出
Excel对于数据处理很分析相对于Spss和Eviews之间的差别及优点,最后得出结论。
关键词:
Excel多元回归分析淘宝网SPSSEviews
1.2引言我国网络购物相对欧美起步较晚,但发展速度非常快。
但随着我国社会主义市场经济的日趋完善,无论是在宏观经济的经济调控领域还是在微观的企业管理领域中,人们要进行高效的监控和科学的管理就必须准确及时的获得经济运行中的各类信息。
淘宝网自2003年5月10日成立以来,在短短的两年内,迅速成为国内网络购物平台的第一名,占据了中国网络购物的70%左右的市场
份额。
然而2008年以来,受到全球金融危机蔓延深化的影响,我国多数行业都
受到了不同程度的冲击。
但包括网络零售的电子商务行业发展却一路繁荣,成为危机背景下经济增长的一个亮点。
而网上购物作为一种新兴的购物方式出现在日常百姓的生活中,必然有其吸引人之处。
喜欢上网购物的网民认为,用互
联网来完成购物不仅节省了时间,免除了舟车劳顿,还有机会买到在本地市场难觅的商品。
当然网上购物有利有弊,网购的利在于:
1•节省时间,精力
2.有机会买到本地市场难觅的商品
3.是一种时尚的方式
4.可以货比三家
5.价格相对市面上的同样商品优惠
6.选购当时最流行,最淘宝热卖的商品
人们通过淘宝购物可以买到比在实体店更便宜的商品。
这也恰恰反映了商家对
低成本交易的渴望,同时也反映了消费者对低价格的渴望。
'
网上购物的弊在于:
1.质量难以保证
2.无法预先体验商品
3.网络安全性存在隐患,担心被人恶意侵犯隐私和被盗银行帐号和密码
4.物流方工作不到位导致货物没有及时到达或者根本收不到
所以在这个飞速发展的时代,淘宝作为网络购物的巨头面临了很大的挑战,本文采用淘宝举例一是了解ExceI做多元回归分析的方法,二是找到ExceI做多元回归分析的优点及便利之处,三是让大家对Excel,Spss和Eviews软件之间的
差别同时更好的运用Excel在统计数据方面的应用,同时还可以研究淘宝的未来发展趋势从而用淘宝网的现状作为实例进行研究和探讨以获得更好的发展趋势,如今网络购物普及全国,本文不仅让读者在学习Excel统计方面的知识的
并且学到了多元回归分析的其他统计方法,同时也能了解到一些淘宝的未来发展现状,对其购物也有一定的帮助。
1.3回归分析的概述
1.3.1回归分析的概念
回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法(即寻找具有相关关系的变量减的数学表达式并进行统计推断的一种统计方法)。
运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
回归分析的主要内容为:
1从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。
估计参数的常用方法是最小二乘法。
2对这些关系式的可信程度进行检验。
3在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。
4利用所求的关系式对某一生产过程进行预测或控制。
回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
在回归分析中,把变量分为两类。
一类是因变量,它们通常是实际问题中所关心的一类指标,通常用丫表示;而影响因变量取值的的另一类变量称为自变量,用X来表示。
1.3.2回归分析研究的主要问题
(1)确定丫与X间的定量关系表达式,这种表达式称为回归方程;
(2)对求得的回归方程的可信度进行检验;
(3)判断自变量X对因变量丫有无影响;
(4)利用所求得的回归方程进行预测和控制。
1.3.3回归分析的应用
相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。
而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。
比如说,从相关分析中我们可以得知质量”和用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。
一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。
1.4国内外研究现状
Excel是微软公司的办公软件Microsofitoffice的组件之一,是微软办公套装软件的一个重要的组成部分,它可以进行数据的处理统计分析和辅助决策操
Excel创建
作,广泛的应用于管理、统计财经、金融等众多领域。
您可以使用工作簿(电子表格集合)并设置工作簿格式,以便分析数据和做出更明智的业务决策。
特别是,您可以使用Excel跟踪数据,生成数据分析模型,编写公式以对数据进行计算,以多种方式透视数据,并以各种具有专业外观的图表来显示数据。
简而言之:
Excel是用来更方便处理数据的办公软件。
Excel统计功能是一种与Microsofitoffice的套装软件信息共享综合性强且大众化的统计软件。
运用它既可节省时间,又能减少在计算机操作技能和经济条件方面所受到的限制,发挥计算机和网络强大的经济统计图表及数据采集、储存、传输、处理和表现能力,把经济数据加工成经济信息,深化认识,增进经济学的理论性并促进统计方法在经济及其管理中的广泛应用。
目前是微软在线社区联盟成员,同时也是全球最大的华语Excel资源网
站,拥有大量原创技术文章、Addins加载宏及模板。
ExcelHome汇聚了中国
大陆及港台地区的众多Office(特别是Excel)高手,他们都身处各行各业,并身怀绝技!
在他们的热心帮助之下,越来越多的人取得了技术上的进步与应用=水平的提高,越来越多的先进管理思想转化为解决方案被部署,同时,越来越多的人因此而加入了互相帮助,共同进步的阵营。
—无论您是在校学生,普通职员还是企业高管,都将能在这里找到您所需要的。
通过学习运用Office这样的智能平台,您可以不断拓展自己的知识层面,也可以把自己的行业知识快速转化为生产力,创造价值。
在科学技术飞速发展的今天,统计学广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。
今天的统计学已展现出强有力的生命力。
在我国,社会主义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多、更高的要求。
随着我国社会主义市场经济的成长和不断完善,统计学的潜在功能将得到更充分更完满的开掘。
1.5本文研究的主要内容
第一章绪论
简述多元回归分析的概念、背景、研究的意义和研究概况。
并介绍课题研究的主要内容及论文章节安排。
第二章数据的来源和变量的选取
分析数据的来源和变量的选取理由,建立预测的模型、回归模型的参数估计以及求解。
第三章多元回归分析的建模与检验
用Excel,Spss和Eviews对数据进行相关性分析,进行建模和估计,做线性回归分析方差分析,确定预测值。
第四章结果及分析
对上述的Excel,Spss和Eviews对数据建立的模型进行分析,对数据进行显著性检验,修正拟合模型以及对数据进行预测。
第五章Excel,Spss和Eviews操作方法对比及总结
对本文的研究工作进行概括和总结。
并对延续性课题提出自己的观点和意见。
第二章数据的来源和变量的选取
2.1数据的来源及变量的选取理由
为了研究淘宝网未来发展趋势,本文从新浪官方微博淘宝数据魔方中获得淘宝2009年聚划算中购物群众的年龄比例作为定性数据,进行研究年龄对淘宝购物的影响。
并在新浪财经网上获得淘宝网自2005年到2012年的淘宝交易额
以及淘宝注册人数的数据。
在中商情报局里获得我国近网络普及度等数据。
并从国家统计年鉴中选取统计指标居民消费水平和人均纯收入,其中人均收入
(X4)是通过城镇人均收入,城镇人口总数,农村人均纯收入,农村人口总数和我国总人口数计算出来。
计算公式为:
人均收入=(城镇人口总数*城镇人均收入+农村人口总数*农村人均纯收入)/总人口数如下图:
(人均收入保留了两位小数)
年份
城镇人均收入
(元)
城镇人口数(万人)
农村人均收入
(元)
农村人口数(万人)
总人口数(万人)
人均收入(元)
2005
10493
56212
3254.9
74544
130756
6366.56
2006
11759
58288
35貂
73160
131443
7210.71
2007
13785.8
60633
4140.4
71496
132129
8566.60
2008
15780.S
62403
4760.6
70399
132802
993乞94
2009
17174.7
64512
5153.2
68938
133450
10964.60
2010
19109.4
66978
5919
67113
134091
12507.56
2011
21809.8
69079
6977.3
65656
134735
1458L96
2012
24564.?
71132
791G.6
64222
135404
1666S.52
这里人均收入是指我国居民平均每人每年的人均纯收入,这反映了我国居民工资在逐年的增加,收入的增加,加上消费水平的增加,所以收入的增加与网络消费在一定程度上也有很大的联系,在这里用人均收入的增加来反映了可支配收入的增加,那么居民用于消费的部分也增加了。
淘宝注册人数(x1)在一定程度上反应了网络购物的群众的人数,反应了
当今社会网络购物的普遍性。
同时淘宝的注册人数也展现了人们对网络购物的认可度,换言之也就是说接受了网络购物并会在网上进行消费,是对网络购物很大程度上的支持。
我国网络普及度(X2)是指我国近几年网络在我国普及的范围,这一块更
好的反映了网络对居民网络消费的影响,因为网络是网络消费的必要条件。
我国网络普及度反映的是在我国日趋发展的经济下,网络也得到了普遍的广泛,人们对网络的接受程度,信任程度也是直接影响到淘宝的网络购物。
居民消费水平(X3)是指居民在物质产品和劳务的消费过程中,对满足人
们生存、发展和享受需要方面所达到的程度。
通过消费的物质产品和劳务的数量和质量反映出来。
居民消费水平是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。
它主要通过消费的物质产品和劳务的数量和质量来反映。
居民消费水平的提高也能很好的展现在网络
消费上作出的贡献。
通过对以上这四个定量数据的研究来其与淘宝交易额的关系,从而研究淘宝未来的发展趋势以及优劣态。
原始数据如下:
年伪
淘宝网年父易总M
(亿)y
淘宝注册人数(万人)xl
我国网络普及度
居民消费水平
人均纯收入(元)
2005
89
2500
8.5
5596
6366.56
2006
169
3500
10.5
6299
7210.71
2007
433.1
5300
16
7310
8566.60
2008
999.6
9SOO
22.6
0430
9938.94
2009
2000
17000
28.9
9283
10964.60
2010
4000
37000
34.3
10522
12507.56
2011
7S00
65000
38.3
12570
145S1.96
2012
10000
70000
42.1
14093
16668,52
由于数据单位不同,为了消除量纲的影响,把数据标准化进行处理,得到如下标准化的数据(所有取值保留了两位小数):
年份
淘宝网年交易总额
(亿)y
淘宝注册入数(万
A)X1
我国网络普及度
(%)
居民消费水平
人均纯收入(元)x4
2005
1
1
1
1
1.00
2006
1.90
1.40
1.24
1.13
1.13
2007
4.87
2,12
kSS
1*31
1.35
2008
11.23
3.92
2,66
1*51
L56
2009
22.47
6,80
3.40
1*66
L72
2010
44.94
14.80
4.04
1.8S
1.96
2011
87,64
26.00
4.51
2.25
2.29
2012
112.36
2&00
4.95
2.52
2.62
2.2模型的建立
在一元线性回归分析中,重点放在了用模型中的一个自变量X来估计因变
量丫。
实际上,由于客观事物的联系错综复杂,一个因变量的变化往往受到两个或多个自变量的影响。
测定他们的数量变动,提高预测和控制的精确度,就要考虑更多的自变量建立多元回归模型。
设随机变量淘宝销售额为变量y与淘宝网注册人数Xi、我国网络普及度
X2、我国居民消费水平X3和我国居民人均收入X4的线性回归模型为:
y=Po+PiX|+P2X2+P3X3+P4X4+£
其中y是X1,X2,X3,X4的线性函数加上误差项J
%,几,02,^3,p4是模型的参数,客是误差项,是不能被自变量的线
性关系所揭示的变异性。
多元线性回归模型在满足下列基本家丁的情况下,可以采用普通最小二乘法(OLS)估计参数。
E多元回归模型有以下的基本假定:
1、随机扰动项服从期望为0,方差为b2的正态分布。
2、不同的随机扰动项之间不存在序列相关。
3、解释变量是非随机的,与随机扰动项不相关。
4、揭示变量不存在共线性。
当以上假定成立的前提下,y的平均值或期望值依赖于自变量xi,X2,X3,X4
的变化而变化,称之为多元线性方程。
y=%+卩必+P2X2+6x3
2.3多元线性回归模型的参数估计及求解
跟一元线性回归方程一样,多元线性回归方程中的未知参数3。
,久,32
卩3,卩4仍然可以用最小二乘法来估计。
即用因变量的观察值和估计值之间的离差平方和达到最小来求得3。
,臥,p2,S,P4令
3-23
Q(p0,杠,^2,S)=2(yi-yi)『=最小
把得到的数据带入上面的方程式y邛0++P2X2+0必3+
选择的数据选择的是2003年、2005年、2007年、2009年、2011年及2012年的数据带入方程式求得初步估计的方程式
1=p0+杠+p2+d+p4
4.87=P0+2.12片+1.88^2+1.31歸+1-35
*22.47=P0+6.8久+3.4®+1.66^3+1.72^4
87.64=P0+26叫+4.5102+2.2503+2.2904[112.36=P0+28叫+4.95^2+2.525+2.62P4
得到如下的答案(求解过程略,答案保留两位小数)
艮=208.97
耳=—0.57
p2=23.6
p3=-1348.5
Ip4=1117.5
最后得到的预测方程式为
y=208.97-0.57x4+23.6X2-1348.5X3+1117.5X4第三章多元回归分析的建模与检验
3.1Excel多元回归分析
3.1.1相关性分析:
检测变量X1,X2,X3,X4与因变量y的相关性
淘宝注册人数Xi与y的相关性检验:
淘宝注册人数(万人)XI
♦淘宝注册人数〔万人)XI
——线性(淘宝注册人数(万人)X1)
网络普及度与淘宝网交易总额的相关性检验:
0
我国居民消费水平与淘宝交易的相关性检验:
居民消费水平昭
我国网络普及度(%)X2
♦我国网络普及度(%)X2
——线性(我国网络普及度<%)x2|
我国人均收入与淘宝交易的相关性检验:
人均纯收入(元))(4
由以上四个散点图可知,其所有的点均落在了左上至右下的一条直线上,表明了数据之间存在完全正相关关系。
根据Excel中的数据分析计算相关系数如下:
列1
JlJ2列3列4列5
列
1
1
列
2
0.991S57
1
列
3
0.90159
0.9170931
列
14
6965083
0.965S920.9785731
列
5
0.957911
0.9579090.9821130,9993841
以上是通过excel得出的相关系数的矩阵得到:
x1、
由以上数据可以看出,各列之间存在正相关关系。
即淘宝网注册人数我国网络普及度X2、我国居民消费水平X3和我国居民人均收入X4与淘宝交易总额y存在正相关关系。
线性回归分析
运用excel对淘宝交易总额y与淘宝网注册人数X1、我国网络普及度x?
、我国居民消费水平X3和我国居民人均收入X4进行回归分析,得到如下的结果:
SUMMARYOUTPUT
CL99791496
0.995834£6g
0.990279958
乞20449866g
回归统计
Multiple
RSquare
Adjusted
标准误差
观测植
由回归统计表可以得到以下几个部分。
1.MultipieR(复相关系数R):
是R2的平方根,又称为相关系数,是用来衡量
x和y之间相关程度的大小。
这里的R=0.99791496,表示了他们之间是正相关
的关系。
2.RSquare(复测定系数R2):
用来说明自变量解释因变量变差的程度,以测定因变量y的拟合度。
这里的R2=0.995834268,表现了自变量与因变量之间的拟合效果很好。
复相关系数作为一个检验总的回归效果的一个指标,在这里说明了数据之间的拟合度很好,回归效果也很好。
3.AdjustedRSquare(调整复测定系数R2):
用于加入独立变量后模型的拟合程度,这里的调整复测定系数为0.990279958,说明该多元回归中,加入独立变量后,模型的拟合度很好。
4.标准误差:
是用来衡量拟合程度的大小的,标准误差越小说明拟合程度约好,这里的标准误为4.20449866,说明模型的拟合程度很好。
5.观测值:
这里的观测值为8,说明用来估计回归方程的数据的观测值为8个。
df
SS
MS
FlignificanceF
回归分析
4
12677,84455
3159,461138
179,2903327卯
3
53*03342M4
17.67780398
7
12730.87798
以上为方差分析表,其主要重用是通过F检验来判断回归模型的回归效果。
“回归分析”行计算的是估计值同均值之差的各项指标;“残差”行是用于计算
每个样本观测值与估计值之差的各项指标;“总计”行用于计算每个值同均值之差的各项指标。
由方差分析表可知:
Df是自由度,这里的回归分析的自由度为4,残差的自由度为3。
回归分析的离差平方和为12677.84455,残差的离差平方和为53.03342694;回归分析的均方差(即离差平方和除以自由度)为3169.461138,残差的均方差为
17.67780898;F统计量为179.2903827,SignificaneeF是在显著性水平下F的临界值,其为0.000670487。
Coefficients
保差1Stat
就Lower95%Upper9祁限95.吐限95,OS
hlerceplXVariablSVariablSVariablIVariabl
■<021213関
3.066552183-18.05T28855-62.10686912
120.1794515
23.31920368d.5M3Z310.9564335183J060680336,32650^24-1354223527163.3伽Ogq■#・38022013313.62559()50.335.L13L22
0.20S6T0738-13?
T3679T345.6943?
-13?
.?
3?
45.6943T
0.04910349勺0.022593f916,1105110.0225M6J105L1
0,06«8333!
2-38,191048222
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 本科毕业 论文 初稿 Excel 多元 回归 分析 中的 应用 研究
![提示](https://static.bdocx.com/images/bang_tan.gif)