统计学论文Word文档格式.docx
- 文档编号:18286120
- 上传时间:2022-12-15
- 格式:DOCX
- 页数:11
- 大小:25.74KB
统计学论文Word文档格式.docx
《统计学论文Word文档格式.docx》由会员分享,可在线阅读,更多相关《统计学论文Word文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
六、总结--------------------------------------------------------
七、参考文献-----------------------------------------------------
一、摘要
在学习统计学之前,我一直把统计学看成另外一种数学——也就是文科生的梦靥。
虽然在很多方面统计学和数学存在着紧密联系,例如统计中会用大量的数学工具,所以为了掌握它,你必须要复习一下相关的数学知识,这样才能在学习中灵活运用。
但是它和数学在某些方面也会存在很大的不同。
在我看来,统计学更加地贴近实际,因此我们在学习中必须紧密联系到它的现实意义,在统计过后,我们还必须理解分析出来的数据所具有的实际的经济意义,这样才算是完成了整个统计的过程。
二、关键词:
统计学思想数据搜索数据整理数据分析
三、前言
在科学技术飞速发展的今天,统计学广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论及方法,并拓展了新的领域。
通过数据来说明问题,通过定量分析来揭示事物的本质,是人类社会提高自身认识能力的必然要求,无论是统计还是统计学,他们的产生及发展过程都说明了这一点。
在当今世界,我们每时每刻都要接触到大量的数据,离开数据,我们将寸步难行。
因此,学习统计学,掌握基本的统计理论及方法,具备基本的收集、整理和分析统计数据的能力。
著名哲学家H.G.Wells曾说:
“就像读和写的能力一样,讲来有一天统计的思维方法会成为效率公民的必备能力。
”可见统计学在将来的前景会发展的不错。
四、统计学基础概念
1、统计及统计学
统计一词可以有三种含义:
统计活动、统计数据和统计学。
统计活动是对各种统计数据进行收集、整理并作出相应的推断、分析的活动。
统计数据时通过统计活动获得的,用以表现研究现象特征的各种形式的数据。
统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。
统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。
统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。
2、统计学中的统计思想
统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究及概括,才能逐步形成系统的统计思想。
(1)、统计思想的特点
作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上及通用学派相比,还有着自己的特别之处。
其基本特点能从以下四个方面体现出:
(1)统计思想强调方法性及应用性的统一;
(2)统计思想强调科学性及艺术性的统一;
(3)统计思想强调客观性及主观性的统一;
(4)统计思想强调定性分析及定量分析的统一。
(2)、比较常用的几种统计思想
所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。
统计思想主要包括:
均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。
现分述如下:
均值思想——均值是对所要研究对象的简明而重要的代表。
变异思想——统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。
统计方法就是要认识事物数量方面的差异。
估计思想——估计以样本推测总体,是对同类事物的由此及彼式的认识方法。
相关思想——事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。
因而,总体中的个体之间、这一总体及另一总体之间总是相互关联的。
拟合思想——拟合是对不同类型事物之间关系之表象的抽象。
通过课堂现场教学,引导学生利用课余时间完成项目,利用假期时间,通过参加学校组织的某些团队、小组或自己组织去开展一些及专业有关的活动,全方位地激发学生的学习兴趣、培养学生的专业能力、方法能力和社会能力。
检验思想——统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
五、统计数据
1、数据的搜索
一个反例的启示:
《文学摘要》预测罗斯福竞选落败
在美国1936年的总统选举中,两位竞选者分别是民主党的罗斯福和共和党的兰登。
一般民意测试认为罗斯福将获胜,例如盖洛普公司基于对5万选民的抽样调查,预测罗斯福的得票率为56%。
但是美国著名杂志《文学文摘》(Literary
Digest)宣布,根据他们对240万人的调查,兰登将获得57%的选票。
最后投票结果是,罗斯福赢得2770万张选票,而兰登只得到1600万张选票,罗斯福以绝对优势胜出。
值得思考的问题是,为什么《文学文摘》调查的样本量如此之大,结果却那样离谱。
细分析起来,他们预测失败的根本原因在于调查方案存在严重失误,违背了统计学规律,主要反映在以下两个方面:
样本抽样有偏。
兰登的支持者主要是富裕阶级、大资产阶级,而罗斯福的支持者主要是一般工薪阶层、中下层平民。
而《文学文摘》调查的对象集中在富人圈,因为《文学文摘》是通过电话簿和俱乐部进行调查的。
所以说样本抽样有偏。
没有考虑缺失数据的影响。
《文学文摘》在进行调查时发放了1000万份问卷,但只收回了近240万份就充分说明了这一点。
所以我们应该重视数据的搜集和整理。
(1)、数据的来源
数据来源包括数据的直接来源和间接来源。
直接来源是指直接获得的一手资料;
间接来源是指对原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据。
(2)、调查数据
1)概率抽样和非概率抽样
概率抽样
A、简单随机抽样B、分层抽样C、整群抽样D、系统抽样
非概率抽样
A、方便抽样B、判断抽样C、自愿抽样D、滚雪球抽样
E、配额抽样
概率抽样及非概率抽样的比较
由于非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应的参数进行推断。
而随机抽样时依据随机原则抽选样本,这时样本统计量的理论分布式存在的,因此可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间,并且在进行抽样设计时,对估计的精度提出要求,计算为满足特定精度要求所需要的样本量。
搜集数据不同方法的特点
项目
自填式
面访式
电话式
调查时间
慢
中等
快
调查费用
低
高
问卷难度
要求容易
可以复杂
有形辅助物的使用
中等利用
充分利用
无法利用
调查过程控制
简单
复杂
容易
调查员作用的发挥
无法发挥
充分发挥
一般发挥
回答率
最低
较高
一般
2)搜集数据的基本方法
(3)、实验数据
搜集数据的另一种方法是通过实验,在实验中控制一个或多个变量,在有控制的条件下得到观察结果。
所以,实验数据(experimentdata)是指在实验中控制实验对象而搜集到的变量的数据。
例如,对在一起饲养的一群牲畜,分别喂给不同的饲料,以检测不同饲料对牲畜增重的影响。
实验室检验变量间因果关系的一种方法。
&实验法案例:
现场实验帮助A公司胜诉
美国A公司生产著名的运动包,该公司发现B公司(一个大型的中心商业集团)引进一条生产线,生产的运动包及A公司生产的运动包形状几乎完全一样,消费者难以区分。
A公司指控B公司,说B公司误导消费者,让消费者觉得自己买的是A公司的产品,而实际买的却是B公司的产品。
为了证实这一点由第三方进行了一场现场的实验。
实验中选择了两位妇女,给第一组妇女看的是A公司生产的包,包面上的所有标签都去掉,所有的标识、说明都印在包的里层。
给第二组妇女看的是B公司生产的包,包上有明显的标识。
这样做的目的是希望通过这种实验了解妇女们购买包时的选择标准。
每组样本都是200人,实验分别在芝加哥、洛杉矶和纽约大商场进行。
调查采用拦截式面访,被调查者是配额样本,即按妇女不同的年龄比例分配样本单位。
实验结果表明,大多数消费者无法区别两种包的不同来源,她们买包时的依据主要是包的款式,而A公司生产的包时名牌商品,这种包的款式是人们所熟悉的。
这个结果支持了A公司的立场。
调查数据帮助A公司在法庭上胜诉,B公司同意停止销售自己所生产的包。
2、数据的图表展示
(1)、1)、数值型数据的整理及展示
数据分组是根据统计研究的需要,将原始数据按照某种标准分成不同的组别,分组后的数据称为分组数据(groupeddata)。
它是将全部变量值依次划分为若干个区间,并将一个区间的变量值作为一组。
在组距分组中,一个组的最小值称为下限;
一个组的最大值称为上限。
例:
某电脑公司2005年前4个月每天的销售量数据(单位:
台)。
试对数据进行分组。
某电脑公司2005年前4个月的销售量
A
B
C
D
E
F
G
H
I
J
1
234
159
187
155
172
183
182
177
163
158
2
143
198
141
167
194
225
189
196
203
3
160
214
168
173
178
184
209
176
188
4
161
152
149
211
185
206
5
150
174
153
186
190
171
6
228
162
223
170
165
179
175
197
208
7
218
180
144
191
192
8
166
233
210
9
154
164
215
237
10
226
200
11
156
207
181
205
195
201
12
202
213
根据分组整理成频数分布表如下:
某电脑公司销售的频率分布表
按销售分组(台)
频数(天)
频率(%)
140-150
3.33
150-160
7.5
160-170
16
13.33
170-180
27
22.5
180-190
20
16.67
190-200
17
14.17
200-210
8.33
210-220
6.67
220-230
230-240
4.17
合计
120
100
2)、数值型数据的图示
及条形图相比,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距,因此高度及宽度均有意义。
同时还有的是条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
(2)、合理使用图表
具体来说,设计和使用统计表时要注意一下几点:
要合理安排统计表的结构,比如行标题、列数据、数据资料的位置应安排合理;
表头一般应包括表号、总标题和表中数据的单位等内容。
总标题应简明确切地概括出统计表的内容,一般需要说明统计数据的时间、地点以及何种数据。
即标题内容应满足3W要求;
表中的上下线两条横线一般用粗线,中间的其他线要用细线,这样使人看起来清楚、醒目;
同时还要在表的下方加上注释。
3、数据的概括性度量
(1)、集中趋势的度量
A、分类数据:
众数
B、顺序数据:
中位数和分位数
C、数值型数据:
平均数
(2)、离散程度的度量
异众比率
四分位差
方差和标准差
D、相对离散程度:
离散系数
4、分类数据分析
(1)、分类数据及
统计量
例如在泰坦尼克号海滩的例子中,当时船上共2208人,其中男性1738人,女性470人。
海滩发生后,幸存者718人,其中男性374人,女性344人。
这里,性别是分类变量,有两个类别:
男性和女性;
幸存的男性374人和女性344人都是事件结果,以频数的方式表现。
由该例可得分类数据的结果是频数,
检验是对分类数据的频数进行分析的统计方法。
若用
表示观察值频数,用
表示期望值频数,则
统计量可以写为:
2、列联数据分析时应注意的问题
条件百分表的方向
表一:
家庭状况及青少年犯罪
青少年行为
家庭状况
完整家庭
离异家庭
犯罪
38
37
75
未犯罪
92
130
45
表一是调查结果的条件分布。
由表一可以计算其条件百分表,如表2所示:
表二:
家庭状况及青少年犯罪百分表
(一)
犯罪(%)
29
82
未犯罪(%)
71
18
由表二得到的结果是,在完整家庭接受调查的130人中,犯罪青少年所占的比例是29%,这个比例高达近1/3,这是令人吃惊的。
其实,这个比例是歪曲的,这是由于抽样时夸大了对犯罪青少年抽取的数量。
如果把计算百分表的方向变换一下,改变按因变量方向计算,则得到表三:
表三;
家庭状况及青少年犯罪百分表
(二)
51
49
合计(人)
从表三看出,在完整家庭中,未犯罪青少年的比例占92%,而在离异家庭中,这个比例仅占8%。
完整家庭的青少年未犯罪率远远高于家庭的这个比例。
家庭状况对青少年行为的影响得到了比较真实的反映。
(2)、
分布的期望值准则
前面谈到的用
分布进行独立性检验,要求样本量必须足够大,特别是每个单位中期望频数(理论频数)不能过小,否则应用
检验可能会得出错误的结论。
关于小单位的频数通常有两条准则:
一条准则是,如果只有两个单元,每个单元的期望频数必须是5或5以上;
另一条准则是,倘若有两个以上的单元,如果20%的单元期望频数
小于5,则不能应用
检验。
六、总结
统计学的运用及生活息息相关,所以我们需要结合实际的相关要求好好学习这门课,希望在以后工作中能够用它来进行数据的搜集、整理、分析和描述等,就数据型的信息转化成通俗易懂的理论信息。
但它目前还面临着重大的挑战,所以我们应该通过具体的措施来克服和解决这个问题,并且最终让它发扬光大。
参考文献:
〖1〗贾俊平.统计学【M】.北京:
中国人民大学出版社.2000.
〖2〗庞有贵.统计工作及思想【J】科技情报开发及经济.2004.
〖3〗王维鸿.EXCEL在统计中的应用【M】.北京.中国水利出版社.2004.
〖4〗王怀伟.统计学教程【M】.北京:
清华大学出版社.2004.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 论文