张春雨河北省基本天气数据的统计分析Word文档格式.docx
- 文档编号:19849711
- 上传时间:2023-01-10
- 格式:DOCX
- 页数:33
- 大小:1.22MB
张春雨河北省基本天气数据的统计分析Word文档格式.docx
《张春雨河北省基本天气数据的统计分析Word文档格式.docx》由会员分享,可在线阅读,更多相关《张春雨河北省基本天气数据的统计分析Word文档格式.docx(33页珍藏版)》请在冰豆网上搜索。
。
时间安排:
2013年1月3号
查阅资料,确定选题
2013年1月3号至2013年1月10号
选择方法,输入数据上机计算
2013年1月10号至2013年1月17号
效果分析,总结报告
2012年1月18号
答辩
指导教师签名:
年月日
系主任(或责任教师)签名:
摘要
本文通过对河北省2011年天气数据的分析,对河北的天气状况有了初步的了解。
首先,本文对河北天气分别以不同地区的天气和不同月份的天气为对象作了描述性的分析。
通过对不同地区的天气的描述性分析,发现了唐山和廊坊是河北省雨天最多的两个地区,而秦皇岛和衡水等地则属于相对雨天较少的地区。
同时还发现廊坊地区的每月天气变化较其他地区要大。
通过对不同月份的天气的描述性分析,发现5、6、7、8、9月份为雨天较多的月份,而其他月份雨天较少,大雨天气多发生在7、8两月。
而后,本文对河北天气分别以不同地区和不同月份为因素进行了单因素方差分析。
通过分析发现,在0.05的显著水平下,地区对晴天和雨天的影响显著,而对大雨天的影响不显著。
这可能是因为大雨多集中在7、8月份,且不同地区之间的大雨天数无明显差异。
而月份对晴天、雨天及大雨天的影响均显著。
然后,本文对河北省按天气状况分别对地区和月份进行了聚类,聚类方法为系统聚类。
通过SPSS给出的树状图,将月份分为了两类,地区分为两类或三类。
SPSS给出的树状图充分的证实了在描述性分析中本文的结论,地区可以多雨的唐山和廊坊为一类,少雨的秦皇岛、衡水等一类,中间的承德、张家口一类;
月份可分为相对多雨的5、6、7、8、9、11月一类,其余少雨的月份为一类。
同时从树状图可以看出廊坊地区的天气与其余地区距离较大,这是由于廊坊地区不同月份之间天气状况波动较大所致。
最后,本文选取石家庄2011年的晴天为例,进行了单样本T检验,得到了石家庄每月晴天数的95%的置信区间范围。
关键词:
描述性分析廊坊方差分析树状图单样本T检验
目录
摘要3
1数据4
1.1按月份的数据4
1.2按地区的数据6
2描述性统计分析8
2.1描述性统计分析概述8
2.2不同地区的天气情况比较9
2.3不同月份的天气情况比较11
2.4箱线图分析14
3方差分析16
3.1单因素方差分析基本原理16
3.2地区间的方差分析17
3.3月份间的方差分析18
4聚类分析19
4.1系统聚类19
4.2按地区聚类19
4.3按月份聚类20
5单样本T检验22
5.1单样本T检验的基本原理22
5.2单样本T检验的SPSS实施步骤22
6分析结论23
7参考文献23
1数据
1.1按月份的数据
通过查阅天气网河北省历史天气数据【1】,得到了2012年1—9月的河北省11各城市的晴天数、雨天数以及大雨天数,其中将大雪以下的雪天视为雨天(不含大雪),将大雪及暴雪天气视为大雨天气。
(晴天数+雨天数+大雨天数=月天数)
经过整理数据,得到表1。
表12011年1—12月河北省11城市天气情况
地区编号
地区名
一月晴
一月雨
一月大雨
二月晴
二月雨
二月大雨
三月晴
三月雨
三月大雨
四月晴
四月雨
四月大雨
1
石家庄
31
24
4
30
27
3
2
邯郸
23
5
29
邢台
衡水
26
保定
6
沧州
7
廊坊
25
8
唐山
16
15
14
9
秦皇岛
10
承德
22
21
11
张家口
20
五月晴
五月雨
五月大雨
六月晴
六月雨
六月大雨
七月晴
七月雨
七月大雨
八月晴
八月雨
八月大雨
18
12
17
19
13
28
九月晴
九月雨
九月大雨
十月晴
十月雨
十月大雨
十一月晴
十一月雨
十一大雨
十二月晴
十二月雨
十二大雨
从表1,我们可以清楚地看到河北省11个城市每月的每种天气情况的天数,利用表1的数据,每一列为一个月份的各个城市的天气情况。
(1)可以将表1的数据导入SPSS软件中,进行描述性分析,得到每个月晴天、雨天、大雨天的均值,中值,标准差,极大、小值,下四分位数以及上四分位数等描述数据特征的数据,画出各月份各种天气状况的天数箱线图;
(2)可以将表1的数据导入Excel中,绘制各地区各种天气状况的折线图和直方图;
(3)可以利用表1的数据进行月份的分层聚类和地区的分层聚类。
1.2按地区的数据
将表1的数据进一步进行整理的到表2。
其中的每个月份分别对应11组不同天气观测数据,每个地区分别对应12组不同天气观测数据。
整理得到表2的数据。
表22011年河北省各地区天气情况
月份
石家庄晴
石家庄雨
石家庄大雨
邯郸晴
邯郸雨
邯郸大雨
邢台晴
邢台雨
邢台大雨
衡水晴
衡水雨
衡水大雨
保定晴
保定雨
保定大雨
沧州晴
沧州雨
沧州大雨
廊坊晴
廊坊雨
廊坊大雨
唐山晴
唐山雨
唐山大雨
秦皇岛晴
秦皇岛雨
秦皇岛大雨
承德晴
承德雨
承德大雨
张家口晴
张家口雨
张家口大雨
通过表2可以对河北省11个地区进行方差分析,分析各地区天气是否有显著性差异。
我们可以对1至12月的天气情况进行方差分析,分析河北省的天气情况是否四季分明。
还可以进行单样本T检验,分析某地晴天数或雨天数是否异常。
通过对表1和表2的利用,可以得到各月份河北省的天气情况,对结果进行比较分析,从而得出河北省2012年的天气是否有显著性差异。
2描述性统计分析
2.1描述性统计分析概述
对于表1中的数据进行频数分析。
各种数字特征的计算公式[2]为:
均值:
(1)
中值:
(2)
标准差:
(3)
极小值:
(4)
极大值:
(5)
p分位数:
(6)
在SPSS中导入表一中的数据,其中的变量为各月的各种天气情况,观测量为河北省的11个城市。
对其进行描述性统计分析的SPSS操作步骤为:
分析——描述统计——频率——选择所有月份的晴天数据作为变量——统计量——勾选均值、中位数、四分位数、标准差、最小值、最大值——点击继续——点击确认.操作截图如下
得到表3结果。
2.2不同地区的天气情况比较
将表2中各地区每月各类天气天数相加,得到2011年该地区该类天气的总天数。
以此总天数作为纵坐标,以不同地区作为横坐标,可用excel得到图1、图2。
从图1可以直观地看到,廊坊和唐山两个地区雨天明显要多于其他地区,而唐山的大雨天数更是远多于其他地区;
秦皇岛的晴天数最多雨天数最少,衡水、邢台、邯郸等地的晴天数也远多于雨天;
而承德、张家口等地区则介于以上两种情况之间。
从图2可以更加直观地看到廊坊和唐山雨天与大雨天明显多于晴天,相比较而言属于多雨地区;
而衡水、沧州、秦皇岛等地全年大多数都是晴天,相比较来说属于少雨地区;
张家口、承德等地相比较而言则属于河北的中间类型的地区。
将典型地区唐山、秦皇岛与张家口的雨天数进行比较,如图3,可以看到唐山的雨天数最多,张家口次之,而秦皇岛雨天数最少。
图1各地区天气总数柱状图图
表3DescriptiveStatistics
N
Minimum
Maximum
Mean
Std.Deviation
28.73
6.901
2.27
.00
.000
23.45
1.293
4.55
4.245
23.73
4.002
6.27
19.91
5.700
10.82
5.474
.18
.603
19.36
6.516
9.91
4.700
.73
2.412
15.91
6.172
13.09
6.268
2.00
.775
17.91
2.844
12.36
3.009
.64
.674
17.73
7.913
12.00
7.510
.27
.647
22.91
8.514
8.00
8.379
.09
.302
20.27
5.641
9.73
十一月大雨
25.18
8.530
5.82
十二月大雨
ValidN(listwise)
图2各地区天气累积图
图3唐山、秦皇岛与张家口雨天数比较
2.3不同月份的天气情况比较
为比较不同月份各类天气天数的变化,以河北各类天气每月的平均天数作为纵坐标,以月份作为横坐标,可用excel作出图4、图5。
由图3、图4可以看出,在七月份左右雨天较多,尤其是在七月大雨天也是最多的。
而一月份和三月份雨天则较少,绝大多数是晴天。
而通过图6可看出,晴天数分布在18~20天、23~25天、28~30天的月份数最多。
图4各地区不同天气折线图
图5各地区雨折线图
图62011年各月晴天数频率直方图
各地区的天气情况如图7、8、9所示。
由图中也可以看出,多数地区的雨天和大雨天主要集中在六到九月份,而其他月份则多为晴天天气。
除唐山、廊坊外,其他地区天气变化趋势基本是相同的,说明这些地区气候状况差别不大,但唐山、廊坊与其余地区天气状况有明显不同。
从图中同时可以看出,廊坊地区的天气状况波动幅度明显大于其余地区。
这表示与其他地方相比较,廊坊一年的天气状况变化较大,天气状况不稳定。
图7各地区晴天天气折线图
图8各地区雨天天气折线图
图9各地区大雨天天气折线图
2.4箱线图分析
箱线图,是一种用作显示一组数据分散情况资料的统计图。
操作步骤:
将表1中的数据导入SPSS中——图形——旧对话框——箱图——勾选图表中的数据为各个变量的摘要——变量输入顺序为各月份晴天变量、各月份雨天变量、各月份大雨天变量——标签个案依据为地区名——点击确认。
部分操作截图如下:
得到箱线图如图10。
由图10可以看到,大多数的异常值为唐山和廊坊,说明这两个地区的天气状况明显不同于其他地区。
由前面的分析可知,廊坊和唐山地区降雨较多,而其他地区相对而言降雨较少,所以廊坊和唐山被作为“异常值”标注出来。
而七月份的箱线图较长,说明七月份各地区天气差别较大,各地天气差别较明显。
将表1中的数据导入SPSS中——图形——旧对话框——箱图——勾选图表中的数据为各个变量的摘要——变量输入顺序为各地晴天变量、各地雨天变量、各地大雨天变量——标签个案依据为月份——点击确认。
得到箱线图如图11。
由图11可以看到,大多数的异常值为七月和八月,这说明河北各地区七月和八月份的天气情况明显不同于其他月份,七月和八月的天气较为特别。
由前面的分析可以知道这是因为七月份和八月份雨天较多,而其他月份雨天较少,故七月份和八月份明显不同于其他月份,从而在箱线图中作为“异常值”被标注出来。
图中廊坊的箱线图明显长于其他地区,说明廊坊2011年各月份之间天气状况差异比较大,与上文中的折线图相切合,验证了上文关于廊坊各月份天气差异较大的分析。
单独作出廊坊各月份天气状况的折线图如图12,可以直观地看到廊坊各月天气之间的剧烈波动。
图10由表1作出的箱线图
图12廊坊2011年天气情况折线图
图11由表2作出的箱线图
3方差分析
3.1单因素方差分析基本原理
单因素方差分析,用于完全随机设计的多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等。
核心就是计算组间和组内离均差平方和。
两组或两组以上数据,大组全部在一组就是组内,以每一组计算一均数,再进行离均平方和的计算:
SS组间=组间离均平方和,MS组间=SS组间/组数-1
SS组内=组内离均平方和,MS组内=SS组内/全部数据-组数
F值=MS组间/MS组内
单因素方差分析步骤:
1)建立检验假设,确定检验水准
2)计算统计量F值
3)确定P值,并作出统计推断
3.2地区间的方差分析
将表中的数据导入SPSS中——分析——比较均值——单因素——因变量为每月晴天数、每月雨天数及每月大雨天数——因子为地区。
操作截图如下:
得到表4。
该分析结果中,晴天数和雨天数的P值都小于0.05,所以可以认为地区对晴天数和雨天数的影响显著,晴天和雨天的天数受地区的影响。
而每月大雨天的天数P值为0.091大于0.05,所以在0.05的置信水平下不能推翻原假设,即认为地区因素对每月的大雨天数影响不显著。
分析地区因素对大雨
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 春雨 河北省 基本 天气 数据 统计分析