多元统计分析的重点和内容和方法Word格式.doc
- 文档编号:14625640
- 上传时间:2022-10-23
- 格式:DOC
- 页数:12
- 大小:928KB
多元统计分析的重点和内容和方法Word格式.doc
《多元统计分析的重点和内容和方法Word格式.doc》由会员分享,可在线阅读,更多相关《多元统计分析的重点和内容和方法Word格式.doc(12页珍藏版)》请在冰豆网上搜索。
每千人拥有移动电话数目
3、X3:
高峰时期每三分钟国际电话的成本
4、X4:
每千人拥有电脑的数目
5、X5:
每千人中电脑使用率
6、X6:
每千人中开通互联网的人数
v3、变量间的相互联系
一是:
分析一个或几个变量的变化是否依赖另一些变量的变化。
(回归分析)
二是:
两组变量间的相互关系(典型相关分析)
v4、多元数据的统计推断
点估计
参数估计区间估计
统u检验
计参数t检验
推F检验
断假设相关与回归
检验卡方检验
非参秩和检验
秩相关检验
v1、假设检验的基本原理
小概率事件原理
v小概率思想是指小概率事件(P<
0.01或P<
0.05等)在一次试验中基本上不会发生。
反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;
反之,则认为假设成立。
v2、假设检验的步骤
(1)提出一个原假设和备择假设
v例如:
要对妇女的平均身高进行检验,可以先假设妇女身高的均值等于160cm(u=160cm)。
这种原假设也称为零假设(nullhypothesis),记为H0。
2.1均值向量的检验
v1、正态总体均值检验的类型
v根据样本对其总体均值大小进行检验(One-SampleTTest)
如妇女身高的检验。
v根据来自两个总体的独立样本对其总体均值的检验(IndepentTwo-SampleTTest)
如两个班平均成绩的检验。
v配对样本的检验(Pair-SampleTTest)
如减肥效果的检验。
v多个总体均值的检验
vA、总体方差已知
用u检验,检验的拒绝域为
即
vB、总体方差未知
用样本方差代替总体方差,这种检验叫t检验.
首先,可以画出这些重量的直方图(下图)
v判断样本是否服从正态分布
(2)根据来自两个总体的独立样本对其总体均值的检验
v目的是推断两个样本分别代表的总体均数是否相等。
其检验过程与上述两种t检验也没有大的差别,只是假设的表达和t值的计算公式不同。
v两样本均数比较的t检验,其假设一般为:
H0:
µ
1=µ
2,即两样本来自的总体均数相等.
H1:
1>
2或µ
1<
2,即两样本来自的总体均数不相等,检验水准为0.05。
v计算t统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误。
v相应的假设检验问题为:
H0:
μ1=μ2
H1:
μ1大于μ2
vμ1为第一组的总体均值,而μ2为第二组的总体均值。
v用SPSS处理数据:
Spss选项:
Analyze—CompareMeans—Independent-SamplesTTest
v3、配对样本的检验(pairedsamples)
(针对同样的样本)考察实验前后样本均值有无差异。
能够很好地控制非实验因素对结果的影响注意:
实验前后两个样本两个样本并不独立
v注意:
同一样本实验前后并不独立,但不同样本之间却相互独立。
v配对样本的检验实际上是用配对差值与总体均数“0”进行比较,即推断差数的总体均数是否为“0”。
故其检验过程与依据样本均数推断总体均数大小的t检验类似,即:
vA、建立假设
H0:
d=0,即差值的总体均数为“0”,H1:
d>
0或µ
d<
0,即差值的总体均数不为“0”,检验水平为α。
vB.计算统计量
进行配对设计t检验时t值为差值均数与0之差的绝对值除以差值标准误的商,其中差值标准误为差值标准差除以样本含量算术平方根的商。
vC.确定概率,作出判断
以自由度v(对子数减1)查t界值表,若P<
α,则拒绝H0,接受H1,若P>
=α,则还不能拒绝H0。
v例4:
要比较50个人在减肥前和减肥后的重量。
这样就有了两个样本,每个都有50个数目。
v这里不能用前面的独立样本均值差的检验;
这是因为两个样本并不独立。
v每一个人减肥后的重量都和自己减肥前的重量有关。
但不同人之间却是独立的。
令减肥前的重量均值为μ1,而减肥后的均值为μ2;
这样所要进行的检验为:
H0:
μ1=μ2
H1:
μ1大于μ2
一、方差分析的基本思想
1、定义
方差分析又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。
v2、了解方差分析中几个重要概念:
v
(1)观测因素或称为观测变量
如:
考察农作物产量的影响因素。
农作物产量就是观测变量。
v
(2)控制因素或称控制变量
进行试验(实验)时,我们称可控制的试验条件为因素(Factor),因素变化的各个等级为水平(Level)。
影响农作物产量的因素,如品种、施肥量、土壤等。
如果在试验中只有一个因素在变化,其他可控制的条件不变,称它为单因素试验;
若试验中变化的因素有两个或两个以上,则称为双因素或多因素试验。
v方差分析就是从观测变量的方差入手,研究诸多控制变量(因素)中哪些变量是对观测变量有显著影响的变量
v3、方差分析的基本原理
设有r个总体,各总体分别服从……,假定各总体方差相等。
现从各总体随机抽取样本。
透过各总体的样本数据推断r个总体的均值是否相等?
:
至少有一组数据的平均值与其它组的平均值有显著性差异。
v分析的思路:
用离差平方和(SS)描述所有样本总的变异情况,将总变异分为两个来源:
(1)组内变动(withingroups),代表本组内各样本与该组平均值的离散程度,即水平内部(组内)方差
(2)组间变动(betweengroups),代表各组平均值关于总平均值的离散程度。
即水平之间(组间)方差
即:
SS总=SS组间+SS组内
v消除各组样本数不同的影响--离差平方和除以自由度(即均方差)。
从而构造统计量:
v方差分析的基本思想就是通过组内方差与组间方差的比值构造的F统计量,将其与给定显著性水平、自由度下的F值相对比,判定各组均数间的差异有无统计学意义。
v零假设否定域:
v例2SIM手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异
即:
研究被调查者的收入水平是否会影响其对SIM手机的满意程度。
vSPSS处理:
Analyze—CompareMean—One-WayANOVA
v多元方差分析(操作参见书例2.1,第36页):
vSPSS选项:
Analyze—GeneralLinearModel—Multivariate
可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量μ1和μ2相等与否,得到:
F=8.8622,P=0.0008。
拒绝该年级男女生身体发育指标的总体均数向量相等的假设,从而可认为该校男女生身体发育状况不同。
v4、方差分析的应用条件
(1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。
(2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。
即偏态分布资料不适用方差分析。
对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。
v(3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。
即若组间方差不齐则不适用方差分析。
依据涉及的分析变量多少分为:
一元方差分析、多元方差分析
依据对分析变量的影响因素的数量分为:
单因素方差分析、多因素方差分析
v一、什么是聚类分析?
v聚类分析(P54)
是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。
v聚类分析的目的(P54)
使类内对象的同质性最大化和类间对象的异质性最大化。
v二、聚类分析的基本思想:
是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。
把相似的样品或指标归为一类,把不相似的归为其他类。
直到把所有的样品(或指标)聚合完毕.
v相似样本或指标的集合称为类。
v1、聚类分析的类型有:
对样本分类,称为Q型聚类分析
对变量分类,称为R型聚类分析
Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。
R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。
v2、聚类分析的方法:
系统聚类(层次聚类)
非系统聚类(非层次聚类)
v系统聚类法包括:
凝聚方式聚类、分解方式聚类
v非系统聚类法包括:
模糊聚类法、K-均值法(快速聚类法)等等
v常用距离:
(1)、明考夫斯基距离(Minkowskidistance)
明氏距离有三种特殊形式:
(1a)、绝对距离(Block距离):
当q=1时
(1b)欧氏距离(Euclideandistance):
当q=2时
(1c)切比雪夫距离:
当时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 重点 内容 方法