统计学.docx
- 文档编号:8985803
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:19
- 大小:82.89KB
统计学.docx
《统计学.docx》由会员分享,可在线阅读,更多相关《统计学.docx(19页珍藏版)》请在冰豆网上搜索。
统计学
<统计学>
统计图为先:
好的图形应具有以下特征:
目的明确;从数据比较性上显示尽可能多数据量,有图有说明。
培养火眼金睛:
看整体,看差异,看形状。
数据属性
变量
描述
应用
整体
均值
对称分布
中位数
偏态分布
众数:
出现频率最高
偏态分布
差异
极差:
max-min
四分位差:
75%-25%
标准差、标准分数、离散系数
形状
偏态SK:
数据分布不对称
>0右拖尾(右偏)
=0对称
<0左拖尾
峰态K:
峰值高低
>0尖峰
=0正态
<0扁平
算样本:
先基础:
类别
具体
适用范围
离散
二项
放回抽样
泊松
预先知道单位时空内随机变量的均值
一定时空范围某事件出现次数
超几何
不放回抽样的二项分布
连续
正态
正态期望-样本值成直线
N个正态总体的随机变量的平方和
总体方差的估计与非参数检验
T分布:
若y
类似正态,比正态平坦与分散
正态总体标准差未知,小样本条件下对总体均值的估计与检验
F分布:
类似
比较不同总体的方差是否有显著差异
后样本:
统计量
计算式
适用范围
标准误差
样本均值
任何总体分布时,大样本下服从
大样本
比例p
大样本
样本方差
正态
的样本统计量
取决于总体与样本量
的样本统计量
两大样本下正态
的样本统计量
F=
正态下服从F分布
Ch5参数估计
均值
比例
方差
大样本
小样本
大样本
正态
Z分布
未知用
替代
Z分布
Z分布
t分布
两个总参数估计所使用的分布
均值差
独立大样本
已知
Z
未知
用
表示
Z
独立小样本,且正态总体
已知
Z
未知
T
T
比例差
独立大样本
Z
方差比
-
F分布
样本量的确定:
由置信水平和总体标准差,给定的估计方差共同决定。
Ch6假设检验
6.1原理
怎样提出假设:
原假设是研究者想收集证据予以推翻的假设,备择假设与原假设互斥。
怎样作出决策:
Step1:
原假设正确却拒绝了称为
,原假设错误却未拒绝称为
错误。
犯那类错误的代价高就把那类错误设置低。
一般先控制
错误。
Step2:
依据啥作出决策
双侧假设
>临界值
拒绝原假设
左
统计量的值<临界值
拒绝原假设
右
统计量的值>临界值
拒绝原假设
或者更准确地用P值决策:
依靠统计量的分布函数,代入样本值,计算样本概率值进行决策。
Step3:
如何表述决策结果
假设检验不能证明原假设正确,因为拒绝与不拒绝都是在原假设的条件下进行的,至于原假设正确与否超出了假设之外。
统计显著不等于有实际意义:
P值决策中,样本量越大,检验统计量的值越大,P值越小,越有可能拒绝原假设。
因此只要样本量足够大总能拒绝原假设,即统计上越显著,但不一定有实际意义。
6.2一个参数的假设检验
6.3两总体参数的检验
与一总体参数的检验类似,统计量的表达式复杂些。
Ch7方差分析与实验设计
7.1方差分析的原理:
方差分析的方法:
误差的分解:
总误差=随机误差+处理误差
总平方和=组内平方和+组间平方和
方差分析的前提:
正态性:
正态总体
方差齐性:
各总体的方差相等,检验方法
独立性:
样本数据来自因子各水平的独立样本。
一般来说,方差分析对独立性的要求较高。
定义
前提
方差分析
研究分类自变量对数值因变量的影响,可形象地理解为检验多个总体均值是否相等的统计方法
正态性:
正态总体
通过标准化残差=残差/(残差的标准差(或者残差标准差的估计))
方差齐性:
各总体的方差相等,检验方法
Yi-yei(残差)值均落在一条水平带内均匀分布;
若对于较大x,残差值称增长趋势,则不满足残差相等原则;
若残差曾呈有规律的分布,表示回归模型不合适
独立性:
样本数据来自因子各水平的独立样本。
见ch10
7.2单因子与多因子的方差分析
单因子
求关系的步骤
1.提出假设H0:
u1=u2=u3…;
H1:
u1,u2,u3不全相等
2.构造检验统计量F=组间方差除以组内方差服从F分布
3.P决策值,若P 关系的强度 组间平方和占总平方和的比例 哪些均值有显著差异 1.提出假设: ui 2.构造统计量: xi的均值与xj的均值之差的绝对值 3.Fisher的LSD方法,进行决策 多因子 不考虑交互作用 类似单因子,主因子进行分析 提出假设 构造统计量 决策 考虑交互作用 提出假设: H0: 无交互作用 构造统计量: F(rc)=交互作用均方/残差均方,服从F((k-1)(r-1),kr(m-1)),其中k,r分别为行列因子的水平数,m为重复测量的次数 决策: p(rc) 7.3实验设计基本: 完全随机化设计: 因子的水平被随机地指派给试验单元 随机化区组设计: 先划同质区,再随机化抽取实验单元 因子设计: 因子间的搭配设计 Ch8: 一元线性回归 8.1相关系数r: 度量两变量间线性关系强度的统计量, 前提: 线性关系 自变量服从联合正态分布 剔除了极端值 取值: -1-1,r=0,两变量间不存在线性关系 相关系数的检验 定义 假设 取值范围 度量两变量间线性关系强度的统计量 线性关系 -1-1,r=0,两变量间不存在线性关系 自变量服从联合正态分布 剔除了极端值 8.2一元线性回归的估计与检验 1.回归模型: y=b0+b1*x+epsi,其中epsi满足正态性,方差齐性,独立性 2.估计的回归方程: y=be+b1e*x 3.参数be,b1e的计算法: 最小二乘估计 4.回归直线的拟合优度: 拟合优度 定义 回归直线与观测点的接近程度 评价量 判定系数: 回归平方和SSR(ye(估计值)-ya(均值))占总平方和SST的比例 说明回归直线对观测数据的拟合程度,故值越大说明拟合越好 估计标准误差 Yi-yei平方和SSE的均方根 说明拟合误差 显著性检验 线性关系检验F检验 检验y-x间的线性关系是否显著 1.提出假设: H0: b1=0,H1: b1不为0 2.构造检验统计量: F=(SSR/K)/(SSE/(n-k-1))服从F(1,n-2) 3.P 回归系数的检验与推断t检验 检验自变量对因变量的影响是否显著 1.提出假设: 一元时回归系数检验与线性关系检验等价: H0: B1=0 2.构造检验统计量: T=回归系数b1的估计值b1e/b1e的标准差 3.P 8.3预测: 平均值的置信区间: 给定x=x0,求出的y的平均值的估计区间 个别值的置信区间: 给定x=x0,求出的y的一个个别值的估计区间 平均值的置信区间宽度<个别值的置信区间宽度 Ch9多元线性回归 重点介绍不同处: 拟合优度与显著性检验 拟合优度 定义 回归直线与观测点的接近程度 评价量 多重判定系数: 回归平方和SSR(ye(估计值)-ya(均值))占总平方和SST的比例 由于增加自变量会减少残差平方和,故常采用减去自变量个数的调整的多重判定系数 Ra平方=1-(1-R平方)*(n-1)/(n-k-1) 说明回归直线对观测数据的拟合程度,故值越大说明拟合越好 估计标准误差: Yi-yei平方和SSE的均方根 说明拟合误差 显著性检验 线性关系检验F检验 检验y-x间的线性关系是否显著 1.提出假设: H0: b1=0,H1: b1不为0 2.构造检验统计量: F=(SSR/K)/(SSE/(n-k-1))服从F(1,n-2) 3.P 回归系数的检验与推断t检验 检验自变量对因变量的影响是否显著 1.提出假设: H0: Bi=0 2.构造检验统计量: T=回归系数bi的估计值bie/bie的标准差服从t(n-k-1)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学