统计学贾俊平版重点.docx
- 文档编号:3943757
- 上传时间:2022-11-26
- 格式:DOCX
- 页数:8
- 大小:23.95KB
统计学贾俊平版重点.docx
《统计学贾俊平版重点.docx》由会员分享,可在线阅读,更多相关《统计学贾俊平版重点.docx(8页珍藏版)》请在冰豆网上搜索。
统计学贾俊平版重点
弟一早
统计:
收集、处理、分析、解释数据并从数据中得岀结论得科学。
数据仁分类数据对事物进行分类得结果数据,表现为类别,用文字来表述、例如,人口按性别分为男.女两类
2.顺序数据对事物类别顺序得测度,数据表现为类别,用文字来表
述例如,产品分为一等品、二等品、三等品、次品等
3.数值型数据对事物得精确测度,结果表现为具体得数值、例如:
身高为175cm,168cm,183cm
总体-所研究得全部元素得集合,其中得每一个元素称为个体-分为有限总体与无限总体、有限总体得范围能够明确确定,且元素得数目就是有限得、无限总体所包插得元素就是无限得,不可数得样本-从总体中抽取得一部分元素得集合-构成样木得元素数目称为样木容量参数:
描述总体特征。
有总体均值(卩).标准差(。
)总体比例(n)统计量:
描述样木特征。
样本标准差⑸,样木比例(P)变量:
说明现象某种特征,分类,顺序,数值型:
离散型,连续型。
经验,理论
描述统计研究得就是数据收集,处理,汇总,图表描述,概括与分析等统计方法。
推断统计就是研究如何利用样本数据进行推断总体特征
第二章间接数据(查询得)与直接数据:
调查(通常就是对社会现象而言得)普查信息全而完整。
再一个就是实验。
概率抽样:
也称随机抽样。
按一定得概率以随机原则抽取样本,抽取样本时使每个单位都有一定得机会被抽中-每个单位被抽中得概率就是己知得,或就是可以计算出来得-当用样本对总体目标量进行估计时,要考虑到每个样木单位被抽中得概率简单随机抽样:
从总体N个单位中随机地抽取Z?
个单位作为样本,每个单位入抽样本得概率就是相等得
分层抽样:
优点:
保证样木得结构与总体得结构比较相近将抽样单位按某种特征或某种规则划分为不同得层,然后从不同得层中独立.随机地抽取样本,从而提高估计得精度-组织实施调查方便-既可以对总体参数进行估计,也可以对各层得目标量进行估计整群抽样:
将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中得所有单位全部实施调查优点:
抽样时只需群得抽样框,可简化工作量-调查得地点相对集中,节省调查费用,方便调查得实施-缺点就是统计得精度较差系统抽样:
将总体中得所有单位(抽样单位)按一定顺序排列,在规定得范圉内随机地抽取一个单位作为初始单位,然后按事先规定好得规则确定其它样本单位-先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位
操作简便,可提高估计得精度多阶段抽样:
先抽取群,但并不就是调查群内得所有单位,而就是再进行一步抽样,从选中得群中抽取出若干个单位进行调查-群就是初级抽样单位,第二阶段抽取得就是最终抽样单位。
将该方法推广,使抽样得段数增多,就称为多阶段抽样非概率抽样:
方便抽样(自行确定入抽样本单位),判断抽样(根据经验判断),自愿样木(被调查者自愿参加),滚雪球抽样(对稀少群体得调查),配额抽样(先将体中得所有单位按一定得标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样得方式选取样木单位)。
概率抽样与非概率抽样得比较
1、概率抽样
-依据随机原则抽选样木-样木统计星得理论分布存在-可根据调查得结果推断总体
2、非概率抽样
-不就是依据随机原则抽选样木-样木统计量得分布就是不确定得无法使用样本得结果推断总体数据收集得方法:
自填式,面访式,电话式数据误差:
抽样误差(样本量得大小),非抽样误差。
误差得控制统计数据得质量要求
1.精度:
最低得抽样误差或随机误差2、准确性:
最小得非抽样误差
或偏差3.关联性:
满足用户决策.管理与研究得需耍4.及时性:
在最短得时间里取得并公布数据5.—致性:
保持时间序列得可比性
6.最低成木:
以最经济得方式取得数据
弟二早
数据审核(完整性与准确性)数据筛选(符合特定条件)数据排序(那一定顺序)数据透视(按需要汇总)
频数(frequency):
落在各类别中得数据个数比例(proportion):
某一类别数据占全部数据得比值百分比(percentage):
将对比得基数作为WO而汁算得比值比率(ratio):
不同类别数值得比值
条形图:
用宽度相同得条形得高度或长短来表示各类别数据得图形。
有单式条形图、复武条形图等形式主要用于反映分类数据得频数分布,绘制时,条形图可以横置或纵置,纵置时也称为柱形图。
帕累托图:
按类别数据出现得频数多少排序后绘制得条形图饼图:
也称圆形图,就是用圆形及圆内扇形得角度来表示数值大小得图形2、主要用于表示总体或样本中各组成部分所占得比例,对于研究结构性问题十分有用组距分组:
将变量值得一个区间作为一组2、适合于连续变量3、适合于变量值较多得请况4、需要遵循“不重不漏”得原则5、可釆用等距分组,也可采用不等距分组分组数据:
直方图(用矩形得宽度与高度来表示频数分布本质上就是用矩形得面积来表示频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应得频数就形成了一个矩形,即直方图),折线图。
数值型数据:
茎叶图,箱线图,线图,数值型数据多变量:
散点图(用横轴代表变量X,纵轴代表变fty,每组数据(Xiyi)在坐标系中用一个点表示,n组数据在坐标系中形成得n个点称为散点,由坐标及其散点形成得二维数据图),气泡图,雷达图(假定各变量得取值具有相同得正负号,总得绝对值与图形所W成得区域成正比)
一张好得图表应包括以下基本特征显示数据让读者把注意力集中在图表得内容上,而不就是制作图表得程序上避免歪曲强调数据之间得比较服务于一个明确得U得有对图表得统计描述与文字说明5种鉴别图表优劣得准则:
一张好得图表应当精心设计、有助于洞察问题得实质使复杂得观点得到简明、确切、高效得阐述能在最短得时间内以最少得笔墨给读者提供最大量得信息就是多维得表述数第四章
集中趋势:
一组数据向其中心值靠拢得倾向与程度2、测度集中趋势就就是寻找数据水平得代表值或中心值3、不同类型得数据用不同得集中趋势测度值4、低层次数据得测度值适用于高层次得测量数据,但高层次数据得测度值并不适用于低层次得测
众数:
1、一组数据中出现次数最多得变量值2、适合于数据量较多时使用3、不受极端值得影响4、一组数据可能没有众数或有儿个众数5、上要用于分类数据,也可用于顺序数据与数值型数据
屮位数:
1、排序后处于屮间位置上得值2、不受极端值得影响3、主要用于顺序数据,也可用数值型数据,但不能用于分类数据4、各变量值与中位数得离差绝对值Z与最小
四分位数:
排序后处于25%与75%位置上得值、
平均数:
也称为均值,就是集屮趋势得最常用测度值,一组数据得均衡点所在。
体现了数据得必然性特征,易受极端值得影响。
有简单平均数与加权平均数(分组数据)Z分。
几何平均数(计算平均比率主要用于计算平均增长率):
平均数得性质:
各变量值与均值得离差Z与等于零各变量与均值得离差平方与最小
调与平均数:
均值得另一种表现形式(直接掌握公式屮分子资料,缺频数资料)
离散程度:
均值得另一种表现形式(直接掌握
公式中分了资料,缺频数资料)
异众比率(分类数据):
对分类数据离散程度得测度,就是非众数组得频数占总频数得比率,用于衡量众数得代表性
四分位差(顺序数据):
对顺序数据离散程度得测度2、也称为内距或四分间距3、上四分位数与下四分位数Z差QD=QU-QL4、反映了中间50%数据得离散程度5、不受极端值得影响6、用于衡量屮位数得代表性
数值型数据:
1、极差:
一组数据得最大值与最小值Z差,离散程度得最简单测度值,易受极端值影响,未考虑数据得分布。
2、平均差:
各变量值与其平均数离差绝对值得平均数,能全面反映一组数据得离散程度,数学性质较差,实际屮应用较少
3、方差,标准差
自由度:
自由度就是指数据个数与附加给独立得观测值得约束或限制得个数Z差,当样本数据得个数为n时,若样本平均数确定后,则附加给n个观测值得约束个数就就是1个,因此只有nJ个数据可以自由取值,其屮必有一个数据不能自由取值4、按着这一逻辑,如果对n个观测值附加得约束个数为k个,自由度则为mk相对位置得度量:
标准分数也称标准化值2、对某一个值
在一组数据中相对位置得度量3、可用于判断一组数据就是否有离群点4、用于对变量得标准化处理
经验法则:
经验法则表明:
当一组数据对称分布时1、约有68%得数据在平均数加减1个标准差得范围之内2、约有95%得数据在平均数加减2个标准差得范围之内3、约有99%得数据在平均数加减3个标准差得范围之内
相对离散程度:
标准差与其相应得均值Z比2、对数据相对离散程度得测度3、消除了数据水平高低与计量单位得影响4、较用于对不同组别数据离散程度得比
峰态:
统计学家Pearson于1905年首次提出擞据分布扁平程度得测度峰态系数=0扁平峰度适屮,峰态系数<0为扁平分布,峰态系数>0为尖峰分布
偏态:
统计学家Pearson于1895年首次提出,就是数据分布偏斜程度得测度3偏态系数=0为对称分布偏态系数>0为右偏分布偏态系数<0为左偏分布4、偏态系数大于1或小于・■!
被称为高度偏态分布;偏态系数在0、5〜1或-1〜・0、5Z间,被认为就是屮等偏态分布;偏态系数越接近0,偏斜程度就越低
第六章
统计量:
设X1,X2,-,Xn就是从总体X屮抽取得容量为n得一个样本,如果由此样本构造一个函数T(X1,X2,-,Xn),不依赖于任何未知参数,则称函数T(X1,X2,-,Xn)就是一个统计量样本均值、样本比例、样本方差等都就是统计量2、统计量就是样本得一个函数,就是随机得。
3、统计量就是统计推断得基础
常用:
均值,方差,变异系数,k阶距,k阶屮心距,样本偏度与样本峰度次序统计量:
屮位数、分位数、四分位数等都就是次序统
计量
充分统计量:
能把总体屮包含得信息一点都不损失得提
取出来得统计量,称为充分统计量。
抽扌羊分•布:
1、样本统计量得概率分布,就是一种理论分布2在重复选取容量为n得样本时,山该统计量得所有可能取值形成得相对频数分布3样本统汁量就是随机变量,样本均值,样本比例,样本方差等4、结果来自容量相同得所有可能样本提供了样本统计量长远而稳定得信息,就是进行推断得理论基础,也就是抽样推断科学性得重要依据
涕f进为'布:
1、统计学得抽样分布理论中,至今求出精确分布得并不多。
2、在实用中,常寻求样本容量无限大时,统计量得极限分布,以作为抽样分布得近似,称为渐进分布。
咒2分布:
由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)卡•皮尔逊(K*Pearson)分别于1875年与1900年推导出来。
性质分布得变量值始终为正分布得形状取决于其自由度n得大小,通常为不对称得正偏分布,但随着自由度得增大逐渐趋于对称t分布:
1、高塞特(W、S、Cosset)于1908年在一篇以“Student”
学生)为笔名得论文屮首次提出t分布就是类似正态分布得一对称分布,它通常要比正态分布平坦与分散4、一个特定得分布依赖于称Z为自由度得参数。
随着自由度得增大,分布也逐渐趋于正态分布
F分布:
屮心极限定理:
从均值为U,方差为02得一个任意总体中抽取容量为n得样本,当n充分大时,样本均值得抽样分布近似服从均值为卩、方差为o2/n得正态分布
1、样本均值得均值(数学期望)等于总体均值
2、样本均值得方差等于总体方差得1/n
样本比例抽样分布:
在重复选取容量为n得样本时,由样本比例得所有可能取值形成得相对频数分布2、一种理论概率分布3、当样本容量很大时,样本比例得抽样分布可用正态分布近似
样本方差分布:
在重复选取容量为n得样本时,由样本方差得所有可能取值形成得相对频数分布
第七章
估计量:
用于估计总体参数得随机变量,如样本均值,样本比例,样本方差等例如:
样本均值就就是总体均值得一个估计量估计值:
估计参数时计算出来得统计量得具体值
点估计:
用样本得估计量得某个取值直接作为总体参数得估计值无法给出估计值接近总体参数程度得信息:
虽然在重复抽样条件下,点估计得均值可望等于总体真值,但由于样本就是随机得,抽出一个具体得样本得到得估计值很可能不同于总体真值,一个点估计量得可靠性就是由它得抽样标准误差来衡量得,这表明一个具体得点估计值无法给出估计得可靠性得度量
区间估计:
在点估计得基础上,给出总体参数估计得一个区间范围,该区间由样本统计量加减估计误差而得到。
根据样本统计量得抽样分布能够对样本统计量与总体参数得接近程度给出一个概率度量
置信水平:
将构造置信区间得步骤重复很多次,置信区间包含总体参数真值得次数所占得比例称为置信水平
置彳言区『可:
山样本统讣量所构造得总体参数得佔计区间称为置信区间
用一个具体得样本所构造得区间就是一个特定得区间,我们无法知道这个样本所产生得区间就是否包含总体参数得真值
无偏性:
估计量抽样分布得数学期望等于被估计得总体参数
有效性:
对同一总体参数得两个无偏点估计量,有更小标准差得估计量更有效一致性:
随着样本量得增大,估计量得值越来越接近被估计得总体参数总体均值得区间估计总体比例得区间估计总体方差得区间估计
第八章
检验统计量:
总体参数点佔计量得标准化值,其作用就是用来衡量样本统计量与零假设差异得就是否显著。
拒绝域:
能够拒绝原假设得统il•量得所有可能取值得集合。
就是山显著性水平a围城得区域。
第一类错误,弃真:
零假设为真,而根据样本做出拒绝零假设得推断。
第二类错误,取伪:
零假设为假,而根据样本做出接受零假设得判断
因为真实情况未知,所以两类错误不可避免;要减小其中得一种错误,通常只能通过增加另一种错误得方法做到;2、要使两类错误得概率同时减小,只能增加样本量,但实际中成本往往不允许。
P值:
就是一个概率值,被称为观察到得(或实测得)显著性水平P值就是在零假设成立得条件下,检验统计量会象实际观测结果ZC那么极端或更极端得概率
第十三章时间序列:
平稳序列(stationaryseries)基本上不存在趋势得序列,各观察值基本上在某个固定得水平上波动或虽有波动,但并不存在某种规律,而其波动可以瞧成就是随机得非平稳序列(non-stationaryseries)有趋势得序列线性得,非线性得有趋势、季节性与周期性得复合型序列成分:
趋势(trend)持续向上或持续下降得状态或规律2季节性(seasonality)也称季节变动(Seasonalfluctuation)时间序列在一年内重复出现得周期性波动3周期性(cyclity)也称循环波动(Cyclicalfluctuation围绕长期趋势得一种波浪形或振荡式变动4、随机性(random)也称不规则波动(Irregularvariations)除去趋势、周期性与季节性之后得偶然性波动增长率:
也称增长速度2、报告期观察值与基期观察值之比减1,用百分比表示3、山于对比得基期不同,增长率可以分为环比增长率与定基增长率4、山于计算方法得不同,有一般增长率、平均增长率、年度化增长率分为定基增长率与环比增长率移动平均法:
对简单平均法得一种改进方法2、通过对时间序列逐期递移求得一系列平均数作为预测值(也可作为趋势值)3、有简单移动平均法与加权移动平均法两种简单移动平均:
将最近R期数据平均作为下一期得预测值加权移动平均法指数平滑法:
就是加权平均得一种特殊形式2、对过去得观察值加权平均进行预测得一种方法3、观察值时间越远,其权数也跟着呈现指数得下降,因而称为指数平滑4、有一次指数平滑、二次指数平滑、三次指数平滑5、一次指数平滑法也可用于对时间序列进行修匀,以消除随机波动,找出序列得变化趋势1、只有一个平滑系数2、观察值离预测时期越久远,权数变得越小3、以一段时期得预测值与观察值得线性组合作为第t+1期得预测值,其预测模型为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 平版 重点