现代统计学与SAS应用.docx
- 文档编号:29722855
- 上传时间:2023-07-26
- 格式:DOCX
- 页数:89
- 大小:315.93KB
现代统计学与SAS应用.docx
《现代统计学与SAS应用.docx》由会员分享,可在线阅读,更多相关《现代统计学与SAS应用.docx(89页珍藏版)》请在冰豆网上搜索。
现代统计学与SAS应用
现代统计学与SAS应用一目录副标题:
胡良平文章来源:
本站原创点击数:
[£1572更新时间:
2005-1-22刖百
第1篇统计学根底知识与SAS软件应用技巧
第1章绪论
第2章试验设计入门
第3章统计描述
第4章SAS软件应用入门
第5章SAS实用程序编写技巧
第6章用SAS软件实现简单的统计分析
第7章用SAS/GRAPH模块绘制常用统计图的法
第2篇试验设计与定量资料的统计分析
第1章根本概念与方法的概述
第2章单组、配对和成组设计及其资料的统计分析
第3章误差固定的方差分析设计类型及其定量资料的统计分析
第4章误差变动的方差分析设计类型及其定量资料的统计分析
第5章多个均数或均值向量之间的多重比较
第3篇试验设计与定性资料的统计分析
第]章2X2表资料的假设检验
第2章RXC表资料的统计分析
第3章高维列联表资料的统计分析
第4篇试验设计与回归分析
第1章回归分析的种类与简单回归分析
第2章多元线性回归分析
第3点协方差分析
第4章直接试验设计与回归分析
第5篇生存分析
第6篇多元统计分析
第1章主成分分析
第2章因子分析
第3章对应分析
第4章聚类分析
第5章判别分析
第6章典型相关分析
附录1各篇练习题及参考答案
附录2-5统计用表及产生这些表所需的SASS序
附录6中英文对照索引
现代统计学与SAS应用一前言
副标题:
胡良平文章来源:
本站原创点击数:
S770更新时间:
2005-1-22近10年来,笔者为医学研究生、医学科技工作者讲授统计课,并为广阔科研人员做了大量的统计咨询工作,从中受到了很多启迪。
同时,增强了我的紧迫感、危机感和使命感。
因为从科研实践中提出来的有些试验设计问题以及与
之相匹配的统计分析方法,在现行的统计教科书中未作介绍;很多从事实际工作的同志试图学好统计学,
但其中不少人学了好几遍仍不得要领,就更谈不上灵活而又正确地使用了。
调查、思考和全面分析后得出如下的认识:
问题的症结出在教材和教学方法上。
现行统计教材根本上是按统计方法分门别类一一介绍
的,这样就必然要把处理同一类问题或资料的各种统计方法分散在不同章节中去讲解,但使用者需要处理的试验资料往往是丰富多采的、错综复杂的,既包含定量指标,又包含定性指标;既需作一元统计分析,
又需作多元统计分析。
实际问题的复杂性与统计教材的系统性之间的矛盾,使实际工作者在选用统计方法时不知所措,感到统计学莫测高深,很难学习和掌握。
如何有效地解决统计教学和统计应用方面存在的弊病,针对实际资料和具体问题讲解和使用统计方法,
是编写〈〈现代统计学与SAS应用?
一书的初衷。
因编者水平有限,此书在教材改革方面只是一次初步的尝试,但愿它能起到抛砖引玉之作用。
本书用通俗易懂、化玄为实的编写手法,较全面地介绍了现代统计分析方法及其应用技巧。
针对多元统计分析方法计算量大、算法复杂的特点,为便于实际工作者和非数理专业的学生学习和掌握统计知识,
本书以美国SAS研究所研制的、在国际上享有很高声誉的统计分析系统一SAS软件包作为实现复杂统
计计算的工具,从而省出了大量的篇幅着重介绍各种试验设计方法、各种统计分析方法及其适用条件、
结合具体问题正确选用统计方法的技术以及对计算结果的正确解释和应用。
在一切从实际出发的思想指导下,合理调整教材结构亨写形式,使貌似复杂的统计问题化繁为简,实用方便。
随着电子计算机技术的不断提高,统计学的理论和应用也有了长足的开展。
在试验设计方面,可以利用计算机进行辅助设计,如正交设计、均匀设计、直接设计等,使广阔实际工作者运用多因素试验设计安排试验成为可能。
这些设计方法,可以大大减少花费在试验研究和应用研究上的人力、物力、财力和时间,
获得与全面试验接近的最优试验结果,对工农业生产、科学研究和推动国民经济的开展,都是十分有用的。
多元统计对揭示多因素、多指标的复杂问题的本质是不可缺少的,本书以SAS软件包为计算工具,使实
际工作者分析多指标的试验资料成为可能。
近年来,国内外出版了大量有关统计理论、方法以及现成统计软件包的使用说明书和应用指南等方面的书籍。
无疑,它们是产生本书的根底和来源。
与这些同类书籍相比,本书具有以下独到之处:
1用计算器和计算机两种计算工具实现统计计算,便于读者选用;
2面向问题和资料讲授统计方法,有利于读者提高处理实际问题的综合能力;
3介绍的试验设计类型多,讲解详细,具有很强的可操作性;
4为读战便成功的使用SAS软件提供了一条有效的捷径。
本书共分6篇,第1篇统计学根底知识与SAS软件应用技巧,介绍了统计学的根本概念和学习方法、试验设计入门、统计描述、SAS软件应用入门、编写SAS实用程序的技巧、单变量统计分析和利用SAS
/GRAPH模块绘制常用统计图的方法。
第2篇试验设计与定量资料的统计分析,介绍了与t检验、非参数
检验和各种方差分析有关的试验设计和数据处理方法。
第3篇试验设计与定性资料的统计分析,介绍了处
理二维及高维列联表资料的各种统计分析方法,包括卡方检验、Fisher的精确检验、典型相关分析、logistic
回归模型和对数线性模型等内容。
第4篇试验设计与回归分析,介绍了回归分析的种类和选用方法、简单直线回归、多项式回归、简单曲线回归、多元线性回归、协方差分析、直接试验设计及其资料的回归分析
等有关内容。
第5篇生存分析、介绍了生存资料的特点、生存时间函数和生存分析方法的分类等根本概念:
生存资料的非参数分析方法、COX模型分析方法和参数模型的回归分析方法。
第6篇多元统计分析,介绍了主成分分析、因子分析、对应分析、聚类分析、判别分析、典型相关分析。
本书第1篇第1〜7章由胡良平、代炼忠、姚晨三人编写;第2、3、5、6篇均由胡良平编写;第4篇由胡良平、张学中两人编写;绝大局部练习和参考答案由郭秀花编写。
根据教学对象的层次和学时数适当取舍内容,本书可用作研究生、本科生、大中专生的统计学教材;
可作为高等院校和科研机构的教师、学者、科技人员、生物医学工作者、管理工作者等学习和应用统计方
法的参考书;还可作为用SAS软件解决统计问题的实用手册。
本书的问世,与军事医学科学院科技部研究生处和训练处在经济上给予的大力扶是息息相关的;与军
事医学科学出版社的热情关心和帮助是坊开的;中国人民解放军军医进修学院姚晨同志对本书内容的取舍
和合类排等重要问题提出了很多珍贵的建议;北京高等医学专科学校郭秀花同志为本书的初稿作了大量认真而又细致的校对工作。
在此,一并表示衷心的感谢!
现代统计学与SAS应用一第一篇
(1)副标题:
胡良平'文章来源:
本站原创点击数:
[E1327更新时间:
2005-1-22
第1节统计学的任务和作用
统计学的任务可概述为:
结合专业知识和具体要求,进行统计研究设计〔包括调查设计和试验设计〕;收集和整理资料;对所收集的资料进行统计描述和处理;对统计处理的结果进行分析和解释,根据样本资料所提供的信息推断总体的规律性,从而,作出科学的结论,并用它来指导今后的实践。
统计学的作用就在于它能帮助人们有方案有目的地进行调查研究或试验研究、合理地分析
和解释试验数据、科学地揭示数据之间隐含的内在规律性。
必须强调指出的是:
统计学只能帮助人们发现规律,而不能创造规律。
至今仍有一些人不能正确地看待统计学的作用,尤其是对试验设计的重要性认识模糊。
他们不善于在试验研究开始之前,就从统计学的角度去考虑应当如何确定试验因素、观测指标、受试对象〔包括种类和数量〕;如何合理地安排试验,以便用最少的人力、物力和时间,有效地控制和估计试验误差,获得准确可靠的试验结果。
而是等试验结束后,急需发表文章或参加考核时,才想到要用统计学来为他的试验数据进行“修饰〞。
此时,常常会出现这样的现象:
由于试验缺乏完善的设计方案的指导,要么数据量不够,要么严重地违背了试验设计的根本原那么,导致所收集的资料无法处理或统计结论与专业知识自相矛盾,或结论模棱两可。
更有其者,不是根据指标的性质、试验设计的类型和研究目的有针对性地来选用统计分析方法,而是将各种统计方法一一试用,看哪一种方法算出的结果与他所预期的结果一致,就认定哪种方法。
由此而得到的科研成果或学术论文的科学性是值得疑心的,所有尊重科学的人都净会容忍这种现象继续蔓延下去!
我们应当活醒地认识道,运用统计方法推导出来的结论是否可靠,关键取决于以下几个方面:
调查或试验设计是否周密完善、是否按设计要求进行实施;所选用的指标是否特异性和客观性强、灵敏度和精确度高;数据是否真实可靠、样本含量是否足够大;所选用的统计方法是否妥当;结果的解释是否正确。
因为在运用统计学的全过程中,稍有不慎,就有可能犯统计学上的四型错误〔参见第2篇第1章〕,它们分别产生于试验设计、数据处理、统计推断和结果解释阶段。
第2节统计学的主要内容
1.统计研究设计
调查设计指调查研究工作全过程的方案,它包括资料搜集、整理和分析〔*〕。
试验设计指对试验因素作合理的、有效的安排,最大限度地减少试验误差,使之到达高效、快速、准确、可靠和经济的目的。
二者的区别在调查中,研究者较被动地进行观察,只希望十扰因素的影响尽可能地减少;在试验中,研究者能较主动地安排试验因素,控制试验条件,尽可能排除或抵消非试验因素的十扰和影响。
这局部内容将在第1篇第2章中介绍。
2.统计描述〔含单变量统计分析〕
统计表和统计图这是表达统计资料常用的2种方法。
用统计表达资料,简炼、准确;用统计图表达资料,形象、直观。
定量资料集中趋势的度量常用以下平均指标来描述,即算术均数、几何均数、调和均数、
中位数和众数。
定量资料离散趋势的度量常用以下变异指标来描述,即标准差、标准误差、变异系数、
极差和四分位数间距。
随机变量及其概率包括离散型随机变量的概率〔如:
二项、泊松、几何、超几何等〕和连续型随机变量的概率〔如:
正态、t、卡、F、对数正态、指数、图尔等〕〔**〕。
定量资料趋势的度量常用的指标有分位数、偏度系数和峰度系数定性资料的统计描述一相对指标〔包括比和率〕。
以上内容将在第1篇第3章中介绍。
3.统计分析
〔1〕假设检验
关于定量资料类型的假设检验、关于定量资料方差〔或方差阵〕的假设检验、关于定量资料均值〔或均值向量〕的假设检验、关于定性资料情况或位置的假设检验、2届性之间的独立性检验以及2种方法判断结果的一致性检验等。
这局部内容将在第2、第3两篇中介绍。
〔2〕区间估计
置信区间的估计,即对总体参数〔均值、率、方差等〕进行区间估计;
容许区间的估计,即对总体中一定比例的个体某指标取值范围的估计。
这局部内容将在第1篇第3章中介绍。
〔3〕研究变量之间的关系
1各指标之间无自变量与因变量之分
研究变量之间的相互关系有直线相关分析、曲线相关分析、典型相关分析等;
研究多个变量内部的从届关系,并寻找综合指标,降低变量的维数,其常用的方法有主成分分析、因子分析、对应分析;
研究多个变量内部或多个样品之间的亲疏关系有聚类分析;
研究多个变量内部的各种复杂关系有线性结构方程的协方差分析〔*〕。
2各指标之间有自变量与因变量之分
研究变量之间的依存关系有直线回归分析、曲线回归分析、多项式回归分析、多元线性回归分析、logistic概率模型回归分析、寿命资料的参数模型回归分析、COX莫型回归分析和对数线性模型分析;
〔4〕判别分析
根据一些明确分类的总体所提供的信息,对未知个体的归届进行分类的判别分析。
上述内容将在第4〜6三篇中介绍。
[说明]本书对标“*〞的内容未作介绍;对标“**〞的内容略作介绍;对其他内容均作较详细的介绍。
第3节学习统计方法的捷径
学习和使用统计方法的全过程可划分为以下3局部:
其一,对统计学的概念和方法有一个大概的了解,以便根据具体情况正确选用统计方法;其二,正确运用统计算方法处理实际资料;其三,把专业与统计知识紧密结合起来,对计算结果给出合理的解释,从而,作出科学的结论。
对于非统计工作者来说,第2局部是最大的障碍,因为处理多因素多指标资料的算法复杂、计算
学习统计方法的捷径是:
利用现成的统计软件包在电子计算机上实现各种复杂的统计计算,只需花较少的时间和精力去学习第1、3两局部内容。
本书借助国际上著名的统计分析系统一SA湫件包,作为计算工具,讲述统计理论、方法及其应用技巧。
第4节统计资料的类型
会识别统计资料的类型是正确选用统计分析方法的首要前提。
统计指标可粗分为定量和定性指标2大类,进一步乂可细分为计量、计数、名义和有序资料4类〔现行的许多统计教材中都将资料分为3类,即计量、计数和等级资料,相当于本书中所说的定量、名义和有序资料八严格地说,一谈到资料的类型,就应该是对某个具体的指标而言,因为1个较复杂的统计资料可
能包括上述4种类型的资料,笼统地说,只能称之为混合型资料。
现举例说明如下:
定量指标定性指标
病/\/\
例计量资料计数资料名义资料有序资料
编
号X1〔年龄〕X2〔胆固醇〕X3〔脉搏:
次/分〕X4〔职业〕X5〔血型〕X6〔疗效〕X7〔尿糖〕
1
38
223
72
工人
A
好转
+
2
49
166
69
农民
O
无效
++
3
26
273
81
商人
AB
恶化
+++
4
57
183
75
军人
B
治愈
■
[说明]计量资料的具体取值通常是正实数〔零、正整数和小数〕,即可以取某区间内所有的值;计数资料的具体取值通常是零和正整数;名义资料的取值通常是文字、字母或代号,即使是用数字表示,也只是一种分组的标志,并不代表数量的大小;有序资料的取值与名义资料相同,只是不同取值之间有半定量的关系,可以按数量的相对大小或程度的上下排出顺序,这种资料乂称为等级资料。
第5节数据结构与统计方法的匹配
实际进行统计处理时,人们所面临的资料是混合型的,为便于讨论问题,不妨把任何1个完整的资料称之为数据结构。
一般来说,不同的数据结构,就有相应的统计分析方法与之相匹配。
下面将根据统计学中的主要内容,展示与之对应的数据结构,以便使用者在处理数据时参考。
1.I型数据结构一只含定量资料
〔1〕数据结构见表1.1.1
表1.1.1103例冠心病人的局部资料
编号X1〔年龄〕X2〔胆固醇〕X3〔甘油三脂〕X4〔低密度脂蛋白〕X5〔高密度脂蛋白〕
1
60
223
205
122
30
2
46
166
51
84
57
3
55
273
155
197
34
...
103
...
76
...
195
...
101
...
135
...
42
〔2〕统计方法的选择
如果每次只分析1个指标,可进行统计描述或单变量统计分析,也可进行区间估计或假设检验〔需给定总体均值或标准值〕;
如果每次要分析2个或2个以上指标,那么可选用上述“研究变量之间的关系〞中所介绍的某些方法。
2.皿型数据结构一只含定性资料
〔1〕数据结构见表1.1.2
表1.1.2
103例冠心病人的局部资料
编亏
X1〔性另IJ〕
X2〔高血压史〕
X3〔吸烟史〕
X4〔基因型XbaI〕
X5〔基因型EcoRI〕
1
男
无
无
-/-
-/-
2
女
无
无
-/-
+/-
3
男
有
无
+/-
+/+
...
103
...
男
...
有
...
有
...
-/-
...
+/+
〔2〕统计分析方法的选择
形如表1.1.2的资料无法直接进行统计分析,常将它整理成列联表〔见表1.2.3和表1.2.4〕的形式之后,再用定性资料的统计分析方法分析〔如:
定性资料的假设检验、logistic概率模型回归分析、对数线性模型分析、对应分析〕。
3.m型数据结构一同时含有定量和定性资料
〔1〕数据结构是表1.1.1与表1.1.2的合并
〔2〕统计分析方法的选择
根据研究者的需要,可分别对I、皿和用型数据结构进行分析。
把定性指标作为分组标志,把定量指标作为观测结果〔或称反响变量〕,可选用定量资料的假设检验、判别分析等方法;
把定性资料数量化后看作定量资料,就将用型数据结构转变成I型数据结构,可选用相应的统计分析方法。
如:
把性别按男记为0、女记为1使之量化;乂如:
对于ABCa型系统,可按如下的方法数量化,即令:
A型:
X1=1、X2=X3=0;B型:
X2=1、X1=X3=0;C型:
X3=1、X1=X2=0;ABS:
X1=X2=X3=0这里的X1,X2,X3被称为哑变量。
把定量资料离散化后看作定性资料,就将用型数据结构转变成n型数据结构,可选用相应的统计分析方法。
如:
把年龄按V35岁记为宵年、〉35〜V50岁记为中年、〉50岁记为老年来划分。
第6节几个重要的名词概念
1.总体、样本和样本含量
总体广义上是指性质相同的研究对象所构成的集合;狭义上是指该集合中所有研究对象某变量的实测值构成的集合。
通常把二者统称为总体。
从广义总体或狭义总体中随机抽取一局部研究对象或研究对象某变量的实测值构成的子集,称为广义样本或狭义样本。
通常把二者统称为样本。
样本中研究对象或某变量实测值的个数称为样本含量或样本大小。
2.概率与频率
概率与频率都是度量某一事件出现的可能性大小的数量,其值介丁0〜1之间。
频率是指某一事件出现的次数相对丁总试验次数的白分比,它反映了某事件在样本中出现的时机的大小;随着试验次数无限增加,某事件出现的频率在某一确定值附近摆动,最后无限趋近丁这个确定值,那么称该确定值为某事件出现的概率。
由此可知,频率是对样本而言,概率那么是总体的届性。
3.参数、统计量和自由度
参数是表征总体的特性的数字。
如总体均数,总体标准差b和总体率兀等。
统计量是表征样本的特性的数字,它们是样本观测值X1,X2,,,Xn的函数。
如样本均值
X-,样本标准差S,样本率P等。
自由度是某一统计量中,取值不受限制的变量的个数。
以下用df(或u)表示自由度。
设某统计量中共有n个可变的量,df=n;假设它们受到k(k 现代统计学与SAS应用一第一篇 (2)副标题: 胡良平'文章来源: 本站原创点击数: ffl? 95更新时间: 2005-1-22 第2章试验设计入门 第1节试验设计的意义、要素、原那么和原理 1.试验设计的意义 在进行具体的试验之前,先对与所要研究的问题有关的各个重要方面作一全面地了解和调查,从而制定出切实可行的试验方案。 一个设计优良的试验方案的意义就在于它能用比较经济的人力、物力和时间,得到较为可靠的结果,准确地控制和估计误差的大小,还可使多种试验因素包括在尽可能少的试验中,到达高效的目的。 一般来说,在试验设计中就应该明确写出以下内容: 重点要考察哪些试验因素;选用什么样的设计方案控制重要的非试验因素的影响,以便有效地控制和估计试验误差;选用什么作为受试对象;试验效应应通过观测哪些指标来表达;如何根据指标的性质合理地收集试验数据;将来处理这些数据可能需要运用哪些统计分析方法;对于自己还不熟悉的统计方法应尽早与内行取得联系,求得帮助。 在这些问题中,“试验因素、受试对象和试验效应〞是试验设计中不可回避的问题,应当给予更多地关注。 2.试验设计的三要素 在统计学中,常把“试验因素、受试对象和试验效应〞称为试验设计的三要素,之所以这样 称呼它们,因为它们是任何一项试验研究所不可缺少的。 现扼要分述如下: 所谓试验因素,就是在试验中,研究者希望着重考察的某些试验条件。 如在某项化学试验中,温度是1个重要的试验条件,在不同的温度下做试验,其反响和最终的产物可能很不相同。 在统计学上,习惯把温度称为此项试验的试验因素,而把温度在各次试验中的具体取值〔如: 20C、40C、60C等〕称为温度这个因素的不同水平。 为了尽可能减少各组受试对象的自身条件〔称为非处理因素〕对试验结果的影响,在试验设计时,常对重要的非试验因素〔如体重或动物窝别等〕作有方案地安排,便于在进行统计分析时将其作用排除,以便更准确地评介试验因素分别取不同水平时对试验结果的影响大小,这样的因素称为区组因素,如选窝作为区组因素,那么不同窝就是其不同的水平。 由于对试验因素和区组因素的安排和控制的方法不同,便产生了各种不同的试验设计类型。 试验因素的性质、强度和施加方法等必须标准化,在试验全过程中不应随便改变。 试验因素的性质可分为物理的〔如针刺、射线、理疗等〕、化学的〔如药物、蠹物等〕和生物的〔如细菌、病蠹等〕0 试验因素必须作用于受试对象,还需要结合专业知识确定选用什么作为本次试验的受试对象。 至于本次试验应当用多少受试对象,仍需结合专业知识和估计样本大小方面的统计知识来确定〔这个问题留到本节末尾再讨论〕。 受试对象的同质性必须予以重视。 用动物作为受试对象时,要注意种届、品系、年龄、性别、窝别、体重、营养和健康状况等因素的影响;用样品作为受试对象时,要注意品种、批号、有效期、用量等因素的影响;用人作为受试对象时,假设选的是某病病人,那么应注意正确诊断、正确分期和病情的正确判断;假设选的是正常人,他们至少应该没有与所研究的问题有关的疾病。 试验效应是通过试验中所选用的指标来表达的。 所选用的指标与要反映的问题之间应具有较高的关联性,判断指标取值大小时应具有较高的客观性、特异性、灵敏性和精确性。 因此,在选用指标时,应尽量多项选择定量指标或少数量化起来较为方便的定性指标。 3.误差及其分类 误差: 一般把试验中的原始数据与真实值之差,样本统计量与相应参数之差通称为误差。 误差产生的主要原因是由于观测指标的变异性、个体差异的存在和对试验设计的4个根本原那么遵守得不严。 误差包括随机误差和非随机误差。 1随机误差 在同一条件下对同一对象反复进行观测,在没有过失误差乂竭力消除系统误差之后,每次测量结果仍会出现一些无倾向性的随机变化,这些变化称为随机误差。 2非随机误差包括系统误差〔或偏差〕和非系统误差〔或过失误差〕。 系统误差在相同的条件下,测量的结果或算得的统计量比真实值或参数一致地偏高或偏低,即误差的大小具有明显的倾向性,这种误差称为系统误差,也称偏性或偏倚。 非系统误差由于研究者偶然的失误〔如阅读或抄写〕所造成的错误。 防止方法: 对数据认真检查、反复核对。 在进行假设检验〔参见第2篇第1章〕时,运用样本资料计算所得的统计量必然带有误差,并且依据不同的设计类型算得的统计量,其误差的大小也是不同的。 假设检验中的误差项的均方,就相当于是一把尺子,用它来度量各个试验因素对试验结果的影响大小。 4.试验设计的原那么 随机、重复、对照和均衡是试验设计的4个根本原那么。 〔1〕随机化原那么 所谓随机化原那么就是在抽样或分组时必须做到使总体中任何一个个体都有同等的时机被抽取进入样本以及样本中任何一个个体都有同等时机被分配到任何一个组中去。 在受试对象的 选取和分组时必须严格按这一原那么进行实施。 实现随机化的方法有多种,如抽签、查随机数 字表或随机排列表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代 统计学 SAS 应用