第1章统计基本问题.docx
- 文档编号:24948364
- 上传时间:2023-06-03
- 格式:DOCX
- 页数:26
- 大小:41.50KB
第1章统计基本问题.docx
《第1章统计基本问题.docx》由会员分享,可在线阅读,更多相关《第1章统计基本问题.docx(26页珍藏版)》请在冰豆网上搜索。
第1章统计基本问题
第1章统计基本问题
只有真正理解了统计思想,才能很好地应用统计方法解决实际问题。
为了让人们更好地领会统计思想,灵活地应用统计方法来认识客观世界的数量规律,有必要对统计的基本问题进行详细的描述。
为此,本章将介绍统计学的概念及统计的主要应用领域,统计学的分科,统计数据的类型及其来源,统计中的基本概念,包括统计总体、样本、参数、统计量、变量等。
1.1统计学的概念及统计的应用领域
1.1.1统计学的概念
统计学是一门收集、整理和分析数据的科学,目的是要揭示客观现象总体的数量特征和数量关系。
轶闻引人注目,是因为它很突出,所以会深入人心。
轶闻能使议题人性化,所以新闻报道常常以轶闻当作开场或结尾。
但它并不足以当成决策的依据,而且正因为它很突出,所以反而会产生误导。
应该注意的是:
其背后有没有数据支持,而不是有没有动人的故事。
事实上,治理国家、了解社会、管理企业、从事科学研究、各行各业的行动决策,都离不开统计数据。
数据如何收集非常重要。
在1936年美国总统选举前,一份名为LiteraryDigest的颇受人尊重的杂志曾进行了一次民意调查。
调查的焦点当然是谁将成为下一届总统——是挑战者堪萨斯州州长AlfLandon,还是现任总统FranklinDelanoRoosevelt。
为了了解选民意向,民意调查专家们根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查表。
尽管发出的调查表大约有1000万张,但收回的比例并不高。
在收回的调查表中,AlfLandon非常受欢迎。
于是,该杂志预测Landon将赢得选举。
略加思索,就知道这样收集数据是不妥的。
在经济大萧条时期调查拥有电话和汽车的人们(电话和汽车在1936年并不像现在这样普遍,但是这些名单比较容易得到),并不能很好地反映全体选民的观点。
此外,只有少数的调查表被收回,存在无回答误差。
事实表明,最终是FranklinDelanoRoosevelt而不是Alf Landon赢得了这次选举。
如果血压达到145mmHg,是不是就代表血压高呢?
也许不是。
每个人的“正常”血压都会有一些差异,血压一天内也有变化。
变异是无所不在的。
个体之间有差别,而对同一个个体多次测量,结果也会不一样,并且几乎每件事都会随着时间而变化。
如何从无处不在的变异中找到统计规律,是统计学的重要内容之一。
再有,若有位大学教师告诉你,在网上修课的学生,比在教室里修课的学生表现好。
你会不会脱口问他,“这些学生是不是除了修课方式不同,其他都相同?
”实际情况往往是,我们观察到的关联,大部分可以由隐藏在背景中的一些变量解释。
比如,这些学生可能年龄比较大,底子也比较好,具备对照组所没有的有利条件。
好的统计研究会考虑许多背景变量。
这当然要有相关的理论作指导。
1.1.2统计学的性质及统计的应用领域
就一般意义来说,统计学是为统计活动提供数量研究和认识规律的科学方法,这些方法包括统计工作的原理原则,统计过程所应用的核算和分析方法,以及统计工作的组织管理方法等,它们构成了统计科学体系和不同的统计分科。
统计学的核心内容则是数据的收集、整理、分析的原理和方法,所以统计学是研究如何搜集数据、整理数据、分析数据,以便从中做出正确推断的方法论科学。
统计学的性质决定了其应用领域的广泛性。
只要有数据的地方就会用到统计方法,包括政府部门、学术研究领域、日常生活、医药、公司或企业的生产经营管理,甚至法律都要用到统计方法。
最早的统计活动始于管理国家的活动中。
在人类历史上,自从有了国家,便有了统计活动,国家统治者为了征兵、徭役、赋税的需要,就有人口、土地、粮食等项目的调查和计算。
随着统计方法的发展与完善,统计活动的领域已大大扩展,但政府部门依然是最大的数据收集者和使用者。
从最为敏感的三大宏观经济问题——经济增长、就业率、物价稳定,到各种具体政策的制定,涉及大量的统计活动。
各个学术领域都使用统计。
生物学、经济学和心理学三个学科对统计的使用是如此之多,以至于它们已经发展了自己的一套统计方法,即生物统计、计量经济和心理测验。
一大批历史学家、考古学家、地理学家、语言学家利用统计知识得出各种结论,诸如由于中世纪大鼠疫而导致的死亡人数、《红楼梦》后四十回作者的确认等。
这表明,几乎所有的经验学术研究都以这种或那种方式依赖于统计。
学术研究在许多方面丰富了社会生活,而统计则在此过程中扮演了不可替代的角色。
没有任何一门其他学科,能对如此多的科学领域做出贡献。
引进新的评价治疗效果的统计方法,已经改变了整个医药领域。
例如,在健康保护组织提出并监督的减少医药费的政策中,医生要想得到补偿,就必须认真遵守该组织的用药指南。
而这些指南,正是通过对大量医学实践及结果进行认真的统计分析之后才发展起来的。
如果有两种新药的功效相同,则健康保护组织将不对其中较贵的新药进行补偿。
由于当今进入了重视质量的时代,因此质量管理是统计学在生产中的一项重要应用。
各种统计质量图用于生产过程的产出中。
特别地,用
控制图可以检测以平均数表示的过程状况。
例如,假定有一台320g的软饮料灌装机,定期地从产品中选择一些罐装饮料作为样本,计算出样本灌装量的平均值。
将这一平均值
标在一张
控制图上。
当该数值位于控制上限以上时,则表明产品灌装过量;当该数值位于控制下限以下时,则表明产品灌装不足;当
的值位于控制图的控制上限和控制下限之间时,这一过程用术语表示为处于“控制”状态,就允许连续生产。
更贴切的解释是,
控制图能帮助确定何时必须调整和修正生产过程。
此外,抽样验收、可靠性分析等统计方法也经常用于质量管理。
当然,统计不是万能的,它不能解决所面临的一切问题。
统计能进行数据分析,并从分析中得出某种结论,但对统计结论的进一步解释,则需要分析人员具备专业知识。
因此,统计只是一套分析数据的方法和工具,不能指望统计成为解决所有问题的灵丹妙药。
1.2统计学的分科
1.2.1理论统计学与应用统计学
统计学经历漫长的历史发展,已经成为横跨社会科学与自然科学的多科性的科学。
从横向看,各种统计学都存在对象的不确定性和调查、整理、分析方法的通用性,因而形成适用于各个领域的理论统计学;从纵向看,统计方法应用于各种实质性科学,同它们相结合,产生一系列专门领域的应用统计学。
理论统计学与应用统计学性质也有所差异。
理论统计学把研究对象一般化、抽象化,它以概率论为基础,从理论的角度,对统计方法加以推导论证,中心内容是统计推断问题,实质是以归纳方法研究随机变量的一般规律。
例如统计分布理论,统计估计与假设检验理论,相关与回归分析,方差分析,时间序列分析,随机过程理论等。
这些方法对于不论自然现象或社会现象的随机变量都是适用的。
应用统计学是从所研究领域的专门问题出发,视研究对象的性质采用适当的指标体系和统计方法,以解决所需研究的问题。
由此可见,理论统计学和应用统计学的差别在于:
首先,理论统计学是以方法为中心建立的统计方法论体系,并在各种方法项下阐明所能解决的问题。
而应用统计学则是以问题为中心,建立专业的统计指标体系,并在各种问题项下阐述可能解决问题的方法,这时统计方法论的意义只具有专业的性质,未必具有普遍的意义。
其次,理论统计学从事随机变量的数量分析。
而应用统计学不仅需要从事数量分析,还需要质量分析,它总是先从现象的数量分析中获得需要考察的指标,建立指标体系,然后开展调查研究、数据处理、归纳结果,再结合现象的质量分析,得出符合实际情况的结论,作为行动决策的依据。
所以应用统计学需要有关的专业实质性科学的理论作指导,它通常具有边缘交叉学科的性质。
在统计科学发展的道路上,理论统计学和应用统计学总是互相促进,共同提高。
理论统计的研究为应用统计的数量分析提供方法,大大提高了分析的认知能力,而应用统计对统计方法的实际应用又会开拓理论统计的研究领域。
有些现在属于理论统计学范畴的内容,其最初往往是对某一专门问题研究的结果。
如回归分析方法,最初就是由英国生物学家高尔顿在遗传学研究中首先提出来的,现在已成了研究一个(或一组)变量对另一个或多个变量依存关系的通用方法。
从这个意义上讲,理论统计学与应用统计学并没有一个严格的界限。
1.2.2描述统计学与推断统计学
描述统计学是研究为了反映客观现象的数量特征,而需采用的数据采集方法、数据加工整理方法、数据综合分析方法,计算各项指标反映数据的构成和分布等方法,以及用一定形式的表式和图形把结果显示出来的方法等。
由此可见,描述统计学的方法正是一切统计活动所运用的基本方法。
如前所述,统计活动的目的是要认识总体的数量特征和数量关系,而要达此目的,只依靠描述的方法却往往难以奏效。
例如所要认识的总体范围往往很大,单位很多,但所能取得的数据只是局部的样本单位,且总体数量特征是确定的,而样本的数量特征却由于样本不同而发生变化,因此,从样本数量特征来推断总体的数量特征,就需要依靠建立推断统计学来解决问题。
推断统计学是在概率论的基础上研究由随机样本的数量特征信息来推断总体的数量特征,并做出具有一定可靠程度的估计或检验。
依照推断统计学的理论,虽然我们对总体的数量特征未知,但并不需要搜集总体所有单位的数据,也不需要弄清楚样本每一单位与总体之间的具体联系,只要根据样本数量特征(样本统计量)的概率分布与总体数量特征(总体参数)之间所存在的客观联系,就可以将实际的样本数据按一定的概率模式对总体的数量特征做出符合一定精度的估计或检验。
在两者的关系上,描述统计学的方法始终是基本的统计方法,推断统计学也是以样本的描述方法为基础的,离开了对实际数据的搜集、整理和分析,统计推断就会失去依据,再好的推断方法也无济于事。
陈希孺院士曾指出:
“描述统计是推断统计的基础。
统计观念的形成很大程度上来源于对数据的‘感觉’,培养这种感觉正是描述统计的一个重要目的。
”
1.3统计数据的类型及其来源
统计数据是有内容的数字。
它由数字组成,但它不仅仅单纯地表示数字。
比如,226这个数字本身并没有什么含义,但是如果它表示一个人的身高是226cm,根据常识可以判断此人是世界上少有的高个子。
数据加上上下文才能提供有效的信息。
统计数据可以分为不同的类型。
下面,将从不同角度说明统计数据的分类,并解释不同数据类型的不同来源渠道。
1.3.1统计数据的类型
1.分类数据、顺序数据和数值型数据
不同的量规产生不同的数据。
现实生活中,有4种不同的量规:
分类尺度、顺序尺度、间隔尺度、比率尺度。
分类尺度(nominalscale)——按照事物的某种属性对其进行平行的分类,将数字作为现象总体中不同类别或不同组别的代码,这是最低层次的尺度。
这种尺度的主要数学特征是“=”或“≠”。
顺序尺度(ordinalscale)——对事物类别顺序的测度,将数字作为不同顺序类别的代码。
在这种情况下,不同的数字不仅表示不同的类(组)别,而且表示它们之间量的顺序。
这种尺度的主要数学特征是“>”或“<”。
间隔尺度(intervalscale)——对事物类别或次序之间间距的测度。
以这种尺度获得的数字可以反映现象之间在量方面的差距。
间隔尺度的主要数学特征是“+”或“-”,没有绝对的零点。
比率尺度(ratioscale)——对事物类别或次序之间间距的测度。
以这种尺度获得的数字可以反映现象之间在量方面的差距。
比率尺度的主要数学特征是“×”或“÷”,有绝对的零点。
4种不同的量规产生3类不同的数据。
(1)分类数据(categoricaldata)。
只能归于某一类别的非数字型数据。
分类数据是由分类尺度计量形成的。
例如,人口按性别可分为男、女两类,可用代码1表示男性,0表示女性,这里数字1、0既不表示量的顺序,也不表示量的大小,只表示不同的性别。
再如,将国民经济按其经济类型,可以分为国有经济、集体经济、私营经济、个体经济等,并用代码01表示国有经济,02表示集体经济,03表示私营经济,04表示个体经济。
并且用011代表国有经济中的国有企业,012代表国有联营企业;用021表示集体经济中的集体企业,022表示集体联营企业;用031表示私营经济中的私营独资企业,032表示私人合伙企业,033表示私营有限责任公司;用041表示个体经济中的个体工商户,042表示个人合伙等。
其中两位代码表示经济大类,而三位代码则表示各类中的构成。
不同代码反映同一水平的各类(组)别,并不反映其大小顺序。
各类中虽然可以计算它的单位数,但不能反映第一类的一个单位可以相当于第二类的几个单位。
(2)顺序数据(rankdata)。
只能归于某一有序类别的非数字型数据,称为顺序数据。
顺序数据是由顺序尺度计量形成的。
例如,对合格的产品按其性能的好坏,分成一等品、二等品、三等品等;考试成绩可分为优、良、中、及格、不及格等;人们对某事的态度可分为非常同意、同意、中立、不同意、非常不同意等。
同样,对于顺序数据也可以用数字代码来表示,如分别用1、2、3表示一等品、二等品、三等品。
顺序数据也是对事物进行分类的结果,但这些类别是有顺序的。
这种尺度虽然也不能表明一个单位一等品等于几个单位二等品,但却明确表示一等品性能高于二等品,而二等品性能又高于三等品等。
(3)数值型数据(metricdata)。
按数字尺度测量的观察值,称为数值型数据。
其中,数字尺度包括间隔尺度和比率尺度两种量规。
数值型数据是使用自然或度量衡单位对事物进行测量的结果,其结果表现为具体的数值。
在现实中,所处理的大多数数据都是数值型数据。
2.观测数据和实验数据
按照统计数据的收集方法,可将数据分为观测数据和实验数据。
(1)观测数据(observationaldata)。
观测数据是指仅凭观测而非通过操作或控制事物所得到的数据。
当只是观察周围的世界时,就会产生观测数据。
例如,数一下一天内到某商场购物的男性,登记某农贸市场某种农产品某天第一次成交时的价格等。
有关社会经济现象的统计数据几乎都是观测数据。
(2)实验数据(experimentaldata)。
实验数据是指在实验中通过控制实验对象而收集到的数据。
例如,对一种新工艺生产率的实验数据,对一种新药疗效的实验数据等。
自然科学领域的大多数数据都是实验数据。
3.截面数据和时间序列数据
按照被描述的现象与时间的关系,可将其分为截面数据和时间序列数据。
(1)截面数据(cross-sectionaldata)。
反映研究对象在同一时间上的数据。
例如2007年我国各省区、直辖市的GDP就是截面数据。
(2)时间序列数据(timeseriesdata)。
反映研究对象在不同时间上的数据。
时间序列数据是按照时间顺序收集到的,用于描述现象随时间而变化的情况。
比如,1978—2007年我国的GDP数据就是时间序列数据。
区分数据的类型非常重要。
因为数据类型不同,可使用的统计手段就可能不同。
例如,对非数字型数据,通常只能计算各类的频数或频率,计算众数和异众比率,进行列联表分析等;对于数值型数据,可以计算更多的统计量,进行参数估计和检验。
再如,对观察研究而言,要解决的主要问题是如何收集数据和如何分析数据;但在实验研究中,统计的角色就不同了,统计对实验过程的贡献集中体现在3个方面:
(1)确定合适的观测数以得到显著的结果;
(2)设计实验以使之符合统计分析的标准;(3)发明尽可能最有效地同时研究几个变量影响的方法。
1.3.2统计数据的来源
统计数据主要来源于两个渠道:
一是别人调查或实验的数据,这是统计数据的间接来源;二是直接的调查和科学实验,这是统计数据的直接来源。
1.统计数据的间接来源
如果能通过直接的调查或实验取得所需的数据当然是最好的,但对大多数使用者来说,亲自去做调查往往是不可能的,这时还可以通过其他渠道获取别人的调查或科学实验的数据。
1)外部资料
(1)传统来源
统计数据的传统来源主要指公开出版或公开报道的数据。
在我国,公开出版或报道的社会经济统计数据主要来自国家和地方的统计部门以及各种报刊媒介。
例如,公开的出版物有《中国统计年鉴》、《中国统计摘要》、《中国社会统计年鉴》、《中国工业经济统计年鉴》、《中国农村统计年鉴》、《中国人口统计年鉴》、《中国市场统计年鉴》,以及各省、市、地区的统计年鉴等。
提供世界各国社会和经济数据的出版物也有许多,比如《世界经济年鉴》、《对外经济统计资料》,世界银行各年度的《世界发展报告》等。
联合国的有关部门及世界各国也定期出版各种统计数据、统计公报、统计摘要等。
此外,还可以通过其他渠道使用一些尚未公开的统计数据以及广泛分布在各种报刊、杂志、图书、广播、电视传媒中的数据资料等。
(2)电子数据产品
电子数据产品主要指通过互联网取得的数据。
尽管目前互联网在中国还未全面普及,但其用户的增长速度举世瞩目。
互联网已成为收集外部资料的不可或缺的重要来源。
比如,中国的搜狐、新浪、8848、美国的Yahoo、Google、MSN以及内部信息网络、政府机构网络(参见表1-1)等已成为众多用户在互联网上查询、搜集信息的首选网站。
表1-1一些政府机构的网址及可获取的数据
政府机构
可获得的数据
国家统计局
●月度数据,包括工业增加值增长速度、消费者信心指数、宏观经济景气指数等
●季度数据,包括国内生产总值、城镇单位就业人员劳动报酬、企业景气指数等
●年度数据,包括国民经济核算、人口、财政、旅游、教育科技和文化等
●普查数据,包括人口普查、农业普查等
●专题数据,包括主要年份高科技统计数据、环境统计数据、全国百强县市统计等
●部门数据,包括金融、安全、出版、铁路、外资等
●国际数据,包括国际比较、位次及其各方面的数据
中华人民共和国人力资源和社会保障部
劳动就业、社会保险、劳动关系、劳动工资、劳动保障法制与监察、金保工程建设等
中华人民共和国商务部
进出口、技术引进、国外经济合作、汽车市场、茧丝绸行业等
中华人民共和国财政部
财政预算决算收入、财政预算决算支出、
国家财政债务还本付息支出等
2)内部资料
内部信息的来源主要源于数据库、信息管理系统、决策支持系统以及数据仓库等。
总之,利用间接数据对使用者来说既经济又方便,但使用时应注意统计数据的含义、计算口径和计算方法,以避免误用或滥用。
同时,在引用间接数据时,一定要注明数据的来源,以尊重他人的劳动成果。
2.统计数据的直接来源
统计数据的直接来源主要有专门组织的调查和科学实验两个渠道。
专门调查是取得社会经济数据的重要手段,其中有统计部门进行的统计调查,也有其他部门或机构为特定目的而进行的调查;科学实验是取得自然科学领域有关数据的主要手段。
1)统计调查方式
统计调查是取得社会经济数据的主要来源,也是获得直接统计数据的重要手段。
实际中常用的统计调查方式主要有普查、抽样调查、统计报表等。
(1)普查(census)。
普查是为某一特定目的而专门组织的全面调查,如人口普查、经济普查、农业普查等。
世界各国一般都定期进行各种普查,主要用于收集处于某一时点状态上的社会经济现象的数量,目的是掌握特定社会经济现象的基本全貌,以及有关国情、国力的基本统计数据,为国家制定有关政策或措施提供依据。
普查作为适合于特定目的、特定对象的调查方式具有以下几个特点。
①普查通常是一次性的或周期性的。
由于普查涉及面广、调查单位多,需要耗费大量的人力、物力和财力,通常每隔10年进行一次。
在我国,普查已规范化、制度化,即逢0的年份进行人口普查,每逢6的年份进行农业普查,每逢3和8的年份进行经济普查。
②普查一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性。
如我国前4次人口普查的标准时间定为普查年份的7月1日零时,第五次人口普查的标准时间为2000年11月1日零时。
农业普查的标准时间定为普查年份的1月1日零时。
标准时间一般定在调查单位比较集中、相对变动较小的时间。
③普查的数据一般规范化程度较高,因此它可以为抽样调查或其他调查提供基本依据。
④普查的使用范围比较窄,只能调查一些最基本及特定的现象。
(2)抽样调查(samplesurvey)。
抽样调查是利用抽样获取样本而进行的调查。
根据样本抽取原则的不同,抽样方法有概率抽样和非概率抽样两种。
①概率抽样(probabilitysampling)。
概率抽样是实际中应用最广泛的一种调查方法,它是从总体中随机抽取一部分单元作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查。
具有随机性、时效性强、适应面广、准确性高、误差得到控制并能计算、对总体做出推断等特点。
需要强调的是:
用这种方式获得统计数据的主要目的是对总体进行推断,资料的收集与相应的推断方法往往密不可分,因此概率抽样的详细内容将放在参数估计中介绍。
②非概率抽样(non-probabilitysampling)。
非概率抽样是相对于概率抽样而言,用非随机的方法从总体中抽取单元作为样本,据此进行调查的一种方法。
具有快速、简单、节省费用、不能清晰地对总体作出推断等特点。
适合于探索性的研究,调查结果用于发现问题,特别适合于市场调查。
表1-2列出了非概率抽样的主要内容。
表1-2非概率抽样的主要方式及其特点
抽样方式
概念
特点
缺陷
方便抽样
conveniencesampling
根据调查者的方便性,以无目标、随意的方式进行的抽样调查活动,如街头拦访和随意的入户访问
容易调查,成本低
不易推断总体
志愿者抽样
voluntarysampling
被调查者自愿参加成为调查单位
样本是有偏的
不能对总体作出估计
滚雪球抽样
snowballsampling
先对随机选择的一些被调查者实施访问,然后再请他们推荐属于研究目标总体特征的调查单位
调查费用大大减少
成本的节约是以调查质量的降低为代价的,样本可能不能很好地代表整个总体
续表
抽样方式
概念
特点
缺陷
配额抽样
quotasampling
根据一定标志对总体分层或分类后,从各层或各类中主观地选取一定比例的调查单位
加强了对样本结构与总体结构在“量”的方面的质量控制
不能对总体作出估计
判断抽样
judgementsampling
根据经验、判断和了解的基本情况,有目的地选择一些单位调查
有意识地选择样本
不能对总体作出估计
其中
重点调查
majorinvestigation
从全部单位中选择少数重点单位进行调查
通过调查重点单位对总体的数量有一个基本的了解,重点单位是指在所要调查的数量特征上占有较大比重的单位
不能对总体作出估计
典型调查
surveyoftypicalcases
从全部单位中选择一个或几个少数有代表性的单位进行全面深入的调查
通过典型单位来描述或揭示事物的本质和规律
具有一定的主观性,因此调查结果不能推断总体
(3)统计报表(statisticalreportforms)。
统计报表是以国家有关法规为准则,按照统一的表式、统一的指标、统一的报送时间和报送程序,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。
统计报表是搜集统计数据的一种重要方式,在我国政府几十年的统计工作中,已形成了比较完备的统计报表制度,它已成为国家和地方政府部门统计数据的主要来源。
2)数据的搜集方法
不论采取何种方式进行调查,在取得统计数据时,都有一些具体的数据搜集方法。
调查方法归纳起来可分为询问调查、观察与实验两大类。
(1)询问调查。
询问调查是调查者与被调查者直接或间接接触以获得数据的一种方法,具体包括访问调查、邮寄调查、电话调查、电脑辅助调
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 基本 问题