应用统计.docx
- 文档编号:3560050
- 上传时间:2022-11-23
- 格式:DOCX
- 页数:35
- 大小:905.83KB
应用统计.docx
《应用统计.docx》由会员分享,可在线阅读,更多相关《应用统计.docx(35页珍藏版)》请在冰豆网上搜索。
应用统计
一、总体与总体单位
v总体:
是根据一定目的确定的所要研究的事物的全体。
它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。
指包含所研究的全部元素的集合。
v例如要研究全国城镇居民的收支情况,就以全国城镇居民作为一个总体。
v总体单位:
总体中的每一个元素,我们称之为个体,或者总体单位。
总体的特点:
v同质性:
性质相同的许多个别单位所组成。
这是构成总体的基础。
v大量性:
体单位数要足够多。
只有通过对大量单位数的观察和研究,才能使资料具有充分的代表性,反映出现象总体的一般特征。
v差异性:
成总体的各个单位还有许多的不同性质,否则就无统计的必要。
例
v总体={2,3,4,7,10,……,102,109,……N}
v总体单位:
是组成总体的各个个体。
根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。
v总体和总体单位的概念是相对而言的,随研究目的不同,总体范围不同而变化。
同一研究对象,在一种情况下为总体,但在另一情况下又可能变成单位。
v根据总体所包含的单位数量,总体可以分为有限总体和无限总体两类。
有限总体是由有限量的单位构成的总体。
当总体单位数难以确定,其数量可能是无限时,便构成无限总体。
v参数(parameter):
是指用来描述总体特征的概括性数字度量,有时候我们又称之为总体指标或全及指标。
我们所要研究的参数主要有总体平均数、方差、总体比例等,
二、样本(sample)
v样本指从总体中抽取的一部分单位的集合,或者是由一部分总体单位所构成的集合。
其中构成样本的总体单位的个数称为样本容量。
通常用n表示。
从总体中所抽取的某一个具体的样本数值被称为样本值。
v当总体单位数量很多甚至无限时,不必要或不可能对构成总体的所有单位都进行调查。
这时,需要采用一定的方式,从由作为研究对象的事物全体构成的总体(又称母体)中,抽取一部分单位,作为总体的代表加以研究。
这种由总体的部分单位组成的集合称为样本。
v统计量(statistic):
是指用来描述样本特征的概括性数字度量,又称为样本指标。
我们所要研究的主要样本指标有:
样本平均数、样本方差、样本比例等。
统计指标的分类
v统计指标可以分为数量指标和质量指标。
•数量指标:
反映现象总规模、总水平的统计指标称为数量指标。
例如人口总数、企业总数、商品进出口总额等等,这些指标反映现象或过程的总规模和水平,所以也称为总量指标,用绝对数来表示。
•质量指标:
反映现象相对水平和工作质量的统计指标称为质量指标,例如职工平均工资、人口密度、工人出勤率等等。
质量指标是总量指标的派生指标,用相对数或平均数来表示,以反映现象之间的内在联系和对比关系。
统计指标体系
•统计指标体系是由一系列相互联系的统计指标所组成的有机整体。
用以反映所研究现象各方面相互依存相互制约的关系。
例如,工业企业统计指标体系。
四、变量与变量值
v1.变量的概念(variable):
v在调查研究中,所提的每一个问答题都对应着一个或几个变量;某被访者对该问答题的答案或观测结果就是变量对应于该个体的值。
v例如“请问您昨天看了多长时间(分钟)的电视?
”就对应着“收看电视时间”这个变量;
v某位女士回答“看了60分钟”,那么60就是这个变量对应于该女士的值.一般用英文字母“X”来表示变量,加一个下标表示对应某个个体的值。
v例如:
x=“收看电视时间”
vx1=60,x2=90,...xi=120,...x600=120
v变量值:
变量的具体取值是变量值,统计数据就是统计变量的具体表现。
vx是所关心的“收看电视时间”变量,其取值范围可以是0至1440分钟之间的任何一个数。
变量的分类:
变量按取值的方法不同可以分为:
v连续变量:
就是一个变量的取值与另一个取值是连续不断的。
v离散变量:
就是一个变量的取值与另一个取值是间断的。
第四节、统计软件略
第五节、统计在传播实践中的应用
1.受众研究:
•例如,印刷媒介报纸、杂志和书籍的读者,电子媒介广播的听众,电视的观众以及互联网络的使用者等等。
•通过抽样调查,根据样本的统计量(例如,按样本计算出的受众比例、接触媒介的日平均时问、满意程度平均得分等等)推断总体的情况。
•了解和描述受众的基本状况和特征,受众对所传播汛息的接受情况,受众对所传播内容的使用和满意程度,受众接触大众媒介的动机,受众对大众传播的参与等等。
•这些研究需要利用传播统计学中的抽样理论和方法、置信区问、假设检验、以及一些多元统计分析方法等。
2.收视率研究:
Ø电视收视率和广播收听率的研究对于电视台、电台、广告公司和广告主都至关重要,不掌握各个电视台(电台)的观众(听众)在各个时段的数量和结构,一切经营管理和市场营销的决策都将是无的放矢的。
Ø视听率研究的关键点包括如何抽取有代表性的样本、如何调整处理样本、如何估计视听率调查的抽样误差等等,其中每一步骤都离不开传播统计学的思想和方法。
3.传播效果研究:
Ø传播效果研究一直是传播研究中的核心领域。
不管是媒体内容的社会效应、受众的使用——满足研究、还是对社会的认知研究、议程设置研究等,其中重要案例的设计、运作和分析,都离不开定量的抽样调查、控制实验或内容分析,也就是必须应用传播统计学的方法。
Ø在什么条件下,广告的效应最好?
Ø影响传播效果的因素,实质上是在研究变量之间的关系,都涉及到对变量值的采集,对数据的采集、分析、处理。
Ø在这一部分中,除了基础的统计方法之外,高级统计方法例如因子分析法、多元方差分析、相关分析等。
4.在广告业的应用:
▪测试消费者对广告的认知、印象
▪态度、感情投入
▪购买意图
▪广告效果等
▪媒体研究、传播频次、视听率、受众规模、竞争分析等
统计要素
v1、总体(第一要素)
要调查的或统计的某一现象全部数据的集合,研究对象的全体。
可以是人、物、组织
分为:
有限总体、无限总体
总体单位:
总体中的每一个基本元素,组成总体。
v2. 样本(第二要素)
从总体中选出若干数据的子集。
v3、推断(第三要素)
以样本所包含的信息为基础,对总体的某些特征进行预测、估计、决策
v4. 推断的可靠性
统计对决策最重要的贡献,与算命有本质的区别。
统计的基本环节
习题一
1.怎样理解统计学的含义?
2.统计总体与总体单位的关系?
3.举例说明统计学在传播领域的应用。
4.总体与样本有何差别?
又有何联系?
5.什么是变量、变量值?
举例说明。
6.如何区分连续变量和离散变量?
7.举例说明参数和统计量的关系。
8.常用的统计软件有哪些?
9.统计的基本环节基本要素有哪些?
第2章调查问卷设计
任务1问卷设计的准备阶段
问卷设计概述,问卷的基本结构,设计调查问卷的原则,问卷设计的主要步骤
一、问卷设计概述
•使用问卷方法的不同:
自填式问卷访问式问卷
问卷发放方式:
送发式问卷,邮寄式问卷,报刊式问卷,人员访问式问卷,电话访问式问卷,网上访问式问卷
问卷的基本结构:
标题,说明,调查内容,编码,致谢语
设计调查问卷的原则:
目的性,可接受性,简明性,匹配性,排序性
设计问题类型及答案:
设计直接性问题和间接性问题,设计开放式问题和封闭式问题,设计动机性问题和意见性问题,设计量表应答式问题,设计二项选择和多项选择问题,表格式问题,关联式问题。
问题设计的要求:
清晰、简明,扼要;避免诱导性或否定式问题,不用要求评价或假设性的问题
问卷的组织与编排
•将过滤性问题放首位,用来识别那些是合格应答者
•以一个能引起应答者感兴趣的问题开始访谈
•先问一般性问题
•需要思考的问题放在问卷中间
•在关键点插入提示
•把敏感性问题、威胁性问题问题放在最后
问卷编排原则
问卷中问题的排序应注意逻辑性
问卷中问题的排序应该先易后难
一些特殊问题置于问卷的最后
第3章选择抽样调查方法
一.抽样调查的概念
•1.抽样调查的含义
•是按照科学的原理和计算从所要研究的现象的全部个体单位中按随机原则,抽取部分个体单位进行调查,取得资料,并用以推算总体数量特征的一种调查调查方法。
• 抽样调查就是以样本的资料来推断调查对象的总体的相关调查数据。
2.抽样调查的特点
Ø按随机原则抽取样本。
Ø根据部分调查的实际资料对调查对象总体的数量特征作出估计。
Ø抽样误差可以事先计算并加以控制。
Ø速度快,周期短,抽样技术灵活多样
Ø应用广泛技术性更强
●抽样时注意:
●抽样遵循“随机原则”
●样本对总体需要充分的代表性。
●误差可以事先经过计算控制在一定范围内,并且能采取一定的组织措施来控制这个误差范围
3.抽样调查的适应范围
●适合于对大量现象的调查
●不可能实现的、经常的全面调查
●有破坏性的产品质量调查
●资料信息及时性强的现象
●对全面资料的核实
4.抽样调查的几种组织形式:
二.抽样调查的步骤
●选择抽样总体
●选择资料收集方式
●确定抽样框
●确定抽样方法
●确定样本量
●制定抽样计划
三.抽样调查的技术
(二)概率抽样
1.简单随机抽样(也叫SPS抽样)。
从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。
特点是:
每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此之间无一定的关联性和排斥性。
简单随机抽样是其他各种抽样形式的基础。
通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
v局限性:
当总体单位数很大时,就难以实现简单随机抽样,且抽样误差较大。
2.分层抽样(STR抽样)
v也称类型抽样,总体分成不同的“层”,然后在每一层内进行抽样
v二种方法:
v
(1)等数分配法
v
(2)等比分配法
v例如,对企业进行调查时将企业划分为特大型企业、大型企业、中型企业和小型企业四个类型组。
v对家庭收入进行调查时将居民家庭分为高收入、中等收入、低收入三个类型组等。
3.系统抽样(SYS抽样)
v也称等距抽样、机械抽样,其步骤如下:
v
(1)按某一标志值的大小将总体单位进行排队并顺序编号;
v
(2)根据确定的抽样比例确定抽样间距;
v(3)随机确定第一个样本单位;
v(4)按顺序从总体中等间距地抽取其余样本单位。
v系统抽样的随机性主要体现在第一个样本单位的抽取上,因此一定要保证抽取第一个样本单位的随机性。
v该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况。
4.整群抽样
v将总体各单位分为若干群,将(群)作为一个抽样单位从中抽取部分群,对中选群的所有单位进行全面调查。
v特点是:
调查单位比较集中,调查工作的组织和进行比较方便。
但调查单位在总体中的分布不均匀,准确性要差些。
v好处是操作方便、省时、省力。
确定一群便可以调查许多单位,但正是由于抽样单位比较集中,限制了样本单位在总体中分配的均匀性,所以有时代表性较代,抽样误差较大。
可以增加样本单位来减少误差。
v在群间差异性不大或者不适宜单个地抽选调查样本的情况下,可采用这种方式。
5.多段抽样
•将调查分成两个或两个以上的阶段进行抽样。
第一阶段先将总体按照一定的规范分成若干抽样单位,称之为一级抽样单位。
再把抽中的一级抽样单位分成若干更小的二级抽样单位,从抽中的二级抽样单位再分三级抽样单位等等,这样就形成一个多阶段抽样过程,分成若干个阶段逐步进行。
•如从2000000人的县抽样选取500人组成样本。
•县8个乡10个村500人
抽样方式
v抽样方式可分为重复抽样和不重复抽样两种。
⑴重复抽样
v——又称放回抽样,指每次从总体中随机抽取一个样本单位,观察登记其标志值后再放回总体中,如此进行n次的抽样方法。
v重复抽样的特点:
v①在重复抽样的过程中,被抽取的总体单位总数始终保持不变,每一次抽样中各总体单位被抽到的机会都相同,每次抽样结果相互独立。
v②每一总体单位都有被重复抽取的可能。
v
⑵不重复抽样
v——也称不放回抽样,指被抽到的单位不再放回总体,每次仅在余下的总体单位中抽取下一个样本的抽样方法。
v特点:
v①任一总体单位都不会被重复抽到;
v②可以一次抽取所需要的样本单位数。
在实际应用中通常采用的都是不重复抽样方法。
5.抽样调查中的误差来源
v误差就是调查结果与现象的实际结果之间的偏差,按照形成原因的不同,一般可将误差分成抽样误差和非抽样误差两大类。
v抽样误差是用样本调查量推断总体参数时的误差,它属于一种代表性误差。
抽样误差通常会随样本量的大小而增减.抽样误差可以计算,并且可以被控制在任意小的范围内。
•非抽样误差不是由于抽样引起的。
它又包括:
登记性误差、测量偏差、响应偏差(不正确的或不真实的响应)等;非抽样误差是随着样本量的增加而增大的。
影响抽样误差的主要因素
v
(1)总体标准差
v总体标准差越大,样本结构就越难以接近总体结构,抽样误差也就越大。
v
(2)样本容量
v样本容量越大,样本结构就越接近总体结构,样本对总体的代表性就越高,抽样误差就越小。
v(3)抽样方法
v不同抽样的方法,将直接影响样本内部结构与总体结构之间的差异。
v如类型抽样就可以使样本结构更接近于总体结构,因而其抽样误差是所有抽样方法中最小的。
v(4)抽样方式
v不重复抽样可以使样本内部结构更接近总体结构。
v因此不重复抽样的抽样误差小于重复抽样。
v
练习
v1、对占全国钢产量80%以上的几个大型钢企业进行钢产量调查,这种调查方法是
vA、抽样调查B、重点调查C、典型调查D、普查
v2、事先将全及总体各单位按某一标志排列,然后依固定顺序和间隔来抽选调查单位的抽样组织形式,被称为
vA、分层抽样B、简单随机抽样C、整群抽样D、等距抽样
v3、在总体内部情况复杂,而且各单位之间差异程度较大,单位数目又多的情况下,宜采用
vA、分层抽样B、简单随机抽样C、整群抽样D、等距抽样
v4.事先确定总体范围,并对总体的每个单位编号,然后根据《随机数码表》或抽签的方式来抽取调查单位数的抽样组织形式,被称为()
vA、简单随机抽样;B、机械抽样;C、分层抽样;D、整群抽样。
v5、先将全及总体各单位按主要标志分组,再从各组中随机抽取一定单位组成样本,这种抽样调查组织方式被称为
vA、简单随机抽样;B、机械抽样;C、分层抽样;D、整群抽样。
习题二
1.调查数据分为哪几种类型?
各有何特点?
2.简述数据收集的几种方式。
3.简述抽样调查的适用范围
4.抽样调查特点是什么?
5.常用的抽样方法有哪些?
各有什么特点?
6.抽样误差的来源?
7.影响抽样误差的因素有哪些?
8.简述调查数据的分组的方法。
第4章调查数据的整理与显示
v在获得原始数据资料之后,需要使用一定的方法对数据进行整理和综合,目的是从大量的原始数据资料中提炼所需要的信息,使之可以提供概要信息并能反映对象总体的基本数量特征,便于人们的理解和使用。
表格和图形是整理和反映调查资料的主要工具。
调查数据的整理
●要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的
●对定类数据和定序数据主要是做分类整理
●对定距数据和定比数据则主要是做分组整理
●适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据
第一节、定类数据的整理与显示
v1。
定类数据整理:
v列出各类别计算各类别的频数制作频数分布表用图形显示数据
v频数和频数分布
v
(1)、频数/次数Frequency:
落在某特定类别(或组)中的数据个数
v
(2)、比例Proportion:
某一类别数据占全部数据的比值
v(3)、百分比Percentage:
将对比的基数作为100而计算的比值
v(4)、比率Ratio:
不同类别数值的比值
v(5)、频数分布FrequencyDistribution:
把各个类别及落在其中的相应频数全部列出,并用表格的形式表现出来。
第二节定序数据的整理与显示
v1、定序数据的整理
(1)相关概念(可计算的指标):
v①、累计频数cumulativefrequencies:
各类别的频数逐级累加得到的频数。
v②、累计频率cumulativepercentages:
将各类别的频率(百分比)逐级累加
2、定类数据的图示—环形图
v环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示
v环形图与圆形图的区别:
v①、圆形图只能显示一个总体中各部分所占的比例
v②、环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环
v③、环形图可用于进行比较研究
v④、环形图可用于展示定类和定序的数据
第三节、数值型数据的整理与显示
v1、分组方法:
v
(1)单变量值分组
v①、适合于离散变量;
v②、适合于变量值较少的情况。
v
(2)组距分组(等距分组和异距分组)
v①、将变量值的一个区间作为一组;
v②、适合于连续变量;
v③、适合于变量值较多的情况;
v④、必须遵循“不重不漏”的原则;
v⑤、可采用等距分组,也可采用不等距分组。
等距分组与异距分组
v等距分组:
标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。
一般用于标志值变动比较均匀的场合。
v异距分组:
各组的组距不相等。
简单分组和复合分组
v按分组标志的多少,可分为简单分组和复合分组。
v简单分组:
就是对研究现象按一个标志进行分组。
v复合分组:
用两个或两个以上标志分组,即先按一个标志分组,在此基础上再按第二个标志分小组,又再层叠地按第三个标志分成更小的组,这称为复合分组。
(多个变量值)
异距分组
v——每组包含某一区间内的变量值。
v适用于连续型变量和取值很多的离散型变量。
v组距数列是最重要的频数分布表。
组距数列中的几个基本概念
v①、下限:
一个组的最小值
v②、上限:
一个组的最大值
v③、组距:
上限与下限之差
v④、组中值:
下限与上限之间的中点值
v组中值=(上限值+下限值)/2
v下限开口组组中值=上限值-邻组组中值/2
v上限开口组组中值=下限值+邻组组中值/2
组距数列中的几个基本概念
v在编制组距数列时,需要解决如何分组、分组数量、组距、组限等问题。
v重叠组限——相邻组的上下限重合。
v适用于连续型变量。
但各组上、下限中有一个不包含再内。
通常按“上限不在内”处理,即组区间是[a,b)的形式。
l不重叠组限——相邻组的上下限不重合。
l适用于离散型变量。
v有些现象中各类型的数值差异很大,其标志值呈几何级数变化,则组距就应按几何级数确定。
分组数量和组距的确定
v分组的数量和组距应根据对象的特点和分析的需要决定。
v第一,确定组数。
斯特格斯(Sturges)经验公式:
k=1+3.322lgN
v第二,确定组距。
组距=(最大值-最小值)/组数
v第三,确定组限。
v一个组的最小值叫下限
v一个组的最大值叫上限
v分组过多则难以反映总体的数量分布特征;
v分组过少则会丢失许多重要的调查信息。
v
经济管理中几种常见的频数分布曲线
l①正态分布曲线
l——这是客观事物数量特征上表现得最为普遍的一类频数分布曲线。
l如人的身高、体重、智商,钢的含碳量、抗拉强度,某种农作物的产量等等。
偏态曲线
按其长尾拖向哪一方又可分为右偏(正偏)和左偏(负偏)两类。
J形曲线
其典型的应用分别是经济学中的供给曲线和需求曲线
U形曲线
——又称生命曲线或浴盆曲线
第5章统计数据的描述性分析
第一节度量集中趋势的指标
v常用来度量集中趋势的指标包括:
平均数、中位数、众数。
v平均数是说明社会经济现象、传播现象等一般水平的统计指标,反映标志值分布的集中趋势。
一.平均数
v——是根据总体各单位所有标志值计算出的平均数。
v
(一).算术平均数
v平均数的基本公式
总体标志总量-----是指总体各单位标志值的总和
2.算术平均数的计算
v
(1)简单算术平均数
v简单算术平均数主要用于未分组资料,用总体各单位标志值简单加总得到的标志总量除以单位总量而得。
计算公式
n—总体单位总数;xi—第i个单位的标志值。
(2)加权算术平均数
v加权算术平均数主要用于原始资料已经分组,并得出次数分布的条件。
计算公式:
xi—第i组的代表值(组中值或该组变量值);
fi—第i组的频数。
权数的意义和作用
⏹权数:
各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用。
⏹当各组的次数都相同时,即当f1=f2=f3=…=fn时:
⏹加权算术平均数就等于简单算术平均数。
二.中位数(Median)
v将总体各单位标志值按由小到大的顺序排列后处于中间位置的标志值称为中位数,记为Me。
v中位数是描述分布中心趋势的另一种典型的度量。
中位数是“最中间的数”,一半的观测值比它小,一半比它大。
v中位数是是根据总体标志值所处的特殊位置确定的一类平均指标-位置平均数,不受极端数据的影响。
当统计资料中含有异常的或极端的数据时,中位数比算术平均数更具有代表性。
v一种比如有5笔付款:
9元,10元,10元,11元,60元
v付款的均值为20元,显然这并不是一个很好的代表值,而中位数M=10元则更能代表平均每笔的付款数。
v观测变量为定序变量、定距变量或定比率变量时,中位数都是有意义的;但是不适于定类变量。
寻找中位数的步骤
⏹将所有n个观测值按由小到大的顺序排列;
⏹·如果观测值的个数为奇数
⏹·如果观测值的个数为偶数,中位数就是排序后最中间的两个观测值的平均。
三、众数(Mode)
v——是总体中出现次数最多的标志值,记为M0。
v众数明确反映了数据分布的集中趋势,也是一种位置平均数,不受极端数据的影响。
但并非所有数据集合都有众数,也可能存在多个众数。
v在某些情况下,众数是一个较好的代表值。
v例如在服装行业中,生产商、批发商和零售商在进行生产和存货决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。
v又如,当要了解大多数家庭的收入状况时,也要用到众数。
平均数、中位数、众数间的关系
1.频数分布呈完全对称的单峰分布,算术平均数、中位数和众数三者相同。
2.频数分布为右偏态时,众数小于中位数,算术平均数大于中位数
3.频数分布为左偏态时,众数大于中位数,算术平均数小于中位数。
v在偏斜分布中,中位数和平均数可能相差很远。
v例如有关收入、广告投入等的分布,出于有少数人的收入非常高,或有个别几家企业投入了天文数字的广告费用,致使分布的右边尾巴很长。
这个长尾巴会将平均数拉高,这时再采用平均数来描述分布的中心就没有什么实际意义
v不管这些巨额广告投入有多大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计