第二章 资料搜集与整理.docx
- 文档编号:9101943
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:18
- 大小:124.43KB
第二章 资料搜集与整理.docx
《第二章 资料搜集与整理.docx》由会员分享,可在线阅读,更多相关《第二章 资料搜集与整理.docx(18页珍藏版)》请在冰豆网上搜索。
第二章资料搜集与整理
授课章节
第二章试验资料的整理与特征数的计算
授课对象
生物科学本科
授课时数
4学时
授课时间
第三学年下学期
授课地点
教学楼
教学目的与要求
教学目标:
1掌握对不同类型资料的整理和相关统计图表的绘制方法
2强调对平均数、变异数和变异系数基本概念的掌握
教学重点与难点
重点知识:
1大样本连续型变数资料的分组方法
2次数分布表与次数分布图的制作
3平均数、样本标准差、样本变异系数的意义、作用和计算方法。
难点:
平均数、方差计算及特性。
教学方法与组织安排
教学方法:
课堂讲授为主,课堂提问、CAI课件为辅。
时间安排:
教师讲授本次课内容大课180分钟,课堂提问5分钟。
教学方法
讲授、CAI课件、举例。
教具
多媒体
教学提纲、课堂小结与课后练习
一、教学提纲
一)试验资料的搜集与整理
1试验资料的类型
1.1数量性状资料:
由计数和测量或度量得到的资料。
分计数资料和计量资料。
1.2质量性状资料:
指对某种现象只能观察而不能测量的资料。
2试验资料的搜集
2.2调查:
分普查和抽样调查
2.3试验
3试验资料的整理
3.1原始资料的检查与核对:
数据本身是否有错误、取样是否有差错和不合理数据的订正。
3.2次数(频数)分布表和分布图
统计表与统计图:
统计表、统计图
1.编制⑴求极差 ⑵划分组段 ⑶统计各组段内的数据频数、列表
2.类型 对称分布 偏态分布
3.特征 集中趋势centraltendency 离散趋势tendencyofdispersion
4.应用揭示分布规律 分布特征 便于发现可疑值、进一步计算
二)试验资料特征数的计算
1、描述集中趋势的指标-平均数 average
1)均数 mean⑴意义 ⑵适用条件 ⑶计算
2)几何均数 geometricmean ⑴意义 ⑵适用条件 ⑶计算
3)中位数median ⑴意义 ⑵适用条件 ⑶计算
2、描述离散趋势的指标
1)极差 range⑴意义 ⑵适用条件 ⑶计算
2)方差variance⑴意义 ⑵适用条件 ⑶计算
3)标准差standarddeviation⑴意义 ⑵适用条件 ⑶计算
4)变异系数coefficient ⑴意义⑵适用条件 ⑶计算
二、课堂小结
为了解定量变量的分布规律,可编制频数表并绘制频数分布(或频率分布)图,用于描述资料的分布特征(集中趋势与离散趋势),以及分布类型(对称或偏锋)。
描述性统计量可以用来定量地刻画统计分布的特征。
常用的描述性统计量有三类:
描述集中趋势的算术均数、几何均数、中位数;描述离散趋势的极差、方差、标准差和变异系数;描述分布类型的偏度系数与峰度系数。
三、课后练习
1描述集中趋势的指标有哪些?
其适用情况及计算。
2描述离散趋势的指标有哪些?
其适用情况及计算。
3如何编制频数表、其分布特点与分布类型。
4绘制统计表与统计图应注意哪些问题?
教学内容与组织安排:
第二章试验资料的整理与特征数的计算
介绍本章教学目标,回忆统计学的概念及其内容,引出本章内容
本次课程主要讲述三方面的内容:
1资料的分类;2资料的整理;3常用统计表与统计图。
要求:
掌握资料的分类及各种资料的特点;连续性数量性状资料的整理与分组方法及其步骤;折线图、矩形图及其条形图各适用于何种资料。
了解质量性状资料数量化的方法;质量性状资料的整理;资料整理的必要性;统计表与统计图的用途;常用的统计表与统计图。
第一节试验资料的搜集与整理
由调查或试验收集来的原始资料,往往是零乱的,无规律性可循。
只有通过统计整理,才能发现其内部的联系和规律性,从而揭示事物的本质。
资料整理是进一步统计分析的基础,本章首先介绍资料的分类,然后介绍不同类型资料的整理方法。
一、试验资料的类型
正确地进行资料的分类是资料整理的前提。
在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为数量性状资料和质量性状资料两大类。
数量性状(quantitativecharacter)是指能够以量测或计数的方式表示其特征的性状。
观察测定数量性状而获得的数据就是数量性状资料(dataofquantitativecharacteristics)。
数量性状资料的记载有量测和计数两种方式,因而数量性状资料又分为计量资料和计数资料两种。
(一)计量资料指用量测手段得到的数量性状资料,即用度、量、衡等计量工具直接测定的数量性状资料。
其数据是用长度、容积、重量等来表示,如体高、产奶量、体重、绵羊剪毛量等。
这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精度而定,它们之间的变异是连续性的。
因此,计量资料也称为连续性变异资料。
(二)计数资料指用计数方式得到的数量性状资料。
在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。
如猪的产仔数、鸡的产蛋数、鱼的尾数、母猪的乳头数等,这些观察值只能以整数来表示,各观察值是不连续的,因此该类资料也称为不连续性变异资料或间断性变异资料。
质量性状(qualitativecharacter)是指能观察到而不能直接测量的性状,如颜色、性别、生死等。
这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:
(一)统计次数法在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。
例如,在研究猪的毛色遗传时,白猪与黑猪杂交,子二代中白猪、黑猪和花猪的头数分类统计如下表。
表2-1白猪和黑猪子二代的毛色分离情况
毛色
次数(f)
频率(%)
白色
332
73.78
黑色
96
21.33
花色
22
4.89
合计
450
100.00
这种由质量性状数量化得来的资料又叫次数资料。
(二)评分法对某一质量性状,因其类别不同,分别给予评分。
例如,在研究猪的肉色遗传时,常用的方法是将屠宰后2小时的猪眼肌横切面与标准图谱对比,由浅到深分别给予15分的评分,以便统计分析。
二、试验资料的搜集
资料来源
(1)调查
(2)试验。
均要求资料完整、准确。
(一)调查分普查和抽样调查。
普查是对研究对象的全部个体逐一进行调查的方法。
普查一般要求在一定的时间或范围进行,要求准确和全面。
普查主要目的是摸清研究对象的家底情况。
抽样调查是一种非全面调查,它是根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到的数据资料作为样本进行统计处理,然后用样本特征数对总体进行推断。
其样本必须是随机样本---就是用随机抽样方法所得到的样本。
随机抽样的条件
(1)总体中每个个体被抽中的机会是均等的
(2)总体中任意一个个体是否被抽中是相互独立的,即个体是否被抽中不受其他个体的影响。
(二)试验
试验是对已有的或没有的事物加以处理的方法。
常见的试验设计方法有:
对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。
试验设计须遵循的三大原则是:
随机、重复和局部控制。
三资料的整理
在对原始资料进行整理之前,首先要对全部资料进行检查与核对,然后再根据资料的类型及研究的目的对资料进行整理。
(一)资料的检查与核对
检查和核对原始资料的目的在于确保原始资料的完整性和正确性。
所谓完整性是指原始资料无遗缺或重复。
所谓正确性是指原始资料的测量和记载无差错或未进行不合理的归并。
检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。
对于有重复、异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。
资料的检查与核对工作虽然简单,但在统计处理工作中却是一项非常重要的步骤,因为只有完整、正确的资料,才能真实地反映出调查或试验的客观情况,才能经过统计分析得出正确的结论。
(二)次数分布表
统计表的结构和要求:
结构简单,层次分明,安排合理,重点突出,数据准确。
表号标题
总横标目(或空白)
纵标目1
纵标目2
……
横标目1
横标目2
数字资料
……
1、标题简明扼要、准确地说明表的内容,有时须注明时间、地点。
2、标目标目分横标目和纵标目两项。
横标目列在表的左侧,纵标目列在表的上端,标目需注明计算单位,如%、kg、cm等等。
3、数字一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“─”表示,数字是“0”的,则填写“0”。
4、线条多用三线表,上下两条边线略粗。
对原始资料进行检查核对后,根据资料中观测值的多少确定是否分组。
当观测值不多(n≤30)时,不必分组,直接进行统计分析。
当观测值较多(n>30)时,宜将观测值分成若干组,以便统计分析。
将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。
不同类型的资料,其整理的方法略有不同。
三)计数资料的整理
计数资料基本上采用单项式分组法进行整理。
特点:
用样本变量自然值进行分组,每组用一个或几个变量值来表示。
现以50枚受精种蛋孵化出雏鸡的天数为例,说明计数料的整理。
表2-250枚受精种蛋孵化出雏鸡的天数
21
20
20
21
23
22
22
22
21
22
20
23
22
23
22
19
22
23
24
22
19
22
21
21
21
22
22
24
22
21
21
22
22
23
22
22
21
22
22
23
22
23
22
22
22
23
23
22
21
22
小鸡出壳天数在19─24天范围内变动,有6个不同的观察值。
用各个不同观察值进行分组,共分为6组,可得表2-3形式的次数分布表。
表2-350枚受精种蛋出雏天数的次数分布表
孵化天数
划线计数
次数(f)
19
║
2
20
║│
3
21
╫╫╫╫
10
22
╫╫╫╫╫╫╫╫║║
24
23
╫╫║║
9
24
║
2
合计
50
从表2-3可以看出:
种蛋孵化出雏天数大多集中在2123天,以22天的最多,孵化天数较短(1920天)和较长(24天)的都较少。
表2-4100只蛋鸡每年产蛋数的次数分布表
产蛋数
划线计数
次数(f)
200209
║
2
210219
╫╫║│
8
220229
╫╫╫╫╫╫
15
230239
╫╫╫╫╫╫╫╫
20
240249
╫╫╫╫╫╫╫╫║│
23
250259
╫╫╫╫╫╫║
17
260269
╫╫║│
8
270279
║║
4
280289
║
2
290299
│
1
合计
100
有些计数资料,观察值较多,变异范围较大,若以每一观察值为一组,则组数太多,而每组内包含的观察值太少,资料的规律性显示不出来。
对于这样的资料,可扩大为以几个相邻观察值为一组,适当减少组数,这样资料的规律性就较明显,对资料进一步计算分析也比较方便。
例如观测某品种100只蛋鸡每年每只鸡产蛋数(原始资料略),其变异范围为200299枚。
这样的资料如以每个观察值为一组,则组数太多(该资料最多可分为100组),如间隔10枚为一组,则可使组数适当减少。
经初步整理后分为10组,资料的规律性就比较明显,见表2-4。
从表2-4可以看到,大部分蛋鸡的年产蛋数在220259枚,但也有少数蛋鸡每年产蛋数少到200209枚,多到290299枚。
(二)计量资料的整理计量资料不能按计数资料的分组方法进行整理,在分组前需要确定全距、组数、组距、组中值及组限,然后将全部观测值划线计数归组。
计量资料一般采用组距式分组法。
程序:
全距---组数----组距---------组限-----归组--------制表
(1)求全距,又称极差(range):
R=Xmax-Xmin
(2)确定组数和组距(classboundary)
组数是根据样本观测数的多少及组距的大小来确定的,同时考虑到对资料要求的精确度以及进一步计算是否方便。
组数组距特点
多小统计数精确,计算不方便
少大统计数不精确,计算方便
(3)组数的确定
样本容量与分组数的关系
样本容量 分组数
30~60 5~8
60~100 7~10
100~200 9~12
200~500 10~18
>500 15~30
组距的确定即每组内的上下限范围。
组距=全距/组数
(3)确定组限(classlimit)和组中值(classmidvalue)
各组的最大值与最小值称为组限。
最小值称为下限,最大值称为上限。
每一组的中点值称为组中值,它是该组的代表值。
组中值与组限、组距的关系如下:
组中值=(组下限+组上限)/2=组下限+1/2组距=组上限-1/2组距
由于相邻两组的组中值间的距离等于组距,所以当第一组的组中值确定以后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。
(4)归组划线计数,作次数分布表
在归组划线时应注意,不要重复或遗漏,归组划线后将各组的次数相加,结果应与样本含量相等,如不等,证明归组划线有误,应予纠正。
在分组后所得实际组数,有时和最初确定的组数不同,如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小,则实际分组的组数将比原定组数多;反之则少。
(三)质量性状资料的整理对于质量性状资料,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。
例如,研究山羊的角遗传时,用纯种的有角羊与无角羊交配,杂种一代全为无角羊,观察F2代山羊共120只,有角无角的分离情况列于表2-8。
表2-8F2代山羊的有角无角分离情况
角
次数(f)
频率(%)
无角
87
72.50
有角
33
27.50
合计
120
100.00
又如,整理仔猪死亡情况资料可根据死亡原因将仔猪分组,并统计次数,计算出频率即构成比,见表2-9。
表2-9仔猪死亡情况
死亡原因
死亡数
频率(%)
冻死
15
19.23
发育不良
20
25.46
肺炎
13
16.67
白痢
10
12.82
寄生虫
20
25.64
合计
78
100.00
三常用统计表与统计图
统计表是用表格形式来表示数量关系;统计图是用几何图形来表示数量关系。
用统计表与统计图,可以把研究对象的特征、内部构成、相互关系等简明、形象地表达出来,便于比较分析。
一)、统计表
(一)统计表的结构和要求统计表由标题、横标目、纵标目、线条、数字及合计构成,其基本格式如下表:
表号标题
总横标目(或空白)
纵标目
合计
横标目
数字资料
合计
编制统计表的总原则:
结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。
具体要求如下:
1、标题标题要简明扼要、准确地说明表的内容,有时须注明时间、地点。
2、标目标目分横标目和纵标目两项。
横标目列在表的左侧,用以表示被说明事物的主要标志;纵标目列在表的上端,说明横标目各统计指标内容,并注明计算单位,如%、kg、cm等等。
3、数字一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“─”表示,数字是“0”的,则填写“0”。
4、线条表的上下两条边线略粗,纵、横标目间及合计用细线分开,表的左右边线可省去,表的左上角一般不用斜线。
(二)统计表的种类统计表可根据纵、横标目是否有分组分为简单表和复合表两类。
1、简单表由一组横标目和一组纵标目组成,纵横标目都未分组。
此类表适于简单资料的统计,如表2-10。
表2-10某品种鸡杂种二代冠形分离情况
冠形
次数(f)
频率(%)
玫瑰冠
106
74.13
单冠
37
25.87
合计
143
100.00
2、复合表由两组或两组以上的横标目与纵标目结合而成,或由一组横标目与两组或两组以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合而成。
此类表适于复杂资料的统计,如表2-11。
表2-11几种动物性食品的营养成分
品别
百分比(%)
蛋白质
脂肪
糖类
无机盐
水分
其它
牛奶
3.3
4.0
5.0
0.7
87.0
牛肉
19.2
9.2
1.0
62.1
8.5
鸡蛋
11.9
9.3
1.2
0.9
65.5
11.2
咸带鱼
15.5
3.7
1.8
10.0
29.0
40.0
二)、统计图
常用的统计图有长条图(barchart)、园图(piechart)、线图(linearchart)、直方图(histogram)和折线图(broken-linechart)等。
图形的选择取决于资料的性质,一般情况下,计量资料采用直方图和折线图,计数资料、质量性状资料、半定量(等级)资料常用长条图、线图或园图。
(一)统计图绘制的基本要求
1、标题简明扼要,列于图的下方。
2、纵、横两轴应有刻度,注明单位。
3、横轴由左至右、纵轴由下而上,数值由小到大;图形长宽比例约5:
4或6:
5。
4、图中需用不同颜色或线条代表不同事物时,应有图例说明。
(二)常用统计图及其绘制方法
1、长条图它用等宽长条的长短或高低表示按某一研究指标划分属性种类或等级的次数或频率分布。
如表示奶牛几种疾病的发病率;几种家畜对某一寄生虫感染的情况;不同公羊油汗色泽的次数分布情况等。
如果只涉及一项指标,则采用单式长条图;如果涉及两个或两个以上的指标,则采用复式长条图。
在绘制长条图时,应注意以下几点:
(1)纵轴尺度从“0”开始,间隔相等,标明所表示指标的尺度及单位。
(2)横轴是长条图的共同基线,应标明各长条的内容。
长条的宽度要相等,间隔相同。
间隔的宽度可与长条宽度相同或者是其一半。
(3)在绘制复式长条图时,将同一属性种类、等级的两个或两个以上指标的长条绘制在一起,各长条所表示的指标用图例说明,同一属性种类、等级的各长条间不留间隔。
例如,根据表2-10绘制的长条图是单式的,见图2-1。
根据表2-11绘制的长条图是复式
的,见图2-2。
2、园图用于表示计数资料、质量性状资料或半定量(等级)资料的构成比。
所谓构成比,就是各类别、等级的观测值个数(次数)与观测值总个数(样本含量)的百分比。
把园图的全面积看成100%,按各类别、等级的构成比将园面积分成若干分,以扇形面积的大小表分别表示各类别、等级的比例。
绘制园图时,应注意以下三点:
(1)圆图每3.6°园心角所对应的扇形面积为1%。
(2)圆图上各部分按资料顺序或大小顺序,以时钟9时或12时为起点,顺时针方向排列。
(3)圆图中各部分用线条分开,注明简要文字及百分比。
例如根据表2-11中的数据用圆图绘出四种动物性食品的营养成分,见图2-3。
3、线图用来表示事物或现象随时间而变化发展的情况。
线图有单式和复式两种。
(1)单式线图表示某一事物或现象的动态。
例如,某猪场长白猪从出生到6月龄出栏平均体重的变化如表2-12所示,根据该资料可以绘制成单式线图,以表示该猪场长白猪体重随月龄变化的情况,见图2-4。
表2-12长白猪体重的变化(出生——6月龄)单位:
kg
月龄
出生
1
2
3
4
5
6
体重
2.0
13.5
27.5
43.0
61.2
83.8
118.5
(2)复式线图在同一图上表示两种或两种以上事物或现象的动态。
这时可用实线“”,断线“------”,点线“····”,横点线“-•-•-•-”等来标志区别。
例如,长白猪、大约克、大白猪三个品种从出生到6月龄出栏平均体重的变化如表2-13所示,根据该资料绘制的复式线图,见图2-5。
表2-13三个品种猪体重的变化(出生——6月龄)单位:
kg
出生
1
2
3
4
5
6
长白猪
2.0
13.5
27.5
43.0
61.2
83.8
118.5
大约克
1.8
12.0
24.5
38.0
53.6
72.3
104.5
大白猪
1.6
10.0
21.0
32.0
45.0
60.5
85.7
4、直方图(柱形图、矩形图)对计量资料,可根据次数分布表作出直方图以表示资料的分布情况。
其作法是:
在横轴上标记组限,纵轴标记次数(f),在各组上作出其高等于次数的矩形,即得次数分布直方图。
例如根据表2-7绘制的次数分布直方图,见图2-6。
5、折线图对于计量资料,还可根据次数分布表作出次数分布折线图。
其作法是:
在横轴上标记组中值,纵轴上标记次数,以各组组中值为横坐标,次数为纵坐标描点,用线段依次连接各点,即可得次数分布折线图。
例如根据表2-7绘制的次数分布折线图,见图2-7。
内容小结、布置作业、复习及预习内容
习题
1、资料可以分为哪几类?
它们有何区别与联系?
2、为什么要对资料进行整理?
对于计量资料,整理的基本步骤怎样?
3、在对计量资料进行整理时,为什么第一组的组中值以接近或等于资料中的最小值为好?
4、统计表与统计图有何用途?
常用统计图有哪些?
常用统计表有哪些?
列统计表、绘统计图时,应注意什么?
5、下表为100头某品种猪的血红蛋白含量(单位:
g/100ml)资料,试将其整理成次数分布表,并绘制直方图和折线图。
13.413.814.414.714.814.413.913.013.012.812.512.312.111.811.010.111.110.111.612.012.012.712.613.413.513.514.015.015.114.113.513.513.212.712.816.312.111.711.210.510.511.311.812.212.412.812.813.313.614.114.515.215.314.614.213.713.412.912.912.412.311.911.110.710.811.411.512.212.112.89.512.312.512.713.013.113.914.214.912.413.112.512.712.012.411.611.510.911.111.612.6
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二章 资料搜集与整理 第二 资料 搜集 整理
![提示](https://static.bdocx.com/images/bang_tan.gif)