应用统计之数据的整理与抽样.pptx
- 文档编号:30846527
- 上传时间:2024-02-03
- 格式:PPTX
- 页数:62
- 大小:496.67KB
应用统计之数据的整理与抽样.pptx
《应用统计之数据的整理与抽样.pptx》由会员分享,可在线阅读,更多相关《应用统计之数据的整理与抽样.pptx(62页珍藏版)》请在冰豆网上搜索。
本料源资来数据的整理与抽样数据的整理与抽样4、数据的描述性指标频数分布所给定的是一个分布形状,要进一步描述和刻画其分布的数量特征,则需要计算数据的集中趋势和离散程度。
它们是反映数据分布数量规律的一对代表值。
若所描述的数据是所观察研究的总体,则称这些代表值为参数;若所描述的数据仅是总体中随机抽取的一个样本,则称这些代表值为统计量。
数据的整理与抽样数据的整理与抽样一、集中趋势集中趋势亦称趋中性。
它表示同类现象在一定时间、地点条件下所达到的一般水平与大量单位的综合数量特征。
集中趋势有三个特点:
它用一个代表值综合反映总体各单位(所有个体)某种标志值的一般水平或代表水平;它抽象掉了各个个体之间标志值的差异;它一般用单位的数值表示,其计量单位与标志值的计量单位相一致。
数据的整理与抽样数据的整理与抽样集中趋势的作用:
可方便地比较若干总体的某种标志值的平均水平,说明它们在某一数量标志上的差异。
如平均成绩、平均身高等;可研究总体某种标志值的平均水平随时间的变化,说明其发展趋势和规律。
如人均收入的变化、劳动生产率的变化等;可分析社会经济现象间的依存关系,为此必须采用分组的方法。
数据的整理与抽样数据的整理与抽样4、可作为评价事物优劣的数量标准。
如各批产品合格率;5、可用以计算和估算其他重要经济指标(如由人均收入估算社会购买力)。
数据的整理与抽样数据的整理与抽样统计学上对集中趋势有以下几种主要测度值:
1、均值均值又称算术平均数。
是数据集中趋势的主要测度值。
对于未经整理的原始数据,一般用以下公式:
数据的整理与抽样数据的整理与抽样简单算术平均数如平均工资、平均身高、平均成绩等的计算。
均值观察值容量总体N样本nniinnxnxxxx121NiiNNXNXXXX121XxiXix数据的整理与抽样数据的整理与抽样例:
某班级28名学生的应用统计学成绩如下:
72856492767387829666776557907169707468796053758872786167计算该班学生应用统计学的平均成绩。
解:
82.7328206728676178648572X数据的整理与抽样数据的整理与抽样简单算术平均数较准确地描述了总体与个体之间的数量关系,其描述方式同时考虑了变量值的次数和变量值的大小对集中趋势的影响,数列中任何数值和次数的变化都会引起算术平均数的改变,它是最灵敏、对资料运用最充分的指标。
数据的整理与抽样数据的整理与抽样加权算术平均数当数据是已经分组的频数分布资料时,计算算术平均数需要用加权平均法。
“权”即占总次数的比重。
近似算法如下:
KKKffffXfXfXX212211KiKiiiiKiiKiiiffXffX1111数据的整理与抽样数据的整理与抽样均值组中值组数总体K样本kkkkffffxfxfxx212211kikiiiikiikiiiffxffx1111iXixXx数据的整理与抽样数据的整理与抽样成绩分组组中值人数5060552110607065852070807511825809085434090100953285合计282080ifiifX29.7428208011KiiKiiiffXX数据的整理与抽样数据的整理与抽样在使用组中值作为第i组的代表值时,假设各组数据在组内分布均匀,但实际上并非如此,所以计算的均值会产生误差。
均值不仅受组中值大小的影响,而且也会受权数的影响,权数越大,则该组数值对均值的影响就越大。
由均值的计算公式很容易看出这一点。
iXififKiKiiiiffXX11数据的整理与抽样数据的整理与抽样月工资(元)员工数(人)各组平均工资工资总额fxxf1600以下401550620001600170010016501650001700180020017503500001800190040018507400001900200045019508750002000220025021005250002200以上602300138000合计15002855000数据的整理与抽样数据的整理与抽样=2855000/1500=1903.33元算术平均数的特点:
各变量值与其算术平均数的离差之和等于0,即各变量值与其算术平均数的离差平方和为最小值(相对于其他任何数),即01niixx最小值min12niixxiiiffxx数据的整理与抽样数据的整理与抽样例如,为分析某乡农民家庭生活水平与家庭人口的关系,则需按人均月收入对该乡农户分组。
也可按户人口数分组。
人均月收入(分组)调查户数人口数户均人口数250以下9546.02503009495.4300350311625.2350400964034.2400600692393.5600以上12352.9合计2269424.2数据的整理与抽样数据的整理与抽样2、几何平均数它是与算术平均数不同的另一种平均数,主要用于环比发展速度或比率均值的计算。
简单几何平均数这是在资料未分组情况下采用的一种计算方法。
其中,是第i期的发展速度或比率。
nniinnaaaaG1121ia数据的整理与抽样数据的整理与抽样某企业“九五”期间产品销售额的年增长速度为因,所以可用对数计算几何平均数。
年份199519961997199819992000增长速度(%)2718231625相对前一年(%)127118123116125相对1995(%)100127149.9184.3213.8267.3niinaG1naGnii1lnln%7.121G数据的整理与抽样数据的整理与抽样加权几何平均数在资料已经分组,每个变量值出现次数或比重不等时,应使用加权几何平均。
即对数计算公式为niiniiiGfxfM11lnlnniinnffffGxxxM12211数据的整理与抽样数据的整理与抽样假设投资银行某项投资的年利率按复利计算,25年的年利率分配为:
有1年3%,有4年4%,有8年8%,有10年10%,有2年15%,求平均年利率。
(单利:
)25121084115.110.108.104.103.1G%5.108%6.262565.6251%5.1082512525GR数据的整理与抽样数据的整理与抽样3、中位数将一组变量值按大小顺序排列,位于数列中间位置的变量值即为中位数。
由于中位数居于数列正中,所以它可以作为代表一般水平和集中趋势的代表值。
在标志变异度较大的情况下,可避免极端数值(不稳健)的影响。
单项变量数数列中位数为为中位数的位置。
21NXX21N数据的整理与抽样数据的整理与抽样例:
某班级28名学生的应用统计学成绩如下:
72856492767387829666776557907169707468796053758872786167计算该班学生应用统计学成绩的中位数。
解:
N=28,Me=(N+1)/2=(28+1)/2=14.5对成绩顺序排列后,X14=72,X15=735.722737221514XXX数据的整理与抽样数据的整理与抽样组距变量数列确定中位数所在组计算公式为N/2或,N和为总次数;计算中位数下限公式含有中位组均匀分布的假设。
2ffdfSfLXemm12数据的整理与抽样数据的整理与抽样其中,L中位数所在组的下组限;数值在L之下各组的累计次数;中位数所在组的次数;d中位数所在组的组距。
上限公式1mSemfdfSfUXemm12数据的整理与抽样数据的整理与抽样例:
成绩分组组中值人数5060552110607065852070807511825809085434090100953285合计282080ifiifX数据的整理与抽样数据的整理与抽样解:
N=28,L=70,Sm-1=10,=11,d=10显然,64.731011101470emfdfSfLXemm12数据的整理与抽样数据的整理与抽样例:
年收入额(元)农户数百分比(%)260028002408280030004801630003200105035320034006002034003600270936003800210738004000120442004400301合计3000100数据的整理与抽样数据的整理与抽样解:
N=3000,L=3000,Sm-1=720,=1050,d=200显然,6.3148200105072015003000emfdfSfLXemm12数据的整理与抽样数据的整理与抽样4、四分位数四分位数是将数据排序后,将数据四等分的三个数值,其中中间的数值是中位数。
在中位数与最大值和中位数与最小值之间再找到两个数值,即可将数据四等分。
四分位数的三个分割点的位置分别为411NNQ4122NNQ4133NNQ41NiNiQ数据的整理与抽样数据的整理与抽样上四分位数若上四分位数为Xi,则下四分位数若下四分位数为Xj,则其中,表示向上取整。
Ni43Nj41数据的整理与抽样数据的整理与抽样在资料分组的情况下,四分位值的三个点分别以N/4、2N/4和3N/4定位,之后求3个四分位数。
第i个四分位点的值为其中,第i个分位值所在组的下限;其前各组的累计次数;其所在组的次数;其所在组的组距。
iiiiQQQQidfNNiLQ4iQLiQNiQfiQd数据的整理与抽样数据的整理与抽样5、众数众数是将数据按大小顺序排队后,出现次数明显最多或最有明显集中趋势的点的数值。
它是指在总体中最常遇到的现象,即在一个数列中出现最多的标志值。
例如,大多数工人可完成的工作量、大多数人的收入、最一般的身高等。
它不受变量数列极值的影响,用具有次数最多的标志值描述集中趋势,代表的范围最广。
但是,众数的取得必须在个体数足够多且又有明显集中趋势时才有意义。
数据的整理与抽样数据的整理与抽样如果分布没有明显的最高点,则众数不存在。
如果有两个相同的最高点,也可有两个众数。
M0M0M0M0数据的整理与抽样数据的整理与抽样众数的确定方法若为单项变量数列,则变量出现次数最多(频率最高)的变量值就是众数。
日班次平均加工零件数量(个)x工人数(人)f5020553060806510705合计145数据的整理与抽样数据的整理与抽样若为等组距变量数列,则分两步:
年收入额(元)农户数百分比(%)260028002408280030004801630003200105035320034006002034003600270936003800210738004000120442004400301合计3000100数据的整理与抽样数据的整理与抽样确定众数组频次最高的一组为众数组。
30003200元之间;计算众数与众数组相邻的两组数频次的多少有关:
若相邻两组数的频次相等,则众数组的中值就是众数;数据的整理与抽样数据的整理与抽样若相邻两组数的频次不等,则众数为其中:
L众数组的下限值;众数组与其下限相邻组的频次差;众数组与其上限相邻组的频次差;d众数组的组距。
(下限公式)dLMo21112数据的整理与抽样数据的整理与抽样在本例中,L=3000d=3200-3000=200=1050-480=570或=35%-16%=19%=1050-600=450或=35%-20%=15%则或上限公式为12218.3111200%15%19%193000oM8.31112004505705703000oMdUMo212数据的整理与抽样数据的整理与抽样例:
计算全班学生应用统计学的众数。
成绩分组人数506026070870801180904901003合计28if数据的整理与抽样数据的整理与抽样解:
L=70,d=10731073370211dLMo3811174112数据的整理与抽样数据的整理与抽样在度量集中趋势的几种均值指标中,算术平均数、中位数、众数最为重要。
三者之间存在如下关系:
当次数分布完全对称时,当次数分布为偏态时,oMXXXXXXXMo233数据的整理与抽样数据的整理与抽样6、集中趋势分析应注意的几个问题只有同质总体才能计算平均值,各个体之间仅存在数量差异;在分组的条件下,总体的均值不仅受组的均值大小的影响,同时还受总体内部结构变动的影响。
当总体内部结构变化时,总体均值就不能全面、准确地反映现象的特征和规律;数据的整理与抽样数据的整理与抽样应以分布数量和典型事例作补充说明总体的集中趋势;应与离散趋势分析相结合,以全面反映现象个体的差异。
数据的整理与抽样数据的整理与抽样二、离散趋势1、问题的提出集中趋势反映了总体单位(个体)标志值分布特征的一个重要方面,但仅用此指标描述这些标志的一般水平是不够的。
要全面描述总体单位标志值的分布特征,必须对标志值的差异性进行研究。
离中趋势是指一组变量值背离分布中心值的特征,它与集中趋势共同说明总体的分布特征。
数据的整理与抽样数据的整理与抽样2、离中趋势度量的目的描述总体内部差异程度,反映社会经济活动的均衡性,为管理决策提供信息。
班级语文数学历史地理化学物理总评甲班82868083838483乙班75898478809283数据的整理与抽样数据的整理与抽样衡量和比较均值指标代表性的高低离中趋势指标数值的大小和均值代表程度高低有密切关系。
离中趋势指标数值越大,均值的代表性就越小;而离中趋势指标数值越小,均值的代表性就越大。
这充分说明,均值代表性的大小必须与离中趋势指标结合运用。
数据的整理与抽样数据的整理与抽样为选取样本单位数提供依据。
各个体标志值变异度越小,即总体越一致,则为获取代表性资料,只需选取较少的样本单位;反之,就需要选取较多的样本单位。
数据的整理与抽样数据的整理与抽样3、离中趋势度量方法按总体内单位标志值差异距离度量。
如极差、四分位差等;按异众比例度量;按个体标志值的平均离差度量。
如平均差、标准差等。
离中趋势的度量由变异指标给出,它可以是绝对数,也可以是相对数。
数据的整理与抽样数据的整理与抽样4、极差极差又称为全距,是数据离散或差异程度的最简单的测度值。
全距的计算是数据的最大值与最小值之差。
即或iiXXRminmax1XXRN数据的整理与抽样数据的整理与抽样例:
计算全班学生应用统计学成绩的极差。
解:
显然,数据越分散,则极差越大。
极差易受极端数据的影响,而中间数据的变化对它无任何影响。
96maxiX53miniX435396minmaxiiXXR数据的整理与抽样数据的整理与抽样5、方差和标准差方差未分组数据总体方差;样本方差;NXXNii1221122nxxSnii222S数据的整理与抽样数据的整理与抽样称n-1为自由度。
因为当样本确定之后,样本n个数据中只有n-1个可以自由变动,即样本数据中只有n-1个误差的有用信息。
另一种解释是,样本方差之所以要除以n-1,是为保证样本方差对总体方差估计的无偏性。
22Sx数据的整理与抽样数据的整理与抽样分组数据对于分组数据的方差,还要考虑各组的次数,即对其离差平方和加权。
kiiKiiiffXX112211122kiikiiiffxxS数据的整理与抽样数据的整理与抽样标准差、S标准差就是方差的平方根。
即NXXNii12112nxxSnii数据的整理与抽样数据的整理与抽样方差与标准差的关系方差与标准差的差异在于对离差的处理不同。
方差不仅便于数学上进一步计算,而且其统计推断的性质也优于标准差;方差与标准差都是以均值为比较中心,它们都是离差的某种平均;方差的大小不仅可以反映数据离散程度的大小,而且也反映均值代表性的高低。
方差小,则均值的代表性强;方差大,则均值的代表性弱。
数据的整理与抽样数据的整理与抽样例:
甲组乙组生产件数离差离差平方生产件数离差离差平方xx73-24532950-25625250074-11547665-1010042257500562570-52549007611577690152258100772459291002562510000合计1028135合计1600297252x2xxxxx2xx2xx75甲x75乙x数据的整理与抽样数据的整理与抽样例:
计算全班学生应用统计学成绩的方差和标准差。
序号分数序号分数序号分数172-1.8213.31811773.17910.1032160-13.821191.03228511.179124.9601265-8.82177.8182253-20.821433.532364-9.82196.4601357-16.821282.96023751.1791.38949218.179330.460149016.179261.746248814.179201.0325762.1794.7461571-2.8217.9602572-1.8213.318673-0.8210.6751669-4.82123.24626784.17917.46078713.179173.6751770-3.82114.6032761-12.821164.3898828.17966.88918740.1790.0322867-6.82146.53299622.179491.8891968-5.82133.889合计3152.1071066-7.82161.17520795.17926.818XXiXXiXXi2XXi2XXi2XXi数据的整理与抽样数据的整理与抽样解:
N=28,575.11228107.3152122NXXNii107.315212NiiXX610.10821.73X数据的整理与抽样数据的整理与抽样例:
用分组数据计算全班应用统计学成绩的方差和标准差。
成绩分组组中值fi506055-18.64347.452694.90607065-8.6474.658597.207080751.361.851120.3580908511.36129.054516.20901009521.36456.2531368.75合计283197.40XXi2XXiiifXX2数据的整理与抽样数据的整理与抽样解:
N=28,193.1142840.3197122NfXXKiii40.319712KiiifXX686.1064.73X数据的整理与抽样数据的整理与抽样利用前面的公式计算方差或标准差比较麻烦。
常常利用它们的变形公式。
NXNXXXNXXNiiNiiNii21121222212212XNXNXNXNiiNii数据的整理与抽样数据的整理与抽样对于分组数据,有2122XNfXKiii
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计 数据 整理 抽样