多元统计练习题doc.docx
- 文档编号:24352833
- 上传时间:2023-05-26
- 格式:DOCX
- 页数:18
- 大小:24.85KB
多元统计练习题doc.docx
《多元统计练习题doc.docx》由会员分享,可在线阅读,更多相关《多元统计练习题doc.docx(18页珍藏版)》请在冰豆网上搜索。
多元统计练习题doc
多元统计练习题
第一章基础统计
.数据文件:
学生考试成绩。
1.将全体学生的考试成绩按以下标准分为五级:
优:
90分(含)以上;
良:
80分(含)以上不足90分;
中:
70分(含)以上不足80分;
及格:
60分(含)以上不足70分;
不及格:
60分(不含)以下。
2.统计每一个等级学生的人数,及占全体学生的比率:
等级
人数(人)
占全体学生比率(%)
优
良
中
及格
不及格
3.统计每一个班级中各个等级的学生人数,及占所在班级人数的比率;
4.按性别统计各个等级的学生人数及每个等级的平均分、最高分、最低分;
5.全体学生中,及格(含)以上的学生人数占全体学生的比
率%;80%的学生成绩不低于分?
6.生成全体学生成绩直方图;
7.用P-P图或Q-Q图观察学生成绩是否来自正态分布。
并结合下一道题(8)的结果来看用P-P图或Q-Q图观察分布的局限性。
8.用K-S检验法,以0.05显著性水平,检验全体学生成绩是否来自正态总体(n或y),检验统计量值z=,它对应的水平(近似)值Asymp.Sig=。
如果是0.1的显著性水平呢?
二.数据文件:
公司职工。
1.填表:
职务
人数
占全体职工人数的比率
办事员
管理员
经理
2.填表:
性别
人数
平均受教育年限
最大年龄
男
女
3.对全体职工按年龄(age)分组,标准如下:
第1组,青年:
age<35;
第2组,中年:
35 第3组,老年: ageN60. 填表: 年龄组 人数 占全体职工人数比率 青年 中年 老年 4.青年男职工的人数为人,占全体青年职工人数 的%;中年女职工的人数为人,占全体 女职工人数的%。 5.中年男办事员的平均当前薪金(salary)为元,他 们中的最低受教育年限(educ)是年。 7.该公司80%的员工当前薪金(salary)不低于元。 8.如果把本文件数据看成某个正态总体的样本,试在0.05的显著性水平下检验: 1)不同性别职工的平均受教育年限(educ)有无显著差异? (填y或n);检验统计量值t=,显著性值Sig.=。 2)青年职工与中年职工的平均当前薪金(salary)有无显著差异? (填y或n);检验统计量值t=,显著性值Sig.=。 3)老、中、青三部分人平均受教育年限(educ)分别是: 老年人年,中年人年,青年人年。 在0.05的显著性水平下有无显著差别? (y或n),检验统计量值F=,显著性值Sig.=o %1.数据文件: 公司职工。 1.按受教育年限(educ)将全体职工分为三个学历组: 低学历组: educ<12 中学历组: 13WeducW16 高学历组: educN17 并统计各个学历组的人数、平均年龄(age)、平均当前薪金(salary)和平均工作经验(prevexp): 学历组 人数 平均年龄 平均当前薪金 平均工作经验 高 中 低 2.对于一般职工,起始薪金(salbegin)与工作经验(prevexp) 的相关系数是,剔除受教育年限(educ)的影响后,这个相关系数是O 3.记该公司职工的薪金增速=(当前薪金-起始薪金)/起始薪金,并且按以下标准将职工分为三组: 第1组: 薪金增速N100%; 第2组: 50%W薪金增速<100%; 第3组: 薪金增速<50%。 统计以下数据: 第1组共人,其中男职工人,女 职工人;高学历组职工人,高学历职工占第1 组人数的比率为%。 4.薪金增速与受教育年限的相关系数为,与工作 经验的相关系数为O 5.薪金增速组与性别有关系吗? 与学历组有关系吗? (以上均取显著性水平0.05)。 6.高学历组中的女职工有人,占全体女职工人数 的%;高学历组中的男经理有人,占全 体男职工人数的%。 7.该公司80%职工当前薪金(salary)不低于元; 该公司60%职工受教育年限(educ)在年之下。 %1.数据文件: 92美总统大选。 1.在文件所列的统计数据中,有效选票张,其中 布什(Bush)得票张,得票率为%;克林顿 (Clinton)得票张,得票率为%。 2.有一种说法: 女性选民比较愿意把选票投给克林顿。 从文件所列数据,这种说法能成立吗? 3.投票结果在0.05的显著性水平下,能否认为不同年龄段的选民对于候选人有各自的偏好? %1.数据文件: 身高。 1.变量high的最小值是,最大值是,平均值是,85%分位点是- 2.身高high不低于平均值的数据有个,占全部数 据个数的%。 3.用Kormogorov-Smiernov方法检验变量high是否服从正态分布。 4.作变量high的直方图、P-P图,对照检验结果。 第二章回归分析 %1.数据文件: 粮食产量。 该文件完整记录了编号(no)为1-15的样本地块上播种面积xl、施用化肥量x2、降雨量x3、养猪数x4和相应的粮食产量y。 1.粮食产量y与播种面积xl的相关系数是,扣除施用化肥量x2的影响后的偏相关系数是。 2.对编号(no)为1—15的样本,用Enter方法求因变量y关于自变量xl、x2、x3、x4的四元非标准化线性回归方程,该方程是: 3.此回归方程的判决系数等于,回归平方和等于。 4.在0.05的显著性水平下,此回归方程是否显著(是填y,否填n)—,检验的Sig=- 5.在0.05的显著性水平下,显著的自变量是(有填变量名,没有填n)o 6.最显著的自变量是,它的Sig.=,它的偏回归平方和等于。 7.用容限(Tol)考察,共线性倾向最强的自变量是它的 容限值Tol=,在0.05的显著性水平下它的共线性显著吗(是填y,否填n),检验的Sig.=o 8.用所得的回归方程预测no=16的样本,9=,且y有95%的可能不会小于- 1.财政收入y受自变量的影响最大,它们间的相关系 数值达到。 2.财政收入y与固定资产投资x5的简单相关系数是,如果除去工业总产值x2的影响,偏相关系数是。 3.用Enter方法,对序号(no)为1-15的观察值,建立因变量y对于自变量xl、x2、x3、x4、x5的非标准化线性回归方程。 该方程是: 4.该方程的判决系数是,回归平方和是。 5.在0.01的显著性水平下,回归方程是否显著—(y或n),检验的Sig.=o 6.自变量国民收入(xl)的偏回归平方和等于,工业总产值(x2)的偏回归平方和等于。 7.在0.1的显著性水平下,哪些自变量是不显著的? 在0.2的显著性水平下呢? 8.用所得回归方程预测序号(no)为16的观察值的因变量y的值和95%置信区间。 三.数据文件: 财政收入 1.用Backward方法,对序号(no)为1-15的观察值,建立因变量y对于自变量xl、x2、x3、x4、x5的非标准化线性回归方程。 最终的方程是: 2.在0.01的显著性水平下,所有的回归方程是否都显著? 3.在0.2的显著性水平下,哪些方程的自变量都显著? 显著性水平为0.15、0.05呢? 1.用Stepwise方法,对序号(no)为1-15的观察值,建立因变量y对于自变量xl、x2、x3、x4、x5的非标准化线性回归方程。 2.为了以95%的把握保证不超支,试审查序号(no)为16代表的地区提出的9亿元的支出计划是否可行? 五.数据文件: 某夏季商品销售预测 1.用Enter方法,建立销售量y对于人口数xl、人均年收入x2和高温天数x3的非标准化线性回归方程: 2.在0.05的显著性水平下,回归方程是否显著,检验的F值为,Sig=。 3.在0.05的显著性水平下,不显著变量为。 4.表示共线性的统计指标是,用这个指标衡量,自变量xl、x2和x3,共线性可能最大的是,对这个可能最大的变量,在0.05的显著性水平下检验它共线性是否显著。 5.表不残差项的独立性的统计指标是,当它取 值为的时候表示残差项相互独立,本问题中这个指标值等 于O %1.数据文件: 多元线性回归分析 1.求因变量y与各自变量X1,X2,X3,X4的简单相关性。 2.求因变量y与自变量X1在除去其他自变量影响后的相关性。 3.用stepwise法求线性回归方程: 所得的回归方程在0.01的显著性水平下是否显著;回归系数在0.1和0.05两种显著性水平下,是否都显著。 4.用backward法求线性回归方程: 所有的方程在0.001的 显著性水平下是否都显著;模型2在0.01的显著性水平下,有哪些变量不显著;显著性水平是0.05呢? 是0.1呢? %1.数据文件: 公司职工 1.设薪金增速=(当前薪金一起始薪金)/起始薪金,在受教育年限、工龄和工作经验这三个因素中,哪个对它的影响最大;如果除去受教育年限的影响,薪金增速与工作经验的相关系数有多大? 2.分别对办事员、保管员和经理求解1中的问题。 按照简单相关系数表示的结果,对办事员薪金增速影响最大的因素(变量)是,相关系数为;对经理薪金增速影响最大的因素是,相关系数O 3.求办事员的薪金增速对起始薪金、受教育年限、工龄和工作经验的四元非标准化线性回归方程: 4.该回归方程的回归平方和等于,判决系数等于,在0.05的显著性水平下,该回归方程显著否(y或n); 5.起始薪金的偏回归系数等于,在0.05的显著性水平下是否显著(y或n),检验的Sig.=;工龄的偏回归系数等于,在0.05的显著性水平下是否显著(y或n),检验的Sig.=o 6.根据容限值,判断最有可能发生共线性的变量是,在0.05的显著性水平下检验这种共线性是否显著。 第三章聚类分析 %1.数据文件: 外商投资。 该文件记录了我国30个省、市地方吸引外资的情况。 1.用系统聚类方法,取距离为EuclideanDistance,并对数据标准化,将所有的地方分为5类; 2.计算所得每一类地区各变量的均值、最大值与最小值,思考所得的每一类的共性。 类别 地区名称 1 2 3 1 2 3 4 5 %1.数据文件: 大气污染取样。 该文件记录了八个地区的六种污染物的含量。 1.用系统聚类法,按照默认的方法,将这八个地区划分为三类; 2.指出每一地区有代表性的主要污染物(指在三类地区中污染程度最严重的)分别是哪些,每项污染物的平均污染水平是多少。 %1.数据文件: 地区经济发展水平。 1.用快速聚类法(k-meanscluster)将文件所列30个省、市、自治区,综合文件所列全部变量分为5类。 第一类包括的地方有,广东属于—类,青海属于第—类。 2.按0.05的显著性水平检验,在所有11项聚类指标中,不显著的指标是。 3.统计这5类地区下列指标的均值、最大值、最小值和每一类地区包含的地区个数及名称,这些指标是: 人均GDP、人均税收、城镇居民人均收入、农村居民人均收入和社会综合生产率。 并对这一分类结果的特点作出自己的分析。 %1.数据文件: 物院学生成绩。 1.用系统分类法将前10名学生分为3类,距离与分类方法取系统默认方法; 2.填表。 表中课程名称下填平均分: 类别 人数 系统分析 多媒体 程序设计 货币银行 国际贸易 1 2 3 3.根据表格中课程平均分,画星形图,说明三类的特点。 %1.数据文件: 股票。 1.用系统分类法,取利润总额(x3)、税后利润(x4)、总资产(x5)、股东权益(x6)和每股收益(x8)为聚类变量,聚类方法取中心法(CentroidClustering),距离用欧几里德距离(EuclideanDistance),数据要标准化,将股票分为5类。 2.对聚类结果按照你自己对问题的理解进行分析。 3.根据你自己的股票证券知识,从数据文件中选择你认为恰当的变量,和你认为合适的聚类方法进行聚类,并对聚类结果作出必要解释。 %1.数据文件: 应征人员。 1.用系统分类法,取所有变量为聚类变量,以系统默认作法将全体应征人员分为3类; 2.方法同1,但聚类变量仅取: 自信程度(x5)、推销能力(x8)、经验(x9)、积极性(xlO)、理解能力(xl2)、交际能力(xl4)和适应性(xl5)七项,仍将全体应征人员分为3类。 3.方法同2,但增加变量诚实(x7)使得参与聚类的变量达到八个,仍将全体聚类人员分为3类。 4.对比三次分类结果中的第一类人员,第二次分类结果在所取的七项指标上与第一次分类对比有何变化? 5.对比第二与第三次分类的结果: 由于增加了诚实的要求,第一类人员结构有了变化,该类各项聚类变量的均值也有变化,比较包括诚实在内的八项指标的均值变化,对这两次分类结果谈谈你自己的看法。 第四章判别分析 %1.数据文件: 企业经济。 1.用判别分析方法,判别: 企业newl属于第类,判 别概率是;企业new2属于第类,判别概率 是O 2.在0.05的显著性水平下,有无不显著的判别指标(有填指标名,无填n)- 3.判断一个函数判别能力强弱的统计指标是,用这个指标衡量,判别能力最强的标准化典型判别函数是: 和它相关性最强的判别指标是,相关系数为。 4.判别能力最弱的判别函数,在0.05的显著性水平下是否就是判别能力不显著的判别函数(是填y,否填n)—,这时检验的Sig.=o %1.数据文件: 环保。 1.用判别分析方法,判别地区New属于哪一类的概率最大? 2.在0.05的显著性水平下,每个判别指标是否都显著? 3.判别函数(及组合)是否有不显著的? 4.判别能力最强的典则判别函数和哪些变量的相关性较强? %1.数据文件: 地方资料 1.将文件中的省市自治区除去江苏、湖南、甘肃,剩下的数据标准化,进行聚类。 要求分为5类,距离用Chebyshev. 2.这五类地区前三个经济指标的平均值、最大、最小值。 3.根据分出的五类,求判别函数。 4.在各判别函数中,判别能力最强的函数是哪个? 为什么? 5.在各判别指标中,按的显著性水平,哪些是显著的,哪些是不显著的。 6.将江苏、湖南、甘肃用判别函数归类。 三.数据文件: 物院学生成绩。 该文件是一个教学班共25位同学的5门课程的考试成绩。 1.将前22位同学的5门课程考试成绩做聚类分析,采用系统聚类法(HierarchicalCluster),按照系统提供的默认做法,分成3类。 填表格,并按以下特点给所分的类归档: A.各科平均成绩都领先;B.各科平均成绩都居中;C.各科平均成绩都落后。 类别 人数 档次 1 2 3 2.用典型判别分析方法(CanonicalDiscriminant)判别最后3位同学分属类别及判别概率: 学号 判归类别 判别概率 9351126 9351127 9351128 3.在0.05的显著性水平下,有无不显著的判别变量(有填变量名,没有填“无”)。 4.判别能力最强的标准化典型判别函数(Standardized CanonicalDiscriminantFunction)是: 与它相关性最强的判别变量是,相关系数达到。 5.判别能力最弱的标准化典型判别函数,特征值为,在0.05的显著性水平下它的判别能力是否显著(是填y,否填n),检验的Sig.=o %1.数据文件: 找矿。 1.用系统默认的方法,判别序号no=15的矿有无开采价值(有填y,无填n),判别概率为。 2.非标准化典型判别函数是: 该判别函数在0类(无)的中心值是,在1类(有)的中心值是O #3.用Computer分别计算每一个观察值到上述两个中心的欧氏(Euclid)距离,并按最近距离原则将每个观察值重新归类,试比较此结果与判别的结果。 4.在0.05的显著性水平下,显著的判别变量是o 5.在0.05和0.1这两个显著性水平下,判别函数的判别能力是否都显著? 6.与判别函数的相关性由强到弱的判别变量依次排列是: 1),2),3)。 %1.数据文件: 农村。 该文件列出80年代我国28个省、市、自治区农村生活的六项经济指标,并按这些指标将其中的24个地区分为4类。 1.用判别分析方法,求非标准化典型判别函数。 判别能力最 强的判别函数是: 2.在所有的判别指标中,以0.05的显著性水平检验,有没有不显著的指标? (有填变量名,没有填n) #3.第一类地区的类中心非标准判别函数的坐标值是f1=,f2=,f3= 4.吉林属于第类,判别概率为;浙江属于第类,判别概率为;新疆属于第类,判别 概率为。 #5.用所得的非标准化典型判别函数,用Computer功能计算每一个地区到三个类中心的欧氏距离(EnclidienDistance),并且用“就近归类”的原则给所有地区规类。 比较它与系统给出的结果。 第五章因子分析 %1.数据文件: 地区经济发展水平。 该文件列举了我国30个省市自治区1998年度的11个经济指标的数据。 试对这11个指标做因子分析,提取3个公共因子。 1.这3个公共因子能够解释全部方差的%,方差被公共因子解释得最好的变量是,可解释它方差的%o 2.在未经旋转的因子模型中,第一因子与变量的 相关性最强,其相关系数达到o 3.对因子做方差最大化旋转,得: 第二因子主要代表变 量,第三因子主要 代表变量。 4.第一因子得分的前三名分别是: 1), 2),3)。 5.三个因子综合评分,前三名分别是: 1), 2),3)。 6.评价因子分析效果: 1)变量独立性检验水平值Sig.=,是否可以排除变量的独立性(y或n); 2)因子分析效果KMO=,接受程度: 可以、基本可以、不可以(选一)。 %1.数据文件: 城市工业主体结构。 对变量做因子分析: 1.按系统默认功能去做,能得到个公共因子,公共 因子能解释变量总方差的%,公共因子解释方差比率最小的变量是,能解释它%方差。 2.现要求公共因子能解释变量80%以上总方差,至少要提 取—个公共因子。 这时公共因子能解释变量总方差%, 原来1中方差被解释得最少的变量,现在该变量的方差可以被解释到%O 3.用Varimax作因子正交旋转,写出旋转后的因子模型。 这 时,与变量x8相关性最强的是第因子,相关系数达 到;与变量x4相关性最弱的是第因子, 相关系数为o 4.在未旋转的因子模型中,第一因子代表哪些变量? 在旋转后的因子模型中,第一因子代表哪些变量? 5.旋转后的因子得分模型是什么? 按照这一模型计算,哪个行业的第一因子得分最高? 哪个行业的第三因子得分最低? 按因子综合得分,得分最高的行业是,得分最低的行业是。 6.对因子分析效果进行估计。 %1.数据文件: 城市社区。 做因子分析: 1.提取2个公共因子,这2个公共因子可以解释变量总方差的%,其中第一■因子为%。 2.被公共因子解释得最好得变量是,公共因子能解释它方差的%;被公共因子解释得最差得变量是,只能解释它方差的%。 3.在未旋转的因子模型中,与第一因子相关性强的变量是 .,与第二因子相关性强的变量是。 4.根据3的结果,说明每个因子都有些什么实际意义*? 5.对每个社区按综合积分排队,写出前三名的编号。 6.对因子分析效果估计。 %1.数据文件: 应征人员。 对变量做因子分析: 1.用系统默认方法提取公共因子,可得个公共因子, 公共因子可以解释全部变量提供的总方差的%。 2.未经旋转的第一因子可以解释变量总方差的%,经过Varimax方法正交旋转后的第一因子可以解释变量总方差的%。 3.被公共因子解释得最好的变量是,可解释它方差的%O 4.未经旋转的第一因子,与它相关性最强的变量前三位依次是: 1),2),3);经过Varimax方法正交旋转后的第一因子,相关性最强的变量前三位依次是: 1),2),3)。 5.试对每个因子的内含意义作出自己的解释。 6.如果要选出5名应征人员,以下方式分别是哪些应征者入选: 1)按综合得分选优; 2)按第一因子得分选优。 7.分析以上两种选人方法的利弊。 8.估计因子分析效果。 %1.数据文件: 02农村生活。 该文件记录了我国31个省市自治区最近某年的农村人均生活消费数字,共有8个指标(变量)。 1.试对这8个指标用主成分(Principlecomponents)分析法提 取公共因子,要求公共因子能够解释总方差不低于90%,应提取个公共因子,并按此要求提取公共因子,做因子分析。 2.被公共因子解释得最好的变量是,可以解释该变量方差的%o 3.用Varimax方法对因子旋转,所得旋转因子模型中,变量x3(居住支出)的表达式是: x3=o 4.在旋转因子模型中,第一公共因子与变量的 相关性最强,相关系数达到;第二公共因子主要代表的变量是。 5.第一因子得分公式是: /i—° 6.第一因子得分的前三名依次是: 1), 2),3);因子综合得分的前三名依次是: 1),2),3)o 7.估计因子分析效果。 %1.数据文件: 股票。 1.按照解释变量总方差不低于90%的要求,至少应该提取 公共因子个,这时公共因子解释变量总方差的%。 2.公共因子能够解释变量每股收益(x8)方差的%。 3.经Varimax正交旋转后的第一因子,与它相关性最强的变量前三位依次是: 1),相关系数; 2),相关系数; 3),相关系数o 4.对于主要关心个股收益的散户投资者,第因子得分 应该予以特别注意。 这一因子得分的前三位依次是: 1),2),3)。 (以上得分按旋转后的因子计算) 5.对Varimax正交旋转后的因子,计算因子得分: 1)第一因子前三名: (1), (2),(3)。 2)综合得分前三名: (1), (2),(3)o 第六章典型相关分析 %1.数据文件: 企业经济。 将文件所标的7个变量分为两组: 变量组1: 固定资产率(Xi)、固定资产利率(X2)、资金利率 (X3)和资金利税率(XQ; 变量组2: 流动资金周转天数(X5)、销售收入利税率(X6)和全员劳动生产率(X7)O INCLUDE'c: ProgramFiles\SPSS\Canonical correlation.sps'cancorrsetl=xltox4/set2=x5tox7. 1.第一对典型变量的标准化表达式是: 5=. V\=o它们间的典型相关系数等于O 2.第二对典型变量的典型相关系数是;它们的典型相关性是否显著? (y或n),Sig.=o 3.典型变量Ui与变量X2的相关系数是;典型 变量U2与变量X1的相关系数是o 4.典型变量Vi与变量X2的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计 练习题 doc
![提示](https://static.bdocx.com/images/bang_tan.gif)