数据分析期末试题及答案文档格式.docx
- 文档编号:16501716
- 上传时间:2022-11-24
- 格式:DOCX
- 页数:16
- 大小:34.64KB
数据分析期末试题及答案文档格式.docx
《数据分析期末试题及答案文档格式.docx》由会员分享,可在线阅读,更多相关《数据分析期末试题及答案文档格式.docx(16页珍藏版)》请在冰豆网上搜索。
.000a
残差
18
总计
21
上表是方差分析SAS输出结果。
由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)及人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。
做独立性的假设检验得出参数估计表
系数a
非标准化系数
标准系数
t
B
标准误差
试用版
(常量)
.000
x1
.072
.015
.404
x2
.169
.040
.431
x3
.178
.049
.339
.002
a.因变量:
上表是有关参数估计的信息,同样是上面的检验假设,H0:
β1=β2=β3=0:
H1:
β1、β2、β3不全为零
由表知,
β1=33.014,β1=0.072,β2=0.169,β3=0.178,以β1=0.072为例,表示当成人识字率(x2),一岁儿童疫苗接种率(x3)不变时,,人均GDP(x1)每增加一个单位,平均寿命(y)就增加0.072个单位。
基于以上结果得出年平均寿命(y)及人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有显著性的线性关系有回归方程
Y=33.014+0.072*X1+0.169*X2+0.178*X3
β1、β2、β3对应得p值分别为0.000,0.000,0.002,对应的概率p值都小于0.05,表示它们的单独性的假设检验没通过,即该模型是最优的,所以不用采用逐步回归的方式分析。
对原始数据进行残差分析
未标准化的残差RES_1
.94655
以X1为横轴,RES_1为纵轴画出如下散点图
由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。
同理可以得出RES_1及X2、X3的散点图,
误差项的正态性检验
数据(RES_1)标准化残差ZRES_1
由图可以看出,散点图近似的在一条直线附近,则可以认为数据来自正太分布总体
二、诊断发现运营不良的金融企业是审计核查的一项重要功能,审计核查的分类失败会导致灾难性的后果。
下表列出了66家公司的部分运营财务比率,其中33家在2年后破产Y=0,另外33家在同期保持偿付能力(Y=1)。
请用变量X1(未分配利润/总资产),X2(税前利润/总资产)和X3(销售额/总资产)拟合一个Logistic回归模型,并根据模型给出实际意义的分析,数据见财务比率.sav(25分)。
整体性的假设检验
提出假设性检验
H0:
回归系数
=0(i=1,2,3),H1:
不都为0
建立logistic模型:
分类表a,b
已观测
已预测
Y
百分比校正
步骤0
33
.0
总计百分比
a.模型中包括常量。
b.切割值为.500
上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但模型均预测为错误,正确率为0%,另外33家在同期保持偿付能力(Y=1),正确率为100%,所以模型总的预测正确率为50%。
不在方程中的变量
得分
变量
X1
X2
X3
.094
总统计量
由上表得知,如果变量X1(未分配利润/总资产),X2(税前利润/总资产)进入方程,概率p值都为0.000,小于显著性水平0.05,本应该是拒绝原假设,X1,X2是可以进入方程的。
而X3(销售额/总资产)进入方程,概率p值为0.094,大于显著性水平0.05,本应该是接受原假设,X3(销售额/总资产)是不能进入方程的,但这里的解释变量的筛选策略为enter,是强行进入方程的。
用强行全部进入
模型汇总
步骤
-2对数似然值
Cox&
SnellR方
NagelkerkeR方
a
.727
.969
a.因为参数估计的更改范围小于.001,所以估计在迭代次数13处终止。
-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是5.791,比较小,表示模型的拟合优度还可以,而且NagelkerkeR方为0.969,及0相比还是比较大的,所以拟合度比较高
分类表a
步骤1
32
a.切割值为.500
上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但模型预测出了32家,正确率为97%,另外33家在同期保持偿付能力(Y=1),模型预测出了32家,正确率为97%,所以模型总的预测正确率为97%,较之前的有很大的提高。
方程中的变量
S.E,
Wals
Exp(B)
步骤1a
.336
.309
.278
.180
.107
.091
.985
.321
常量
.859
.354
a.在步骤1中输入的变量:
X1,X2,X3.
上表给出了方程中变量的系数。
由表得出
以
为例,表示控制变量X2(税前利润/总资产)和X3(销售额/总资产)不变,X1(未分配利润/总资产)每增加一个单位,
模型方程:
Logistic回归方程:
P{Y=0}=
由表得知,X1到X3对应的概率p值都大于0.05,接受原假设,表示X1到X3对Y都没有显著性影响。
所以用下述方法改进。
用向前步进(wald)
.682
.910
2
b
.711
.949
a.因为参数估计的更改范围小于.001,所以估计在迭代次数9处终止。
b.因为参数估计的更改范围小于.001,所以估计在迭代次数10处终止。
-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是9.472,比之前的5.791要大,表示拟合优度降低,表示用向前的方法并没有比进入的方法好
31
步骤2
而且从上表知道总的预测百分比为97%,没有变化,所以这一步较之前的强行进入的方法没什么优化,也就是没什么必要用向前的方法做。
所以有最优的一个Logistic回归模型为
三、为了研究几个省市的科技创新力问题,现在取了2005年8个省得15个科技指标数据,试用因子分析方法来分析一个省得科技创新能力主要受到哪些潜在因素的影响。
数据见8个省市的科技指标数据.sav,其中各个指标的解释如下:
X1:
每百万人科技活动人员数(人/万人)
X2:
从事科技活动人员中科学技术、工程师所占比重(%)
X3:
R&
D人员占科技胡哦哦的呢人员的比重(%)
X4:
大专以上学历人口数占总人口数的比例(%)
X5:
地方财政科技拨款占地方财政支出的比重(%)
X6:
D经费占GDP比重(%)
X7:
D经费中挤出研究所占比例(%)
X8:
人均GDP(元/人)
X9:
高科技产品出口额占商品出口额的比重(%)
X10:
规模以上产业增加值中高技术产业份额(%)
X11:
万名科技人员被国际三大检索工具收录的论文数(篇/百万人)
X12:
每百万人口发明专利的授权量(件/百万人)
X13:
发明专利申请授权量占专利申请授权量的比重(%)
X14:
万人技术市场成交合同金额(万元/万人)
X15:
财政性教育经费支出占GDP比重(%)
解释的总方差
成份
初始特征值a
提取平方和载入
合计
方差的%
累积%
原始
.362
4
5
6
7
8
9
10
11
12
13
14
15
重新标度
提取方法:
主成份分析。
a.分析协方差矩阵时,初始特征值在整个原始解和重标刻度解中均相同。
上表是用协方差矩阵分析法分析出的总方差的结果,由上表知道,初始特征值间所占的比例相差很大,取值范围差异大,所以不大适合做协方差的矩阵分析。
所以应该采用相关矩阵的方法分析如下:
相关矩阵a
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
相关
.857
.893
.943
.373
.988
.756
.172
.520
.914
.989
.883
.984
.806
.863
.882
.573
.841
.844
.776
.209
.586
.839
.912
.722
.905
.769
.830
.191
.930
.922
.525
.210
.613
.720
.888
.834
.629
.441
.911
.948
.874
.318
.563
.976
.971
.903
.934
.300
.713
.245
.397
.545
.440
.081
.392
.592
.665
.125
.480
.867
.881
.983
.759
.737
.275
.590
.895
.978
.972
.767
.458
.574
.916
.818
.626
.752
.802
.811
.256
.213
.141
.160
.069
.454
.548
.432
.498
.312
.925
.876
.838
.781
.778
a.此矩阵不是正定矩阵。
上表是15个变量间的相关系数矩阵,可以看出相关系数都比较高,比如X1(每百万人科技活动人员数(人/万人))和X2(从事科技活动人员中科学技术、工程师所占比重(%))的相关系数0.859,接近1,呈较强的的线性相关性,所以能够从中提取公因子,适合做因子分析
初始特征值
.508
.205
.832
.074
.493
由表可知,前两个因子的特征根值很高,累积方差贡献率为分别为85.608(>
=80%即可),对解释原有变量的贡献很大,第3个以后的因子特征根值都很小,对解释原有变量的贡献很校,可以忽略,因此提取第一和第二个因子比较合适,基本能表达所有信息。
有特征值
成份矩阵a
.973
.919
.036
.482
.497
.947
.849
.340
.611
.637
.955
.992
.968
提取方法:
主成份。
a.已提取了2个成份。
上表是因子载荷矩阵A
以X1,X5,X10为例,有因子分析模型
因为
,和
,变量在
,
上都有较大的相差不大的载荷,几乎都受它们的共同影响,因子间的差异性没有表示出来,不方便进行因子命名,所以要进行正交旋转(拉大因子间的差异性)
成份转换矩阵
.926
.379
旋转法:
具有Kaiser标准化的正交旋转法。
对A做方差最大的正交旋转,得到正交旋转矩阵
旋转成份矩阵a
.960
.223
.837
.381
.878
.185
.913
.370
.258
.642
.135
.940
.268
.657
.636
.885
.325
.821
.884
.361
.952
.292
.918
.071
.222
.240
a.旋转在3次迭代后收敛。
上表为旋转后的因子载荷矩阵
在第一公因子
……,所以
可视为高科技因子;
在第二公共因子
对应的列中,正载荷主要是,X5,X10其载荷是0.642,0.821,所以
可视为非该科技因子;
有公共因子
的得分矩阵如下:
F1的得分:
得分越高表示科技越高
F2的得分
得分越低表示分高科技成分越高
四、湖南省某白酒厂开发了一种新的白酒,想在本省上市,考虑到公司的现状:
生产能力小,营销实力不强,在全省范围内没有系统的营销网络。
公司收集了某年度湖南省各地区的经济发展和消费水平指标,并选取了及白酒消费相关的6个代表性指标,即x1:
总人口(万人),x2:
人均国民生产总值,x3:
职工年平均工资(元),x4:
平均每人每年现金收入(元),x5:
平均每人每年消费性支出(元),x6:
平均每人每年储蓄(元)。
具体数据见消费情况数据.sav,试通过聚类分析的方法,根据该厂的特点选择营销区域。
采用谱系聚类
用组间连接的方法表示类间距
用平方euclidean距离表示类内距
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
上表是谱系聚类的聚类表,由表可知,第一步是是将5和8分为一小类,然后到3阶和11分为一类,这样将各变量分为一类,然后将最相似的聚为一类,再将已聚合的小类按其相似性再聚合,随着相似性的减弱,最后将一切子类聚合成一个大类,从而得到如下谱系图
x1:
由上面的树状图可知,
若分为3类,则有
第一类:
长沙(特点,X1总人口最多,X2国民生产总值,X3工年平均工资(元),x4:
平均每人每年消费性支出(元)等都是最高的,表示长沙的人们对白酒的购买力最强,所以可以在长沙加大销售量,将此地作为最主要的销售地)
第二类:
湘西(特点:
特点,X1总人口最少X2国民生产总值最低,X3工年平均工资很低,X4均每人每年现金收入低,x5:
平均每人每年消费性支出很低表示湘西的人们对白酒的购买力最弱,表示在此地销售量最小)
第三类:
其他(相对均匀,适量的进行销售)
若分为4类,则有
长沙(预计销售量最多)
株洲,湘潭,岳阳(预计销售量次之)
其他(预计销售量较少)
第四类:
湘西(预计销售量很小)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 期末 试题 答案