11207企业发展状况的数学建模与分析.docx
- 文档编号:9652558
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:41
- 大小:630.18KB
11207企业发展状况的数学建模与分析.docx
《11207企业发展状况的数学建模与分析.docx》由会员分享,可在线阅读,更多相关《11207企业发展状况的数学建模与分析.docx(41页珍藏版)》请在冰豆网上搜索。
11207企业发展状况的数学建模与分析
企业发展状况的数学建模与分析
摘要
本文针对企业显性指标判别其发展状况进行了建模与求解算法设计。
首先我们利用数据文件和SPSS软件得到两两指标的三种相关系数即Pearson、Kendall、Spearman,并用散点图确定其显著线性相关的特性;然后在满足数据压缩的两个必要条件下,建立主成成分分析模型给数据降维;再基于八大指标为判别标准,用逐步判别分析法进行分类和对比分析;接着用变异系数法求指标权重,结合均值化无差异法得到每种企业评分并分级;最后运用评价模型预测未知企业类别,用判别分析法和BP神经网络进行检验。
问题一:
对于指标间相关关系,用SPSS软件和原始数据算出两两指标间的三种Pearson、Kendall、Spearman相关系数,并结合数据散点图容易判别出各指标间都是呈显著线性相关的。
问题二:
根据满足数据压缩的两个先决条件:
①各指标之间是相关的,不是毫无关系的;②指标变量被压缩之后必须包含不少于原始指标变量85%的信息量。
建立主成成分分析降维模型,用SPSS软件将8个指标成分压缩为3个主成成分,得到3个主成成分关系式和数值结果。
问题三:
对于用八大指标分类,首先将其作为训练样本并建立判别准则,然后用SPSS软件中的逐步判别分析法,在引入变量的同时进行判别、选择、淘汰,最后得到判别函数,根据函数得出结论为:
分类的结果和原杂志社划分结果基本一致,被错判的为1号企业,应该将它从上升企业调整为稳定企业,其案例的正确分类率为98.95%。
问题四:
对于构建评价函数。
用变异系数法计算每种指标的权重,再用均值化无差异法对指标数据进行处理,得出各种企业的综合评分,重新排序后,用EXCEL模拟出企业序号和评分曲线图,将同一高度的企业划分为一级,得到企业的分类级别。
问题五:
运用上问评价模型预测得到未知企业与分类级别的关系是:
91—上升企业、92—下降企业、93—稳定企业,再运用判别分析法和BP神经网络检验得出类别为1,3,2,和预测结果一致。
关键词:
散点图相关系数主成成分分析判别分析法变异系数法均值化无差异法BP神经网络
一、问题重述
某咨询公司进行研究构建了一套描绘企业状况的显性指标体系,该指标有:
企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)。
现有某杂志将某些企业划分为上升企业、稳定企业、下降企业,分别记1、2、3.
1、根据数据文件考虑指标间相关关系,分析指标是否有相关性。
2、这些指标是否可以压缩,请建立数据降维模型。
3、根据八大指标进行分类,并与给定的类别进行对比分析。
4、根据指定类别,建立相应的数据模型,构建评价函数,并将企业进行重新分类。
5、根据第4问得出模型,研究和预测未知类别企业的类型,并分析其合理性。
二、问题分析
对于问题1考虑指标相关性,首先运用SPSS软件求出各指标的8
8相关矩阵,得到每两个变量的三种相关系数Pearson、Kendall、Spearman,判别出每两个变量是否呈显著相关。
为了确定两变量是否直线相关,运用散点图来判断。
如果散点图中分散的观察值点呈现如图形“/”这有的分布,则两变量正相关;如果散点图中分散的观察值点呈现如图形“\”这有的分布,则两变量负相关。
问题2若要对指标进行压缩则必须满足同时两个条件:
①各指标之间是相关的,不是毫无关系的;②指标变量被压缩之后必须包含不少于原始指标变量85%的信息量。
因为要以较少指标衡量企业发展状况,我们利用SPSS软件,建立主成成分分析模型,压缩原始指标,用新指标表示原指标潜在关系,衡量企业发展状况。
问题3以八大指标的数据作为训练样本,并利用该样本来建立判别准则,运用SPSS中的逐步判别分析法,逐步引入变量,一边判别,一边选择判别能力较强的变量,剔除不重要的变量。
最后得出判别函数,对各企业进行分类。
问题4关于建立评价函数模型。
采用变异系数法算出各个指标的权重,再采用均值化无差异法对原始指标进行标准化,根据标准化的指标数据和各个指标的权重,计算出每种企业的综合评分,作为评价指标。
用EXCEL对指标进行从大到小进行排序,并作出评分曲线图,根据同一高度分级,重新分出企业类型。
关于问题5预测未知企业,通过第四问建立的评价函数,对91、92、93号企业进行评分,根据评分标准进行分类。
为了检验结果的合理性,首先采用第二问的判别分析法对未知类别进行分类,然后运用BP神经网络,以标准化后的八项指标数据为输入,评分结果为输出,再次对未知类别进行分类。
比较分类结果,对模型进行检验分析。
三、符号说明
:
样本均值
:
样本标准差
:
总离差
:
组离差
:
总体均值
:
判别函数
:
总体均值
:
Kendall相关系数
COV(X,Y):
协方差
:
Spearman秩相关系数
:
相关系数矩阵
:
Pearson相关系数
:
第i个指标的权重
:
组均值
:
第i个指标的变异系数
:
第i个指标的平均数
:
第i个企业的第j种指标
:
第i个指标的标准差
:
各指标的权重构成的向量
:
第i个企业的综合得分
:
相关系数矩阵的特征值
:
由向量
构造成的矩阵
:
特征值根对应的单位特征向量
:
第i个企业的指标所构成的向量
4、模型假设
①假设咨询公司对企业各指标打分是客观公正的;
②假设题目中给出的评分数据准确无误;
③假设题目给出的数据时足够多的;
④假设本文引用的资料真实可靠。
五、模型的建立与求解
5.1问题1的解决方案与模型
5.1.1相关系数
⑴协方差两个连续变量X和Y,[1]它们的观测值分别为
它
们的样本均值分别为
和
,样本标准差分别为
,
。
那么协方差为
协方差为0表明两个变量之间没有线性关系,协方差为正说明两变量之间有正线性相关关系,为负值说明两个变量之间有负线性相关关系。
⑵Pearson相关系数相关系数克服了协方差和量纲有关的缺点,[2]它既可以衡量两个变量是否有线性关系,同事在有线性相关的条件下,也可以描述两个变
量之间的方向和相关的程度。
公式为
相关系数的数值围介于-1与1之间:
如果
表明两个变量没有线性关系。
如果
,则表示两个变量完全直线相关。
线性相关的方向通过相关系数的符号来表示,“+”表示正相关,“-”表示负相关。
SPSS相关系数检验的原理为:
如果相关系数显著相关,即以
不成立,SPSS将在相关系数的右上角标注(**)。
例如以is和cs为变量,得到描述性统计量和相关性报表1:
表1:
描述性统计量和相关性报表
企业规模is和资金周转速度cs的相关系数为-0.639,且为显著性相关。
以is、se、sa、prr、ms、msr、cp、cs八个指标作为“Variables”在SPSS中得到相关性报表(见附录1)和描述性统计量表2。
表2:
描述性统计量
从相关系数可发现,八个指标间每两个指标都显著性相关。
⑶KendaII相关系数KendaII的tau系数是另一种计算定序变量之间或者尺度变量之间相关系数的方法。
KendaII的tau系数的定义为
修正的tau系数公式为
运用SPSS得到KendaII相关系数报表见附录2。
⑷Spearman秩相关系数
Spearman等级相关系数的计算公式为
。
运用SPSS得到Spearman相关系数报表见附录3。
5.1.2散点图
相关系数本身并不是一个等距变量,也不是一个比例变量,系数间没有倍数关系,其大小与样本的差异程度有关,运用散点图判断指标间的正负相关性。
下面给出几组简单分布散点图如图1,可看出is与sa正相关,与cp、msr、prr负相关。
图1:
部分散点图
然后用八个指标作为变量,作出矩阵分布散点图2。
图2:
指标分布散点图
根据矩阵散点图和三个相关性报表可得出表3。
表3:
八个指标的相关性结论
is
se
sa
prr
ms
msr
cp
cs
is
Pearson
1
.842**
.831**
-.728**
.757**
-.742**
-.611**
-.639**
Kendall
1
.681**
.631**
-.553**
.561**
-.555**
-.467**
-.533**
Spearman
1
.857**
.843**
-.757**
.772**
-.744**
-.651**
-.732**
相关性
正
正
负
正
负
负
负
se
Pearson
.842**
1
.800**
-.730**
.763**
-.679**
-.662**
-.655**
Kendall
.681**
1
.592**
-.591**
.578**
-.492**
-.505**
-.553**
Spearman
.857**
1
.789**
-.775**
.769**
-.665**
-.672**
-.719**
相关性
正
正
负
正
负
负
负
sa
Pearson
.831**
.800**
1
-.716**
.765**
-.731**
-.649**
-.727**
Kendall
.631**
.592**
1
-.538**
.558**
-.533**
-.447**
-.591**
Spearman
.843**
.789**
1
-.746**
.768**
-.724**
-.640**
-.768**
相关性
正
正
负
正
负
负
负
prr
Pearson
-.728**
-.730**
-.716**
1
-.740**
.716**
.639**
.692**
Kendall
-.553**
-.591**
-.538**
1
-.577**
.530**
.456**
.560**
Spearman
-.757**
-.775**
-.746**
1
-.788**
.732**
.665**
.771**
相关性
负
负
负
负
正
正
正
ms
Pearson
.757**
.763**
.765**
-.740**
1
-.659**
-.624**
-.637**
Kendall
.561**
.578**
.558**
-.577**
1
-.466**
-.436**
-.516**
Spearman
.772**
.769**
.768**
-.788**
1
-.660**
-.622**
-.703**
相关性
正
正
正
负
负
负
负
msr
Pearson
-.742**
-.679**
-.731**
.716**
-.659**
1
.648**
.674**
Kendall
-.555**
-.492**
-.533**
.530**
-.466**
1
.428**
.521**
Spearman
-.744**
-.665**
-.724**
.732**
-.660**
1
.630**
.737**
相关性
负
负
负
正
负
正
正
cp
Pearson
-.611**
-.662**
-.649**
.639**
-.624**
.648**
1
.671**
Kendall
-.467**
-.505**
-.447**
.456**
-.436**
.428**
1
.508**
Spearman
-.651**
-.672**
-.640**
.665**
-.622**
.630**
1
.704**
相关性
负
负
负
正
负
正
正
cs
Pearson
-.639**
-.655**
-.727**
.692**
-.637**
.674**
.671**
1
Kendall
-.533**
-.553**
-.591**
.560**
-.516**
.521**
.508**
1
Spearman
-.732**
-.719**
-.768**
.771**
-.703**
.737**
.704**
1
相关性
负
负
负
正
负
正
正
5.2问题2的解决方案与模型
由于企业的显性指标比较多,在实际工作中根据这么多指标来判断企业的发展状况显得有点不切合实际,这就要求我们对各项指标进行整合,做到用几个指标来高度概括原来的指标。
从而达到对企业状况容易判断的目的。
为此我们采用SPSS软件中的主成分分析法来达到降维的目的。
主成分分析法就是从变量间的相关关系出发,将多个变量综合成少数几个变量的方法。
设原来有p个变量[1],记为X1,X2,...,Xp,主成分分析把它们综合成q个变量,这里q
社样本容量为n,Xi={xi1,...,xip)’表示第i个记录的p个变量的取值。
主成分分析的步骤为:
第一步:
进行样本数据的标准化,以消除指定变量的量纲或者单位的影响。
然后求出相关系数矩阵R,其中
得到相关系数矩阵为:
R=(rij)(
维矩阵);
第二步:
求出相关系数矩阵R的所有非零特征根,并以大小顺序排列成
(其余p-q个特征值为零);
第三步:
选择主成分个数。
根据碎石图选择合适的主成分个数;
第四步:
求出相应于前s个特征根的特征向量c1,c2,...,cs,并将特征向量单位化,即
把这s个向量作为列向量,即构成了主成分的载荷矩阵,记为A
;
第五步:
计算主成分变量的取值。
主成分的表达式为:
根据以上步骤我们再根据碎石图(如图3)来选定要提取的主成分数量。
图3:
碎石图
由图中我们看出小选用三个主体成分就能比较多的涵盖原来的信息量,一般来说选用的主成分数量能够涵盖原来信息量的85%就比较符合人们的意愿了。
涵盖的信息量从总方差解释表4中可以看出:
三个主成分分析量涵盖的信息量约为85.983%>85%符合我们的要求。
表4:
解释的总方差
由表4可知,相关系数矩阵的特征值分别为:
表5:
主成分法提取的因子载荷阵初始解
对于表5中的每一列值依次分别除以
这样就得到了每一个特征值根对应的单位特征向量。
即:
由此,可以写出第一主成分表达式:
同理可以分别得到第二第三个主成分的表达式:
根据公式算出90个企业3个主成成分结果(见附录4)
5.3问题3的解决方案与模型
第一步:
在SPSS打开原始数据90×8矩阵;
第二步:
计算变量的总体均值
、组均值
、总离差T、组离差W。
[3]其中
,
;
第三步:
给定挑选变量的F,即检验门坎值(临界值)
;
第四步:
逐步挑选变量。
首先考虑剔除变量,然后考虑引入变量,再作W,T消去变换;
第五步:
求判别函数。
迭代h步后,挑选变量结束,共选入r个变量进入判别式
;
第六步:
判别归类。
首先将已知样本进行回判,并算出错判概率。
利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量并得到判别式函数系数,如表6、7所示。
表6:
淘汰不显著的流动资金比例
表7:
判别式函数系数
用x1,x2,x3,x4,x5,x6,x7分别表示标准化后的变量is,se,sa,prr,ms,msr,cs,得到两个典则判别函数
根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数。
把这两个数目当成该观测值的坐标,这样数据中的90个观测值就是二维平面上的90个点。
如图4所示。
图4:
典则判别函数
从上图可以看出,第一个投影(相应于来自于第一个典则判别函数横坐标值)已经能够很好地分辨出三个企业类型了。
这两个典则判别函数并不是平等的。
其实一个函数就已经能够把这三类分清楚了。
SPSS的一个输出就给出了这些判别函数(投影)的重要程度如表8:
表8:
特征值
第一个函数的贡献率已经是99.2%了,而第二个只有0.8%。
SPSS的分类判别表9给出
表9:
分类函数系数
该表给出了三个线性分类函数的系数。
把每个观测点带入三个函数,就可以得到分别代表三类的三个值,哪个值最大,该点就属于相应的那一类。
下面就是对我们的训练样本的分类结果(SPSS)(表10)和部分按照案例顺序的统计量(表11)
表10:
分类结果
表11按照案例顺序的部分统计量
案例数目
实际组
最高组
预测组
p
df
P
到质心的Mahalanobis距离
交叉验证
1
1
2**
0
7
0.988
107.686
2
1
1
0.219
7
1
9.495
3
1
1
0.168
7
1
10.383
4
1
1
0.798
7
1
3.838
5
1
1
0.09
7
1
12.324
从上面两个表可看出,案例的正确分类率为98.95%,有一个上升企业被判为了稳定企业,被错判的为1号企业。
运用判别分析的结果和给定的类别基本是一致的。
5.4问题4的解决方案与模型
5.4.1用变异系数法确定各个指标权重
决定企业状况分级的因素有:
企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)共8个。
分析数据可知,各个因素之间存在数量级与正负性的差异,为了消除此影响,用各项指标的变异系数来衡量各个指标取值的差异程度。
各项指标的变异系数公式如下:
各因素的权重为:
5.4.2各种企业状况指标的综合
为了计算各种指标的综合评分,[4]首先采用均值化无差异法消除各个指标的量纲和数量级差异,即
得到新的矩阵:
各个指标的权重构造成权重向量:
则第i个企业的综合得分:
。
5.4.3模型求解
根据模型建立,编写各步算法程序(用MATLAB软件实现)如下:
A=[];%读取原始数据
M=mean(A);%计算指标平均数
SD=std(A);%计算指标方差
CV=SD./abs(M);%求得指标变异系数
W=CV./sum(CV);%指标权重
H=ones(90,8);
forj=1:
8
fori=1:
90
H(i,j)=A(i,j)./mean(A(:
j));
end
end
G=H*W'%各个企业综合得分
算出各种指标的权重及相关数据(详见附录5),再将公司状况按其评分从大到小排序得到如下表格12。
表12:
按公司状况评分从大到小排序
评分
公司序号
评分
公司序号
评分
公司序号
评分
公司序号
2.330955
11
1.341894
9
0.831724
32
0.626656
31
2.193543
28
1.267547
57
0.801633
73
0.625071
63
2.182466
5
1.190721
19
0.800212
75
0.618815
42
2.137804
29
1.153949
60
0.792768
33
0.609496
90
2.075091
10
1.144655
20
0.783998
79
0.597879
37
2.011475
3
1.109826
56
0.769924
61
0.597646
78
1.999603
14
1.073648
53
0.769269
41
0.574683
58
1.972625
8
1.060295
55
0.760993
54
0.570009
71
1.875861
17
1.057618
2
0.747634
35
0.552776
62
1.829162
18
1.037533
59
0.747305
87
0.539367
89
1.814556
6
1.036552
46
0.746756
76
0.470538
66
1.665114
25
1.022838
30
0.746092
52
0.464754
80
1.633878
13
1.005025
44
0.743015
38
0.436697
69
1.627663
16
1.000796
48
0.741097
82
0.402228
72
1.620353
22
0.997744
36
0.707535
43
0.369341
83
1.484661
23
0.98896
21
0.701403
77
0.331654
68
1.477329
12
0.984024
49
0.695715
47
0.307609
64
1.473998
24
0.971402
50
0.681406
85
0.203205
86
1.418663
4
0.968834
51
0.653408
34
0.166281
65
1.405581
26
0.963769
39
0.653105
67
0.151174
88
1.394814
27
0.916234
70
0.64852
45
0
1
1.385933
7
0.907332
81
0.635417
74
1.355039
15
0.850063
40
0.633622
84
运用EXCEL作出对应评分曲线图如下图5。
图5:
公司状况评分曲线
采取同一高度的公司划分为一级的原则,根据上图将这90个公司分类如下表13。
表13:
公司状况等级分类
上升企业
11
28
5
29
10
3
14
8
17
18
6
25
13
16
22
23
12
24
4
26
27
7
15
9
57
19
60
20
56
稳定企业
53
55
2
59
46
30
44
48
36
21
49
50
51
39
70
81
40
32
73
75
33
79
61
41
54
35
87
76
52
38
82
43
77
1
下降企业
47
85
34
67
45
74
84
31
63
42
90
37
78
58
71
62
89
66
80
69
72
83
68
64
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11207 企业发展 状况 数学 建模 分析