基于聚类分析的证券投资研究.docx
- 文档编号:28576266
- 上传时间:2023-07-19
- 格式:DOCX
- 页数:26
- 大小:347.39KB
基于聚类分析的证券投资研究.docx
《基于聚类分析的证券投资研究.docx》由会员分享,可在线阅读,更多相关《基于聚类分析的证券投资研究.docx(26页珍藏版)》请在冰豆网上搜索。
基于聚类分析的证券投资研究
毕业实践考核
基于聚类分析的证券投资研究
专业:
金融学
年级班别:
2012秋专升本
学号:
姓名:
指导教师:
联系方式:
2014年8月
摘要
在金融投资方面,聚类分析有着很大的研究价值。
由于聚类分析是通过数据建模简化数据的一种方法,它可以把数据集分解或划分成多个类或组,同一组中的数据比较相似,不同组的数据差别较大。
通过聚类,可以识别数据之间的相似程度,从而发现数据的分布模式和数据的属性之间的相互关系。
本文将把聚类分析运用到证券投资中,从广东省的上市公司中随机抽取了33只股票作为样本,选取了股票的每股收益、每股净收益、每股经营性现金流、每股未分配利润、每股资本公积金、净资产收益率、主营业务收入以及净利润作为影响因素,先对其进行标准化处理,再通过SPSS统计软件进行聚类分析,建立较为合理的指标体系,用于衡量样本股票的“相似程度”,为投资者确定投资范围和投资价值。
研究结果表明,运用这种科学理性的投资分析方法,能够帮助投资者把握股票的总体特征,并可以降低投资风险,规范投资行为。
关键词:
证券投资,股票,聚类分析,SPSS统计软件
目录
一、引言1
二、聚类分析的基本介绍2
(一)聚类分析的基本原理2
(二)聚类分析方法介绍5
(三)聚类分析方法的优缺点6
(四)可行性7
三、数据处理及结果分析7
(一)指标的选取7
(二)实证分析9
四、总结与展望13
参考文献16
基于聚类分析的证券投资研究
一、引言
现代经济,既是一种知识为本的经济,又是一种金融化的经济。
现代科学技术在产业群体中大规模的扩散效应和对应产业结构升级换代的加速度催化作用是知识经济的基本内核,具有强大杠杆功能的现代金融构架则是金融经济到来的重要标志。
现代科学技术的发展及其在产业中的扩散,是现代经济增长的原动力,而现代金融则使这种原动力以乘数效应推动着经济增长。
作为推动现代经济增长的两个巨轮,现代科学技术和现代金融缺一不可。
在一个开放的经济体系中,如果仅有发达的科学技术,而没有一个功能强大的现代金融体系,科学技术的经济增长效应将严重缩水,人类的只是资源不可能得到优化配置;如果仅有一个发达的现代金融体系而没有强大的科学技术的支持,这种经济迟早会进入泡沫经济状态。
所以,一个开放的经济体系要想在当前激烈的竞争中处于优势状态,既要有深厚的科学技术基础,又要有发达而健全的现代金融体系。
随着经济体系的演变和升级,市场一体化的中心正在从贸易市场一体化转向金融市场一体化。
而资产证券化是金融市场一体化的逻辑要求。
金融市场一体化是资产证券化的重要基础,而资产证券化则是金融市场一体化不断延伸和深化的必备要素。
随着经济体系的演变和升级,现代经济运行的轴心正在转向现代金融业。
现代金融业是指经营金融商品的特殊行业,它包括银行业、保险业、信托业、证券业和租赁业。
其中,证券业随着经济的发展,不断地壮大着。
证券是多种经济权益凭证的统称,因此,广义上的证券市场指的是所有证券发行和交易的场所,狭义上,也是最活跃的证券市场指的是资本证券市场、货币证券市场和商品证券市场。
是股票、债券,商品期货、期权、股票期货、期权、利率期货、期权等证券产品发行和交易的场所。
证券市场是市场经济发展到一定阶段的产物,是为解决资本供求矛盾和流动性而产生的市场。
证券市场以证券发行和交易的方式实现了筹资与投资的对接,有效地化解了资本的供求矛盾和资本结构调整的难题。
在发达的市场经济中,证券市场是完整的市场体系的重要组成部分,它不仅反映和调节货币资金的运动,而且对整个经济的运行具有重要影响。
而中国证券业在自二十世纪九十年代至今的十几个年头中正在不断迅速发展壮大,随着我国市场经济建设的高速发展,人们的金融意识和投资意识日益增强,越来越多的投资者把眼光投资向了证券市场。
但是我们也应该认识到由于起步较晚,中国证券业在发展中也暴露了不少问题。
我国证券市场投机现象比较严重,投资者往往只关注对于股票的短期投资,而忽略了股票的长期投资,面对上千种股票,如果没有理性的投资态度,投资者将难以取得成功,若想成为一个成功的投资者,在股市投资中赢取丰厚的投资回报,就得认真研究上市公司的历史、业绩和发展前景,详细分析上市公司的财务状况,找出真正具有投资价值的股票,进行长期投资。
上市公司对外披露的财务指标中往往隐含很多能具体反映出公司在某年度财务状况的信息,但如果仅仅是笼统的、盲目的去查看这些繁杂的财务指标,一般很难从中发现更多对投资者作出投资决策有帮助的信息。
故本文将多元统计分析方法中的聚类分析法应用到上市公司财务数据的分析中。
通过透视企业的财务状况,使得投资者作出合理的投资决策;而且各上市公司也可以根据自己的财务分析状况,找出问题所在,自身不足,修正自己公司的经营模式。
二、聚类分析的基本介绍
“物以类聚,人以群分”。
对事物进行分类,是人们认识事物的出发点,也是人们认识世界的的一种重要方法。
因此,分类学已成为人们认识世界的一门基础科学。
在历史上已有的一些分类方法多半是人们主要依靠经验作定性分类,致使许多分类带有主观性和任意性,不能很好地揭示可观事物内在的本质差别和联系;特别是对于多因素、多指标的分类问题,定性分类的准确性不好把握。
为了克服定性分类存在的不足,人们把数学方法引入分类中,形成了数值分类学。
后来随着多元统计分析的发展,从数值分类学中逐渐分离出了聚类分析方法。
随着计算机技术的不断发展,利用数学方法研究分类不仅非常必要而且完全可能,因此近年来,聚类分析的理论和应用得到了迅速的发展。
聚类分析就是分析如何对样品(或变量)进行量化分类的问题,即依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。
(一)聚类分析的基本原理
聚类分析是一种数值分类方法(即完全是根据数据关系)。
要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。
入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。
而所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变量对辨别事物差异无显著性贡献。
如果所选指标不完备,则导致分类偏差。
简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。
变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。
1、相似性的度量
通常聚类分析分为Q型聚类和R型聚类。
Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。
往往我们在聚类之前,要首先分析样品或者变量间的相似性。
(1)样品相似性的度量
Q型聚类分析,使具有共同特征的样本聚集在一起,以便对不同类的样本进行分析,常用聚类来测度样品之间的相似程度,是对样品进行分类处理。
每个样品有p个指标(变量)从不同方面描述其性质,形成一个p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。
两点距离公式可以从不同角度进行定义,令
表示样品
与
的距离,存在以下的距离公式。
(a)闵可夫斯基距离
闵可夫斯基距离距离简称闵氏距离,按q的取值不同又可以分成:
①绝对距离(q=1)
②绝对距离(q=2)
③绝对距离(q=∞)
(b)马氏距离
设
与
是来自均值向量为
,协方差为
的总体G中的p维样品,则两个样品间的马氏距离为
(c)兰氏距离
(2)变量相似性的度量
R型聚类分析,是对研究对象的观察变量进行分类,它使具有共同变化特征的变量(相关性较高)聚集在一起,是对变量进行分类处理。
多元数据中的变量表现为向量形式,在集合上可用多维空间中的一个有向线段表示。
在对多元数据进行分析师,相对于数据的大小,我们更多地对变量的变化趋势或方向感兴趣,因此,变量间的相似性,我们可以从它们的方向趋同性或“相关性”进行考察,从而得到“夹角余弦法”和“相关系数”两种度量方法。
(a)夹角余弦
两变量
与
看作p维空间的两个变量,这两个变量间的夹角余弦可用下式进行计算
显然,
(b)相关系数
相关系数经常用来亮度变量间的相似性两变量
与
的相关系数定义为
显然此处也有,
无论是夹角余弦还是相关系数,它们的绝对值都小于1,作为变量近似性的度量工具,我们把它们统计为
,当
时,说明变量
与
完全相似;当
近似于1时,说明
与
非常密切;当
时,说明变量
与
完全不一样;当
近似于0时,说明
与
差别很大。
据此,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类中。
在实际聚类过程中,为了计算方便,会将变量间相似性的度量公式作一个变换为
或者
用
表示变量之间的距离远近,
小则
与
先聚成一类。
(二)聚类分析方法介绍
常用的三种方法分别为系统聚类分析法、K均值(K-Means)聚类分析以及有序样品的聚类分析法。
1、系统聚类分析
(1)基本思想
系统聚类的基本思想是:
距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
(2)类间距离与系统聚类法
在进行系统聚类之前,我们首先要定义类与类之间的距离,由类间距离定义的不同产生了不用的系统聚类法。
常用的类间距离定义有8种,与之相对应的系统聚类法也有8种,分别为最短距离法,最长距离法,中间距离法,重心法,类平均法,可变类平均法,可变法和离差平方和法。
它们的归类步骤基本上是一致的,主要差异是类间距离的计算方法不同。
2、K均值聚类分析
由于系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非常大的计算机内存空间,这个应用带来一定的困难。
而K均值法是一种快速聚类法,采用该方法得到的结果比较简单易懂,对计算机的性能要求不高,因此应用也比较广泛。
本文采取的聚类方法就是K均值聚类分析法,即K-Means聚类分析法。
K均值法是麦奎因(MacQueen1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤:
①将所有的样品分成K个初始类;
②通过欧几里得距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;
③重复步骤②,直到所有的样品都不能再分配为止。
K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的:
系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。
具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。
3、有序样品的聚类分析法
以上的系统聚类和K均值聚类中,样品的地位是彼此独立的,没有考虑样品的次序。
但在实际应用中,有时样品的次序是不能变动的,这就产生了有序样品的聚类分析问题。
如果用
表示n个有序的样品,则每一类必须是这样的形式,即
,其中
,且
,简记为
。
在同一类中的样品是次序相邻的。
这类问题称为有序样品的聚类分析,又称为最优分割或者费希尔最优求解法。
设有序样品依次为
(
为p维向量)。
费希尔最优求解法按以下步骤计算:
①定义类的直径;
②定义分类的损失函数;
③求最优分类法的递推公式;
④费希尔最优求解法的实际计算。
(三)聚类分析方法的优缺点
1、聚类分析法的优点
聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并。
每类的变量相似但类与类之间的差异性很大,这样能清晰描述数据。
聚类分析运用范围极广,涉及很多领域,包括数学,计算机科学,统计学,生物学和经济学。
在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
聚类分析方便快捷,是管理统计很好的方法。
2、聚类分析法的缺点
聚类分析是以完备的数据文件为基础的,一般要求各个观测变量的量纲一致,即各变量取值的数量级一致,否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。
要检查各变量的量纲是否一致,不一致则需进行转换。
(四)可行性
聚类分析是将研究对象按其共性进行分类,它是建立在距离度量基础上的数据表示方法,其基本目标是发现样品(或变量)的自然分组方法,从而辨认在某些特征上的相似事物,并把事物就这些特征划分成若干类,使同一类的事物具有高度的共性,而不同类的事物具有高度的相异性。
将聚类分析模型应用与证券投资中能做拓展性研究和探讨。
通过建立较为完善的综合评价能使聚类分析对知道广大投资者尤其是中小投资者进行投资决策具有较强的实践性。
本文应用聚类分析方法进行证券投资研究,立足于对股票基本层面的量化分析,弥补了基础分析对影响股票价格的因素大多是定性分析的不足。
作为理性的长期投资的参考依据,其目的在于从股票基本特征决定的内在价值中发掘股票真正的投资价值。
加之,与现代投资组合理论相比,聚类分析法显得直观、实用,而且在应用时所受的局限小,操作性强,有一定的优越性,适合广大投资者采用。
聚类分析建立的是一种长期投资的概念,因此在我国证券市场走向成熟的过程中,提倡运用这种理性的投资分析方法,不仅可以降低投资风险,规范投资行为,还有理与促进股票公司从经营业绩和成长能力出发参与市场竞争,促进了我国证券市场的健康发展。
三、数据处理及结果分析
(一)指标的选取
本文选取了以下8个因素用于研究。
它们分别为每股收益、每股净收益、每股经营性现金流、每股未分配利润、每股资本公积金、净资产收益率、主营业务收入以及净利润。
1、每股收益
每股收益(EarningPerShare,简称EPS),又称每股税后利润、每股盈余,指税后利润与股本总数的比率。
它是测定股票投资价值的重要指标之一,是分析每股价值的一个基础性指标,是综合反映公司获利能力的重要指标,它是公司某一时期净收益与股份数的比率。
2、每股净资产
每股净资产是指股东权益与总股数的比率。
这一指标反映每股股票所拥有的资产现值。
每股净资产越高,股东拥有的资产现值越多;每股净资产越少,股东拥有的资产现值越少。
通常每股净资产越高越好。
其计算公式为:
每股净资产=股东权益÷总股数。
3、每股经营性现金流
经营现金流量指直接进行产品生产、商品销售或劳务提供的活动,它们是企业取得净收益的主要交易和事项。
每股经营现金流量反应经营活动现金流量净额与流通在外普通股数量的比值。
其计算公式为:
每股经营现金流量=经营活动现金流量净流量/流通在外普通股数量
经营活动现金净流量=经营活动现金净额-优先股股利
4、每股未分配利润
未分配利润是企业留待以后年度进行分配的结存利润,未分配利润有两个方面的含义:
一是留待以后年度分配的利润;二是尚未指定特定用途的利润。
资产负债表中的未分配利润项目反映了企业期末在历年结存的尚未分配的利润数额,若为负数则为尚未弥补的亏损。
其计算公式为:
每股未分配利润=企业当期未分配利润总额/总股本
5、每股资本公积金
资本公积金是指从公司的利润以外的收入中提取的一种公积金。
其主要来源有股票溢价收入,财产重估增值,以及接受捐赠资产等。
其计算公式为:
每股资本公积金=资本公积金/总股本
6、净资产收益率
净资产收益率又称股东权益收益率,是净利润与平均股东权益的百分比,是公司税后利润除以净资产得到的百分比率,该指标反映股东权益的收益水平,用以衡量公司运用自有资本的效率。
指标值越高,说明投资带来的收益越高。
其计算公式为:
净资产收益率=税后利润/所有者权益
7、主营业务收入
主营业务收入指企业从事某种主要生产、经营活动所取得的营业收入。
8、净利润
净利润(收益)是指在利润总额中按规定交纳了所得税后公司的利润留成,一般也称为税后利润或净收入。
净利润是一个企业经营的最终成果,净利润多,企业的经营效益就好;净利润少,企业的经营效益就差,它是衡量一个企业经营效益的主要指标。
其计算公式为:
净利润=利润总额×(1-所得税率)
本文分别用
表示这8个变量。
(二)实证分析
本文的原始数据来源于证券之星:
.随机抽取了广东省33个上市公司作为研究对象。
表1是的研究数据是根据2013年第二季度至2014年第一季度这四个季度的均值计算所得到。
表1研究数据
代码
简称
每股收益(元)
每股净资产(元)
每股经营性现金流(元)
每股未分配利润(元)
每股资本公积金(元)
净资产收益率(%)
主营业务收入(万元)
净利润(万元)
603288
海天味业
1.51
6.07
0.49
2.24
2.46
27.04
547201.86
107745.90
603002
宏昌电子
0.10
2.21
-0.04
0.51
0.63
4.61
74464.14
4059.46
601333
广深铁路
0.11
3.73
0.19
0.75
1.63
2.84
964498.33
75016.80
601318
中国平安
2.54
23.03
20.16
10.56
10.52
11.08
23943550.00
2005300.00
601238
广汽集团
0.27
5.14
0.05
2.53
1.38
5.28
1102603.51
174470.70
000576
广东甘化
0.04
2.26
-0.20
-0.71
1.92
1.65
27752.41
1654.18
000541
佛山照明
0.19
2.95
0.08
0.68
0.63
6.24
158184.28
17932.06
000539
粤电力A
0.43
4.26
1.43
1.15
1.15
10.18
1887403.26
188990.63
600872
中炬高新
0.16
2.65
0.12
1.06
0.37
6.09
144227.59
12837.66
600728
佳都科技
0.01
2.08
-0.35
-1.26
2.18
0.47
76568.75
958.08
600332
白云山
0.52
5.26
0.81
1.79
1.93
9.69
1114028.85
65330.65
600325
华发股份
0.27
7.65
0.93
4.38
2.02
3.43
330377.96
21595.68
600323
瀚蓝环境
0.27
7.65
0.93
4.38
2.02
3.43
330377.96
21595.68
600098
广州发展
0.23
4.84
0.68
1.51
1.39
4.86
1012542.88
64331.41
600048
保利地产
0.01
0.13
0.01
-1.30
0.42
8.42
4125.50
270.29
600036
招商银行
0.69
6.81
-1.24
4.14
1.53
10.03
4410075.86
489525.20
600029
南方航空
1.49
10.45
1.23
4.61
2.35
13.12
8376575.00
3311425.00
600004
白云机场
0.11
3.45
0.67
0.86
1.47
3.17
6112725.00
108775.00
300311
任子行
0.49
6.63
0.96
2.34
2.80
7.44
317214.13
56502.32
300310
宜通世纪
0.19
5.86
0.00
1.44
3.25
3.18
12949.74
1316.18
300303
聚飞光电
0.15
3.60
-0.46
1.02
1.49
4.09
39919.05
2584.89
300301
长方照明
0.38
4.14
0.41
1.40
1.55
9.14
45402.74
8190.63
300030
阳普医疗
0.16
4.55
-0.11
0.75
2.69
3.49
22010.95
2353.71
300012
华测检测
0.22
2.54
0.29
0.84
0.61
8.51
45624.27
7996.10
300004
南风股份
0.17
4.63
0.01
1.15
2.33
3.67
23537.01
3188.58
200429
粤高速B
0.08
3.38
0.37
0.89
1.32
2.22
81594.69
9415.20
200026
飞亚达B
0.22
3.91
0.25
1.21
1.34
5.70
194054.27
8705.65
200025
特力B
0.04
0.88
0.06
-0.17
0.04
4.30
29779.41
855.84
200024
招商局B
1.62
15.52
-0.63
8.87
4.97
10.48
1985586.64
277836.16
000011
深物业A
0.44
3.08
0.12
1.75
0.16
14.11
116090.57
25960.70
000009
中国宝安
0.14
2.63
-0.06
1.13
0.41
5.47
244541.43
17701.41
000008
宝利来
0.05
1.85
0.12
-0.12
0.95
2.46
18799.91
1378.26
000001
平安银行
1.19
11.71
7.94
3.46
5.15
9.61
3226500.00
987800.00
为了消除误差,先对数据进行标准化,然后通过SPSS进行分析,进而得出结果。
1、进行数据标准化
2、利用SPSS进行K-Means聚类分析
表2:
最终聚类中心
FinalClusterCenters
Cluster
1
2
3
4
Zscore(每股收益)
1.94268
-.37926
1.55446
3.62497
Zscore(每股净资产)
1.22443
-.32091
1.28816
3.96022
Zscore(每股经营性现金流)
-.30574
-.22903
.94569
5.13282
Zscore(每股未分配利润)
1.44690
-.28642
.83944
3.44712
Zscore(每股资本公积金)
.90165
-.28799
.91975
4.42090
Zscore(净资产收益率)
2.37866
-.26471
.90380
.84696
Zscore(主营业务收入)
-.10444
-.23793
.92185
5.02732
Zscore(净利润)
-.07774
-.29088
2.83843
2.62336
表2展示了把33只股票分成四类后的最终类中心的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 聚类分析 证券 投资 研究