支 援 向 量 机 於 股 价 涨 跌 预 测 之 应 用.docx
- 文档编号:5376226
- 上传时间:2022-12-15
- 格式:DOCX
- 页数:13
- 大小:154.73KB
支 援 向 量 机 於 股 价 涨 跌 预 测 之 应 用.docx
《支 援 向 量 机 於 股 价 涨 跌 预 测 之 应 用.docx》由会员分享,可在线阅读,更多相关《支 援 向 量 机 於 股 价 涨 跌 预 测 之 应 用.docx(13页珍藏版)》请在冰豆网上搜索。
支援向量机於股价涨跌预测之应用
支援向量机于股价涨跌预测之应用
UsingSupportVectorMachinesforStockPricefluctuationPrediction
陈雅雯1杨弘章2杨升桦3
1南华大学信息管理所
g0112007@mail1.nhu.edu.tw
嘉义县大林镇中坑中坑里32号
2台东师范学院信息管理系副教授
hcyang@cc.ntttc.edu.tw
台东市中华路一段684号
3南华大学信息管理所
g0112014@mail1.nhu.edu.tw
嘉义县大林镇中坑中坑里32号
摘要
支持向量机(SupportVectorMachine)是一个学习机器(learningmachine)的新颖方法,其基础建构于统计学习理论。
经由许多研究学者利用分类(classification)的方法着手实验研究于光学符号识别(OCR)[9]、手写邮政编码[3]等领域与使用回归(regression)分析运用在时间序列上做预测分析方面[4,5]都得到了良好的实验结果。
在效率市场假说前提下,我们使用技术分析[3]为预测变量,以主成份分析之方法,做为股票技术指标的筛选并利用支持向量回归(SupportVectorRegression)及支持向量分类(SupportVectorClassify)之方法运用于台湾股票市场股价波动之预测,其实验结果皆达六成以上,甚至有些股票公司之预测正确更是高达七成,显示SVMs方法运用于此十分良好。
关键词:
效率市场、主成份分析、支持向量回归、支持向量分类、技术分析
1.前言
现代人们在生活中已把投资理财当成重要的一环。
当人们有多余的钱,总会想把它放在银行、投资机构、甚至股票市场来赚取利息或是资本的增值。
以效率市场假说的前提下,来做股票市场的价格预测,表示在某些情况下股票是可预测的,但导致股票市场上价格的波动的因素有很多,例如:
经济、政治或是消息面等因素之影响,这些变量十分的错综复杂,因此令股票价格在预测上也变得相当的困难,但若可预期其股票价格之涨跌,在适当的时机进场买卖股票,其获利的机会同时也会大增。
近年来人工智能领域的大幅进步,过去人们所遇棘手问题现在都能够交由计算机来处理,而所得到的也结果也十分令人满意。
很多学者尝试以各种理论、研究方法来分析、解释台湾的股票市场,但却都得到差强人意的成果〔10-13〕。
在股票的分析指标有很多,怎样的选择才是我们最想要而且是最佳的指标呢?
本研究选择以统计学为基础的技术分析,主要是以股票市场循环与历史交易波动的轨迹,将成交价、成交量等以图形方式衡量买卖供需之强弱,以推得股票价格未来的走势。
投资人可经由技术分析来判断不同时期的股票价格走势的强弱,在高价时卖出在低价时买入,以达到获利之目的。
2.文献探讨
在国内外都有很多学者利用类神经网络、统计等各种方法运用在股票市场预测方面,在此做一个以支持向量机运用在股票市场及时间序列上之回顾探讨:
1.AlanFanandMarimuthnPalaniswami[1],主要的内容为以澳洲的股票市场为数据,使用SVM之支持向量分类(SVC)之方法透过八个财务指标来做分类标准,进而选择出高报酬之股票,最后以投资组合之方式求得其报酬率,在实验结果方面以208%的报酬率远远高于一般标准的报酬率(benchmarkreturn)71%。
2.K.-R.Milleretal.[5],主要内容为以支持向量回归(SVR)的方式实验于MackeyGlassEquation及DataSetDFromtheSantaFeCompetition的标准时间序列的数据(benchmarkdata),使用在于Huber及ε不敏感损失函数里做预测之研究,其实验结果再和类神经网络之径向基(RadialBasisFunction,RBF)方法比较,实验的结果错误率明显的下降。
国外之文献尚有许多关于这方面的研究,但国内的文献目前尚未可见,在此仅提出以上二篇具代表性之文献研究探讨。
3.支援向量机(SupportVectorMachines)
SVM的理论基础来自于V.Vapnik等提出的统计学习理论,它的基本思想是,在小样本的学习上,如何在学习任务上来得到最佳的推广(Generalization)性能;其最佳的推广能力则是希望SVM能够学习出较平坦的曲线,对于后来新增点也能够在以最少的变化来做分类或回归的方式,以下开始由经验风险开始介绍支持向量机。
3.1经验风险
我们根据给定的训练样本在计算出输入及输出值之间的关系。
设定训练集如下:
在学习过程中而透过一个函数f,来求得变量x,y之间的关系,在{f(x,y)}中求最佳的函数解,那它的期望风险值为
(1)
公式
(1)里,
称为期望风险,ƒ(x,α)为预测函数集。
因为P(x,y)未知,所以没有办法直接的计算出
,所以在此对于给定的训练值,我们可以先定义经验风险
(2)
在传统的学习方法中,采用了经验风险最小化(EmpiricalRiskMinimization,ERM),就是利用经验风险
代替期望风险,以大数法则可知道,随着训练样本数目的增加,
则可收敛于
,而在此所设计的学习演算的目的即为使
最小化。
3.2VC维(VCDimension)
统计学习理论是关于小样本进行归纳学习的理论,其中一个重要的概念是VC维(Vapnik-Chervonenkisdimension)。
而VC维为一个自然数,在任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大的,所以VC维越大复杂度的程度则愈高。
目前没有通用关于任意函数集的VC维计算的理论,对于特殊的函数知道其函数维。
例如:
在n维实数空间中线性分类及函数的VC维为n+1,如图1所示,平面中直线的VC维等于3,因为它们能打散3个向量而不能打散4个,则为向量A,C不能被直线来与向量B,D分开。
但如何用理论或实验的方法计算其VC维是当前统计学习理论中有待研究的一个问题。
图1超平面之VC维图
3.3结构风险最小归纳化
Vapnik和Chervonenkis证明,实际风险
满足一个上界,称为VC上界(VC_Bound),即任取η满足0<
<1,则下列边界以概率1-
成立:
(3)
上式中可看出实际风险
由二部份组成:
一是经验风险(训练误差)另一部份通常称为VC置信度(VCConfidence)。
在h/l的值很大时,即使
很小,也无法保证得到很好的推广性能(即
很小)。
因此,为使实际风险
最小,我们必须使经验风险都变小。
但是,经验风险
随着h/l的增大而减小,因此在VC维数h取某个最优值时,可以得到最佳的推广性能。
为此,采用有序风险最小化归纳法来寻找最优的h,使经验风险与VC置信度的和最小,如图2所示。
图2结构风险最小归纳原理
以上曾提及风险的计算是由二个部份所形成的,一为经验风险另一个就是VC置信度(VC_Confidence)的部份。
为了最小化风险的上界,所以存在着两种解决方案。
一种方法是使VC置信度不变,使经验风险最小,类神经网络(NeuralNetworks)则采用的是此种方法;另一种方法是固定经验风险,使VC置信度最小,而支持向量机(SVM)便是采用的是此种方案[8]。
3.4支援向量分类(SupportVectorClassify)
延续支持向量机的概念我们是要保持经验风险值固定而最小化置信值。
我们则由考虑线性的分类规则由分类超平面开始。
3.4.1最优超平面
假定训练数据
(7)
可以被一个超平面
(8)
分开。
如果这个向量集合被超平面没有错误地分开,并且离超平面最近的向量与超平面之间距离是最大的(或称间隔(Margin)最大),则我们说向量集合是被最优超平面(或是最大间隔超平面)分开,如图3所示。
图3.最佳超平面图
以上的线性可分的情形,我们可假定训练集中向量可满足下列不等式:
(9)
将上述不等式合并为
(10)
于是为了构造最佳超平面的问题,在公式(9)的条件下,求
(11)
的最小化值(最小化是关于向量w及b)。
3.4.2非线性SVM
延续支持向量机的概念在处理非线性的问题时,它的基本思想是:
将输入向量x能通过事先确定的非线性空间,来映像到一个高维度的特征空间中,在这高维特征空间中来构建最佳超平面。
从上述线性的情况讨论来可以看出,向量之间只进行点积运算。
因此,如果采用核函数(KernelFunction),就可在高维特征空间中做线性分类之运算。
我们将这过程表示如下:
首先将输入向量x通过映射
映像到高维特征空间H中:
(12)
设核函数K满足
(13)
在二次规划问题中的目标函数则变为
(14)
而实际运作时,只需计算下列函数
(15)
即可。
3.4.3核函数(KernelFunction)
在非线性的分类问题中,并不需要知道其高维特征空间H,只需要选择合适的核函数即可。
目前常用的核函数主要有线性核函数、多项式核函数、径向基核函数及类神经网核函数,其公式如下:
线性SVM:
,(16)
多项式SVM:
,(17)
径向基SVM:
,(18)
类神经网SVM:
,(19)
核函数的使用应配合输入的数据点而定,最常使用为径向基(RadialbasisFunction,RBF),因为非线性的问题,透过RBF的转换而呈现出的实验结果很好,所以也常被人拿来和类神经方法中的径向基网络来做比较[4,5]。
3.5支援向量回归(SupportVectorRegression)
支持向量机另外的一个方法-支持向量回归(SVR),其基本观念为也和非线性分类一样,将输入向量X透过非线性的映像函数(核函数)映像到一个高维的特征向量,然后在这个空间内做线性回归。
以下为基本的概念公式:
(20)
这里的b是门坎植。
然而,在低维度(或特征)里做非线性回归相当等于在高维度空间里做线性回归之计算。
在公式(20)里,ω.Φ(x)为计算高维度特征空间,当Φ为固定时,我们就应该使得ω在经验风险最小化,但是应该如何来做呢?
首先我们加入以下的参数值使得特征空间趋于平坦;
(21)
在此C为成本函数(CostFunction),而λ为可调节的参数。
对于成本函数的大量数据值,可藉由公式(21)来解决二次规划的问题并且来求得成本函数最小化和算出唯一解。
向量ω则根据资料点可写成
(22)
αi,αi*为解决前述二次规划的问题的解,可见(图1(b)),现在来解释αi,αi*主要的意义为:
在计算公式(20)中f(x)值接近于公式(21)中的yi,因为只要f(x)值和yi愈来愈接近,其成本函数则愈小,则经验风险值则愈小。
我们利用内积计算的方式再把于低维度映像至高维度的空间公式重写为以下:
(23)
由公式(23)那再度导入核函数(KernelFunction)〔2〕的概念,其核函数的基本公式见3.3.2。
3.5.1ε不敏感损失函数
我们采用的损失函数类型,即为ε不敏感损失函数,其主要的概念来自于原本的Huber的损失函数〔5〕,其ε不敏感损失函数公式如下:
(24)
这个损失函数主要在描述:
如果预测值(f(x))与实际值(y)之间的差别小于ε值,则损失等于0。
所以在于图4(a)上所显示起始值并非为0(ε值=1),在图4(b)上所显示出的损失函数也为管状(ε值=1)。
为求二次规划问题最小化,将其公式重新定义为以下:
(25)
图4:
ε不敏感损失函数图
4.资料来源
本研究选择1999年1月1日至2002年12月31日为研究期间。
资料训练期间为1999年1月1日至2001年12月31日,资料测试期间为2002年1月1日至2002年12月31日。
数据来源为ezChart网站提供之数据库所提供之整理数据;而数据原始来源为台湾证券交易所所提供,内容包括日期、开盘价、最高价、最低价、收盘价。
本研究样本之抽取为来自参考文献[8],首先针对台湾公开上司个别股票,以产业为别,分层随机抽取第一类股若干家公司,为台泥(1101)、味全(1201)、台塑(1301)、远纺(1402)、台玻(1802)、光宝(2301)、国健(2501)、彰银(2801)、远百(2903)共九家台湾股票公司。
5.实验结果
其实验步骤如下:
5.1技术指标的输入
以技术指针选入15个变量(移动平均线(MA)、相对强弱指标(RSI)、随机指标(KD)、威廉指标(W%R)、心理线(PSY)、乖离率(BIAS)、动态指针(MTM)、趋向指标(DMI)等),如表1所示。
表1:
初始选入之技术指标表注1
MA6
MA12
MA24
RSI6
RSI12
K10
D10
W%R10
PSY10
BIAS6
3-6BIAS
DMI10.ADX
MTM6
DIF
MACD
注1:
技术指标之详细说明请见[附录A]
5.2变数的筛选
利用SPSS软件包因素分析方法中之主成份分析法来筛选出技术指标,以达影响99%为主,来选入重要之指标,由表3可看出原本有15个变量经由主成份分析后我们可以选出如表2以下表示:
表2:
重要技术指标表
MA6
MA12
MA24
RSI6
RSI12
K10
D10
W%R10
PSY10
BIAS6
表3:
台泥之主成分分析总变异量表
因为受篇幅之限制,不在此一一列出个股之主成分分析总变异量表。
5.3预测之方法:
以Matlab软件来撰写其SVC及SVR之方法其设定为:
损失函数为ε不敏感损失函数,核函数为线性,求得之股价,
5.4目标值:
假设n日股价的形式为为Xn=(On,Hn,Ln,Cn)
在此之On为开盘价,Hn为最高价,Ln最低价,Cn收盘价,则n日的股价平均水平为:
Pn=AVEAGE〔Xn日(On,Hn,Ln,Cn)〕
先取前后二日与n日股价的中位数;再取以上四个价格的平均值。
5.5预测正确率:
以SVC找出涨跌的分类和SVR求之股价再计算其涨跌,再以计数法来求出正确率。
将选出的9家股票公司做为实验公司,其实验结果如下:
表4.使用支持向量机之实验结果
股票公司
台泥(1101)注2
味全(1201)
台塑(1301)
远纺(1402)
台玻(1802)
SVR正确率
73.7705
65.5738
75
74.1803
65.984
SVC正确率
72.5410
64.7541
63.5246
67.2131
65.5738
股票公司
光宝(2301)
国建(2501)
彰银(2801)
远百(2903)
SVR正确率
70.9016
67.2131
75
64.3443
SVC正确率
67.6230
66.3934
67.2131
66.8033
注2:
此为公司代码
透过实验结果可以清楚的表示出,以SVC及SVR的方法来做股价波动预测情况非常的良好,其预测正确率皆达六成以上,比一般利用类神经网络或是传统回归的方法约五成五左右还要高出许多(11),尤其是利用回归的方式来做预测比上分类之预测,在台泥、台塑、远纺、光宝、彰银这些股票公司之正确率更高达七成。
6.结论及建议
在效率市场假设下,股票市场的股票价格是一个可被预测的趋势,所以本研究使用过去台湾股票市场的股票价格与实际交易的历史数据及其相关的财经数据做为变量,运用在未来股票价格波动预测之探讨。
方法利用SVR方法设定ε不敏感损失函数下,来求得经验风险最小,其实这个研究经由V.Vapnik[4,5]的实验证明可以得知运用在时间序列里可得到良好的结果。
时间序列(TimeSeries)系一组按时间顺序发生出现的事件,分析人员根据每一固定时间间距(TimeInterval)顺序纪录事件结果,而时间序列数据最大特点就是当中每一笔紧接着数据的纪录时间间距均相同;而股票市场为固定时段价格变化是为时间序列数据例子。
由于V.Vapnik[4,5]的实验证明,故本研究便尝试将因素分析的部份利用主成份分析做为变量之筛选,再使用支持向量机(SupportVectorMachines)之二种方法来验证台湾股票市场上股票价格之波动预测,经过实验结果都呈现六成以上的正确率,这表示利用SVR及SVC在运用到台湾股票市场股价波动之预测十分良好,甚至比过去学者所使用之研究方法-类神经网络或是传统回归方法等,所得之正确率都还要来的高。
在此来若可加入实际卖买运作的实证研究,相信配合着报酬率的计算及评估,其分析研究所得之结果就更具代表性。
7.参考文献
1.AlanFanandMarimuthnPalaniswami,“StockSelectionusingSupportVectorMachines.”,IEEE.(2001).
2.A.Smola,B.Scholkopf,andK.-R,Muller.,”Generalcostfunctionforsupportvectorregression.”InT.Downs,M.Frrean,andM.Gallagher,editors,Proc.oftheNinthAustralianConf.onNerualNetworks,page79-83(1998).
3.B.scholkopf,K.Sung,C.Burges,V.Vapnik,F.Girosi,P.Niyogi,T.Poggio,”ComparingSupportVectorMachineswithGuassianKernelstoRadialBasisFunctionClassifiers”,MASSACHUSETTSINSTITUTEOFTECHNOLOGYARTIFICIALINTELLIGENCELABORATORYandCENTERFORBIOLOGICALANDCOMPUTATIONALLEARNINGDEPARTMENTOFBRAINCOGNITIVESCIENCES,A.I.MemoNo.1599,C.B.C.L.PaperNo.142(1996).
4.K.-R.Miller.A.J.Smola,G.Ratsch,B.Scholkopf,J.Kohlmorgen,V.Vapnik,”PredictionTimeserieswithSupportVectorMachines”,SpringerLectureNotesinComputerScience,Vol.1327,999-1004,Berlin(1997).
5.K.-R.Miller.A.J.Smola,G.Ratsch,B.Scholkopf,J.Kohlmorgen,V.Vapnik.,”UsingSupportVectorMachinesforTimeseriesPrediction.”,AdvancesinKernelMethods-SupportVectorLearning,MITPress,Cambridge,MA,243-253(1998).
6.杜金龙,「基本分析在台湾股市应用的诀窍」,初版,金钱文化出版(1996)。
7.V.Vapnik着,张学工译,「.统计学习理论的本质」,清华大学出版社(2000)。
8.史忠植,「知识发现」,第一版,清华大学出版社,pp.206-207(2002)
9.V.Vapnik.,”TheNatureofStatisticalLearningTheory.”SpringerVerlan,NewYork.(1995)
10.邱玉玫,「运用财务报表分析预测股票超额报酬率之研究」,国立台湾大学硕士论文(1992)。
11.王春笙,「以技术指标在预测台湾股市之实证研究」,国立台湾大学硕士论文(1996)。
12.钱善生,「模糊理论与专家系统在台湾股市之应用」,国立台湾大学硕士论文(1996)。
13.林晓雯,「类神经网络在台湾股市投资之应用-指针选取与回馈式网络架构之建立」,国立台湾大学硕士论文(1997)。
〔附录A〕
选定指标说明
1.移动平均线(MA),利用统计学上『移动平均』的原理,将一定期间内的股价相加并加以平均,得出一个平均值,然后将其连接取得之平均线,即为『移动平均线』。
2.相对强弱指标(RSI),其主要特点是计算某一段时间内买卖双方力量,作为超买、超卖的参考与K线图及其它技术指标一起使用。
3.随机指标(KD),其适用范围以中短期投资的技术分析为最佳。
4.威廉指标(W%R),运用股市的摆动点来量度其超买超卖现象,可以量度循环期内的高点或低点,提出有效率的投资讯号,其为一有效的短期指标。
5.心理线(PSY),是研究某段期间内投资人趋向于买方或卖方的心理,来做为买卖股票的依据,事实上,它就是一种人气指标。
6.乖离率(BIAS),乃是用以测定当日股价与移动平均线偏离程度的一项技术指标:
当股价偏离平均线时,它最终应该都会回归平均线的平衡状态。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 支 援 向 量 机 於 股 价 涨 跌 预 测 之 应 用.docx
![提示](https://static.bdocx.com/images/bang_tan.gif)