基于数据挖掘的股价走势预测.pdf

文档编号：3212321
上传时间：2022-11-20
格式：PDF
页数：57
大小：5.75MB

基于数据挖掘的股价走势预测.pdf

《基于数据挖掘的股价走势预测.pdf》由会员分享，可在线阅读，更多相关《基于数据挖掘的股价走势预测.pdf（57页珍藏版）》请在冰豆网上搜索。

基于数据挖掘的股价走势预测.pdf

华中科技大学硕士学位论文基于数据挖掘的股价走势预测姓名：

张胜权申请学位级别：

硕士专业：

概率论与数理统计指导教师：

周晓阳20090517华华中中科科技技大大学学硕硕士士学学位位论论文文I摘摘要要随着社会经济的发展和人们投资意识的不断增强，股票已经成为投资理财的一种重要工具，从而股票走势的预测具有十分重要的意义，然而，股票市场是一个极其复杂的系统，股价走势的预测问题是一个非常困难的问题，尽管如此，股价走势的预测还是引起了越来越多人的关注和研究。

数据挖掘，是90年代中后期发展起来的人工智能分支，它以发现海量数据中隐含的、新颖的、有价值的信息和模式为目标，是一种高层次的数据分析。

股票市场中积累了大量的交易数据，数据中隐含了大量有用的信息，采用数据挖掘的相关技术对股市数据进行分析，探索股价走势中的规律，建立股价走势的预测模型，无疑具有重大的现实意义。

本文以中国股票市场为背景，利用数具挖掘的相关技术建立了用于预测股票走势的定性预测模型和定量预测模型，并得到了比较好的结果，由于采用的数据是沪深股市其中550只个股近十年累计约120万个交易日的数据，数据具有很好的代表性，因此，模型具有良好的泛化能力，模型产生的结论也具有较强的说服力，模型具有一定的参考价值，同时，本文的研究页表明了采用数据挖掘的相关技术进行股价预测是可行的。

关键词关键词：

股票数据挖掘预测聚类k-均值两步聚类Kohonen决策树分类最近邻算法华华中中科科技技大大学学硕硕士士学学位位论论文文IIAbstractWithsocial-economicdevelopmentandstrengtheningofpeoplesinvestmentconsciousness,Theforecastofstockpricemovementisveryimportantandmeaningful，stockshavebecomeanimportantinvestmentinstrument.However,asstockmarketisaverycomplicatedsystem,forecastofstockpricemovementhasbecomeverydifficult;despitethechallenges,peoplearepayingmoreattentiontothisareaandaredoingmoreresearch.Data-mining，anewArtificialIntelligencebranchdevelopedsince1990s，focusondiscoveringvaluablemodeswhicharehiddeninmega-dataanditishigh-levelofdataanalysis.alargenumberofstockmarkettransactiondataisaccumulated,agreatdealofusefulinformationisimpliedinstockdata,Thus,usingdata-miningtechniquestoanalyzestockdataandexplorethelawinthestockpricemovement,buildingforecastmodelonstockpricemovementisverymeaningful.Thispaperbuildsboththequalitativeandquantitativeforecastmodelsofstockpricemovementusingdata-miningontheChinesestockmarketwithsatisfactoryresults.AmongthestockstradedontheShenzhenandShanghaiStockExchange,550stockshaverecordsof1.2milliontradingdaysaccumulatively,Dataarewellrepresented,sothemodelscanbewidelyextendedwithpervasiveconclusions.Webelieveitisworkabletoforecaststockpricemovementusingdata-mining.Keywords:

stocks,Data-Mining,forecast,clustering,k-means,Two-stepClustering,kohonen,DecisionTree，classification,nearestneighbor独创性声明独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。

尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。

对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。

本人完全意识到，本声明的法律结果由本人承担。

学位论文作者签名：

日期：

年月日学位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：

学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。

本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密，在__年解密后适用本授权书。

不保密（请在以上方框内打“”）学位论文作者签名：

指导教师签名：

日期：

年月日日期：

年月日本论文属于华华中中科科技技大大学学硕硕士士学学位位论论文文11绪论绪论1.1课题的研究背景课题的研究背景随着经济体制改革的不断深化，我国股票市场也在不断地完善和发展，股票市场已经成为我国证券业以及金融业不可或缺的组成部分，人们的金融意识和投资意识日益增强，股票投资已经成为一种人们愿意承担其风险的理财手段，股市投资的收益与风险往往是强正相关的，也就是投资收益越高，冒的风险也越大，因此，股票数据的分析和预测具有十分重大的理论意义和非常诱人的应用价值，然而，股票市场是一个极其复杂的动力学系统，高噪声、严重非线性和投资者的任意盲目性等诸多因素决定了股价走势预测的复杂性，股票的投资决策问题已成为金融工程及系统工程领域的前沿课题之一，也是迄今为止尚未很好解决的一个国际热点难题。

1.2当前研究的现状当前研究的现状随着人们对股市认识的不断加深，金融理论与数理工具的日趋完善，各种各样的预测方法也应运而生，特别是近年来，随着计算机技术、混沌、分形理论的发展，人们开始将股票市场的行为纳入非线性动力学研究的范畴。

己有不少研究文献表明股票市场是具有混沌现象的非线性动力系统，因此，迫切要求人们找到直接从数据中建立模型的方法。

人工神经网络（ANN）是被广泛应用于股市预测的方法之一，Mendelsohn和Stein（1991）用德国市场三年的日交易数据训练人工神经网络来产生买和卖的信号，使用一年的数据进行验证，表明神经网络产生的24个买入信号中一半是正确的，并可以带来满意的回报1，Sheng-chaiChi（1999）在研究中将灰色关联度引入到神经网络的输入变量，并对不同的网络拓扑结构进行了测试，研究表明灰色关联度的引入，提高了模型的预测精度并减少了网络训练所需要的时间，同时也表明更多的神经元数量并没有带来更高的预测精度2.国内方面，霍建军3，张秀艳4等针对中国股票市场，华华中中科科技技大大学学硕硕士士学学位位论论文文2用神经网络建立了相关的预测模型。

支持向量机（SVM）技术也被人们用于股市预测，SVM具有坚实的统计学理论基础，能很好的用于高维数据，文献5正是利用支持向量机的技术对股市进行预测，在支持向量机用于时间序列预测的理论基础上，给出了基于时间序列的支持向量机预测模型。

然而，很多文献尤其是国内的许多文献（如文献5,6），建立起来的对股市进行预测的模型或者方法均缺乏足够的数据作为支撑，它们建模时采用的一般是市场指数或者几只个股的某一小段行情数据，过少的数据不仅使模型在训练时容易产生过拟合现象（Overfitting），而且，由于股票之间存在差异，各段行情走势之间也存在差异，因此，对于整个市场的大部分情况，在几只股票或者某段行情基础上建立起来的模型的可靠性是值得怀疑的，总而言之，在小数据量的基础上建立起来的模型的泛化能力会比较差，得到的结论也缺乏足够的说服力1.3本文研究的目的及主要工作本文研究的目的及主要工作大量研究表明，股市具有一定的可预测性，因此，关键的问题在于找到一种能够描述实际价格波动各种特性的模型，并据此建立相应的预测方法，获得比较准确的预测，这正是本文的目的所在。

数据挖掘（DataMining）是从海量数据中寻找隐含的、未知的、非平凡的、有应用价值的信息或者模式，中国股票市场经过十几年的发展，积累了大量的交易数据，用数据挖掘的技术从海量的股票交易数据中寻找有价值的模式无疑具有可观的前景和重要的现实意义。

本文正是以沪深股市其中的550只股票近十年累计约120万个交易日的收盘价数据为数据对象，采用数据挖掘的相关技术，建立具有较好泛化能力的预测模型。

本文的主要工作包括：

（1）介绍了股价的可预测性问题，并认为股价具有一定的可预测性.

（2）.分别使用k均值聚类，两步聚类和Kohonen聚类技术，对沪深股市其中550只股票近10年累计约120万个交易日的收盘价数据生成的相对涨幅向量进行了聚华华中中科科技技大大学学硕硕士士学学位位论论文文3类分析，并在此基础上以“投票”的方式确定最终的聚类结果。

（3）.在

（2）聚类分析产生的结果的基础上，建立决策树分类模型，该模型用于对相对涨幅向量的后面几个分量进行定性的预测。

（4）.应用k最近邻技术建立对股价走势进行定量预测的模型，由于该模型分析的对象是沪深股市其中550只股票近10年约120万个交易日收盘价数据，数据具有广泛的代表性，模型具有良好的泛化能力，产生的结果具有较强的说服力，因而用该方法进行股价走势预测具有一定的参考价值。

1.4论文的结构安排论文的结构安排本文的结构如下：

第一章阐述了本文研究的课题背景，论述了相关研究的现状及进展情况，讨论了本文研究的目的及意义。

第二章阐述了股价的可预测性问题，并简单介绍了股价预测的方法。

第三章介绍了数据挖掘的基本知识，并比较详细的介绍了本文用到的：