金融数据挖掘的应用.docx
- 文档编号:20723722
- 上传时间:2023-04-25
- 格式:DOCX
- 页数:12
- 大小:47.22KB
金融数据挖掘的应用.docx
《金融数据挖掘的应用.docx》由会员分享,可在线阅读,更多相关《金融数据挖掘的应用.docx(12页珍藏版)》请在冰豆网上搜索。
金融数据挖掘的应用
计算机科学与技术前沿
题目
金融数据挖掘的应用
学院
物电学院
专业
计算机软件与理论
学号
学生姓名
指导教师
完成日期
2015年1月
摘要
2014年11月30国务院发出《存款保险条例(征求意见稿)》并向社会征求意见稿。
近几年随着金融市场的开放,外资金融机构的进入,多种金融创新将不断涌现,竞争也随之不断加剧。
同时也不可避免的是金融行业而临诸多新的风险,这使得金融机构的经营管理既要进行管理上的创新、经营业务上的创新,又要及时的规避风险。
数据挖掘技术是金融业继信息化技术之后的另一个创新点与重要的技术工具。
数据挖掘就是利用各种技术从海量的数据中发现知识,它具有广阔的应用与前景。
文章比较详尽概论总结了数据挖掘的概念、方法、及应用。
并且分析、归纳了数据挖掘在金融领域的应用,具体包括趋势预测、客户关系管理、金融犯罪侦测、风险识别与管理等。
关键字金融数据挖掘;金融市场;金融数据;预测;应用
一、绪论
我国金融行业是信息化起步比较早,相对比较成熟的。
在全而实现电子化的过程中积累了大量的数据。
这些数据背后隐含着大量的知识与规则。
而多数机构并没有挖掘出这些知识与规则。
甚至有的企业并没有意识到它的存在和价值,更谈不到挖掘与利用。
然而也有类似天猫等网络巨头想在这大量的金融数据中获得他的未来商机。
近几年随着金融市场的开放,外资金融机构的进入,多种金融创新将不断涌现,竞争也随之不断加剧。
同时也不可避免的是金融行业而临诸多新的风险,这使得金融机构的经营管理既要进行管理上的创新、经营业务上的创新,又要及时的规避风险。
数据挖掘技术是金融业继信息化技术之后的另一个创新点与重要的技术工具。
数据挖掘技术是计算机为社会发展提供的又一大工具。
目前,外国常用的分析方法,对于金融业尤其是外资商业银行的海量数据,
常见的算法有:
神经网络(NeuralNetwork),统计分析(StatisticalAnalysis),遗传和进化算法(GeneticandEvolutionaryAlgorithms),链接分析((LinkAnalysis)专家系统((ExpertSystem),启发式方法((Heuristics),规则归纳(RuleInduction)和基于实例的推理((CaseBasedReasoning)等。
还有其他方法的研究也往往是基于数据的处理和分析,如贝叶斯技术、概率与数理统计分析、蒙特卡洛(MonteCarlo)技术、线性规划、聚类和回归技术等。
目前商业银行基于客户数据挖掘还只是处于初步阶段,能够用于实践分析挖
掘技术。
如包括决策树(DecisionTree),支持向量机(SupportVectorMachine)
准则推断(RuleInduction),神经网络(NeuralNetworks),关联探(Association
Detection)和基因算法(GeneticAlgorithms)等等也才刚刚开始积累经验。
本文将先介绍数据挖掘的基本概念,然后对数据挖掘三种主要技术进行了介绍。
接着对数据挖掘的过程做简单介绍。
最后说明数据挖掘在经济生活中的应用。
在结论做简单回顾并提出数据挖掘还存在的问题。
二、数据挖掘基本概念
随着计算机软硬件技术、网络技术等的飞速发展,各行各业的数据库中积累了大量的数据,而且每天还在急剧地增长。
在这大数据时代,这些海量的数据中隐藏着大量的、有用的知识,这些知识表现为关联、规则、趋势等。
而传统地阅读或简单的数据检索,远不能够及时提取出那些不同层次的知识,数据的真正价值远没有被发现与利用。
这不仅造成了信息的浪费,更重要的是企业失去商机。
为了避免这种情况,减少损失,寻找商机,必须要有一种能分析大量数据的新型的数据分析技术,数据挖掘正是这样一种技术,它融和了数据库技术、人工智能、统计技术、机器学习等技术,它能够把海量的数据被自动地和智能地转化为有用的信息和知识。
数据挖掘(DataMining)或称为知识发现,也称为基于数据库的知识发现,是通过信息技术对大量的数据进行探索和分析的过程,在浩如烟海的数据中提取有用、有效的信息,发现有用的模式与规律。
数据挖掘是指在对大量的企业历史数据进行探索后,揭示出其中隐藏着的规律性内容,并且由此进一步形成模型化的分析方法。
数据挖掘的概念在1989国际人工智能联合会议上首次提出。
其含义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。
与传统的统计方法如查询、录入等相比,数据挖掘技术可帮助决策者分析历史数据及当前数据并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,从而为决策行为提供有力支持。
数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。
金融数据正是有着数据类型多,关系复杂,动态性和数据量大的等特点。
通过数据挖掘还可以建立起企业整体或某个业务过程局部的不同类型的模型。
这些模型不仅可以描述企业当前发展的现状和规律性,而且可以用来预测当条件变化后可能发生的状况。
这可以为企业开发新的产品和服务、甚至于为企业机构的重组提供决策支持依据。
数据挖掘技术往往与数据仓库技术紧密结合。
数据仓库是而向主题的、集成的、相对稳定的反映历史变化的数据集合。
多数数据挖掘是基于数据仓库的,数据仓库为数据挖掘提供有价值的数据。
淘宝的商品推荐系统是通过分析挖掘大量的离线的顾客的消费信息,然后结合在线顾客行为信息向顾客推荐商品的。
三、数据挖掘主要技术
金融数据挖掘是数据挖掘应用到金融领域中,时至今日数据挖掘的算法和变种算法数不胜数。
接下来着重介绍三种常用的技术:
神经网络、遗传算法和统计推论。
3.1神经网络
人工神经网络是电脑通过多重输入相似平行处理结构来模拟人类识别模式的功能建造起来的。
神经网络由一系列的基本处理单元组成(也称为神经元),这些处理单元是按层分布的。
大多数神经网络包含有三种类型的层:
输入、隐藏和输出。
神经网络用来存储捕获的知识并能为将来所用,它用来刻画神经元之问的关联模式,捕获在给定的数据集合中因变量和自变量之问的因果关系。
神经网络提供了一类准确性令人满意、程度上接近金融模式的工具。
由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题。
典型的神经网络模型主要分为三大类:
以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。
神经网络方法的缺点是“黑箱”性。
由于很难对一个神经网络表示的模型做出直观的解释使得神经网络相当于一个“黑盒”,使用者无法考虑“盒子”里面的内容,只能使用。
这个“黑箱”性就使得人们难以理解网络的学习和决策过程。
SearchSpaceLtd.为伦敦股票交易所开发了MonITARS,这个软件集合了遗传算法、模糊逻辑、神经网络技术,被用来发现内部交易和市场操作。
ChartierandSpillane也描述了神经网络在发现洗钱中的应用。
在反洗钱系统中,神经元网络可以通过本身所包含的无数个神经元持续不断地对报告数据进行反复计算,对某项资金流动是否牵涉洗钱活动进行认定,自动发现洗钱线索。
并能通过自动学习制定出最为有利的反洗钱整体分析方案,提高数据分析效率。
3.2遗传算法
遗传算法的基本思想是给出一个问题,在特有的人口遗传群体中潜在地含有解决方案或者较好的解决方案。
要用遗传算法要先了解算法的由来。
Darwin进化论最重要的是适者生存原理。
它认为每一物种在发展中越来越适应环境。
物种每个个体的基本特征由后代所继承,但后代又会产生一些异于父代的新变化。
在环境变化时,只有那些熊适应环境的个体特征方能保留下来。
Mendel遗传学说最重要的是基因遗传原理。
它认为遗传以密码方式存在细胞中,并以基因形式包含在染色体内。
每个基因有特殊的位置并控制某种特殊性质;所以,每个基因产生的个体对环境具有某种适应性。
基因突变和基因杂交可产生更适应于环境的后代。
经过存优去劣的自然淘汰,适应性高的基因结构得以保存下来。
遗传算法GA把问题的解表示成“染色体”,在算法中也即是以二进制编码的串。
并且,在执行遗传算法之前,给出一群“染色体”,也即是假设解。
然后,把这些假设解置于问题的“环境”中,并按适者生存的原则,从中选择出较适应环境的“染色体”进行复制,再通过交叉,变异过程产生更适应环境的新一代“染色体”群。
这样,一代一代地进化,最后就会收敛到最适应环境的一个“染色体”上,它就是问题的最优解。
基于遗传和进化原则,遗传算法反复修改人口的人工结构,操作员通过预置、选择、交叉和改变来逐步形成解决方案。
3.3统计推论
统计学为数据分析问题提供了坚实的理论基础。
通过假设确认和数据分析,统计技术能够得出用来描述大量样本中可能性的渐近结果。
基本的统计探测方法包含检查变量分配,复查关联矩阵系数和检查多维频率表。
在多变量的数据集中为特有的分辨模式而设计的多变量的探测技术包括:
簇分析、因子分析、判别函数分析、多维定标、对数线性分析、关联规范、逐步线性和非线性回归、时问序列分析和分类树。
在所有的技术中,判别式分析,因子分析,规则成分分析和回归模型已经频繁的应用于分辨金融市场各个变量关系中。
在数据挖掘的时候,有时候一门学科往往解决不了问题,需要结合数学,经济学和物理学等等学科结合。
四、数据挖掘主要步骤
数据挖掘一般有以下几个主要步骤:
1.定义问题。
对口标有一清晰、明确的定义,也就是确定需要解决的问题,这个口标应是可行的、能够操作与评价的。
2.数据收集。
大量全而丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从作起。
因此,数据收集是数据挖掘的首要步骤。
数据可以来自于现有事务处理系统,也可以从数据仓库中得到。
3.数据整理。
数据整理是数据挖掘的必要环节。
由数据收集阶段得到的数据可能有一定的“污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,因此数据的整理是必须的。
同时,通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础之上得到更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。
4.数据挖掘。
利用人工智能、数理统计等各种数据挖掘方法对数据进行分析,发现有用的知识与模式。
这是整个数据挖掘过程的核心步骤。
5.数据挖掘结果的评估。
数据挖掘的结果有些是有实际意义的,而有些是没有实际意义的,或是与实际情况相违背的,这就需要进行评估。
评估可以根据用户多年的经验,也可以直接用实际数据来验证模型的正确性,进而调整挖掘模型,不断重复进行数据挖掘。
6.分析决策。
数据挖掘的最终口的是辅助决策。
决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。
总之,泰山不是一日而成。
数据挖掘是探求数据的奥秘。
数据挖掘过程需要多次的问题修改、模型调整、重新评估、检验等循环反复,才有可能达到预期的效果。
五、数据挖掘在金融行业的应用
金融市场正在不断产生海量数据,分析这些数据、解释有价值的信息和帮助做出金融决策对于数据挖掘来说,是巨大的机会和宏伟的挑战。
大多数金融数据是随机排列的,非线性的和非固定行为的,因此构造模型非常困难。
时问序列是一连串的实数,代表每隔一段相等时问测出的实变量的值。
例如,时问序列能表明股票价格或者兑换汇率。
通常的统计分析和测试显示金融的时问序列是非随机的,非线性时问序列的解码能力和金融时问序列的预测使得神经网络的使用非常普遍。
当我们选取数据用来挖掘时,持续训练时问长和样本较多的数据被认为是首选的模型。
在过去的几十年中,人们已经在挖掘时问序列数据方面做出了很大的努力。
到目前为止,数据挖掘已经成为在金融数据中分辨出动态和非线性关系的解决方案。
这些金融业务都需要收集和处理大量数据,很难通过人工或使用一两个小型软件进行分析预测。
而数据挖掘可以通过对已有数据的处理,找到数据对象的特征和对象之间的关系,并可观察到金融市场的变化趋势。
然后利用学习到的模式进行合理的分析预测,进而发现某个客户、消费群体或组织的金融和商业兴趣等。
它已经被应用于多种金融区域,包括预测股票,有价证券管理和投资风险分析,破产和外汇兑换比率的预测,金融诈骗的探测,贷款支付预测,客户信誉政策分析等等。
金融市场分析和预测、帐户分类、银行担保和信用评估等。
5.1客户关系管理
数据挖掘可以进行客户行为分析来发现客户的行为规律,包括整体行为表现和群体行为模式,市场部门可以理由这些规律制定相应的市场战略与策略;也可以利用这些信息找出客户的关注点及消费趋势。
从而提高产品的市场占有率及企业的竞争能力。
数据挖掘能够帮助企业找出对企业有重要意义的客户,包括能给企业带来丰厚利润的黄金客户和对企业进一步发展至关重要的潜在客户。
对于企业而言,数据挖掘能够根据已有的信息对未发生行为做出结果预测,有助于揭示已知的事实,发现业务发展的趋势,预测未知的结果,为企业经营决策、市场策划提供依据。
“以客户为中心”的数据挖掘内容涵盖了客户需求分析、客户忠诚度分析、客户等级评估分析等三部分,有些还包括产品销售。
其中,客户需求分析包括:
消费习惯、消费频度、产品类型、服务方式、交易历史记录、需求变化趋势等因素的分析。
客户忠诚度分析包括:
客户服务持续时间、交易总数、客户满意程度、客户地理位置分布、客户消费心理等因素的分析。
客户等级评估分析包括:
客户消费规模、消费行为、客户履约情况、客户信用度等因素的分析。
产品销售分析包括:
区域市场、渠道市场、季节销售等因素的分析。
5.2风险识别与管理
可以建立一个分类模型,对银行贷款的安全或风险进行分类。
也利用数据挖掘技术进行信贷风险的控制。
信贷风险管理主要包括:
风险识别、风险测量、选择风险管理工具、效果评价。
全部过程涉及到的信息包括相关商品市场状况、行业现状、行业发展、企业管理、人事、财务状况等一系列内容,信息的庞杂造成手工评估、管理的难度大大增加()而现有的银行信贷系统一般都分析的需求。
为此,可以建立一套独立于业务系统的数据仓库,专门解决信贷分析和风险贤管理的问题。
虽然神经网络和统计模型已经应用于破产预测,但它们可能遇到两种状态的不同的利益问题,在评估网络的预测性能时产生至少两个主要障碍。
第一个问题基于训练神经网络或估计统计模型的参量,包含了不同频率影响的两种状态(即,破产对非破产)。
从不平衡人口的随意抽样可能产生一个包含大多数利益状态的样本。
因此,神经网络或统计模型的决定性能在现实情况中检验也许是不太理想的。
要克服这个问题,研究人员选择了取样技术,这种技术进入样品的观测可能性取决于因变量的值。
第二个问题包括评估各种决策模型的准确性。
一般来说,在例如破产预测中拥有平衡样本的神经网络可能使网络熟悉自己少有的利益状态。
关于平衡样本训练的神经网络在现实条件下测试时能够提供最好的结果。
5.3市场趋势预测
数据挖掘技术可以进行数据的趋势预测,比如金融市场的价格走势预测、客户需求的变化趋势等。
在股票市场的预测方面,先前的研究已经证明:
预测个人股票未来的收益基于许多基本因素的增长率,例如税收,每股收益,投入资本,债务和市场份额,以及其它等等。
传统的回归模型被用来显示股票市场的改变,但是,那些模型只能预言线性的模式。
到目前为比在股票市场预测中占有统治地位的数据挖掘技术是神经网络模型,包含向后传播(BP)网络,或然论的神经网络和循环神经网络。
基本假定是当忽略若干天的波动时,类似的输入时问序列一定会产生出类似的时问序列输出。
把回归模型和向后传播网络相比较,得出股票预测使用相同的数据,结果显示向后传播网络是较好预测者。
5.4识别金融欺诈、洗钱等经济犯罪
金融犯罪是当今业内而临的棘手问题之一,包括恶意透支、盗卡、伪造信用卡、盗取帐户密码以及洗黑钱等,严重威胁人们的财产及金融系统的正常运行。
要侦破洗黑钱和其它金融犯罪,重要的是要把多个数据库的信息集成起来,然后采用多种数据挖掘工具寻找异常模式。
发现短时间内,少数人员之间的巨额现金的流动,发现可疑线索。
用于检测洗钱可疑交易行为的平台现在也有不少很多,如美国统计分析系统公司和Mantas等反洗钱系统的模式识别技术应用可以与银行反洗钱工作智能监控系统高效结合起来。
BoltonandHand提出的检测方法:
对于一个单一账户采用断点分析(break-pointanalysistech),调查洗钱等可疑的交易。
首先在账户数据创建一个长度固定的动态窗口,并对比进入窗口的数笔数据和老旧数据。
其次将新进入窗口的数据与原有窗口数据,基于数理统计假设检验的方法,推测是否属于不同的行为模式。
唐等人指出,目前只有对比的方法,可以对正常的交易行为和可疑交易有不同的发现。
所以,应选择以支持向量机为基础的挖掘理论,而不是传统的、基于预设规则的过滤制度。
随着信用卡交易的继续增长,采用大份额付款系统会导致帐号更快的被窃取,因此,欺诈探测成为数据挖掘的一个主要应用,它致力于搜寻表示欺诈的模式,改进欺诈探测效率和维护付款系统的安全。
信用卡欺诈探测具有高度的特有的特征。
第一个是必须在非常有限的时问内做出采纳或拒绝的决定。
第二个是数据被高度歪曲:
许多交易是合法的而不是欺诈的,否则,整个行业将很快结束。
第三个特征是必须在给定的时问里处理巨额的信用卡操作。
这就意味着我们必须采用数据挖掘技术来处理在信用卡交易中可能出现的欺诈事件。
5.5投资组合管理
投资组合管理是投资中的一个主要问题。
它致力于个体怎样决定哪一种有价证券在投资组合中处于主导地位,基金应该怎样分配,例如股票对债券和国内债券对国外债券。
为了使收益增至最大,最重要目标是要选择一套风险资产在确定的风险或者为了得到收益而把风险减到最低限度卜建立一个投资组合。
除了上述讨论的应用之外,数据挖掘技术也被应用于例如贷款风险分析和付款预测,抵押计分和不动产的服务。
数据挖掘系统能根据顾客的收入、年龄和信用史的信息等确定他们能否支付贷款。
这种技术把当前客户信息与历史数据比较,然后把顾客分为其中一种预定义的顾客段来支付贷款,从而减少了银行的风险。
神经网络推荐使用基于金融比率,以前的信用级别和贷款纪录的方式同意或拒绝贷款。
六、结论
数据挖掘在金融领域具有广阔的应用,在口前在我国金融业则刚刚开始,有待于进一步的研究、开发、推广。
我们应该重点研究数据挖掘技术在市场预测、价格走势、欺诈侦测、交易模式识别、客户关系管理等方而的应用。
随着数据挖掘软件的成熟与金融行业信息化步伐的加快,数据挖掘技术定能在我国金融领域发挥其巨大威力,为提高银行、证券等企业的管理水平和竞争实力作贡献。
尽管把数据挖掘技术应用于金融应用的研究已经很广泛,但仍然有许多问题等待解决:
1)数据挖掘方法和参数。
基于数据挖掘的知识发现是一个反复的过程。
适当变量的选择、数据挖掘算法、模型评估和提炼是这个过程的主要组成部分。
虽然神经网络模型是在数据挖掘应用于金融中的最常用方法,但对各种各样的金融工程学问题来说神经网络仍然是一片空白。
2)可测量性和性能。
金融数据在以一个空前的速度积累着。
数据挖掘过程必须满足可测量性和计算效率的挑战。
现实生活中数据经常改变,导致了模型维护的问题。
3)金融数据的不平衡频率。
在例如破产预测和欺诈探测的金融应用中通常以利益的两种状态不平衡的频率为特点。
不平衡频率的出现在评估决策模型的性能时可能产生至少两个主要障碍,这些在前文中已经提到过。
所以,如何处理不平衡的训练数据集对产生好的金融模型至关重要。
在本文中,我们讨论了应于金融中的数据挖掘技术。
虽然数据挖掘应用于金融行业已经很久了,但仍然存在许多待解决的问题和挑战,为了达到对个体和机关的有效金融管理,我们仍然需要继续致力于这方面的研究。
这就是说,逐步改进的数据挖掘技术在金融应用中显示了巨大的潜力,并且会在基于新知识经济方面继续繁荣。
在研究过程中,将通过计算机软件实现金融高频数据挖掘结果的可视化,并实现人机交互式的数据挖掘过程。
对中国软件业来讲,任重道远。
参考文献
[1]李璠.银行数据挖掘的运用及效用研究[D].武汉大学2012
[2]丁宁,刘富星.数据挖掘在金融中的应用[J].广西轻工业.2009(07)
[3]段翀.数据挖掘技术及其在金融中的应用[J].科技信息.2009(28)
[4]倪丽萍.基于分形技术的金融逐句分析方法研究[D.]合肥工业大学.2010
[5]裴双喜基于数据挖掘的金融时间序列预测分析与研究大连海事大学2008
[6]王文利基于数据挖掘的金融时间序列的小波理论应用天津工业大学2004
[7]龙洁基于离群数据挖掘的可以金融交易识别研究湖南大学2007
[8]郭浩明基于海量金融交易数据的客户风险预警方法研究中国科技大学2014
[9]兰秋军,马超群,吴建宏,甘国君.数据挖掘技术及其在金融中的应用与前景[J].管理评论.2003(05)
[10]杨胜刚,王鹏.基于数据挖掘技术的人民币反洗钱系统设计[J].财经理论与实践.2005(06)
[11]李金迎,詹原瑞.金融行业的数据挖掘技术研究[J].现代管理科学.2009(08)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 金融 数据 挖掘 应用