数据挖掘要点整理.docx
- 文档编号:10627858
- 上传时间:2023-02-22
- 格式:DOCX
- 页数:17
- 大小:80.31KB
数据挖掘要点整理.docx
《数据挖掘要点整理.docx》由会员分享,可在线阅读,更多相关《数据挖掘要点整理.docx(17页珍藏版)》请在冰豆网上搜索。
数据挖掘要点整理
金融数据挖掘各章主要知识点
第一第二章:
1.数据挖掘的定义和数据挖掘的基本功能模块;
数据挖掘是从大量的、不完全的、有噪音的、模糊的、随机的实际数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘技术中比较成熟的主要功能模块
1、特征化、比较与关联规则挖掘
特征化就是总结某类样本的主要特征。
比较是分析不同组样本之间的最显著的差异是什么?
关联规则挖掘就是发现对象的各个指标之间具有怎样的潜在关联性;
2、分类与预测
分类与预测就是建立某种分类规则,根据这种规则可以判断某些样本分别属于哪一类别。
分类是对离散变量的预测,而预测则是对连续变量的预测;
3、聚类分析
聚类分析的目的是将数据集划分为合理的几类,以描述各类的区别。
与分类不同,分类是已知类别,建立分类规则,目的是确定新的对象归属于哪个类别。
聚类分析中,要划分的类别是未知的,目的也不是确定新的对象的归属。
4、序列发现(时间序列的数据挖掘)
假设历史为重演,发掘具有预测价值的图形(时间序列)、建立交易规则。
5、异常数据挖掘
发掘海量数据库中的异常数据,建立预警、预报系统。
如数据挖掘在反洗钱中的应用。
利用数据挖掘建立宏观经济的预警系统等。
2.数据挖掘的基本类型:
描述式挖掘与预测式挖掘;
1、描述式数据挖掘:
以简洁、概要的方式描述数据,并提供数据中的有用信息。
2、预测性数据挖掘:
分析数据,建立一个或一组分类模型或预测模型,利用模型预测新的对象的最有可能的归属。
3.将Excel数据集转化为SAS数据集、数据挖掘数据集的具体方法;
将Excel数据集保存为Excel4.0工作表;
打开SAS软件,按照步骤导入外部数据库,导入的数据集可以临时保存在Work库标记下(退出SAS系统后,导入的数据集将丢失),也可以长期保存在SASUSER库标记下。
由于6.12版本的SAS软件并没有汉化,因此数据集中的变量名中不要出现中文。
具体步骤(通过下拉菜单的方式):
File/import,在显示窗口中选择外部数据集类型(现在可选Excel5or7spreadsheet或者选择Excel4spreadsheet),点击next键;
选择外部数据集所在的路径,打开后,点击next键;
在显示窗口中选择库标记(系统默认的库标记为work),给定要建立的SAS数据集的名称,点击Finish键;
系统将在LOG窗口中给出所建立的SAS数据集的信息。
注意:
如果出现错误,SAS系统将会以其他颜色的字符来提示出错信息。
完成输入外部数据集后,可以通过下拉菜单:
Globals/Analyze/interactivedataanalysis的方式,对建立好的数据集进行检查。
4.一些重要的SAS函数:
计算收益率、正态分布的分布值、二项分布的分布值、Logistic分布的概率值、均匀分布的随机抽样数;
计算收益率:
r=log(p)-log(lag1(p));//r,p自己定义的变量名
正态分布的分布值:
p=probnorm(x);
二项分布的分布值见例题;
例:
利用历史模拟法和参数方法(正态分布假设)构建某金融机构资产组合的VaR模型,取
时,在一年中(252个交易日)两个模型分别具有3个、14个例外数,试检验这两个模型是否高估或低估了风险。
写出相应的SAS程序(检验的显著性水平为0.05)。
Dataa;
P1=probbnml(0.03,252,3);
P2=1-probbnml(0.03,252,13);
Run;
如果p1<0.05,则模型了高估了风险;如果p2<0.05,则模型2低估了风险。
5.SAS数据库编辑中的一些重要命令的使用
SAS函数表达式;
modify;if…then的使用方法;
set与merge、drop与keep、or与and的使用与区别;
如果两个(或多个)数据库的结构完全一样,即数据库的变量名、变量类型、变量排序一样,则可以通过set命令来对这些数据库进行纵向合并。
如果横向需要合并两个数据库(增加新变量),可以使用merge命令。
横向合并数据库时,要求两个数据库没有相同的变量名,否则,第二个数据库的同名变量就会在新数据库中失去。
Keep保留变量,Drop删除变量
Or是“或”运算,and是“且”运算,一般用于逻辑判断语句
利用sort命令对变量进行排序的方法;
在数据库中生成均匀分布的随机数的SAS命令;
Normal(seed)//产生标准正态分布的随机数
Uniform(seed)//产生[0,1]上均匀的随机数
Seed选取奇数
转换语句if…then…else的使用方法
例:
写出
的SAS表达式
z=log(sqrt(exp(x)+2*x))+log((x*x)/(3*y));
例:
数据库A中含有x1,x2,x3三个变量和200条件记录,试构建含有x1,x2,x3,z四个变量的数据库B,其中对前100条记录,z=x1+x3;对后100条记录,z=log(x2),写出相应的SAS程序。
Datab;seta;if_n_<101thenz=x1+x3;elsez=log(x2);run;
6.将一个数据集随机地分成训练样本组、检验样本组的SAS程序;
Datab;seta;//假设工作表中有表a
m=uniform(17)//种子数选取奇数就行
run;
procsortdata=b;bykm;//依据表中变量k,m排列
run;datab1;setb;run;
datab1;modifyb1;ifint(_n_/2)-_n_/2=0thenremove;run;//表b1保留奇数列
datab2;modifyb2;ifint(_n_/2)-_n_/2^=0thenremove;run;//b2保留偶数列
7.VaR的定义,计算VaR时的主要影响因素,利用历史模拟方法计算VaR的SAS程序。
假设银行资产组合的价值
在未来24小时内为一个随机变量,其密度函数与分布函数分别为
,对于给定的显著性水平
,VaR的定义为:
。
VaR的具体含义为:
在未来24小时内,可以以1-
的把握说,可能发生的银行资产的最大损失不会超过VaR。
VaR通常是以货币单位计量的,但是VaR也可以用其他单位计量。
VaR的计算涉及三个要素:
置信度、持有期、分布函数,其中持有期与分布函数密切相关
例:
利用历史模拟法计算深圳成指收益率的VaR,取显著性水平
,计算的时间段为2004.03.01-2004.04.30。
写出所涉及到的SAS程序。
Dataa;setsz;r=log(p)-log(lag1(p));run;//计算收益率
Datab;seta;run;
Modifyb;if_n_>300thenremove;run;//选取前300个交易日的数据
Procsortdata=b;byr;run;
Datab;modifyb;if_n_^=6thenremove;run;
Datac;setdb;run;
Datad;setc;run;
Datasz;modifysz;if_n_=1thenremove;run;
采用宏、或者简单复制方式实现连续计算
8.在SAS数据库中计算某些变量的均值和标准差,并将计算结果输出到指定数据库的SAS程序。
例:
数据库A中有x1,x2两个变量,分别计算这两个变量的均值、标准差,并将计算结果输出到B数据库。
Procmeansdata=a;
Outputout=bmean(x1)=mx1std(x1)=sx1
mean(x2)=mx2std(x2)=sx2;
run;
第三章:
1.在分类模型构建中,预测变量的选取方法;
建立分类规则首先要解决预测变量的选择问题。
可采用两步法来解决这个问题。
一、预测变量的初步选择
建立分类规则时,通常很难根据已有理论来判断哪些变量具预测价值,第一步是根据已有经验(实践经验或已有研究成果),尽量全面地将有可能作为预测变量的指标纳入其中(宁可有多余的,也不要漏掉重要的)。
二、预测变量的进一步选择
预测变量的进一步选择有多种方法,变量均值的t检验法、信号噪音差方法、SAS中的逐步回归方法等。
2.T检验方法的基本原理和SAS程序,T检验方法存在的主要缺陷;
变量均值的t检验法
建立分类规则时,所使用的预测变量通常可分为正指标(如利润率)——“好”企业指标值较大、“差”企业指标值较小;负指标(如负债率)——“好”企业指标值较小、“差”企业指标值较大。
一般来说,如果指标对预测
有信息价值,则指标的正、负性应较显著,或者说,两类企业在指标的取值上应存在显著差异,从而两类企业的指标均值存在显著差异。
变量均值的t检验法就是利用这种想法,来判断初选变量中那些可以舍去。
:
两类企业的指标均值相等(指标没有预测价值),
:
指标均值存在显著差异。
SAS系统中,进行变量均值的t检验法的过程如下:
procttestdata=sasuser.bank;
classk;(k分类变量)
run;
对每一个指标,在两类企业指标同方差、异方差的假设下,SAS系统给出t检验的伴随概率(伴随概率小于给定的显著性水平,应该拒绝
,指标具有预测价值)。
变量均值的t检验法是选择预测指标的一种常用方法,这种方法存在一定缺陷:
这是一种相对“粗糙”的检验方法,是通过均值是否存在显著差异进行的间接检验。
检验结果容易受到极端值的影响;
如果需进一步筛选(需减少指标数,或在相关性强的指标中舍去一些),这种方法不能提供更多信息。
3.随机变量的熵的定义和计算方法;
例:
已知随机变量y服从二项分布b(30,0.25)试写出计算y的信息熵I(y)的具体表达式
I(y)=
。
4.预测指标的信号比、噪音比的定义和计算方法;
指标
的信号比=
发出警报的违约企业数/违约企业总数,
指标
的噪音比=
发出警报的未违约企业数/未违约企业总数。
5.相关系数计算的SAS程序;
例proccorrdata=sasuser.bank;
varX1X4X5X6X12X13X15X16X20;
run;
6.判别分析的基本原理,马尔柯夫距离的具体含义和具体表达式,进行判别分析的SAS程序;
判别分析法是利用距离(样本点到总体中心的某个距离)来判断企业的归属。
马氏距离,即用:
,
来表示。
其中
为某个总体的方差-协方差矩阵判别分析法通常利用距离差:
,
来构建分类规则,即选取一个适当的临界值
,
时(样本点到总体0的距离足够大于到总体1的距离)时,判断样本点归属于总体0;当
时,判断样本点归属于总体1。
在构建分类规则时,临界值的选取要权衡两类误判(将违约企业判断为非违约企业,或者将非违约企业判断为违约企业)的损失,临界值的选择应该使总的误判损失达到最小。
(程序见讲义discrim语句)
7.在判别分析中,为什么要假设两个总体具有相同的方差-协方差矩阵?
在这种假设条件下,
中各指标的二次项可以相互抵消,这样
是指标X1、X5、X6、X12、X13和X16的一个线性函数。
真因为如此,判别分析法通常又成为线性判别分析法。
8.Logistic回归和probit过程的原理和SAS程序,逐步回归选择变量的SAS命令,两个SAS程序的区别;
Logistic具体形式为:
,
,
利用Logistic回归建立信贷风险预测模型的SAS程序
proclogisticdescendingdata=a1;
modelk=x1X5X6X12X13X16;
run;
程序提交运行后,SAS系统的output窗口将给出模型参数的估计结果。
从结果中可以看出模型对训练样本组数据的预测准确状况。
在构建企业信贷风险预测模型时,还需要用到以下程序:
datab1;seta1;
Z=(模型的具体表达式);
p=1/(1+exp(-Z));
run;
接下来选择临界值与建立分类规则的方法,与前面判别分析法相同。
对模型的预测准确率的判断,同样应该从检验样本组的数据中获得。
变量选取的逐步回归分析法
Backward——向后选择,剔除后不再进入;
Forward——向前选择,进入后不再剔除;
Stepwise——反复选择,进入后可以再剔除,剔除后可以再进入,直至找到一组较好的预测指标。
逐步回归的SAS程序如下:
proclogisticdescendingdata=a;
modelk=x1-X20/selection=stepwise;
run;
probit过程是构建分类模型的另一种方法。
如果在构造分类模型时,选用标准正态分布函数代替Logistic分布函数(区别),得到的分类模型就称为Probit回归模型或Probit过程。
单一解释变量
的Probit过程的具体形式为
在SAS系统中,相应的程序如下:
procprobitdata=a1;
classk;
modelk=x1X5X6X12X13X16;
run;
程序提交运行后,SAS系统的output窗口给出对模型参数的估计结果。
datab1;seta1;
Z=(模型的具体表达式);
p=probnorm(z);
run;
9.决策树模型的基本原理,决策树挖掘时需要设置哪些参数,其作用是什么;
决策树的分类原理如下:
首先寻找预测信息含量最大的指标作为树根,根据树根处的阈值将全部企业分为两组;
对每组企业再寻找信息含量最大的指标作为第二层树根,同时继续将企业分组;
这样的分组一直持续下去,直到满足以下条件之一为止:
分组后的企业满足属于同一类型;
以及达到参数确定的限制条件,如最大树深度、每片叶子的最大纯度、每片叶子的最少数据个数,此时,叶子的归属按照少数服从多数的原则给出。
10.决策树预测规则的表示方法及应用;
11.在分类预测模型构建时,为何需要建立训练样本组和检验样本组。
模型对训练样本数据存在过度拟合的现象,因此如果利用训练样本数据来判断,就会高估模型的预测准确性。
解决这个问题的方法:
在构建模型前,通过随机抽样的方法将数据分为训练样本组、检验样本组;利用训练样本组数据构建分类模型,利用检验样本组数据评价模型的预测准确率。
如果模型对训练样本组数据、检验样本组数据具有相接近的预测准确率,说明对模型的预测准确率的评价是比较稳健的。
第四章:
1.特征化挖掘与比较挖掘有什么共同点和不同点;
相同点:
根据挖掘结果,得到指定对象的特征
不同点:
特征化是给定一类样本的特征,而比较则是区分不同的类;
2.特征化挖掘前为何要对连续型数据进行必要的离散化处理?
3.关联规则的基本概念:
支持度、置信度的定义与计算;
频繁规则和强规则的概念;
规则体、规则头、规则长度的概念;
关联规则的表示方法;
支持度
支持度
,显然,只有支持度较大的规则才是较有价值的规则。
置信度
置信度
,显然只有置信度比较高的规则才是比较可靠的规则。
因此,只有支持度与置信度均较大的规则才是比较有价值的规则。
如果一个规则满足最小支持度,则称这个规则是一个频繁规则;
如果一个规则同时满足最小支持度与最小置信度,则通常称这个规则是一个强规则。
4.关联规则挖掘时有哪些重要参数需要设置,其作用是什么?
在进行关联规则挖掘前,需要首先指定支持度的临界值s,同时指定置信度的临界值c。
挖掘软件首先从指定数据库中挖掘支持度大于s的关联规则(称为频繁规则);
接着在频繁规则中挖掘置信度大于c的规则(同时满足两个条件的规则称为强规则);
数据挖掘软件通过逐步扫描的方式,寻找出数据库中全部满足条件的关联规则。
并指明各关联规则的发生频率、置信度,供使用者参考。
第五章:
1.利用价格变动相关分析法判断统一市场还是分割市场的基本原理及主要缺陷,为什么是对价格变动而不是直接对价格进行相关分析;
如果处于不同地域的同种商品市场(劳务市场)是同一市场,则当A地的某种商品价格上升时,对B地的该种商品的需求就会上升(替代效应),从而导致B地的该种商品价格的上升,这样,如果处于不同地域的某种商品市场是同一市场,则替代效应将导致两地市场上同种商品的价格是密切相关的,而分别处在两个分割市场上的商品或劳务的价格相关性较小,因此可用相关分析法,判断两个市场是同一的、还是分割的。
我们知道,由于通货膨胀等因素的影响,许多商品的价格存在随时间上升的趋势。
为排除价格趋势而出现“谬相关现象”,斯蒂格勒和舍温采用对价格变化进行相关分析,而不是对价格本身进行相关分析的方法,来判断两个市场是同一市场还是分割市场。
价格变动的相关分析法的缺陷:
1、相关结果的判断标准是什么?
2、注意到趋势造成的“谬相关”,没有注意到其他共同因素造成的“谬相关”,即价格相关不是由商品的替代产生,而是其他因素产生,如生产成本的上升,等。
2.组间相关系数与组内相关系数的概念及作用;
3.在相关分析中为何、以及如何扣除共同的影响因素;
解决第二个问题的一种方法是首先在每种价格变化中扣除共同因素的影响(利用回归分析),然后对残差再进行相关分析。
4.可以采用用格兰杰因果关系检验两个市场是同一市场还是分割市场的主要理由;
价格变动的相关分析法假定,如果两地市场是同一市场,则A地的价格变动立即会影响到B地的价格。
实际上,即使两地市场是同一市场,价格联动也可能存在一定的滞后性,这样价格变动的相关性方法就可能发现不了这种联动。
为解决这个问题,斯莱得(Slade,1986)提出采用格兰杰因果关系检验来判断两地市场是否为同一市场,并分析价格联动的方式。
格兰杰因果关系检验可以回答:
除A市场价格的滞后项对价格变动的影响外,B市场价格的滞后项是否也对A市场价格变动具有解释作用(预测作用)。
格兰杰因果关系的一种检验方法是建立方程:
;
,
如果
在统计上异于零,
在统计上不异于零,则认为B市场价格变动对A市场价格变动有影响,并可得到价格变动滞后的阶数信息,但A市场价格变动对B市场价格变动没有影响;如果两者均异于零,则认为影响是双向的;如果两者均在统计上不异于零,则认为两者在价格变动在没有影响,两个市场是分割市场。
5.用单位根检验或协整检验法判别两个市场是统一市场还是分割市场的基本原理。
套利的一种基本假设是,如果两地市场为同一市场,那么两地市场上的价格差异必定有限(不能偏离很多)。
弗尼(Forni,2004)因此提出可采用单位根检验方法,来判断两地市场是否为同一市场,理由是:
如果两地市场为同一市场,则因某种冲击造成的两地市场价格的差异的变动只能是暂时的,因为消费者偏好价格低的商品,所产生的替代效应将使两地价格回复到原来的长期均衡关系。
而如果两地市场不是同一市场,则因某种冲击造成的两地市场价格差异的变动则会具有持久效应。
第六章
1.VaR的三类计算方法;
历史模拟法;参数方法;蒙特卡罗模拟
2.在计算VaR时,持有期与置信水平所起的作用;
3.在一个数据集中截取相应计算窗口的SAS程序;
4.计算变量的均值、标准差并将其输出到外部数据集的SAS程序;
(2-4见一二章7、8)
5.加权正态法对正态方法的主要改进及理由;
由于金融资产收益率的时间序列中,通常存在“厚尾”现象,因此普通正态假设下的VaR模型,通常存在低估风险的现象。
为解决此问题,JP摩根公司提出,采用加权正态法替代普通正态法来构建VaR模型。
其含义为,在估计分布函数的方差时,近期值比远期值应该具有更大权重,因为明天的波动更多受到最近波动的影响,而较少受到较远的波动的影响。
6.正态假设下,VaR计算的参数方法与VaR计算的SAS程序(如何生成并输出某个数据的均值、标准差,如何计算VaR值,所涉及的相关SAS程序);
利用移动窗口方法估计一个时段的均值,并建立数据库zs1;
dataa;setzs;run;dataa;modifya;if_n_>300thenremove;run;
procmeansdata=a;outputout=bmen(r)=mr;run;
datac;seta;x=(r-mr)^2;run;
建立权重数据库qz;
dataqz1;setb1;q1=0.94^(252--n-);run;
procmeansdata=qz1;run;
dataqz;setqz1;q=q1/w;run;
计算一个移动窗口的加权标准差;
datab1;mergezs1qz;run;
datab2;setb1;y=x*q;run;
procmeansdata=b2;outputout=b3mean(x)=stdx;run;
利用公式
计算一个窗口的VaR预测值。
移动窗口,分别计算一年中各日的VaR
7.生成正态分布随机数与普阿松分布随机数的SAS程序;
normal(seed);rannml(seed)
8.对VaR预测结果进行事后检验的程序。
例:
Dataa;X=probbnml(0.01,250,k);
Y=1-probbnml(0.01,250,k-1);run;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 要点 整理