大数据挖掘算法设计Word文档格式.docx
- 文档编号:18796975
- 上传时间:2023-01-01
- 格式:DOCX
- 页数:26
- 大小:361.97KB
大数据挖掘算法设计Word文档格式.docx
《大数据挖掘算法设计Word文档格式.docx》由会员分享,可在线阅读,更多相关《大数据挖掘算法设计Word文档格式.docx(26页珍藏版)》请在冰豆网上搜索。
2.1.2PCA输岀
主成分分析分析输出包据冬主成分得分表,如農1・8所承.弟一刃为标签支量,XI.X2.
X3.X4.X5为朮核綸入的变量,笫一主成分得分.笫二主成分得分.笫三主成分得分以及主成分殊合得分为冬主成分的得分。
表1-2主成分分析输出结果(示例丿
样本
XI
X2
X3
・••
X5
第一主成分得分
弟二主成分得分
主成分妹金
得分
001
1670.0
1
848.93
821.2
•••
0.7
3」7
1.33
2.526
002
1140.2
5
562.12
578.24
0.47
1.55
0.34
1.1265
003
7100.4
3619.2
8
3481.2
9
0.3
-0.84
0.78
0273
004
3470.
01
1759.9
1709.9
2
0.37
-0.21
0.1475
主成分分析分析输出还色据冬主成分将征值及方差気故率,如表13所示。
^1-3特征值与方差责献率
ExtractionSumsofSquaredRotationSumsofSquaredInitialEigenvalues
LoadingsLoadings
Component
%of%of%of
Total
Cumulative%Total
Variance
Cumulative%
4.815
37.038
3315
25.502
2.412
18.551
55.589
2.385
18.342
43.844
3
1.605
12.345
67.935
12345
2.287
17.595
61.439
主成分分析还包括KMO检验表,判斯是去迨合做主成分分析,如仪1・4所示。
農1・4KMOandBartletfsTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy・0.693
Approx.Chi-Square523.978
BartletfsTestofSphericitydf78
Sig..000
主成分分析还包扌舌我持矩阵,如表1・5所示,可以得出冬指标在冬主成分的我持糸數。
表1・5我持矩阵C示例丿
成长性指标Component
FlF2P3F4Fs
AS
.955
.249
-.003
-.065
-.076
X4
.950
.256
-.019
-.073
•・091
•937
.280
-.042
-.080
•」04
.345
.893
.055
-.032
-.085
2・2夺弄值分解fSVDJ
假设C是MxN矩阵,U是MxM矩阵.其中U的刃为Ct?
的正交特征向量,V为NxN矩阵,其中V的刃为UC的正交特征向量.再假设r为C矩阵的秋,则存在奇异值分鮮:
c=li^vt
其中和UC的特征值扣同.为&
八…入
为为MXN,其中捡=屆“其余住逍數值为0,力“的值按大』、降序排列。
以下是工的兜整数•学龙义:
For1<
/<
r,let刀=JILwith冶>
;
“+】.ThentheMxNmatrix£
iscomposedbysetting工a=(Tififr1<
i<
)\andzerootherwise.
oi尬为矩阵C的奇异值。
SVDt用于潜A语义分析,作为丈本数值转化后的计算按空。
2.2.1SVD分解的檜入
变量类愛:
SVD分鮮的紛入支量押是数值型变量
目标变量灾义:
SVD分鮮无目标支量(无因支量丿
2.2.2SVD分鮮的输岀
变量类型:
SVD分鮮的綸出包朽三部分:
U矩阵、Z(奇异值对角阵或奇幷值丿和V
(V矩阵或V的转.5.矩阵丿。
SVD的分鮮如图1所承,
01-1基于R语言进行SVD分鮮
三.分类算出
3.1分类算出基本介处
3.1.1决策村算廉
决策树(Decisiontree)是用于对数据进行分类和预測的主要數煽艳施枝术之一,是一科以卖例为基础的归纳学习算比。
它利用fl顶向下的逅归方式能够从一俎无规则的卖例中推理出分类规则.并得列类似一標树的枝干的结构国。
树的黃顶鐺是垠节点,在部节点进行禺性的比较即表承对一个禺性的测试.并从该节点根据不同禺性值判斯向下进行分枝,一个分枝即表示一个测比输出.浚终的叶节点代表一个类别。
算比优势:
1丿栈世非常直观,彖易让人理鮮和应用;
2)决策树捋建和应用的遠度比轶快;
3)决策树对于数据分布没有严格要求;
4丿受缺夫值和极羯值对栈黑的彩响很小。
算比不足:
U芷些<1变量类别较多肘家易出现过拟今;
2)没冇像归或者聚类那挥丰富多挥的检睑指标。
ruC4.5算出。
C4.5算法是机森学习算弘中的一科分类决策树算出,其核心算法是ID3算出。
C4.5算比继承了ID3算比的优点.并疫以下几方而对ID3算比进行了孜遗:
1)用信息增益隼来选择寓性,克服了用信息增益选择寓性肘偏向选挣取值多的為性的不足;
2)在树构it过程中迸.行劳枝;
3)能够兜成对连续為性的离散化丈理;
4)能够对不兜整数握进行处理。
C4.5算出右如下优点:
广生的分类规刪易于理聲•:
隹确率较爲。
其缺点是:
在构凌树的过程中,需要对数据集进行多次的顺序扣描和排序,因而导欢算出的低效。
(2)CART算法。
分类凹归树(CART.ClassificationAndRegressionTree)也為于一种决策树,分类凹归树是一棵二又树,且每个非叶子节点押冇而个孩子,所以对于笫一糕孑树其叶孑节点数比非叶孑节点救多1。
CART与ID3区别:
CART中用于选挣雯量的不純性度量是Gini指散;
如果目标雯量是标称的,并且是具冇両个以上的类别,刪CART可能考虑将目标类别合并成両个翅类别(玖化丿;
如果目标支量是连续的,则CART算比找出一级晟于树的凹归方程来预測目标支量。
(3)CHAID算法。
CHAID是卡为他动交互检测(CHi-squaredAutomaticInteractionDetection;
的编写,是一种墓于调整后的显着性检验C邦务罗尼检验丿决策树技术。
CHAID可用于预測C类似凹归分析,CHAID走初认称为XAID丿以及分类,并用于检测支量之间的相互作用。
CHAID基于1960和1970年代,一个USAID(勺动交互敢应检測丿和THAIDfTHETAfi动交互检测丿程序的护展。
而后者又是早期1950英国研兗的护喪。
庇尖戌中.
CHAID经常使用旌.直箱的背景下,选择请务者群体,并预測他们的反应,一些变量如何彩响其他It,而其他早期应用是衣医学和新神病学的研兗领城。
和其他决策树一眸,CHA1D的优势是它的结果是非常直观的易于理鮮的。
由于欢认伶况下CHA1D釆用多路分创,需要相生丸的拝本量.来有效地开喪工作,而小样本纽受访者可以迅速分为丈小了的俎,而无出可靠的分析。
3.1.2朴素凫叶折
朴素贝叶斯分类是一科十分简单的分类算出,叫它朴素贝叶斯分类是因为这科方出的思想真的很朴素,朴素贝叶斯的脛想基础是这挥的:
对于给出的待分类项,求聲在此顼出现的条件下冬个类别出现的概率.嘟个呆大,就认为此待分类顼厲于哪个类别。
通俗来说,就好比这么个道理,你疫街上看刊一个黑人,我问你你猗这哥们哪里来的,你十冇八九猜非洲。
为什么呢?
因为黑人中非洲人的比半呆爲,生煞•人家也可能是英洲人或亚洲人,但A没冇其它可用传息下,我们会选择条件概率呆大的类别.这就是朴素贝叶斯的思想基砒。
朴素贝叶斯分类的正式走义如下:
k设/={。
1、°
2、为一个待分类项,而每个a为x的一个特征為性。
2、有类别集合。
={"
1、"
2、…、"
刃}°
3、计算P仞1忆),戸(劭|叭"
戸(%0)。
4、如討如可=morr{P伽|叭卩血卜),…,戸如工)},护E如。
那么现在的关键就是如何计算笫3步中的各个条件概率。
我们可以这么做:
1.找列一个己知分类的符分类顼集合,这个集合叫做训练挥本集。
2.统计得刊豈冬类别下冬个特征厲性的条件概半仕计。
即
%|肌),卩他|肌),・・・,卩(咕伽);
卩@1伽),PM^…‘刊%册);
•…P@l|必卩(切曲…,0(。
』%)
3.如果冬个椅征為性是条件歿立的,刪根煽贝叶斯沱理有如下推导:
因为分母对于所有类别为常农,因为我们只要将分孑呆丸化皆可。
又因为冬特征為
性是条件独立的,所以有:
P(x\yi)P(yi)=P(a1\yi)P(a2\yi)...P(am\yi)P(yi)=P(^)JJP(aj\yi)
)=1
1丿朴素贝叶斯楼型发源于古典数淨理论,冇舟坚卖的散学基础.以及稳主的分类效率;
2)NBC核世所烤仕计的洪救很少,对缺夫数据不太数感,算法也比较简单。
算比不足:
1)理论上,NBC核世与其他分类方出柑比具冇呆小的谋差率。
但旻卖际上并非总是如此,这是因为NBC核型假设属性之间相互肚立,这个假设A卖际应用中往往是不成立的(可以考虑用聚类算法丸将相关性较丸的為性聚类儿这给NBC栈型的正确分类带来了一走彩响。
心厲性个散比较多或者厲性之间相关性较大对,NBC模理的分类效率比不上决策树楼型。
而在為性相关性较小肘,NBC楼童的性能呆为良好。
2)常要知道丸酸概率。
3.1.3logisticwjte
Logisticej归旻在给出方程,給入变量取值的条件下,綸出雯量取1的概率为多少。
通常根据禁事杨的危险因素预測该爭肠发生的概率。
逆須凹归是生祈业尿比较常用的机爰学习方比.用于仕计某种李场的可能性。
Logisticregression可以用来凹归,也可以用来分类,主要是二分类。
假很我们的样本是{x,y},y旻0或者1,表示正类戎者负类.x是我们的m维的样本苗征向量。
那么这个样本x禺于正类,也就是y=1的“概半”可以通过下面的逆辑函数来表示:
F(y=1|化;
8)=g(严x)=—-t-
1+€-沪F
算比主要优势:
1丿是一科应用广泛的成勲的统计方比;
2)逆辑凹归统长辨识爭杨的线性关糸;
1)变量之间的多重共线性会对楼型岌成锣响;
2)并常值令给栈世帝来很大干扰;
3;
逆辑凹归接空本身不能戎理缺失值
3.1.4畋机冉拯
随机森林颍右思义,是用随机的方丸建立一个為林,抵林里面冇很多的决策树俎成,随机森林的每一嫖决策树之间是没冇关联的。
A得刊為林之后,占有一个新的输入样本进入的肘候•就让森林中的每一嫖决策树分别址行一下判斷,看看这个样本应该為于哪一类(对于分类算法儿然后看看哪一类彼选择呆多,就预测这个样本为那一类。
算比主要优势:
1J在散握集上表现良好
2)A的很多数据集上,相对其他算比有着很大的优势
3)它能够戏理很离维度(feature<多丿的农堤,并且不用做特征选择
4丿堆.训练兜后.它能侈给出哪些feature比较重要
5)心创建随机森林的对候,对generlizationerror使用的是无偏仕计
6丿疫训练过程中,能侈检测fjfeature间的互相彩响
1丿随机森林己经彼证期A臬些噪咅较大的分类戎凹归问題上会过拟仝
2)对于有不同级别的厲性的数握,级别划分轶多的為性会对随机彖林产生灵大的彩响,所以随机森林在这科数据上严出的為性权值是不可信的。
3.1.5丈特向爻机
支持向量机(SupportVectorMachine)是Cortes和Vapnik-f1995年看丸灵出的,它A鮮决小样本、非线性及高维模无识别中表现出许多特冇的优势•并能修推广应用到函数拟仝寻其他机森•学习问幾中。
良持向量机方法赴建立在统计•学习理论的VC维理论和结构兄险呆小廉理駅础上的,粮据有限的样本传息疫侯世的复杂性卩卩对椅沱训练挥本的学习耕度,Accuracy)和学习能力C即无错谖地谅别任意挥本的能力丿之间冷求走住折衷,以期茨得呆好的推广能力(或称泛化能力丿。
3.1.6样废捉升村(GBTs)
GradientBoosting是一种卖现Boosting的方出,它主要的思•想是,毎一次建立棋型是疫之询建立栈空航失困数的槎度下降芳向。
植夫筋救(lossfunction)描述的是核型的不乔谱程皮,航失西数越大,刪说朗接型越彖易出错。
如果我们的栈世能级让航夫困数持续的下降,則说朗我们的核世疫不停的孜进,而呆好的方丸就是让航失困来U1其榻度fGradient)的方向上下降。
随机抵林通过对数堀随机采样来单独训练每一棉树。
这科随机性也使得棋型相对于单决策树灵健壮.且不易疫训练集上产生过拟合。
GBTsfli-次只训练一煤树,后面每一標新的决策树逐步舔正询面决策树产生的朕差。
随着树的漆加,栈型的表达力也念强。
3.2分类算出输入与输出
在建楼所需数握处理好以后,分类算法主要谢要关注的是变量定义.綸出结果及税型评仕,碎侑見1-6所示。
表1・6分类算比输入输出注意爭顼
算廉名弈
枪入支受真型
卷岀支童真憂
标志交董、奏型变童
(:
t类型、丈序型丿.数值型K连续性.青散型丿
类型变竟(二分帚多分褰丿
支董重要性.分类结果明细.iX辑回归多数
混淆矩体.练金正确丰、心全率、咅准率.FLROC曲线.AUC值
决魚树
栋志变量、类型交童
(支奏型、丈序型丿•数值型itr连续性.离散型丿
类型炙量(二分奏•多分类丿
支至重要性、分类结果明细.树状图.分套規則
混请矩薛.练金正确率.吝全丰.心准丰.FkROC曲线.AUC值
建机森林
标志变量、奏型变量
(岌类型.丸序型丿•数值型变童(连续性.
离散型丿
类型变量(二分类•多分类丿
支董重妥性.分类结果朗细.树状图.分套規則
混淆矩阵、练金正确丰、冬全丰、心准率.FLROC曲线.AUC值
朴素貝叶斯
标志变童、奏型变童
(皮奏型、文序型丿•数值型ttr连续性.离散型丿
类型炙量(二分类•多分类丿
支至重要性、分类结果明细
混请矩阵.练金正确丰.吝全丰、冬准丰.FLROC曲线.AUC值
支持向量机
标志支童.类型变童
t类型、丈序型丿.数值型K连续性.
离散空丿
支董重要性.分类结果明细.SVM分类囲
混淆矩薛、练金正确丰、心全率、咅准率.FLROC曲线.AUC值
因算法不同.各分类算法的栈世綸入参數有所不同,具体见表1・7・
表1・7分类算比建旅綸入参数SparkMLlib)
葬张名称
算出名点
转入矣裁
11紳回归
•训媒集和测武集比例
・fl标变童奏型数
朴素贝叶斯
•训练臬和测武集比例
•指丸bernoulli或multinomial
•平滑因孑
决策拥
•训练集和测武集比例
・fl标变童奏型数.maxDepth(跌认为5).maxBins(跌认为32)•划分选择(gini丸炀)
支特向量机
•迭代次数
随机森林
・flfett奏型教.maxDepth(跌认为5).maxBins(跌认为32)•划分选择Cgini畑)•决策树棵教
•分刘录略
GBTs
•训练集和测武臬比例
・fl标变童矣型数.maxDepth(跌认为5)
・boostingStrategy
.numlterstion$
榆入变量通常分为以下几种:
变量类型通常色扌I标志变量,仅作为标诃,不进行计算。
散值盘变量,包拆连续性和密救型变量。
取值是连续可无限细分的lt,如温度丿为连续空变量;
取值是冇限个雷救值的变量(如家庭人6数丿为林更量。
类黑支量,包据岌类变量和岌序变量。
岌奏变量是指变量为类世但没顺序寻级之分的支量(如红色、黄色、蓝色人支序变量为冇次序的分类变量(如笫一名.笫二右.笫三右丿。
稔入和输出变量。
所谓綸入变量就是<1变量,即鮮释变量;
输出变量就是因支量,即彼解猝变量。
如丫=a+bX,X为自变量,丫为因麦量。
分类算法都必须包括因支量(输岀变量几本丈所指分类算比仅有一个人输出雯量。
3.2.2输岀第系
綸出结果色据:
变量重要性.分类结果朗细、以及部分算出持冇的输出。
变量重要性:
对因变量够响程度的变量,影响程度越翥越重要。
VariableImportance
Tairgets:
IS_SP/VM
图1-3变量重要性(吞耘图丿
分类结果期细:
包据綸入变量、綸出变量及核型计算出的分类右濟和概率值。
1-8分类结果期细表(示例丿
用户
屋秋个数
发送量
接收童
分集名称
响应极率
46
20
是
0.907
1042
22
否
0.685
183
0.893
286
128
0.597
151
158
杏
0.956
326
65
10
0.849
以上所述变量重要性及分类结采期细是所右分类算比都具冇的綸出,下而将喪示部分算法特冇的榆出结果。
除了可输出支量或要性和分类结果朗细,决策树的输出还包据树状因,直观展示各节点的分刘情况,展承分类规则.如图1・2所承。
决策树的綸出还包括分类規則,分析人员可提取符合业务场景的重要规则,如图1-3所示。
□-开通月数<
=5[Mode:
Yes]
5…电子支付in[“N。
"
][h/lQde:
丫黄]4Yes
…电子支付in[,,Yesli][Mode:
Yes]U>
Yes
B-开邇月数n5and开通月数"
31[Mode:
No]
j)…套餐类型in["
Basicservice"
][Mode:
No]GNo
}--套餐类型in["
E-service"
Totalservice"
Yes]OYesi…套餐类型in["
Plussetvicen][Mode:
No]cj>
No
曰…弄通月数T[Mode:
白・・・电子支付in[^o11][Mode:
j…年龄u二25[Mode:
No]No
j…年龄n25anci年龄u二52[时。
已岂No]No
:
…年龄>
52[Mode:
No]U>
3-电子支付in[,,Yes"
No]
>
…婚姻状况in["
Unmarried"
][Mode:
No]U>
No:
;
…婚姻状况int^Married11][Mode:
图1-5Itt要性(岳轰图丿
3.2.3分真算出棋矍许估
分类森的评仕与分类森本身同挥重要。
分类算比建栈败果需要结金一糸列的评仕指标遗行捕确度.覆盖半以及後岌性评价。
分类算出旗童评仕通常包括混谕矩阵.综仝正确率、杏全率.杳淮率.FkROC曲线.AUC值。
分类败果评仕通常采用混淆矩阵.以二分类为例(多分类侑况类似丿如仪1・2所示。
TP农示卖际值为yes,液测值迄为yes的个数;
FP農示卖际值为no,预測值为yes的个数;
FN表示实际值为yes,预测值为no的个数;
TN表示实际值为no,预測值也为no的个数。
通議杆表1・2推广至多元分类问趁,只不过增加一些行和刃,通常用来叢承对测洪集的预测结果。
好的液测结果应该是疫主对角线上的值要大,而非主对角线上數值要小。
•常用度量:
殊金正确率CAccuracy)A=(TP+TN)/(TP+TN+FN+FP);
也称为准确準,術量分类森对整个挥本的判灾能力、即正的判岌为正.负的判龙为负。
查全率fRecall;
R=TP/(TP+FN),也称为真阳性率,戎者召凹率,杳全率衡量分类森正确预測的正例比例,如果分类森的杳全率壽,则很少松正例谖分为负例。
去准率CPrecision;
P=TP/仃P+FP).也称为菇确度,街量分类容判主为正例的那部分诃录中实际为正例的诃录所占比例。
杏准率越离,分类容的假阳性率越低。
F1(FbMea$ure)=2RP/(R+P)=2TP/(2TP+FP+FN)=2/(1/R+1/P),痕云冬全率和态准率的调和平均值,由于而个数的调和均值倾向于接近较小的值,因此F1度量值爲可确锌杏全率和姿准率却比较爲。
真阳性牟(TruePositiveRateJTPR=TP/(TP+FN),正择本预测结果数/正择本实际散真阴性辜fTrueNegativeRateJTNR=TN/仃N+FP).负挥本预测结果数/负样本卖际救級阳性率(FalsePositiveRate;
FPR=FP/(FP+TN),汰预测为正的负样本结果救/负坪本实际散
钗阴性车{FalseNegativeRate;
FNR=FN/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 算法 设计