数据挖掘实验三.docx
- 文档编号:26623076
- 上传时间:2023-06-20
- 格式:DOCX
- 页数:40
- 大小:1.53MB
数据挖掘实验三.docx
《数据挖掘实验三.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验三.docx(40页珍藏版)》请在冰豆网上搜索。
数据挖掘实验三
实验三设计并构造AdventureWorks数据仓库实例
【实验要求】
在SQLServer平台上,利用AdventureWorks数据库作为商业智能解决方案的数据源,设计并构造数据仓库,建立OLAP口数据挖掘模型,并以输出报表的形式满足决策支持的查询需求。
【实验内容】
步骤1:
需求分析:
以决策者的视角分析和设计数据仓库的需求;
步骤2:
根据所设计的需求,确定本数据仓库的主题和主题与边界;
步骤3:
设计并构造逻辑模型;
步骤4:
进行数据转换和抽取,建立数据仓库:
创建数据源,,建立OLAF和挖掘模型,使用多维数据集进行分析,建立数据挖掘结构和数据挖掘模型,创建报表。
【实验平台】
Win7操作系统,SQLServer2005
【实验过程】
一、创建AnalysisServices项目
1.打开BusinessIntelligeneeDevelopmentStudio。
2.在“文件”菜单上,指向“新建”,然后选择“项目”。
3.确保已选中“模板”窗格中的“AnalysisServices项目”。
4.在“名称”框中,将新项目命名为AdventureWorks。
5.单击“确定”。
〒Qx
-:
AdventureWorks
J易卿漓集
比堆s
F-Qftfi
[逊
二、创建数据库和数据源
1.运行AdventureWorkssqlserver2005示例数据库.msi,然后用SQLServerManagementStudio附加数据库AdventureWorks_Data.mdf。
(1)运行AdventureWorkssqlserver2005示例数据库.msi
(2)田SQLServerManagementscdioms口^^wAdvencreworksIDafa.mdf
」酩鲁幣a
SQLserve『2005
PBT•!
」
■-.VWndhwsSowsystem
nJ
-dWIN・NBFtE2LQBAA”wo(SQLsmrv吧ga
田
0一田„s一田„田一
■«H
IMS
^DKS
ZS5:
汞Bul
ij
SI
-3
WWE
snsss.
SM„
*IrTnu2E・ITT:
;H
s
nB
cl^tasssKi?
*■WIH.HEREZSBKC^WO-Ji-3
SS3-
L'5爵第一宁«n
LBBool.
Lmd.¥20££k『trfLoct
LFogr-ulF1.H蛊■L?
oenJ13.蛊E66j+■VCum吕Til.盅
R.1Lnr*蛊elEKPlltr
+k・Loroseeail.匚ps-lm
+I?
d-ow^offig
ILFsroil。
?
SQLMtrvK™&L8
&08
-Lm-flm
ILIIEP厂jj
■L~?
cr£0?
Yinl竺Eli.0B
L?
*£*?
•
区Fl.』
一JldyIBIILWglhtfTS.D.FLIFI・d!
f
ns
AdventureWorks。
2.在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”。
3.在“欢迎使用数据源向导”页面中,单击“下一步”按钮。
4.在“选择如何定义连接”页上,单击“新建”向AdventureWorks数据库中添加连接。
5.在“连接管理器”的“提供程序”列表中,选择“本机OLEDB\SQLNativeClient”。
6.在“服务器名称”列表中,键入或选择承载AdventureWorks的服务器的名称。
7.在“登录到服务器”组中,选择身份验证方法,并输入凭据。
8.在“选择或输入一个数据库名”列表中,选择AdventureWorks,然后测试连接。
若连接
成功,再单击“确定”按钮。
蝗仪程序识):
|本忸OL£CB\SQLNativeClient
__怪WindawsSWhE(W}
―痺用SQLServer号崎验还{Q冃户容W):
M密码(叩—•
11
9.单击“下一步”按钮进入向导的下一页。
10.在“模拟信息”页中,选择“使用服务帐户”,再单击“下一步”
11.请注意,在“完成向导”页中,数据源名称默认为
12.
2.在“欢迎使用数据源视图向导”页上,单击“下一步”
3.在“选择数据源”页的“关系数据源”下,系统将默认选中您在上一个任务中创建的
AdventureWorksDW数据源。
单击“下一步”。
若要创建新数据源,请单击“新建数据源”,启动数据源向导。
^E&tSFi^l:
竝理■油鬥
RSA
4.
在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源视图中:
昱示
0F—itfRiIT—>II脚沽
5.单击“下一步
6.
单击
在“完成向导”页上,默认情况下,系统将数据源视图命名为AdventureWorks
“完成”。
系统将打开数据源视图设计器,显示AdventureWorks数据源视图。
縄舫実匪胳理躍T-
谥/
_jAdwenturtWorlu
F1--刼揚S
*#*AdventureWorks.ds
4-乙ssswe
AdventureWorks^dsv
-&妄淮躺集
-三建
i丄趣肃
-二毎竺
二j杂皿
四、定义维度
1.在解决方案资源管理器中,右键单击“维度”,然后单击“新建维度”。
2.在
3.在
“欢迎使用维度向导”页上,单击“下一步”。
“选择生成方法”页上,验证是否选择了“使用数据源生成维度”选项,然后单击“下
。
4.在
“选择数据源视图”页上,验证是否选择了AdventureWorks数据源视图。
址华虞向导1..I-3-ILq
选样碗津祕閔
却捋九4LS1S■曲JE的設85簿砸.
IAdventureWorks
a飄
HumanRewurces.DepartJTientHum*nRewur<«.Employ«[>epfflrtmentH^le^.vlndrviidualCuxkpmerS^leSt.dodrvidualDemfrgraphiesPerson.wS^teProviftceCountryRegkinHumanRetourcfrs.vJcit^-andlidateEiTiploynPunchfifing.vVcndpr
Productidrl.vP'raductMDdel]ft±tFuct]Dr1£!
5.在“选择维度类型”列表中,选择“标准维度”
6.在“选择主维度表”中,点击“下一步”
iWM):
HumanRescHjircei.Department
VDrpartmentJD
Name
」GrgupName
EModifiedDrte
7.
在“选择维度属性”中,点击“下一步”
V.
務要匀H在匙契n茅国芝.
進庫性创:
*国怪容徐
皿性M殆列
:
』;Name
Noeu
Nbitic
4\"GroupName
GroupName
GroupNam#
0ModifiedDarte
ModifiedDate
ModifiedDate
8.在“指定维度类型”中,点击“下一步”
9.
在“定义父子关系”中,点击“下一步”
10•“检测层次结构”中,点击“下一步”
11.点击“下一步”,然后点击“完成”
-Adventure..〒斗
鲁活
jAdvcnturcWoirlu
kJ-」£5體忍
+**AdventureWorks.di
0[_/
电AdventurtWorks.dsv
O爭谨站克
Id
FI.(
tz"OtpartmcnLdin>
J前
■-Ljftfe
五、使用多维数据集进行分析
1.在解决方案资源管理器中,右键单击“多维数据集”并选择“新建多维数据集”启动多维数据集向导。
2.在“欢迎使用多维数据集向导”页上,单击“下一步”。
3.在“选择生成方法”页上,确认已选中“使用数据源生成多维数据集”选项,然后单击“下
4.在“选择数据源视图”页上,点击“下一步”。
5.在“检测事实数据表和维度表”页上,点击“下一步”
6.在“时间维度表”页上,如下所示。
点击“下一步”。
7.在“查看共享维度”页上,点击“>”,然后“下一步
8.在“选择度量值”页上,选择可用度量值。
RjfflSSfilAl:
*亟g直题怕
;[7]拉|EmployeeDepartmentHistory
£|』EmployeeDepartmentHistory计数
HijmariResources:
_Empl-ciyee[>epartrriefit..
7|回vIndrvidudilCustomer
f?
]EimJiflPrQinn^tiQn
Sales_vinidlrvidijlal匚uHaEeF.EEnilPromorti...
z|Vj|vludFvidualCustomeirttSI
Sale^vIrldlivi-dualCLJ^lOmer
LZ1皿vIndividualDemographics
LZl』TotalPurdhaseVTD
Sale5_vindMdualDierwDgraphi€Si.TotalPur.™
冈aJTertalChildren
Sdlm_vindivvdu4>lDimrtQgrnphicfiTQtalCliiLi
/jNumberChildrenAtName
SaleE_vindi¥idu^ilDe-rTH]graphic-5.Number...
/|亠NumberCarsOwn^d
Sdl#&avlndi¥idu-ailD^-fi,bO^|r3phic-&iNuiTib£-fi._
|y|«JvIndividualDemographiest+B
Sales.vlndividu^lDemographics
7|同vStat#ProvirxeCountryRegion
团4TcrniterylD
Ph»□n衍悴PriQfvir»cKQUnijryR=”i□mTd
/|甘w^-tatc-ProvinceCountryRegion计数
PeT5an_v^tatePraMTnceCDuntryftegiDn
l/lLjLmJobC^rdid^teEmsl&virieril
<±—i?
(B)下—*
点击“下一步”。
9.在“检测层级结构”页上,查看结果,点击“下一步”
10.在“查看新建维度”中,选择新建维度,然后点击“下一步”
11.在“完成向导”页,多维数据集名称为““度量值组”和“维度”。
AdventureWorks”。
在“预览”中,可以看到
克瓏向导
务吝维般曲驴童舌融忖.癮百卑主jfc£-鳩杼吝说制e集.
1=||回ll^h
13.点击“完成”
_jAdventureWorks
iA瞒潸
“*7AdventureWorks.ds
■7L>谢S庐膜
他AdventureWorks.ds^
-1•甲客
AdvfrrttLjre,Worki.c
-]-*滅
匕DepartnriBfiiLdim
r-丄vIndividualCustomer.dim
tXvIndividualDemographics-dirn
-匕vStateProvinceCountryRegion.
-丄vJobCandidateEmploymentdirt/1vVendor.dimi
L-tZvProductModelInstiurtions.dini
|一&用色
i-1」空顶
14.在多维数据集设计器的工具栏上,将“缩放”级别更改为50%,以便更轻松地查看多
维数据集内的维度和事实数据表。
注意,事实数据表是黄色的,维度表是蓝色的。
六、创建用于个人客户方案的挖掘结构
1•在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。
■隸诬使用数据挖握向导
巴不再斷锻JS⑸
5•单击“下一步
%昨誣向骨
(7
可用站刚觀囲:
E吞
HurwaliRbSOu哺育乩D^Rrtrn亡MHumanResources.Employ&eOepartmcntHS>alr5.vIndlividu>alC4J5tomerSales.vIndividiiialDemographics-Person.vStatePrDvinu比匚QurrtsyRegion
HurnanReco-urceE.iuJob匚zntdidateEmploynPur 6•在“选择数据源视图”页上,请注意已默认选中AdventureWorks。 在数据源视图中,单 击“浏览”查看各表,然后单击“关闭”返回该向导。 7•单击“下一步”。 8•在“指定表类型”页上,选中vlndividualCustomer表旁边“事例”列中的复选框,再单 击“下一步”。 A.ErtB擢耀问导I=1回珏 走芳杆町喪便豆曲吝茎型” Department Emplfiyee&epdifVrte^lHittary E E 罰vCndlMdualCjUFtomer L里」 0 vindivduailDefiicigraphics 0 0 vJg! bCandid4l? €nnpla)fmerit □ □ vPrQduCtMadellfistructi&nS n E vStatePifffviriceCo B 0 vVendor 0 0 |<上一*(町下rw)*]克w•I-翩] 如果数 9.在"指定定型数据”页上,确保已选中CustomerlD列旁边Key列中的复选框。 据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。 10.选中FirstName和LastName列旁边的“输入”和"可预测” ■〕输入 ■可 Dimogrjphki □ □ En*iailAddrM--5- □ □ £mai1Pro时oli* □ D FirstNarne □ 0 LjstNlame- IZl MtddleMaTie □ □ D Phone □ = Pc如Sd尊 門 ^ttflsPrcwincsNirtie □ □ 'SuHix □ B ■ 为弐雄罡的可皱需内筮S酒入進也 鮭(Uji 嗣LF*[矽( 11.单击“建议”打开“提供相关列建议”对话框。 对话框将列出 值大于0.05 只要选中至少一个可预测属性,即可启用“建议”按钮。 “提供相关列建议” 与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。 的列将被自动选中,以包括在模型中。 12•阅读建议,然后单击“取消”忽略建议并保留向导设置的原始值。 15.选中以下各列旁边的“输入”复选框: StateProvinceName MiddleName CountryRegionName 撞圭种? 岸用旳列” 洒测a颌年 裹咧A■晴九■可* CountryRegi口nNiiEe B叵 B Cu^tome-rlD til B gm口griaphiw n □ EmaSlAddrHrss D D n EMailPromoiion n 匚 □ FiPNome 門 0 LastNa-me B s d MiddleName 3 匣 B Phone B d 鬥 PQ¥UlGod尊 B : _ □ 人-i比近走芒刮弋辽三守文I-,... *±-JHK[T-fWi»-趣的”斗]f~IM 16.单击“下一步” 列 内 二C-ounlryFlegwnName Discrete Twrt. CU'GlpfBBf10 畑 Lgtiq 3FritNfiane D^wrete T-ftfl. ]Last[Ndme IDkcrete Teas 3]MiddleUtmt Dwrete _JSEaljrProvinceN-ame Diwrrte Twrt. w±->(0) 17.在“指定列的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并确定 数值列是否包含连续或离散值的算法。 例如,某列可包含薪金信息,用以作为连续的实际薪 金值,也可包含整数,用以表示离散的编码薪金范围(例如1=<$25,000;2=从$25,000 到$50,000)。 18.单击“检测”后,请查看“内容类型”和“数据类型”列中的各项;如有必要,请进行更改,以确保设置与下表所示一致。 您可能想要将数值作 通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,为文本处理。 列 内容类型 数据类型 CountryRegionNane Discrete Text CustomerID key Long FirstName Discrete Text LastNam日 Diserete Text MiddleName Discrete Test StateProvinceNams Discrete Text a卜回 指走列的内畧和躺饕璽 帀定扌注蹄列旳円客心i降SL 列 內苔負S3 (J]: CountryRegionNamie- ;Discrete Text 扫8*5询mbID Key Lo呦 口FirstN-ame Discnrte Text Hl4rtNjime Dipcnrtr T»Kt i3Middle*Naimr Oi^crTte Tffift ]^tateProMnceN^me Discrete TiMCt E^tTi 19.单击“下一步”。 20. IndividualCustomer。 在“完成向导”页上的“挖掘结构名称”中,键入 21.在“挖掘模型名称”中,键入TM_Decision_Tree。 22.选中“允许钻取”复选框。 、KS^Si=jQ 再血8! 希許呂称.汕而淮SI舷砂J导./“ IndlrvidualCustomer J£! SlSaiSfc(D): J⑺ 预邮: 日%IndividualCu^torTier曰习列 i5CfiurttryR%詁MNiitliSQmcimerID FirstName LastName也|MiddleName匂StateProvinceiName 23.单击“完成”。 S鱼 _+AdventureWorks •ME澹 +^*AdventureWorks-ds O却淳視圉 痼AdventureWorks-dsv o參刪拒集 〔”AdventureWorks-cube t/*Departmentd! m t/*vIndivi-duallCustomer.dim t/vIndrvi-duallDernographics.dimt/*vStateProvin匚色CounlryRegiiQn.ct/vJobCandid^itBEmploymentdinrt/vVendor.dim tZvProductModelInstructiors.dim 氏IndividualCiistomer.dmm o用色 二程序集 七、挖掘模型和挖掘结构如下图。 CountryRpg><«• CwtgtrID F>f«tXane Last畑© H: cdl«Nse St«t«ProvinceW«»* .D・ NicrosoftJ>«cisioft_Tra«s In^vt K«7 FrUicl Pr«4ict Inpvt IndividualCustomer.dmm[iStitjAdventureWorks.cube[试计]Dcpartmcntdim[«tt]厶闵6%构|人滋锻型|心挖眩烟童頁器]£冏耽研性匪[”囱E複咖刻 AdventuieWorks.dsv[l«Ttj尖 C班丨切勺丨X 回B列 [扌Cvuulc/Ihs.ivuHwic SCustottrID 冷Firsthso 玄L«&(• 冷Vtddl«卧StateProvince ndviduUCuvtcmtr vIcvdivi4u*lCuito Custc««rIDTill*FintNa»»■>4dleKtf>e SuffixPVno£«4ilA>i4x«ss £«kilPro«o 3kC*»Ulw.Tr«« &国4互I52 6: P»r»<•■・ 匕Admtur«Wo«tt亍gess lturffpg* Q ・J»Adwvrtur*Wod^d« ---Q«HS*«JS Ad^rtur*Wodcvdtv 0Adwiur*Wocksxub« 匕D«p«*get Uv30X4 匕vDcr^aphc^dim 1/vSUtef>rowK»CourftrylUgiotvc匕VJobCaMidMeEEpk>>me*cd“匕vV»rdor4 UV^oductModc4【Mtr皿gd*Qitew 人
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 实验