数据挖掘与商务智能课程实验.docx
- 文档编号:10623560
- 上传时间:2023-02-21
- 格式:DOCX
- 页数:42
- 大小:1.35MB
数据挖掘与商务智能课程实验.docx
《数据挖掘与商务智能课程实验.docx》由会员分享,可在线阅读,更多相关《数据挖掘与商务智能课程实验.docx(42页珍藏版)》请在冰豆网上搜索。
数据挖掘与商务智能课程实验
《数据挖掘与商务智能》课程实验指导
实验一数据仓库的构建
一、实验目的及要求
(一)实验目的
1.理解数据库与数据仓库之间的区别与联系;
2.掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法;
3.掌握数据仓库建立的基本方法及其相关工具的使用。
(二)实验要求
利用实验室和指导教师提供的实验软件,认真完成规定的实验项目,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。
实验完成后,应根据实验情况写出实验报告。
二、实验设备及软件
基于MSSQLServer2005服务系统以及AnalysisServices系统。
三、实验内容
以SQLServer2005为系统平台,设计、建立数据库,并以此为基础创建数据仓库。
4、实验步骤
创建MicrosoftSQLServer2005AnalysisServices(SSAS)项目后,通常通过定义此项目将要使用的一个或多个数据源来开始使用此项目。
定义数据源时,将定义要用于连接此数据源的连接字符串信息。
在以下任务中,把AdventureWorksDW示例数据库定义为AnalysisServicesTutorial项目的数据源。
为了实现本教程教学目的,此数据库位于您的本地计算机上,而源数据库通常驻留在一台或多台远程计算机中。
定义新的数据源
1.在解决方案资源管理器中,右键单击“数据源”,然后单击“新建数据源”。
将打开数据源向导。
2.在“欢迎使用数据源向导”页上,单击“下一步”。
将显示“选择如何定义连接”页。
在该页上,可以基于新连接、现有连接或以前定义的数据源对象来定义数据源。
以前定义的数据源对象是当前项目中或当前解决方案的其他项目中的现有数据源定义。
在本教程中,将基于新连接定义新数据源。
3.在“选择如何定义连接”页上,单击“新建”。
将显示“连接管理器”对话框。
在此对话框中,可定义数据源的连接属性。
连接管理器是将在运行时使用的连接的逻辑表示形式。
例如,连接管理器包括一个在设计时设置的连接字符串属性;在运行时,将通过使用连接字符串属性中的值创建一个物理连接。
4.在“提供程序”列表中,确保已选中“本机OLEDB\MicrosoftOLEDBProviderforSQLServer”。
AnalysisServices还支持“提供程序”列表中显示的其他访问接口。
5.在“服务器名称”文本框中,键入localhost。
要连接到本地计算机上的命名实例,请键入localhost\<实例名>。
将项目部署到AnalysisServices的特殊实例时,AnalysisServices引擎将连接到MicrosoftSQLServer的默认实例(位于AnalysisServices实例所在的计算机上)的AdventureWorksDW数据库。
如果在定义数据源时指定特定的计算机名或IP地址,则项目或部署的应用程序将与指定计算机而不是本地计算机建立连接。
通过AnalysisServices部署向导,可以在部署时指定源数据的实际服务器名。
6.确保已选中“使用Windows身份验证”。
在“选择或输入数据库名称”列表中,选择AdventureWorksDW。
下图显示了包含到目前为止已定义设置的“连接管理器”。
7.单击“确定”,然后单击“下一步”。
将显示“模拟信息”页。
在该向导的此页上,可以定义AnalysisServices用于连接数据源的安全凭据。
在本教程中,您将选择AnalysisServices服务帐户,因为该帐户具有访问AdventureWorksDW数据库所需的权限。
8.选择“使用服务帐户”,然后单击“下一步”。
下图显示了随后出现的“完成向导”页。
9.在“完成向导”页上,单击“完成”以创建名为AdventureWorksDW的新数据源。
下图显示了解决方案资源管理器的“数据源”文件夹中的新数据源。
定义多维数据集及其属性
1.在解决方案资源管理器中,右键单击“多维数据集”,然后单击“新建多维数据集”。
2.在“欢迎使用多维数据集向导”页上,单击“下一步”。
3.在“选择生成方法”页上,确认已选中“使用数据源生成多维数据集”选项和“自动生成”选项,然后单击“下一步”。
4.在“选择数据源视图”页上,确认已选中AdventureWorksDW数据源视图,然后单击“下一步”。
5.该向导扫描在数据源对象中定义的数据库中的表,以标识事实数据表和维度表。
事实数据表包含相关的度量值,如售出的部件数等。
维度表包含有关这些度量值的信息,如售出产品、售出该产品的月份等。
6.在向导标识完事实数据表和维度表后,请在“检测事实数据表和维度表”页上单击“下一步”。
7.在“标识事实数据表和维度表页上,将显示该向导所标识的事实数据表和维度表。
对于AnalysisServicesTutorial项目,该向导标识四个维度表和一个事实数据表。
为该事实数据表定义了一个度量值组。
每个维度表必须链接到多维数据集中的一个事实数据表。
维度表具有下列关系类型之一:
与事实数据表的直接主键-外键关系。
这称为“星型架构”。
通过某个其他表与事实数据表的间接主键-外键关系。
这称为“雪花型架构”。
在“标识事实数据表和维度表”页上,还可以指定时间维度表,然后将时间属性与指定维度表中的列相关联。
时间属性与指定时间维度表中的列相关联是基于时间的多维表达式(MDX)计算(如YTD和ParallelPeriod)所必需的,而且时间智能向导将使用这一关联定义与时间相关的计算成员。
下图显示了该向导的“标识事实数据表和维度表”页,其中为AnalysisServicesTutorial项目选择了事实数据表和维度表。
8.在“标识事实数据表和维度表”页的“时间维度表”列表中,选择Time,然后单击“下一步”。
9.在“选择时间段”页上,将时间属性名称映射到以指定为“时间”维度的维度为基础的维度表中的相应列。
根据以下列表映射这些属性:
∙将Year属性映射到CalendarYear列。
∙将HalfYear属性映射到CalendarSemester列。
∙将Quarter属性映射到CalendarQuarter列。
∙将Month属性映射到EnglishMonthName列。
∙将Date属性映射到FullDateAlternateKey列。
下图演示了该向导中的这些列映射。
10.单击“下一步”按钮进入向导的下一页。
随即会出现“选择度量值”页,其中显示了该向导所选择的度量值。
该向导选择它标识为事实数据表的表中的各数值数据类型列作为度量值。
在本课中,只定义了一个度量值组。
但在第4课中,您将使用多个度量值组。
11.在“选择度量值”页上,查看在“Internet销售”度量值组中选择的度量值,然后清除下列度量值的复选框:
∙促销关键字
∙货币关键字
∙销售区域关键字
∙修订号
该向导选择事实数据表中未链接到维度的所有数值列作为度量值。
但这四列不是实际的度量值。
前三列是将事实数据表与未在此多维数据集的初始版本中使用的维度表链接起来的键值。
下图显示了“选择度量值”页上已清除的复选框和其余选定维度。
12.单击“下一步”。
由于您前面已在该向导选择了“自动生成”选项,因此该向导将扫描层次结构。
该向导对定义为维度表的表中的各列记录进行采样,以确定列之间是否存在层次结构关系。
层次结构关系是多对一关系,例如“市/县”和“省/市/自治区”之间的关系。
13.在该向导完成对维度的扫描和对层次结构的检测后,请在“检测层次结构”页上单击“下一步”。
14.在“查看新建维度”页上,通过展开树控件显示该向导检测到的三个维度的层次结构和属性,查看其中每个维度的维度层次结构。
下图显示了“查看新建维度”页上的这三个维度。
15.依次展开“产品”维度和“属性”,然后清除LargePhoto复选框。
单击“下一步”。
LargePhoto列在本教程项目的多维数据集中不是很有用,并且由于它可能会占用大量空间,因此最好将其从多维数据集中删除。
16.在“完成向导”页上,将多维数据集的名称更改为AnalysisServicesTutorial。
在该页上,也可以查看多维数据集的度量值组、度量值、维度、层次结构和属性。
17.单击“完成”按钮以完成向导。
在解决方案资源管理器的AnalysisServicesTutorial项目中,AnalysisServicesTutorial多维数据集显示在“多维数据集”文件夹中,而三个数据库维度则显示在“维度”文件夹中。
此外,多维数据集设计器在开发环境的中央显示AnalysisServicesTutorial多维数据集。
请注意,在BusinessIntelligenceDevelopmentStudio的其他选项卡上也已打开数据源视图设计器。
18.在多维数据集设计器的工具栏上,将缩放级别更改为50%,以便轻松查看多维数据集中的维度表和事实数据表。
19.下图显示了该设计器中的维度表和事实数据表。
请注意,事实数据表是黄色的,维度表是蓝色的。
下图显示了该设计器中的维度表和事实数据表。
请注意,事实数据表是黄色的,维度表是蓝色的。
20.在“文件”菜单上,或者在BIDevelopmentStudio的工具栏上,单击“全部保存”。
这将保存到目前为止您在AnalysisServicesTutorial项目中所做的更改,您可以根据需要在此处停止教程,以后再继续。
实验二多维数据组织与分析(OLAP)
一、实验目的及要求
(一)实验目的
1.理解维(表)、成员、层次(粒度)等基本概念及其之间的关系;
2.理解多维数据集创建的基本原理与流程;
3.理解并掌握OLAP分析的基本过程与方法;
(二)实验要求
利用实验室指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出多维数据组织模型及其OLAP操作过程。
实验完成后,应根据实验情况写出实验报告。
二、实验设备及软件
安装SQLServer2005服务系统、AnalysisServices系统。
三、实验内容
1.运用AnalysisServer工具进行维度、度量值以及多维数据集的创建(模拟案例)。
2.使用维度浏览器进行多维数据的查询、编辑操作。
3.对多维数据集进行切片、切块、旋转、钻取操作。
四、实验步骤
在多维数据集设计器中检查多维数据集和维度的属性
1.在多维数据集设计器中,在“多维数据集结构”选项卡的“度量值”窗格中,展开“Internet销售”度量值组。
此时将显示为“Internet销售”度量值组定义的度量值。
可以将这些度量值拖到所需的顺序中,以此更改这些度量值的顺序。
度量值的顺序将影响某些客户端应用程序对这些度量值进行排序的方式。
度量值组被命名为InternetSales,这是因为基础事实数据表在数据源视图中的友好名称为InternetSales。
请注意,大写字母“S”前自动添加了一个空格,以增加该名称的用户友好特性。
度量值组及其包含的每个度量值都有属性,在“属性”窗口中可以编辑这些属性。
下图显示了多维数据集设计器的“度量值”窗格中的度量值组和度量值。
2.在多维数据集设计器中,在“多维数据集结构”选项卡的“维度”窗格中,检查AnalysisServicesTutorial多维数据集中的多维数据集维度。
请注意,尽管在数据库级别只创建了三个维度(如解决方案资源管理器所示),但在AnalysisServicesTutorial多维数据集中却有五个多维数据集维度。
该多维数据集包含的维度比数据库多,其原因是,根据事实数据表中与时间相关的不同事实数据,“时间”数据库维度被用作三个与时间相关的单独多维数据集维度的基础。
这些与时间相关的维度也称为“角色扮演维度”。
使用三个与时间相关的多维数据集维度,用户可以按照下列三个与每个产品销售相关的单独事实数据在多维数据集中组织维度:
产品订单日期、履行订单的到期日期和订单发货日期。
通过将一个数据库维度重复用于多个多维数据集维度,AnalysisServices简化了维度管理,降低了磁盘空间使用量,并减少了总体处理时间。
3.在“多维数据集结构”选项卡的“维度”窗格中,展开“客户”,再单击“编辑‘客户’”。
此时,在维度设计器中将显示Customer维度。
(请注意,数据源视图设计器和多维数据集设计器仍处于打开状态。
)维度设计器包含下列三个选项卡:
“维度结构”、“翻译”和“浏览器”。
请注意,“维度结构”选项卡包含下列三个窗格:
“属性”、“层次结构和级别”和“数据源视图”。
“属性”窗格显示多维数据集向导设计的属性,“层次结构和级别”窗格显示多维数据集向导定义的用户层次结构。
在维度设计器的“维度结构”选项卡上,可以添加、删除和编辑层次结构、级别和属性。
下图显示了维度设计器的“维度结构”选项卡。
4.在设计环境中单击选项卡,或在解决方案资源管理器中右键单击多维数据集后单击视图设计器,可以切换到多维数据集设计器。
5.在多维数据集设计器中,单击“维度用法”选项卡。
在此AnalysisServicesTutorial多维数据集视图中,可以看到“Internet销售”度量值组所用的多维数据集维度。
如果多维数据集包含多个度量值组,则多维数据集维度可能只用于其中有些度量值组,而不用于其他度量值组。
此外,可以定义每个维度及使用该维度的每个度量值组之间的关系类型。
下图显示了多维数据集设计器的“维度用法”选项卡。
6.在“Internet销售”度量值组和“客户”维度的相交处,单击“客户”旁边的“全名”字段,再单击省略号按钮(...)。
此时将出现“定义关系”对话框。
在此对话框中,可以定义特定度量值组中的自定义维度属性。
默认情况下,维度在各个度量值组中的行为均相同。
但是,在不同的度量值组中它们可能会有不同的行为。
请注意,“客户”维度与“Internet销售”度量值的关系是常规关系,即,DimCustomer维度表直接与FactInternetSales度量值组表联接。
另请注意,此维度的粒度位于最低级别(即“客户”级别),但可以定义不同的粒度级别。
在第5课中,将学习如何定义自定义粒度级别。
下图显示了“定义关系”对话框。
7.单击“高级”。
此时将显示“度量值组绑定”对话框,可在该对话框中更改每个属性的绑定以及定义空值处理设置。
属性绑定可以指定属性绑定到的基础维度表中的列。
默认情况下,此设置继承自维度;很少在度量值组级别更改此设置。
通过空值处理设置,可以定义AnalysisServices在处理期间在度量值组级别处理空值的方式;这些设置将覆盖维度级别的任何设置。
下图显示了“度量值组绑定”对话框。
8.单击“取消”,再次单击“取消”,返回多维数据集设计器。
在本任务中,我们不会检查“计算”、“KPI”、“操作”、“透视”和“翻译”选项卡,因为在教程项目中尚未定义相关对象。
9.单击“分区”选项卡。
多维数据集向导可以使用不带聚合的多维联机分析处理(MOLAP)存储模式,为多维数据集定义单个分区。
通过MOLAP,所有叶级别数据和所有聚合均存储在多维数据集中,以便最大限度地提高性能。
聚合是预先计算好的数据汇总,聚合可以在问题提出之前准备好答案,从而可以缩短查询响应时间。
通常在AnalysisServices项目最后部署到生产服务器之前定义聚合,在开发期间不定义聚合。
请注意,在“分区”选项卡上可以定义其他分区、存储设置和写回设置。
本教程不包含定义聚合和分区的内容。
下图显示了多维数据集设计器中的“分区”选项卡。
10.单击“浏览器”选项卡。
请注意,由于浏览多维数据集尚未部署到AnalysisServices实例中,因此无法对其进行浏览。
此时,AnalysisServicesTutorial项目中的多维数据集只是一个可以部署到任何AnalysisServices实例的多维数据集定义。
部署和处理多维数据集时,将在AnalysisServices实例中创建定义的对象,然后用基础数据源的数据填充这些对象。
下图显示了多维数据集设计器中的“浏览器”选项卡。
在下面的任务中,您将浏览AnalysisServicesTutorial多维数据集和它的每个维度,以确定为了改进该多维数据集的功能而需要执行的更改类型。
浏览已部署的多维数据集
1.通过单击BusinessIntelligenceDevelopmentStudio中的“客户”选项卡,切换到“客户”维度的维度设计器,然后单击“浏览器”选项卡。
“省/市/自治区名–地域”用户层次结构将显示在“浏览器”选项卡的工具栏上的“层次结构”列表中;当前级别的名称“(全部)”将直接显示在该工具栏下方,而“(全部)”级别的单独成员将显示在浏览器窗格中。
默认情况下,“(全部)”级别的唯一成员的名称是“全部”并且可见。
对于方案维度等维度,可以更改或隐藏此级别的名称。
2.在“级别和成员”窗格中,展开“(全部)”级别的“全部”级别成员以显示“省/市/自治区名”级别的成员。
展开此级别的Alabama成员以显示“地域”级别。
展开“地域”级别的280成员,以在“客户”级别查看该成员。
使用维度设计器的“级别和成员”窗格,可以在多维数据集向导所设计的用户层次结构中轻松查看每个级别的成员,因而可以确定需要进行的功能更改。
请注意以下几点内容:
此层次结构没有定义“市/县”级别,“地域”级别的成员是DimGeography表键值,“客户”级别显示客户的电子邮件地址而不是客户的姓名。
下图显示了“级别和成员”窗格中的展开层次结构。
3.在“客户”维度的维度设计器的工具栏上,在“层次结构”列表中选择“英语国家/地区区域名”,然后在“级别和成员”窗格中展开“全部”级别成员。
随即会显示“英语国家/地区区域名”属性的属性层次结构。
默认情况下,维度的每个属性都具有包含以下两个级别的层次结构:
“(全部)”级别和包含每个属性成员的级别。
第二个级别的名称是属性名本身。
下图显示了“英语国家/地区区域名”属性的层次结构。
4.在解决方案资源管理器中,双击“维度”文件夹中的“时间”。
随即在BIDevelopmentStudio的维度设计器中打开“时间”维度。
5.在“时间”维度的维度设计器中,单击“浏览器”选项卡。
随即将在“层次结构”列表中显示用户层次结构CalendarYear-CalendarSemester-CalendarQuarter-EnglishMonthName-FullDateAlternateKey。
6.展开“全部”级别成员以显示CalendarYear级别的成员。
展开2003成员以显示CalendarSemester级别的成员。
展开1成员以显示CalendarQuarter级别的成员。
展开2成员以显示EnglishMonthName级别的成员。
展开June成员以显示FullDateAlternateKey级别的成员。
下图显示了为显示FullDateAlternateKey属性而扩展的层次结构。
7.单击AnalysisServicesTutorial多维数据集的设计器选项卡,切换到BIDevelopmentStudio中的多维数据集设计器。
选择“浏览器”选项卡,然后在设计器的工具栏上单击“重新连接”。
也可以单击浏览器窗格中间显示的“单击此处可再次尝试加载浏览器”链接。
该设计器的左窗格显示了AnalysisServicesTutorial多维数据集的元数据。
您会看到“透视”和“语言”选项显示在“浏览器”选项卡的工具栏上。
您还会看到“浏览器”选项卡包含两个位于“元数据”窗格右侧的窗格:
上面的窗格是“筛选器”窗格,下面的窗格是“数据”窗格。
下图突出显示了多维数据集设计器中的各个窗格。
8.在“元数据”窗格中,依次展开“度量值”、“Internet销售”,然后将“销售额”度量值拖到“数据”窗格的“将合计或详细信息字段拖至此处”区域。
9.在“元数据”窗格中,展开“客户”。
请注意,“客户”维度中的所有属性层次结构均显示在“元数据”窗格中。
“客户”维度列表还包含“省/市/自治区名–地域”用户层次结构。
可以使用任意一个或多个属性层次结构来确定多维数据集的维度。
不过,对于业务用户而言,各维度在同一级别包含如此多的可见层次结构,可能会很难进行浏览。
10.将“英语国家/地区区域名”属性层次结构拖到“数据”窗格的“将行字段拖至此处”区域。
现在便可查看按各客户所在国家/地区确定维度的Internet销售。
下图显示了这一确定维度的过程。
11.在“元数据”窗格中,依次折叠“客户”和“度量值”,展开“产品”,右键单击“产品系列”,然后单击“添加到列区域”。
现在可以查看按国家/地区和产品系列确定维度的Internet销售。
不过,您会看到每个产品系列由单个字母表示,而不是由产品系列的全名表示。
下图显示了按国家/地区和产品系列确定维度的Internet销售。
12.在“元数据”窗格中,折叠“产品”,展开“订购日期”,然后将OrderDate.CalendarQuarter拖到“数据”窗格的“将筛选器字段拖至此处”区域。
13.在“数据”窗格的筛选器字段区域中,单击OrderDate.CalendarQuarter旁边的向下箭头,清除“(全部)”旁边的复选框,选中“1”旁边的复选框,然后单击“确定”。
随即可查看按国家/地区和产品系列确定维度的、第一日历季度的Internet销售。
不过,您实际上查看的是各日历年度而不是任何特定日历年度的第一日历季度值。
下图显示了按国家/地区和产品系列确定维度的、每年第一日历季度的Internet销售。
14.在“元数据”窗格中,展开OrderDate.CalendarYear,然后展开CalendarYear。
15.右键单击CalendarYear属性层次结构的2002成员,然后单击“添加到子多维数据集区域”。
随即将在“数据”窗格上方的“筛选器”窗格中显示“订购日期”维度的2002成员,并限定在“数据”窗格中显示的值。
这等效于多维表达式(MDX)查询语句中的WHERE子句。
有关详细信息,请参阅MDX查询基础知识(MDX)。
每一产品系列的Internet销售的日历季度1的值(按国家/地区确定维度)现被限定为2002年,如下图所示。
17.1.如何启用多维数据集的钻取功能
1.在AnalysisManager树窗格中,在“教程”数据库下,展开“多维数据集”文件夹,右击“Sales”
多维数据集,然后单击“编辑”命令。
2.在多维数据集编辑器中,单击“工具”菜单中的“钻取选项”命令。
3.在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 商务 智能 课程 实验