数据挖掘项目实施过程概述.doc
- 文档编号:238717
- 上传时间:2022-10-07
- 格式:DOC
- 页数:33
- 大小:164.50KB
数据挖掘项目实施过程概述.doc
《数据挖掘项目实施过程概述.doc》由会员分享,可在线阅读,更多相关《数据挖掘项目实施过程概述.doc(33页珍藏版)》请在冰豆网上搜索。
数据挖掘项目实施过程概述
二零一一年八月
目录
1. 业务理解 4
1.1 确定业务目标 4
1.1.1 编写业务背景资料 4
1.1.2 定义业务目标 6
1.1.3 业务成功标准 6
1.2 评估情况 7
1.2.1 资源清单 7
1.2.2 要求、假设和约束 8
1.2.3 风险和费用 9
1.2.4 术语 9
1.2.5 成本/收益分析 10
1.3 确定数据挖掘目标 10
1.3.1 数据挖掘目标 11
1.3.2 数据挖掘成功标准 11
1.4 制定工程计划 12
2. 数据理解 12
2.1 收集初始数据 12
2.2 描述数据 14
2.2.1 编写数据说明报告 14
2.3 探索数据 15
2.3.1 编写数据探索报告 15
2.4 验证数据质量 16
2.4.1 编写数据质量报告 16
3. 数据准备 17
3.1 选择数据 18
3.1.1 包括或排除数据 18
3.2 清理数据 19
3.2.1 编写数据清理报告 19
3.3 构建新数据 20
3.4 集成数据 20
3.4.1 格式化数据 21
4. 建模 21
4.1 选择建模技术 22
4.1.1 选择正确的建模技术 22
4.1.2 建模假设 23
4.2 生成测试设计 23
4.2.1 编写测试设计 24
4.2.2 电子商务零售业示例-测试设计 24
4.3 构建模型 24
4.3.1 参数设置 25
4.3.2 运行模型 25
4.4 评估模型 26
4.4.1 综合模型评估 26
4.4.2 跟踪已修正的参数 27
5. 评估 27
5.1 评估结果 28
5.2 审核过程 28
5.3 确定后续步骤 29
6. 部署 30
6.1 制定部署计划 30
6.2 计划监视和维护 31
6.3 生成最终报告 32
6.3.1 准备最终演示 32
6.4 执行最终工程审核 33
1.业务理解
在开始工作之前,需要首先探讨一下我们期望通过数据挖掘获得什么。
尽可能多地一些重要业务人员参与此类讨论,并将结果记录下来。
了解进行数据挖掘的业务原因有助于确保在花费宝贵的资源之前所有人都达成一致意见。
并对期望结论有一致的认识。
1.1确定业务目标
第一个任务是尽可能多地了解数据挖掘的业务目标。
通过详细说明问题、目标和资源,可以将今后的风险降至最低。
包括:
• 开始收集有关当前业务情况的背景信息。
• 记录下由关键决策者决定的具体业务目标。
• 一致同意用于确定从业务角度判定数据挖掘成功与否的标准。
1.1.1编写业务背景资料
理解组织的业务情况有助于了解在以下这些方面需要解决什么问题:
• 可用资源(人力资源和物资)
• 问题
• 目标
将需要对当前商业情况进行一些研究,以便找到对影响数据挖掘项目结果的那些问题的正确答案。
Ø确定组织结构
• 建立组织结构图来说明企业分公司、部门和项目团队的结构。
确保包含管理者的名字和职责。
• 识别组织中的关键个人。
• 识别将提供财务支持和/或领域专门知识的内部负责人。
• 确定是否存在指导委员会并制作一份成员列表。
• 识别将受到数据挖掘项目影响的业务单位。
Ø说明存在问题的领域
• 识别存在问题的领域,例如市场营销、客户服务或业务发展。
• 使用常规术语来描述问题。
• 阐明项目的先决条件。
项目背后的动机。
企业是否已经在使用数据挖掘。
• 检查业务团队内数据挖掘项目的状态。
• 准备有关的组织进行数据挖掘的信息演示文稿。
Ø说明当前的解决方案
• 说明当前用于解决业务问题的所有解决方案。
• 说明当前解决方案的优点和缺点。
此外,指出这个解决方案在组织内的接受程度。
1.1.2定义业务目标
作为的研究和会议的结果,应该拟定一个主要具体目标,并得到项目负责人和受结果影响的其他业务单位的一致同意。
这个目标将最终从模糊的概念,例如“减少客户流失”转变为可以指导进行分析的具体数据挖掘目标。
确定以下内容:
• 需要使用数据挖掘解决的问题。
• 准确地指出所有业务问题。
• 确定其他业务要求。
• 使用业务术语和指标指定如“预期收益率提高”“高价值客户流失减少10%”。
1.1.3业务成功标准
目前的目标可能很清晰,但如何衡量是否已经达到该目标。
在继续推进之前,定义数据挖掘项目的业务成功特征很重要。
成功标准分为两类:
• 客观标准。
这些标准很简单,如审核准确度或商定的流失率减少值具体提高了多少。
• 主观标准。
主观标准(如“发现一组有效解决方案”)比较难于确定,但你们可以商定由谁进行最终决策。
• 尽可能准确地记录此项目的成功标准。
• 确保每个业务目标都有相关的成功标准。
• 调整决定者的主观成功衡量标准使其一致。
如果可能,记录下客户的期望值。
1.2评估情况
有了一个明确指定的目标,下面应该评估处当前的状况。
这一步骤需要获得以下信息,例如:
• 什么类型的数据可供分析;
• 是否具有完成此项目所需的人力资源;
• 所涉及的最大风险因素是什么;
• 对于这些风险,是否具有相应的应急计划;
1.2.1资源清单
获取准确的资源清单是必不可少的步骤。
通过实际查看硬件、数据源和人力资源问题,可以节省很多时间以及避免很多问题。
Ø调查硬件资源
需要哪些硬件资源支持挖掘。
Ø识别数据源和知识存储
• 哪些数据源可用于数据挖掘。
记录数据类型和数据格式。
• 采用什么方式存储数据。
是否可以对数据仓库或操作数据库进行实时访问。
• 是否计划购买外部数据。
• 是否存在任何让无法访问所需数据的安全问题。
Ø识别人力资源
• 是否能找到业务和数据专家。
• 是否确定数据库管理员以及可能会需要的其他技术支持人员。
在阶段报告中应包含一个联系人和资源列表。
1.2.2要求、假设和约束
如果真实地评估了项目的负载情况,获得回报的可能性就更大。
尽可能清楚地阐明这些利害关系,这将有助于预防未来出现问题。
Ø确定要求
最基本的要求就是之前讨论过的业务目标,但需要考虑下面这些问题:
• 对于数据或项目结果,是否存在安全或法律方面的限制。
• 是否所有人都已对项目计划要求达成共识。
• 是否存在任何对结果部署的要求(例如,发布到网上或将得分读取到数据库中)。
Ø说明假设
• 是否存在可能影响项目的经济因素(例如,咨询费或竞争产品)。
• 是否存在对数据质量的假设。
• 工程负责人/管理团队期望采用什么方式查看结果。
换句话说,他们是希望了解模型本身,还是只想看到结果。
Ø验证约束
• 是否具有数据访问所需的所有密码。
• 是否验证过所有对数据使用的法律约束。
• 所有财务约束是否都在工程的预算内。
1.2.3风险和费用
考虑工程进行中可能会遇到的风险是一种明智的做法。
风险的类型包括:
• 计划(如果工程花费的时间比预期时间长怎么办。
)
• 财务(如果工程负责人遇到预算问题怎么办。
)
• 数据(如果数据质量较差或者范围过窄怎么办。
)
• 结果(如果初期结果达不到预期怎么办。
)
当考虑了各种风险之后,制定一个应急计划以帮助避免失败:
• 记录下每种可能遇到的风险。
• 记录每种风险的相应应急计划。
1.2.4术语
为了确保业务和数据挖掘团队“说同一种语言”,应该考虑为技术术语和需要解释的专门用语编写一个词汇表。
例如,如果“流失”对于的业务具有特殊且独特的意思,就值得为了整个团队的利益对其进行明确说明。
同样,团队还会受益于对收益图的使用说明。
Ø任务列表
• 在表中记录术语或团队成员容易混淆的行话。
包括业务和数据挖掘术语。
• 考虑在公司内部网或其他工程文档中发布此列表。
1.2.5成本/收益分析
这一步回答问题,数据挖掘的底线是什么。
作为最终评估的一部分,将工程成本和潜在的成功收益进行比较非常重要。
将下列估计成本包括在的分析中:
• 数据收集和使用的任何外部数据
• 结果部署
• 运营成本
然后,考虑下列收益:
• 要达到的主要目标
• 其他通过数据探索获得的深入见解
• 因深刻理解数据而可能获得的收益
1.3确定数据挖掘目标
已经明确了业务目标,应该将其转换为数据挖掘实体。
例如,“减少流失”的业务目标可以转换为包含下列信息的数据挖掘目标:
• 基于最近的采购数据识别高价值客户
• 使用可用的客户数据构建一个模型,用于预测每个客户的流失可能性
• 基于流失倾向和客户价值为每个客户指定等级
这些数据挖掘目标可以随即被企业用于减少最有价值客户的流失。
业务和技术必须紧密配合才能获得有效的数据挖掘。
1.3.1数据挖掘目标
• 描述数据挖掘问题的类型,如聚类、预测或分类。
• 使用具体的时间单位记录技术目标,例如预测在三个月内有效。
• 如果可能,为所需结果提供实际的数字,例如为80%的现有客户生成流失得分。
1.3.2数据挖掘成功标准
必须使用技术术语来定义成功,以便随时了解数据挖掘工作的进度。
使用之前确定的数据挖掘目标来明确说明成功的基准。
。
• 描述模型评估(例如,准确度、性能等)的方法。
• 定义评估成功的基准。
提供具体的数字。
• 尽可能详细地定义主观衡量标准,并确定成功的决定者。
• 考虑成功部署模型结果是否算是数据挖掘成功的一部分。
立即开始对部署进行计划。
1.4制定工程计划
工程计划是适用于所有数据挖掘工作的主要文档。
如果计划制定得好,它可以为每个工程相关人员提供各个数据挖掘阶段的目标、资源、风险以及计划等信息。
可能希望在公司内部网中发布此计划,同时发布这个阶段收集到的所有文档。
创建计划时,确保已经解决了下面这些问题:
• 是否已经和所涉及的每个人讨论了工程任务和提议的计划。
• 是否所有阶段或任务都包含估计的时间。
• 是否包含了部署结果或业务解决方案所需的工作量和资源。
• 计划中是否突出显示了决策点和审核求。
• 是否已经标记出通常会发生多个迭代的阶段,例如建模阶段。
2.数据理解
数据理解阶段包含深入了解可用于挖掘的数据。
此步骤是在下一个阶段(数据准备)中避免意外问题发生的关键,这个后续阶段通常是工程中耗时最长的部分。
数据理解包含使用工具,通过组织的表格和图形访问数据以及探索数据。
在这一阶段中,可以确定数据的质量并在工程文档中描述这些步骤的结果。
2.1收集初始数据
此时已作好访问数据的准备。
数据来自各种不同的数据源,例如:
• 现有数据。
这包括大量不同的数据,例如交易数据、调查数据、Web日志等。
考虑现有数据是否足以满足的需要。
• 购买的数据。
是否使用补充性数据,如果没有,考虑是否需要使用此类数据。
• 其他数据。
如果上面的数据源并不能满足的需求,可能需要开展调查或开始进行其他跟踪以便补充现有的数据存储。
Ø查看数据然后考虑以下问题。
确保记录下发现的问题。
• 数据库中的哪些属性(列)看起来最有用。
• 哪些属性看起来并不相关,可以排除在外。
• 要想得出概括的结论或者做出准确的预测,现有数据是否足够。
• 所选的建模方法是否存在过多属性。
• 是否要合并不同的数据源。
如果要合并,是否存在合并时会引发问题的区域。
• 是否考虑过如何处理各个数据源中的缺失值。
Ø编写数据收集报告
使用上述步骤中收集的材料,可以开始编写数据收集报告。
一旦完成,可将此报告添加到工程Web站点或向工程团队发布。
它也可以与后续步骤中准备的报告组合在一起,如数据说明、探索和质量验证。
这些报告将在整个数据准备阶段指导的工作。
2.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 项目 实施 过程 概述