数据挖掘技术及在电信行业中的应用.docx
- 文档编号:24636552
- 上传时间:2023-05-29
- 格式:DOCX
- 页数:47
- 大小:396.12KB
数据挖掘技术及在电信行业中的应用.docx
《数据挖掘技术及在电信行业中的应用.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术及在电信行业中的应用.docx(47页珍藏版)》请在冰豆网上搜索。
数据挖掘技术及在电信行业中的应用
数据挖掘技术及在电信行业中的应用
一、数据挖掘研究概述
1.1 数据挖掘的概念
数据挖掘又常被称为数据库中的知识发现,Usama Fayyad 等对其下的定义为:
从大量数
据中获取有效的、新颖的、潜在而有用的、最终可理解的信息的非平凡过程,这些信息的
表现形式有概念、规则、模式等。
数据挖掘是一门交叉学科,其中融合了统计学、机器学
习、数据库和数据仓库技术等多个领域的研究成果,为海量数据中的知识提取提供了一整
套面向不同需求的算法。
数据挖掘是一门实用性的学科,其主要特点是对海量数据进行抽取、转换、分析等处
理,并从中归纳出有趣的模式或规律辅助决策,因此,数据挖掘的产生和发展是和数据库
的发展密切相关的。
二十世纪六七十年代,数据库技术处于发展的初期,数据量相对较小,
利用结构化查询语言 SQL 已经基本能够满足事务处理和数据分析的需要;从二十世纪八十
年代开始,随着先进数据库系统、基于 web 的数据库系统和数据仓库的诞生和迅速发展,
数据量急剧增加,数据分析的要求也变得越来越复杂,这就迫切需要一套从海量数据中提
取知识的方法论,因此,数据挖掘作为一门独立的学科应运而生。
下图展示了数据挖掘和
数据仓库的联系,从图中可以看到,数据仓库是数据挖掘的基础。
图 1-1 数据仓库与数据挖掘
确切地说,数据挖掘只是数据库中的知识发现,(Knowledge Discovery in Database,简
称 KDD)的一个子过程,但却代表着获取知识的动态过程,因此,常将整个知识发现的过
程称为数据挖掘。
由图 1-2 可知,整个知识发现的过程是由若干挖掘步骤组成,而数据挖
掘仅仅是其中的一个主要步骤。
整个知识发现的主要步骤有:
(1)数据清洗(Data Cleaning)清除噪声和无关挖掘主题的数据;
(2)数据集成 (Data Integration) 将来源于多个数据源的相关数据进行组合;
(3)数据转换 (Data Transformation) 将数据转换为易于挖掘的数据存储形式;
(4)数据挖掘 (Data Mining) 知识发现的一个核心步骤,用智能的方法从海量数据
中提取数据模式或规律;
(5)模式评估 (PatternEvaluation) 依据一定的评估标准从挖掘结果筛选出具有实
际指导意义的模式;
(6)知识表示 (Knowledge Presentation) 利用可视化和知识表达技术,对所提取的
知识进行展示。
图 1-2 数据库中的知识发现(KDD)流程示意图
1.2 数据挖掘的分类和应用
数据挖掘技术涵盖的范围很广,可以用来解决各类不同的实际问题,下面从数据
挖掘的任务和功能这两个不同的角度对数据挖掘进行分类。
首先,从数据挖掘任务的角度对数据挖掘进行分类。
数据挖掘是以数据挖掘任务
为单位的,一个数据挖掘任务走完数据挖掘的整个流程,其中包含了挖掘的各个环节,
如图 1-2 所示。
数据挖掘任务可以分为描述和预测两类:
描述性的挖掘任务刻画数据的
一般特性,是对数据中所蕴含的规则的描述,或者根据数据的相似程度将数据分成若
干组;预测性挖掘任务是在当前数据的基础上,对未来数据的某种行为做出预测,所使
用的数据都是可以明确知道结果的。
描述和预测的主要区别在于:
描述是静态的,是抓
取数据的主要特征,并加以归纳和总结;预测是动态的,是指通过学习,将当前学到的
知识推广到未来,是更为高级的一种知识提取形式。
其次,从数据挖掘功能的角度对数据挖掘进行分类。
根据数据挖掘的不同功能,
可将数据挖掘分成以下几类:
(1)概念描述 (Concept Description):
概念描述是数据挖掘最简单和直接的功能,它
指的是以汇总的、简洁的、精确的方式描述数据库中的大量的细节数据,以方
便用户通过数据做出决策。
通常可以通过数据特征化、数据区分、数据特征比
较等方法得到概念描述,也可通过一些统计学的方法对数据进行描述。
(2)关联分析(Association Analysis):
关联分析是指从大量数据中发现项集之间有
趣的关联。
关联分析广泛地应用于购物篮或事物数据分析中,可以有效地帮助
商家制定许多市场营销方面的决策,使他们知道哪些物品或服务应该被捆绑在
一起销售,以提高销售额,“啤酒和尿布”的例子是关联规则最具代表性的应
用。
(3)分类和预测(Classification and Forecast):
分类和预测是两种性质类似的数据分
析形式,因为两者都是根据当前数据行为预测未来的数据行为,所不同的是,
分类通常预测的是类标签,类标签通常是离散值,而预测通常用于对连续值的
预测,例如对某个连续属性的缺失值做出估计。
分类是数据挖掘最重要的功能,
其实际应用也最为广泛。
(4)聚类分析(Clustering):
聚类和分类的功能类似,都是预测类标签,但从学习方
式的角度看,两者的实现机理却是相反的;聚类不依赖任何先验知识,只根据
数据的某些特征来定义数据之间的距离,如使用最简单的欧式距离,从而衡量
数据之间的相似度,将相似度大的归入一类;因此,通常将分类称作有指导的
学习,而将聚类称作无指导的学习。
(5)离群点分析(Outlier Analysis):
通常称那些远离大多数点的少数点为离群点;针
对数据集中的离群点,一般的做法是将其视为噪声或异常而丢弃,但在如故障
诊断、欺诈检测等应用中,离群点本身可能是非常重要的信息,因此,如何检
测离群点并对其含义进行合理解释也是数据挖掘的重要的研究方向之一。
(6)演变分析 (Evolution Analysis) 数据演变分析是对行为随时间变化的对象的规
律或趋势的描述并建模。
这种分析包括时间序列数据分析、序列模式匹配和基
于相似性的数据分析。
通过这种分析,可以识别整个股票市场和特定公司的股
票演变规律,从而帮助预测股票市场价格的未来走向,支持股票投资者进行决
策。
在实际的工程应用中,往往根据实际作用把挖掘得到的模式细分为:
关联模式、分
类模式、回归模式、聚类模式、时间序列模式等等。
分类模式和回归模式是使用最普
遍的模式,两者都是通过对当前数据建模,以对数据的未知属性质值做出预测,所不
同的是,分类针对离散属性,而回归针对连续属性。
分类模式、回归模式、时间序列
模式也被认为是受监督知识,因为在建立模式前数据的结果是已知的,可以用来检测
模式的准确性,模式的产生是在先验知识的指导下进行的;一般在建立这些有监督模式
的时候,使用其中一部分数据作为样本,用另一部分数据来检验和校正模式,因此,
这两部分数据分别称作训练数据集和检验数据集。
聚类模式、关联模式、序列模式则
是非监督知识,因为在模式建立前的结果是未知的,模式的产生不受任何监督,没有
任何先验知识的指导。
通过这些模式,我们一般可以从中获得广义型知识
(Generalization)、分类型知识(Classification)、预测型知识(Prediction)、关联型知识
(Association)、偏差型知识(Deviation)等类型的知识。
数据挖掘技术诞生于实际应用,由此决定它是一门实践性的学科。
目前,在很多
重要的领域,数据挖掘都广泛地应用于其中,发挥着积极的促进作用,尤其是在如银
行、电信、保险、交通、零售等商业应用领域,更是离不开数据挖掘。
数据挖掘能够
解决许多典型的商业问题,其中包括:
客户分群、数据库营销、交叉销售等市场分析行
为,以及客户流失预测、客户信用评估、信用卡欺诈检测、股票价格分析与预测、金
融投资风险分析、购物篮分析等等。
图 1-3 描述了数据挖掘在解决具体的商业问题时
所遵循的一般流程。
在统计和机器学习领域中也存在许多数据挖掘系统。
另外,将数据仓库、联机事
务处理(OLTP)、联机分析处理(OLAP)和数据挖掘技术结合是近期数据库发展的一个趋
势。
数据仓库和数据挖掘都可以完成对决策技术的支持,相互间有一定的内在联系,
两者集成,可以有效地提高系统的决策支持能力。
目前,电信行业已经逐步建立起数
据仓库系统,在数据仓库的基础上将逐步建立如下数据挖掘专题:
客户价值模型、客户
信用等级模型、客户流失预测模型、交叉销售模型、营销计划预演模型和客户细分模
型等。
数据挖掘在电信中的应用如图 1-4 所示。
图 1-3 CRISP-DM 的参考模型
数据、数据挖掘任务和数据挖掘方法的多样性和复杂性给数据挖掘提出了许多具有挑
战性的课题。
数据挖掘语言的设计,高效、准确的挖掘算法和挖掘系统的开发,交互和继
承的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘
研究人员、系统和应用开发人员所面临的主要难题。
针对以上课题,数据挖掘产生了很多
研究分支,主要有:
数据挖掘与数据库技术、数据仓库和 Web 数据库系统的集成、可伸缩
的数据挖掘算法、数据挖掘的应用、数据挖掘语言的标准化实现、数据挖掘的可视化、对
于复杂数据类型进行挖掘的新方法、数据挖掘中的隐私保护与信息、安全等。
图 l-4 数据挖掘在电信行业的应用
1.3 数据挖掘在电信行业的应用
1.3.1 数据挖掘在电信行业的应用分类
数据挖掘是由其应用的需求所驱动的,每一个数据挖掘工程都有一个挖掘主题,描述
挖掘目标,指导整个挖掘过程。
电信企业是典型的以数据为驱动的服务型企业,丰富的数
据资源以及行业内的激烈竞争,促使数据挖掘在该行业得到了较为广泛的应用。
数据挖掘
在电信行业中的应用通常使用挖掘主题来分类,由于电信业务的复杂性和多样性,产生了
许多电信数据挖掘主题,下面对其中常见的主题做一简要的介绍。
(1)客户欺诈识别(Customer Fraud Detection)指根据历史的客户欺诈数据建立用
户属性、服务属性和客户消费数据与其欺诈可能性关联的模型,对每个客户在
未来实施欺诈的可能性进行量化,以达到客户欺诈的识别和预防。
欺诈识别是
数据挖掘在电信中最为主要的应用之一,它的兴起缘于电信欺诈行为在电信业
的普遍存在和不断扩张,以及给电信运营商造成的越来越大的损失。
本文重点
研究的客户恶意欠费欺诈预测便是客户欺诈识别中的一项重要内容。
(2)客户流失预测(Customer Churn Prediction) 指通过分析客户的历史行为数据,
对客户的忠诚度做出评估,判断客户流失的可能性大小。
客户流失的广泛应用
是因为电信行业,尤其是电信运营商之间日趋激烈的竞争。
竞争是电信市场的
未来趋势,尽可能多地争取新客户和保留老客户是电信市场营销的两大重要内
容,而客户流失预测是在为服务后者的基础上兴起的,它的主要作用是给出了
需要被挽留的客户范围,避免了营销手段的盲目性造成的成本浪费。
(3)客户细分(Customer Sub-division) 指按照一定的标准将电信企业的现有客户划
分为不同的群体,采取“分而治之”的策略,针对不同的客户群采用不同的营
销手段,一方面可以节省营销成本,另一方面能够达到更优的营销效果。
许多
营销者认为,行为变量,如场合、用户地位、使用率、忠诚度、购买阶段及购
买态度,是构建细分市场的最佳起点,而历史的电信客户行为数据正好记录了
以上的这些关键信息,数据挖掘正好提供了处理和分析这些信息的有力手段。
(4)交又销售(Cross Sellion) 指通过分析电信各类产品之间的关联,开发各类产品
的套餐捆绑策略,并且有针对性地对老客户销售其尚未使用过的相关产品。
与
客户细分类似,交叉销售也是有针对性地进行销售,是重要的现代营销策略之
一,它并不是简单地将客户未购买的产品推销出去,而是根据每个个体的行为
特征,判断其已购买的和哪些未购买的产品有较大的关联,并将那些有较大关
联的未购买产品推销给该客户。
以上四个挖掘主题在电信数据挖掘的应用中最为常见,除此之外,客户的消费模
式分析、客户盈利能力分析、目标客户定位、盗用模式分析和异常模式分析也在电信
行业得到了应用。
随着电信行业中新问题的不断涌现,新的挖掘主题也会应运而生。
1.3.2 数据挖掘在电信行业的应用现状
随着电信市场垄断格局的打破,各个电信企业间的竞争日趋激烈,谁能提供更好的服
务,谁就能占领市场,甚至重新获得行业的垄断地位。
因此,构建其经营分析系统,充分
利用其业务支撑系统中每天产生并存储的大量历史数据,实现对信息的深加工和处理已成
为当前电信企业系统建设关注的焦点。
近几年来,国内外的许多电信企业已经完成从“以
产品为中心”到“以客户为中心”的经营理念的转变,利用数据挖掘进行分析以辅助决策,
推动自身的现代化经营和内部管理。
在国外,数据挖掘在电信行业中已有较多的应用实例。
美国西部电信公司 (US WEST)是美国最大的长途电信运营公司之一,其拥有的客户数
量超过 2000 万。
该公司为了进一步增强其目标市场战略,使用 SAS 的企业数据挖掘
EnterpriseMiner 软件进行经营分析。
USWest 利用销售活动管理软件,配合 SAS 的
Enterprise Miner,使营销专家能够对列入目标的销售活动进行规划、执行及评估,这样既
有利于消除销售人员对客户的全部数据进行评分,减轻了销售人员的负担,同时也减少了
手工操作所造成的人为错误,使得公司的市场营销周期大幅缩短。
由于能够对市场进行更
加细致和高度目标化的划分,US WEST 得到了更高的营销投资回报,增强了自身的盈利能
力。
老牌电信运营商、《财富》500 强企业之一的英国电信(British Telecom)通过数据挖掘的
手段建立模型,来确定潜在客户的购买倾向和他们变为用户之后可能带来的价值,从而实
现从市场营销预算中获得最大的价值。
英国电信的“商业高速公路”的目标为小型商业客
户;通过使用 SPSS 公司的著名数据挖掘软件产品 Clementine,英国电信较为成功实现了其
“商业高速公路”活动的数据分析和模型建立方面的探索。
通过应用该系统,英国电信更
好地了解了客户及其在电信市场的行为特征,向销售人员和营销活动提供了“最佳客户”
清单,有针对性地进行营销活动,其直邮活动的回应率提高了 100%。
比利时著名的电信运营商比利时电信(Belgacom)购买了新型 Teradata Warehouse 数据仓
库解决方案,使用数据仓库建立了客户信息系统,其数据仓库中拥有超过数据挖掘手段,
1 万亿字节的历史数据,其中包含了详细的电话通信记录。
通过比利时电信具有强烈欺诈
性的通话方式能够进行欺诈检测,从而迅速地发现异常电话以及,这样就能够在这些电信
欺诈方式给企业带来重大经济损失之前采取一系列措施加以终止。
图 1-4 某市电信经营分系统的逻辑模型
相对于国外的相对较为成熟的应用,电信数据挖掘在国内的研究与应用还处于刚刚起
步的阶段,但也不乏一些较为成功的实例。
厦门电信采用 CA 数据仓库构建了电信大客户
关系管理(CRM)系统,对其管辖范围内大客户的消费习惯和消费偏好进行数据挖掘,为其
管理层做出营销方面的决策提供了较科学的依据。
除此以外,近年来,中国电信运营业的
BOSS(Business &Operation support system),即业务运营支撑系统的市场规模占我国主要电
信运营商设备投资总额的份额越来越大,运营商的日常运营也越来越离不开 BOSS 系统;作
为中国的两大主流运营商,中国电信和中国移动高举 BOSS 建设大旗,其目的是为了提高
计费结算、营业帐务、客户服务、决策支持等能力,希望通过固定报表、专题分析、多维
分析、数据挖掘等多种数据分析的手段帮助电信企业有效遏制存量流失、激发收入增量,
其经营方式也将实现从粗放式到精细化的转变,顺应了现代的经营管理理念。
1.4 数据质量评估研究概述
1.4.1 数据质量评估的背景和意义
现代社会是一个充满数据的社会,数据资源是企业实现信息化的必要基础和宝贵资本,
然而随着企业数据库中存储的数据量的急剧膨胀、新应用的不断出现以及各类应用之间越
来越频繁的相互整合,数据质量问题日益显现并日渐突出;这些数据质量问题主要表现为数
据不正确、数据不一致、数据不完整等方面,亟需一套方案对数据质量进行有效管理。
质
量低劣的数据已经成为影响企业进行正确决策的重要因素,所以数据质量管理必将成为企
业进行信息化进程中一个不可或缺的重要环节。
针对数据质量问题的各个环节,其中包括
数据清洗、数据整合、相似记录检测、数据质量评估、数据质量过程控制和管理等,业界
的学者已进行了大量的学术研究以及实际应用方面的探索。
在数据质量管理的所有环节中,
数据质量评估是提高数据质量的基础和必要前提,它能对应用系统的整体或部分数据的质
量状况给出一个合理的描述和评价,从而可以帮助数据用户了解应用系统的数据质量水平,
及时发现数据质量问题,并采取相应的处理过程来修复数据质量问题,提高数据质量。
数据质量评估((Data Quality Assessment)是数据质量管理(Data Quality Management
的重要组成部分,承担着发现数据问题的重任,是改善数据质量的驱动力和风向标。
数据
质量是一个多维的概念,每一个维度代表一个审视数据质量的角度,例如可信度
(Believability)、完整度(Completeness)、精简度 (Concise Representation)、及时度(Timeliness)、
可理解度(understandability)等,数据质量评估是以需求为导向的,同样的数据在不同的应用
背景下的接受度是不同的,例如对于数据挖掘,同样的数据在一个挖掘主题下表现良好,
而在另一个挖掘主题下却得不到有意义的结果。
因此,需求分析实际上是维度选择的过程,
数据质量评估从一个或几个维度出发,以动态或静态的方式审视数据。
所谓动态的评估方
式,是指从数据产生机制上对数据质量进行评估,而静态方式只考虑数据本身。
虽然动态
的评估方式能够更彻底全面地对数据质量做出评价,但在很多的应用背景下,如数据挖掘,
往往受条件限制,无法得知数据产生机制的信息。
数据质量的定义随着具体应用背景的不同而不同,因此,在进行具体的数据质量评估
时,要根据具体的数据质量评估需求对数据质量评估指标进行相应的取舍。
但是,数据质
量评估至少应包含以下两个方面的基本评估指标,
(1)数据对用户来说必须是可以信赖的,其中包括精确性、完整性、
有效性、一致性、唯一性等指标,其具体含义列举如下
A. 精确性(Accurate):
数据是否客观真实,是否存在虚假。
B.完整性 (ComPlete):
数据是否存在缺失的记录或字段。
C.有效性(valid):
数据是否满足用户定义的条件或处于一定的域值范围内。
D. 一致性(Consistent):
同一实体的同一属性值在不同的系统或数据集中的表达是否是
一致的。
E.唯一性(unique):
数据中是否存在重复。
(2)数据对用户必须是可以使用的,其中包括稳定性、时间性等方面
的指标,其具体含义如下:
A. 稳定性(Volatile):
数据是否稳定,是否处于有效期内。
B.时间性(Timely):
数据是当前的还是历史的。
为了实现有效的数据质量评估,下面给出了一个数据质量评估模型,该模型由六个要
素组成,是一个六元组,
M=
其中
D:
待评估数据集;对于关系数据库来讲,一个表或视图代表一个数据集。
I:
数据集 D 上需要进行评估的指标,或称数据质量维度。
R:
与评估指标集 I 相对应的规则,规则既可使用规范化的自然语言表达,也可使用形式化
的语言来书写,以便转换成程序脚本。
泌赋予规则 R 的权值,为大于 0 的整数,描述了规
则 R 在所有规则中所占的比重。
E:
对规则 R 给出的期望值,为介于 0 到 100 之间的实数,是在评估之前对规则 R 所期望得
到的结果。
S:
规则 R 对应的最终结果,为介于 0 到 100 之间的实数,是在检测规则 R 后得到的结果。
1.4.2 数据质量评估的研究现状
随着电信行业内部竞争的加剧,数据挖掘作为知识发现的有效工具已得到广泛应用。
电信行业有着丰富的数据资源,但由于各个数据源的数据质量参差不齐,加之数据仓库的
ETL 机制本身的某些问题,导致在数据集成时产生数据缺失和错误,对挖掘结果产生巨大
影响。
因此,合理量化这种影响,对数据质量做出评估,这对分析数据挖掘的可行性具有
重要意义。
对于数据质量评估,一些研究人员也开展了许多的研究工作。
文献 1 从不同的角度提
出了数据质量的评估方法,文献 2 设计了一个数据质量分析和浏览的工具,文献 3 从用户
的角度描述了对数据质量评估的要求,文献 4 给出了一种基于属性的数据质量评估模型。
但总的来讲,已有的研究成果大部分集中在框架理论,较少涉及特定的行业背景和具体应
用,而面向特定数据挖掘主题的数据质量评估,尚未有专门的文献进行讨论。
基于实际经
验,每个行业、每个应用都有自己的特点,对数据的评估方法也应有所差别,只能够相互
借鉴,但不能够完全照搬,应该“量身定制”。
本论文所做的研究工作就是针对电信欠费挖
掘这一具体的应用背景,充分考虑该背景下数据集和数据挖掘本身的特点,搭建了相对完
整的数据质量评估体系,实现了面向电信欠费挖掘的数据质量评估,为挖掘的可行性分析
提供了指导。
二、数据质量评估技术与方法
本章首先叙述了面向数据挖掘的数据质量评估的意义以及数据质量评估的一般方法,
然后针对欠费挖掘主题,叙述了电信行业欠费的现状与危害,以及欠费挖掘的现实意义,
并对电信欠费挖掘中的非平衡问题、缺失问题、离群问题的研究成果作了简要回顾,介绍
了解决这些问题的常用算法,为后续提出面向电信欠费挖掘的数据质量评估策略作铺垫。
2.1 引言
随着电信行业竞争的不断加剧,数据挖掘作为一种知识提取和决策支持的手段,已得
到了广泛的应用。
然而,由于电信企业数据采集系统人为和非人为的扰动,造成各个数据
源的数据质量参差不齐,加之数据仓库的 ETL 机制本身的某些问题,导致在数据集成时发
生数据缺失和错误,造成数据的整体质量不高,从而对数据挖掘的结果产生影响。
因此,
合理地量化这种影响,对数据质量做出评估,这对分析数据挖掘的可行性、减少无回报成
本具有重要的积极意义。
2.2 面向数据挖掘的数据质量评估
2.2.1 数据质量评估的意义
数据质量是一个相对的概念。
在不同的时期,数据质量有着不同的定义和评估标准。
20 世纪 80 年代以来,国际上普遍认为,数据质量的标准基本上是围绕着以提高数据准确
性为出发点和原则的。
然而,随着质量本身的含义不断进行延伸,数据质量的概念也由原
来的狭义转变为广义,其中,基于实际需要,融入了许多数据质量的考察和评判的标准,
准确性不再是衡量数据质量的惟一指标。
上世纪 90 年代,美国的麻省理工学院开展了全面
数据质量管理 TDQM(TotalData Quality Management)的活动,该活动借鉴了物理产品质
量管理体系的成功经验,提出了以信息生产系统生产的数据产品为基础的质量管理体系。
该活动提出,应充分、客观、全面地理解用户的信息需求,将数据看作具有生命周期的产
品,并对此进行管理,要设置数据产品管理员来管理数据生产的整个过程和结果。
在数据
生产过程中形成的质量维度,如准确性(Accuracy)、完整性(Completeness)、一致性
(Consiste
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 电信行业 中的 应用