陕西移动IMEI信息数据挖掘项目报告.docx
- 文档编号:7385601
- 上传时间:2023-01-23
- 格式:DOCX
- 页数:35
- 大小:965.38KB
陕西移动IMEI信息数据挖掘项目报告.docx
《陕西移动IMEI信息数据挖掘项目报告.docx》由会员分享,可在线阅读,更多相关《陕西移动IMEI信息数据挖掘项目报告.docx(35页珍藏版)》请在冰豆网上搜索。
陕西移动IMEI信息数据挖掘项目报告
陕西移动IMEI信息管理平台功能规划方案
陕西中海华晟信息技术有限公司
2008.12
一、项目背景
当今移动通信涌现出越来越多的新业务需要终端的支持和适配,业务发展面向的潜在用户是所支持终端的使用用户,目标用户群的成功挖掘依赖于对用户终端的知晓度,我们面对的不仅是客户,而且还有业务使用的载体—终端。
目前在各项数据增值业务的发展中,“重定制、轻使用,重捆绑、轻发展”
的现象较为突出,导致各个业务都有大量的沉默用户。
同时在新业务开通前缺乏对用户终端情况甄别,业务营销政策与用户终端的支持率不匹配,缺乏有效针对性手段。
在实际的营销过程中,我们的客服、营业人员每天都在与大量客户直接沟通。
这当中存在着极大的业务推荐机会,如果充分利用接触客户的机会,了解客户的需求,就可以向用户推荐客户所持终端支持的业务,但是进行针对性的主动营销就需要前台人员掌握用户的终端信息。
今后的移动增值业务的发展会朝着“业务与终端功能”互为导向的方向发展。
量质并重是业务可持续发展的关键因素,注重用户的使用量和活跃度,提升用户使用新业务的粘性,才能避免新业务客户的流失,避免新业务规模的虚高依赖于对客户所使用终端的识别率。
下面两张图显示了移动现有数据业务的发展图系,大部分数据业务的深度营销和精确营销均依赖于对用户终端IMEI信息和数据的比对和分析。
09年KPI考核指标中更是有多个业务是与终端机型的支持相关的,如手机电视,号簿管家等。
IMEI(InternationalMobileEquipmentIdentity)是国际移动设备身份码的缩写,是由15位数字组成的“电子串号”,每一部手机在组装完成后都将被赋予一个全球唯一的一组号码,依靠IMEI我们可以准确识别每一部终端,并最终定位用户终端的相关的信息。
进行IMEI数据信息维护的目的是加强对IMEI数据的管理,有效提升对终端信息的管理能力和应用水平。
具体可以分解为:
提高IEMI数据维护准确率,构建完善的IMEI数据分析体系和提升数据挖掘结果应用水平三个方面,具体内容如下:
目前,由工信部下发的IMEI数据在准确性和覆盖性方面都存在一定的问题,离支持实际应用尚存在一定距离,因此有必要建立一套完善的IMEI数据维护流程和系统,掌握较为完整和准确的IMEI终端信息数据,来满足深度营销和用户精确营销的需求。
二、项目概述
建设基于IMEI终端信息数据深度挖掘的移动用户信息业务深度运营系统其根本目的在于建立有效的IMEI数据维护机制,不断提高用户终端机型信息的完整性和准确性,进一步通过用户终端IMEI信息确定其终端功能和所支持的业务类型,进而为开发和推广新的数据业务提供基础数据支持,形成良性的“手机终端功能--数据业务互为导向”的发展模式。
建设基于IMEI终端信息数据深度挖掘的移动用户信息业务深度运营系统在
建设与维护中需要坚持以下五个原则:
1、针对现有通话IMEI数据确立维护目标,以提高维护效率
针对现网通话用户IMEI数据进行分阶段维护,先维护包含用户数较多的IMEI号段,逐步向包含用户数较少的IMEI号段延伸,以提高维护效率。
2、扩充IMEI信息数据的来源,以提高完整性
在原有支撑系统所采用的信产部定期下发IMEI信息数据的基础上,增加WAP网关日志信息、IMEI国际专业网站信息、DM平台提供数据信息、以及终端厂家提供信息等多个来源的数据,以提高IMEI信息数据的完整性。
3、对各来源信息数据进行综合比对,遵循分类维护原则
第一轮的IMEI数据维护需要对各来源数据进行汇总,掌握各来源数据共有号段、共有号段中对应机型的一致情况、根据一致情况将号段予以分类,以采取不同的外呼校验策略。
4、以外呼为手段进行数据的抽样校验,以提高准确性
在收集各来源数据并进行分类的基础上,进行随机抽样外呼,确认IMEI数据的准确性,经过该环节后,才能真正确认IMEI号段的机型信息。
5、维护机型的功能、参数、业务信息,进行应用层的字段维护
IMEI信息数据的维护不仅包括IMEI号段对应的机型信息,更重要的是包括机型的功能、参数和支持的自有业务信息。
整个项目的的基本驱动流程如下图所示:
根据该流程图,整个IMEI数据信息挖掘工作可以分为6个主要部分,其具体工作内容及要求如下:
A部分,对现现网通话用户IMEI信息的提取工作;(确定维护对象,提高维护
效率)
B部分,对扩充IMEI信息来源数据的比对处理和挖掘;(扩展数据来源进行综合比对,提高数据完整性进行分类维护)
C部分,对各个IMEI信息来源的数据进行抽样外呼校验;(进行数据校验,提高数据准群行)
D部分,结合终端功能参数维护表形成《IMEI终端信息成果表》;(维护业务参数进行字段层维护,奠定IMEI信息应用基础)
E部分,将IMEI数据信息终端成果表与通话用户IMEI信息表进行关联,得到通话用户的终端信息列表
F部分,根据实际运营情况对《IMEI终端信息成果表》的“IMEI-机型信息”按照“第二轮后简化的IMEI信息维护流程”进行动态更新和维护。
(为IMEI信息的持续应用和深度运营支撑提供保障)
下面的章节,将对上述6个部分的工作进行详细的说明,并提出相应的解决方案。
三、通话用户IMEI数据提取
3.1前期数据调研工作
⑴统计陕西移动各数据业务的沉默用户比例和活跃度分析(结合09年KPI考核指标分析)。
通过对陕西移动现有各项数据业务的经营情况进行分析,重点对沉默用户和活跃用户所占比例一级用户细分等情况进行统计,同时结合09年各项业务的KPI考核指标,确定IMEI数据(终端识别率)维护的具体目标值。
形成的结果数据如下:
a.全省及各个地市各个数据业务现有的沉默用户数;
b.全省各个数据业务对用户终端的支持需求列表;
c.09年KPI重点考核业务指标分析以及对用户终端功能支持列表需求;
d.确定近期IMEI数据信息(终端识别率)维护的准确率指标。
⑵陕西移动通话用户IMEI号段按号段包含用户数统计分析并确定IMEI号段维护用户基数标准。
根据提取的在网通话用户IMEI号段分布情况,对当月用户IMEI号段的分布情况以及用户数量进行统计和分析,同时结合IMEI数据的维护目标值,确定IMEI号段维护用户的基数标准以及对应的目标用户群数量(占总用户的比例)。
形成的结果数据如下:
a.全省通话用户的IMEI号段数量;
b.分别按照1000,900,800,700,600和500户为用户数量基数筛选相应的IMEI号段数量;
c.分别根据上述6个用户基数筛选出来的IMEI号段统计各自划分标准下对应用户所占全体用户的比例;
d.根据维护准确率目标,IMEI维护号段用户基数单元以及各自对应用户数量(比例)确定最优的IMEI号段维护用户基数标准。
⑶陕西移动业务受理渠道统计与分析,即统计直接与用户接触机会的情况(按照电子渠道和实体渠道分别统计)。
通过对用户获取服务的渠道进行统计和分析,可以发现不论是营业厅受理还是10086热线受理我们的客服、营业人员每天都在与大量客户直接沟通,这当中存在着极大的业务推荐机会。
充分利用接触客户的机会,了解客户的需求,向用户推荐客户所持终端支持的业务,进行针对性的主动营销。
形成的结果数据如下:
实体渠道(营业厅)和电子渠道(网上营业厅及10086热线)中直接接触用户的机会数量以及所占的比例。
3.2目前提取通话用户IMEI信息存在的问题及解决方案
原有IMEI数据在完整性方面存在以下几个问题:
缺少针对性,导致用户匹配率较低;IMEI号段位数参差不齐(同时存在六位、八位等IMEI号段),影响IMEI维护的效率,并容易导致一些显性错误对应问题。
数据业务深度运营要求掌握现网IMEI号段的用户占有量的分布情况,因此需要确立维护目标,同时掌握维护进展。
当前存在以下问题:
ØIMEI数据应该按照多少位维护?
Ø如何剔除异常IMEI数据,减少IMEI维护初期的复杂性问题?
Ø如何按照通话IMEI清单进行分阶段维护?
3.2.1确定IMEI数据维护的字段长度
截取IMEI号段的前8位形成用于维护的8位基准IMEI号段(IMEI号段结构为TAC+FAC+SNR+SP。
前6位数(TAC)是"型号核准号码",一般代表机型;接着的2位数(FAC)是"最后装配号",一般代表产地;之后的6位数(SNR)是"串号",一般代表生产顺序号;最后1位数(SP)通常是"0",为检验码,目前暂备用)。
由于IMEI的前8位即可确定用户的机型和产地(用于区别不同产地同一型号机型在功能上可能存在的差别),因此在对在网通话用户IMEI数据处理过程中截取其前8位即可获取我们需要的有关终端信息)。
掌握现网通话用户IMEI数据按前8位号段的分布情况后即可按照下面的流程进行提取:
提取通话用户IMEI数据截取前8位形成IMEI号段形成IMEI号段及包含的用户数清单文档。
按照欧洲型号认证中心的最新规定,统一按照八位进行IMEI数据的维护。
3.2.2剔除异常IMEI数据减少维护复杂性
确定异常IMEI确认标准,在维护过程中,我们认为下面的IMEI属于异常
IMEI记录。
Ø含字母、第8位/含第8位起连续为0以及IMEI字段长度在13位以下;
Ø对14、15、16位的IMEI数据,只取前14位(根据IMEI号段的组成规则,前14位即可确定用户手机的型号,产地及生产串号)。
IMEI号段在用户分布上具有很强的集中度,因此,在形成的IMEI号段及包括的用户数清单文档的基础上,结合前期数据调研阶段确定的IMEI号段用户基数维护标准,可针对基数标准数以上IMEI号段先行进行维护。
3.3形成IMEI号段及包含用户数的清单和文档
⑴确定用户IMEI数据信息的取数规则:
①取用户最近一条IMEI记录;
②剔除IMEI为空的用户,统计剔除的数目;
③剔除异常IMEI(含字母、第八位/含第八位起连续为0、13位以下),统计剔除的数目;
④对14、15、16位的IMEI数据,只取前14位(根据IMEI号段的组成规则,前14位即可确定用户手机的型号,产地及生产串号);
⑤剔除一个IMEI对应4次及以上用户号码的数据(该IMEI对应的终端频繁更换用户号码,不可能作为稳定营销的目标客户);
⑥截取前8位形成8位IMEI号段和对应通话用户数文档。
⑵确定IMEI号段和对应通话用户数文档模板
通话用户IMEI号段清单:
xxxx年xx月
前8位IMEI号段
包含的通话用户数
……
……
注意:
在此表中“用户号码”和“IMEI号码”是严格的一一对应关系,但是“IMEI
号码”与“用户号码”不是严格的一一对应关系。
例如,对于IMEI串号为“3550×××121”的终端,本月共有两个手机号
码使用,则分别形成2条对应的IMEI记录。
根据IMEI数据维护的进展情况,可按月为单位定期提取通话用户IMEI号段清单文档。
按照以上需求和模版定期从经分系统导出IMEI前8位号段及包含的通话用户数数据,以进行后续分析处理,并针对已经确定的IMEI号段维护用户基数先行进行维护。
四、扩充IMEI信息数据的来源
4.1概述
由于IMEI数据是动态数据,需要对其进行动态维护和扩充,因此在通话用户IMEI号段清单的基础上确立目标维护IMEI号段后,应进行这些IMEI号段对应机型信息的收集和整理工作。
如何完整地得到尽可能多的IMEI号段对应机型信息成为IMEI扩展库建设的主要目标。
通过扩充IMEI信息数据的来源,在原有工信部IMEI信息数据基础上,增加WAP网关日志信息、IMEI国际专业网站信息、DM平台提供数据信息、终端厂家提供信息以及对“山寨机”等非正规渠道终端信息等数据来源,以提高IMEI信息数据的完整性。
对上述各个数据来源的综合评估结果如下:
工信部下发的数据完整性和准确性相对较低,在功能参数方面只有基础的参
数和功能字段可供参考。
WAP网关IMEI数据完整性、准确性最高,但处理最复杂,占用周期最长。
IMEI专业网站数据的完整性、准确性介于信产IMEI表和WAP网关数据之间。
DM平台的数据目前提供的数据较少,但准确性极高。
终端厂商的终端信息,由于目前基本限于与我们有定制关系的终端厂家,厂家数量有限,而且也有准确率问题,初期如果没有获取厂家信息可暂不考虑该来源的数据。
4.2工信部IMEI信息数据表(工信部泰尔实验室)
从业务支撑系统导出工信部定期下发的IMEI数据,表结构如下:
字段
名称
类型
IMEI
IMEI段
VARCHAR2(20)
TELE_FAC
手机厂商
VARCHAR2(80)
TELE_TYPE
手机型号
VARCHAR2(80)
SN
序列号
VARCHAR2(80)
MARKET_DA
上市时间
VARCHAR2(20)
STATE
停产标志
VARCHAR2(40)
IS_GPRS
是否支持GPRS
VARCHAR2(4)
IS_MMS
是否支持MMS
VARCHAR2(4)
IS_JAVA
是否支持JAVA
VARCHAR2(4)
IS_WAP
是否支持WAP
VARCHAR2(4)
IS_CMCC
是否支持CMCC
VARCHAR2(4)
IS_ONENET
是否支持ONENET
VARCHAR2(4)
IS_PUCKER
是否支持PUCKER
VARCHAR2(4)
IS_CAMERA
是否支持CAMERA
VARCHAR2(4)
DISPLAY
显示屏幕
VARCHAR2(40)
REMARK
备注
VARCHAR2(200)
以上数据中“IMEI段”、“手机厂商”、“手机型号”是IMEI号段及对应机型信息,是本环节需要参考的信息,其他字段在后续的参数、功能维护中予以参考。
由于工信部IMEI数据同时存在六位和八位号段,而且存在显性错误问题,即相同号段对应不同厂商和型号,因此使用工信部IMEI数据前要先进行以下处理:
⑴将6位号段扩充到8位;
⑵将相同8位号段对应不同机型的IMEI数据予以剔除;
⑶取其中通话IMEI号段中已有(已经确定的IMEI号段维护用户基数以上)号段予以维护。
4.3WAP网关机型信息
从WAPGW(网关设备)导出最近一个月的日志数据,每WAP网关每天一个日志文件。
日志文件包括当日使用过WAP网关相关业务的用户MSISDN(TheMobileStationISDNnumber。
MSISDN号码是在公共电话网交换网络编号计划中,唯一能识别移动用户的号码。
根据CCITT的建议,MSISDN由以下部分组成:
MSISDN=CC+NDC+SN(CC=国家码 (中国为86),NDC=国内目的码,SN=用户号码。
若在以上号码中将国家码CC去除,就成了终端的国内身份号码,也就是我们日常所说的“手机号码”)。
及其手机UA(用户代理(UserAgent))信息,UA包含了终端厂家和型号信息。
WAP网关日志信息中只有用户号码和UA信息(品牌和机型),没有用户所使用终端的IMEI数据,因此需要从用户通话话单中找到用户的IMEI数据从而将IMEI数据和UA信息关联起来。
如下表所示:
WAP网关日志通话用户IMEIIMEI的UA信息
将日志记录通过用户MSISDN与用户通话IMEI关联,建立IMEI和UA关联关系。
为在关联过程中尽可能地剔除各种复杂情况,减少IMEI机型维护过程中可能出现的误差和差错,制定的处理规则如下:
其具体的处理流程如下图所示:
终端
具体的步骤包括:
(1)提取WAPGW日志文件(每月31个,包含用户MSISDN(用户号码)和UA(机型信息));
(2)对MSISDN(手机号码)和UA(机型信息)进行联合剔重:
即:
以MSISDN和UA为联合剔除条件进行剔重,如:
一个手机号码对应两个机型信息的记录,按2条记录处理;
135×××123-------UA1
135×××123-------UA2
同样,一个机型信息对应两个手机号码的记录,也按2条记录处理;
UA1-------137×××285
UA1-------139×××886
(3)按照规整型号文档对剔重后的UA数据进行规整处理(例如:
将N95,n95
和N95+等机型信息进行规整),并将规整后的UA信息与联合剔重后的MSISDN数据进行关联。
(4)在第3步关联的基础上,筛选出“MSISDN-UA”对应关系为“一对一”的记录(以用户号码为唯一索引条件进行过滤)。
(5)对当月WAPGW用户记录按照用户号码(MSISDN)为惟一索引条件,对记录进行索引,形成MSISDN-UA的关系表(有“一对一”和“一对多”两种情况)。
(6)对当月的在网通话用户按照提取IMEI信息记录工作的要求和取数规则进行处理。
(7)提取当月WAPGW用户的14位IMEI通话记录信息(并剔除异常IMEI记录以及1个IMEI对应4个以上号码的记录)。
(8)在第7步筛选的基础上,过滤出“MSISN-IMEI”对应关系为“一对一”的记录。
(9)将第4和第8步所得的关联记录按照“IMEI-UA”的匹配原则进行匹配和关联。
(10)和(11)对关联结果进行处理(剔除一个IMEI对应多个UA的记录)以及异常手机UA信息的记录。
按照以上处理规则进行处理后,输出的数据结构如下:
14位IMEI
UA品牌
UA型号
……
……
由于WAPGW日志记录与通话用户IMEI信息进行关联后可能会存在一些误差,因此进一步的处理如下:
⑴截前8位形成IMEI号段及对应的机型信息以及包括的WAP网关使用用户数。
具体说明如下:
对14位的IMEI及对应的UA品牌和UA型号数据截取前8位后,会出现同一8位号段包含不同UA机型的情况,主要原因包括:
通过MSISDN将UA信息和IMEI关联时可能存在的误差(例如用户上网时和通话时分别使用不同的终端);部分厂家在生产终端过程中并没有严格按照所生产机型名称填写真实的UA信息,导致UA信息的不准确。
对14位的IMEI及对应的UA品牌和UA型号数据截取前八位后虽然会出现同一八位号段包含不同UA机型的情况,但可能存在一个占主流情况的机型,并统计该主流机型在该号段WAP使用用户数的占比情况,具体例示如下:
⑵可按照号段包括的主流机型的占比情况进行分类。
90%以上主流机型、70-90%主流机型、50-70%主流机型、50%以下主流机型等几种情况,如下表所示:
8位IMEI号段
主流UA品牌
主流UA型号
主流类别
……
……
4.4国际IMEI专业网站信息(欧洲型号验证中心)
通过该IMEI国际专业网站可获取一定IMEI号段对应机型信息,表结构如下:
8位IMEI号段
机型信息
……
……
使用IMEI国际专业网站IMEI数据,需要对数据进行如下的预处理:
⑴将6位号段扩充到8位;
⑵将相同8位号段对应不同机型的IMEI数据予以剔除;
⑶按照一定的规则把品牌和型号分开进行规整;
⑷取其中通话IMEI号段中已有(已经确定的IMEI号段维护用户基数以上)号段予以维护。
4.5DM平台数据
集团将DM(移动定制终端业务管理平台DeviceManagement)平台数据定期下发给省数据部门,DM平台采集到的定制DM终端相关信息如下:
字段
名称
ID
编号
用户号码
MSISDN
IMEI
14位IMEI
厂商
手机厂商
型号
手机型号
版本
软件版本号
有效
是否有效
响应时间
响应时间
归属省
归属省
归属城市
归属城市
DM平台数据:
目前提供的数据较少,但准确性极高。
由于DM提供的信息相对少,初期可暂不考虑该来源数据。
进一步的处理规则如下:
⑴截前8位形成IMEI号段及对应的机型信息以及包括的DM终端使用用户数;
⑵剔除掉可能存在的相同8位号段对应不同机型的数据。
4.6终端厂家提供数据
可要求终端厂家定期提供IMEI数据,具体表结构可根据需要自行制作。
得
到各来源IMEI号段对应机型信息后,即可进行后续的综合比对环节。
4.7对“山寨机”等非正常渠道的终端IMEI信息进行维护
国内终端市场纷繁复杂,存在各种山寨机、翻新手机、克隆手机等,这些终端的用户数量也相当可观,同时在一个相当的时期内,各种非正规渠道的终端将与正规渠道的终端共存。
因此对于这些非正规渠道终端的IMEI信息进行维护,对这些终端的用户进行深度营销亦有一定的价值和意义。
由于非正规渠道的终端在IMEI信息编码上比较混乱,没有一个基本规则可循,因此目前对于非正规渠道终端IMEI信息的收集和维护工作还在探索之中,前期考虑通过手机卖场等销售终端,使用“终端型号-IMEI信息”穷举法的办法,建立基础的IMEI数据库,同时探索进行动态维护的方法和流程。
五、各来源数据的综合比对
对各来源得到的IMEI数据进行汇总,对比IMEI号段在各来源数据中对应的机型是否一致,按照IMEI号段在各来源数据中对应机型的一致性情况进行分类,以便在后续流程中进行分类维护和参考确认。
具体综合比对流程如下:
(1)确定对各来源IMEI数据比对的标准,目前确定按照“IMEI-机型”对应关系进行维护;
(2)对各来源的IMEI数据信息根据比对条件(“IMEI-机型”)进行过滤和筛选;
(3)对分类匹配和筛选结果进行汇总和分析;
(4)对各来源IMEI数据信息进行分类维护。
初期以工信部数据、WAP网关信息、IMEI国际专业网站信息三个来源的数据为主,综合比对后进行分类,模版如下:
类别
清单
说明
三个及以上来源都一致
列清单
三个或三个以上来源对应的机型一致
两个来源一致
列清单
两个来源对应的机型一致
各来源都不相同
列清单
各来源对应的机型各不相同
综合比对后的数据清单如下表所示:
8位IMEI号段
来源1机型
来源2机型
…
n来源机型
类别
……
以上对各来源综合比对结果和清单是后续对外呼结果判断时的重要的参考文档。
六、抽样外呼校验
在对各来源IMEI信息的综合比对基础上,需要进行抽样外呼校验,对综合比对的结果进行验证。
在对各来源IMEI信息的综合比对基础上:
根据各来源数据比对后的一致性分类情况,予以不同的外呼策略,高效利用外呼资源;用户抽样外呼取数时取相对稳定使用用户;外呼完成后剔除掉外呼期间的换机用户样本,减少外呼带来的误差。
6.1根据不同分类的IMEI制定不同的外呼策略
⑴考虑到外呼本身的成功率、以及知道自己机型的用户占比并不高,制定外呼样本数量时要留一定的余量;
⑵对于一致性高的IMEI号段(如三个以上来源都一致的IMEI号段),可随机抽取的外呼用户数量相对少一些,如每号段50~80个用户;
⑶相反,对于一致性不高的号段如(各来源数据都不相同的IMEI号段),可随机抽取的外呼用户数量相对多一些,如每号段100~120个用户;
⑷具体外呼策略可根据外呼情况进行调整。
6.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 陕西 移动 IMEI 信息 数据 挖掘 项目 报告