用户行为分析与数据挖掘模型研究与应用.pptx
- 文档编号:2767683
- 上传时间:2022-11-12
- 格式:PPTX
- 页数:42
- 大小:3MB
用户行为分析与数据挖掘模型研究与应用.pptx
《用户行为分析与数据挖掘模型研究与应用.pptx》由会员分享,可在线阅读,更多相关《用户行为分析与数据挖掘模型研究与应用.pptx(42页珍藏版)》请在冰豆网上搜索。
MarketStrategyUEDesignUserBehaviorL用户行为分析与数据挖掘模型研究与应用陶振武,,13911635819研究院产业市场所2013-03-26产业市场研究所介绍框架2用户群体用户群体个体属性个体属性(职业/性别/收入等)社会属性社会属性(家庭/团队等)个体偏好个体偏好(阅读/视频/音乐等)群体相似性群体相似性(协同/关联等)产业市场研究所n用户个体属性判别模型n用户社交属性判别模型n用户的业务偏好分析模型n基于群体相似性的智能推荐模型目录3产业市场研究所总体框架4用户属性训练数据新用户数据模型训练用户调研特征向量用户基础画像数据关联二级划分用户属性数据处理、变换一级划分数据处理、变换训练应用产业市场研究所模型描述(一级)n从GPRS数据流量的角度划分n数据总量:
约5.5亿,抽样数据:
约100万,抽样率:
1.82用户低流量用户中流量用户高流量用户低流量客户中流量客户高流量客户月GPRS流量0,1M)1M,30M(30M,+)抽样客户数393677329375276948抽样客户占比39.37%32.94%27.69%5产业市场研究所模型描述(二级)n根据客户个人属性划分:
6大属性,37(26)个标签n属性不可直接获取抽取部分客户做调研关联调研数据与基础画像数据,为每一维度每一类别建立类中心向量模型类中心向量模型属性性别年龄地域学历职业收入标签数28(4)2514(7)66回收9749/发送92万,回收率:
10.6年龄-中老年地域-农村年龄-青壮年职业-学生性别-男职业-工人本地、漫游、GPRS*括号内为类别优化后的标签数产业市场研究所模型应用n应用7第一级从流量的角度划分第二级从用户的角度划分流量30M用户群高流量用户低流量用户学历-初中及以下地域-农村年龄-50岁以上地域-城市手机号码手机号码一级一级标签标签二级标签二级标签性别性别年龄年龄地域地域学历学历职业职业收入收入*高流量男青壮年(25-40岁)城市大学本科自由职业者高于9000元*低流量女中老年及老年(50岁以上)农村初中及以下农民3001-5000元产业市场研究所用户属性及标签n性别男女n年龄青少年(13-24岁)青壮年(25-40岁)中年(41-50岁)中老年及老年(50岁以上)n地域城镇农村n职业公务员企业白领工人自由职业者农民学生无业n学历初中及以下高中/中专/技校大专大学本科硕士及以上n收入低于1500元1501-3000元3001-5000元5001-7000元7001-9000元高于9000元8产业市场研究所计算过程91、由于各数据字段单位、数量范围、表示含义不同,因此首先需要对语音、短信、上网、费用等做数据变换,对数变换后归一化。
每个用户形成一个17维的向量,例如(0.5236,0.3067,0.8300)。
2、将训练数据(调研数据及关联画像)近1万个样本生成特征文件。
特征文件中存储的是各二级维度下各标签代表类别的类中心向量。
例如“中流量男用户的类中心”:
(0.7429,0.4552,0.8322);“中流量女用户的类中心”:
(0.7651,0.3464,0.8283)。
3、对需要打标签的新数据做与第1步相同的数据转换。
例如某用户本地计费时长90分钟,长途计费时长1分钟总费用30元。
经过数据转换后得到该用户的向量:
(0.7435,0.5330,0.8300)。
4、将每一个新用户转换后的数据与各二级维度下各标签的类中心对比,根据计算结果,将与用户距离近的类别标签赋予该用户。
产业市场研究所介绍框架10用户群体用户群体个体属性个体属性(职业/性别/收入等)社会属性社会属性(家庭/团队等)个体偏好个体偏好(阅读/视频/音乐等)群体相似性群体相似性(协同/关联等)产业市场研究所n用户个体属性判别模型n用户社交属性判别模型n用户的业务偏好分析模型n基于群体相似性的智能推荐模型目录11产业市场研究所研究目标和意义12关系群体社会网络关系群体社会网络动态移动轨迹动态移动轨迹ODOD稳定点发现稳定点发现提升家庭、集团客户营销精准度针对性制定竞争策略加强核心客户维系和粘性价值利用群体影响力拓展营销市场掌握用户群体出行规律,强化广告投放、业务营销策略拓展信息化服务业务产品提升目标客户群体圈定的准确率和效率丰满客户画像了解客户分布,定位商务区、居民区、流动性大区域对用户的交往、移动轨迹等使用社会网络分析相关分析方法进行建模,判别用户间各类交往关系,如家庭、同事等。
产业市场研究所研究方法13包括用户个人通话行为、用户交往圈以及用户移动轨迹,首次引入不同时段的位置信息,提升关系识别精准度。
从数据仓库中读取源数据,校验数据的完整性,去除冗余和具有明显错误的数据。
11)ODOD发现发现/轨迹分析轨迹分析:
分析基站数据得到用户移动轨迹的时间和空间规律,可判定用户的OD稳定点,有助于描述用户行为模式和关系特征;22)特征提取)特征提取:
提取样本OD、通话频次、交往规律等用户行为特征,作为关系分类判别的依据;33)关系分类)关系分类:
基于特征建立不同关系分类训练器,计算不同关系和社群聚类,作为社会关系网络基础。
地图直观展示用户稳定点和关系分布,动态显示用户群行为轨迹,可作为营销参考依据,并支持灵活扩展配置。
使用河南济源三个月(2010.07-09)数据进行研究。
产业市场研究所14l阶段一:
接口检测l检测配置文件,读取数据访问权限l阶段二:
数据校验l检测表结构,清洗数据l检查实体完整性和参照完整性l运行状态检测l检测模型运行状态,运行提示配置文件数据结构数据标准化处理校验产业市场研究所15l阶段三:
OD提取(时间+空间优化)l出现频率大的基站区频繁度得到增强l出现次数下限大的基站区频繁度得到增强l周期性规律更显著的基站区得到突出OD识别-解决解决了了数据数据非非实时,数据稀缺的问题实时,数据稀缺的问题-仍有不足,需要利用时空规律进行改进仍有不足,需要利用时空规律进行改进-OD同时同时被多个基站覆盖被多个基站覆盖,数据,数据分散分散-需要进行合并需要进行合并-手机手机行为行为随机随机,不能只用次数作为频繁度刻画,不能只用次数作为频繁度刻画-需要需要用行为的周期性用行为的周期性规律对次数做修正规律对次数做修正OD发现发现朴素算法朴素算法空间规律利用空间规律利用时间规律利用时间规律利用识别效果:
识别效果:
l共有400000多位用户,其中识别380000位用户OD,识别率约为识别率约为95%95%。
l其他12000多位用户由于位置暴露信息过少无法识别,8000多用户O和D只能识别其一。
产业市场研究所16关系分类分类效果:
分类效果:
l引入交叉验证功能,家庭识别精家庭识别精度度81%81%,同事识别精度,同事识别精度73%73%。
l正在优化训练样本特征提取,逐步结果调优。
l阶段四:
产生训练集l使用已知集团用户或家庭用户关系的其中一方除已知关系外的所有关系作为反例。
l可通过配置文件定义训练集规模l阶段五:
训练分类器l主要使用用户间通话属性、交往圈重合、OD来进行分类产业市场研究所17关系识别识别效果:
识别效果:
l识别出882178个家庭关系,2147524个同事关系;l形成了形成了1094810948个家庭个家庭,每个家庭的人数平均为5;l形成了形成了47434743个集团个集团,每个集团的人数平均为13。
l阶段六:
计算关系l利用分类器,对用户的关系进行分类l阶段七:
计算群组l根据得到的关系,可以将用户聚集成组,形成家庭和同事群体产业市场研究所模型识别效果测试18模块模块性能效果性能效果OD识别共有400000多位用户,其中识别380000位用户OD,识别率约为95%95%关系识别模型测试:
家庭识别精度81%81%,同事识别精度73%73%实际外呼测试:
家庭识别精度75%75%,同事识别精度65%65%群组发现l形成了10948个家庭,每个家庭的人数平均为5;l形成了4743个集团,每个集团的人数平均为13OD切换时间服从正态分布,与日常规律一致不同关系群体与亲密指数分布符合常态规律产业市场研究所关系识别可视化19结合地图信息,提供了可展示不同用户社群关系归属、OD稳定点、动态移动轨迹、OD分布和用户密度分布的可视化Web页面,可更加直观和便捷地圈定和查询家庭集团客户,有助于市场拓展应用和精准营销。
以Googlemap方式展示家庭、同事、朋友等不同关系群体分类查询,静态显示住所和工作地稳定点。
列表给出查询用户附近同类群体成员信息,可直接点击查看静态分布。
设定时间段,动态播放该关系群体的动态轨迹分布,有助于了解不同群体用户移动出行规律以及消费特征。
聚类展示该区域集中的居民区和商务区;利用热度图展示用户密度分布产业市场研究所20可视化示意A)基站分布图B)某家庭群体稳定点分布C)某集团群体成员信息D)某家庭群体动态行为轨迹F)聚类展示居民区和工作区E)用户分布密度产业市场研究所介绍框架21用户群体用户群体个体属性个体属性(职业/性别/收入等)社会属性社会属性(家庭/团队等)个体偏好个体偏好(阅读/视频/音乐等)群体相似性群体相似性(协同/关联等)产业市场研究所n用户个体属性判别模型n用户社交属性判别模型n用户的业务偏好分析应用模型n基于群体相似性的智能推荐模型目录22产业市场研究所n业务偏好应用模型研究的需求如何根据客户的数据业务行为、基础画像、互联网行为,研究客户的业务偏好以及内容、时间等偏好,针对当前数据业务沉默客户、潜在客户开展激活与推荐。
n研究业务偏好应用模型的意义以用户为导向,满足用户个性化需求,比传统的大众推荐效果更好。
以真实数据为依据进行分析,实现对用户的精准定位和精确推荐。
有利于节约成本、提高利润水平,保留和吸引更多用户。
背景意义23产业市场研究所基于结构化数据的偏好分析模型n通过用户的月基础画像信息自动对用户分群生成用户标签。
n在每个用户群内,通过用户的业务使用行为做内容关联分析针对每类用户推荐不同的内容。
24用户基础画像数据用户使用行为数据用户分群内容推荐商务人士上网一族用户标签小乔布斯精彩演说概念车竟水上飞驰视频名称产业市场研究所输入数据n用户基础画像数据n业务使用行为数据以手机视频业务为例手机号码收看过的视频13800000001视频内容ID1视频内容ID2视频内容ID313800000002视频内容ID1视频内容ID2视频内容ID3基本信息行为信息费用信息语音使用行为短信使用行为GPRS使用行为WLAN使用行为25产业市场研究所业务偏好计算n用户分群:
数据变换、归一化:
解决各个特征的计量单位、大小范围差异大的问题。
K-means聚类聚类:
使用基础画像信息自动聚出8个类型不同的用户群。
26用户群高资费人群标准用户群低资费人群上网高烧友上网一族理性上网群商务人士通话达人产业市场研究所业务偏好计算27
(1)高资费人群高资费人群:
该类人群特征是绝大部分数值均大于平均值,即消费水平高于平均水平,特别是总费用是各类人群中最高的。
(2)标准用户群标准用户群:
该类人群特征是绝大部分数值与平均值持平或低于平均值。
值得一提的是,虽然GPRS套餐费较高,但使用时能严格控制流量,使流量不超过标准套餐的额度,不产生额外的GPRS通信费。
(3)低资费人群低资费人群:
该类人群特征是通话时长、短信量、上网流量均低于平均水平,特别是总费用是各类人群中最低的。
(4)上网发烧友上网发烧友:
该类人群特征是上网的流量和费用超高,同时通话等传统业务量少。
(5)上网一族上网一族:
该类人群特征是上网流量经常超出GPRS套餐额度,导致GPRS通信费超高。
与上网发烧友相比,通话等传统业务使用显得更活跃。
(6)理性上网群理性上网群:
该类人群特征是订阅GPRS套餐较为理性,套餐费高于平均值,属于喜爱上网的上群。
同时,GPRS套餐外产生的额外费用几乎没有。
(7)商务人士商务人士:
该类人群特征是套餐月租费、漫游通话费、无线上网流量在各类人群中最高,符合商务人士出差、经常无线上网的特点。
(8)通话达人通话达人:
该类人群特征是语音业务套餐费显著高于其他各个用户群。
另外,有了语音业务
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 用户 行为 分析 数据 挖掘 模型 研究 应用