书签分享收藏举报版权申诉 / 21

立即下载加入VIP,免费下载

当前位置：首页 > 工程科技 > 电力水利 > 航空客运市场环境下的精确营销.docx

航空客运市场环境下的精确营销.docx

文档编号：42307
上传时间：2022-10-01
格式：DOCX
页数：21
大小：137.73KB

航空客运市场环境下的精确营销.docx

《航空客运市场环境下的精确营销.docx》由会员分享，可在线阅读，更多相关《航空客运市场环境下的精确营销.docx（21页珍藏版）》请在冰豆网上搜索。

航空客运市场环境下的精确营销.docx

航空客运市场环境下的精确营销

华南师范大学郑贵生、翟振威、吴迪

摘要：

当前航空客运市场竞争环境日益激烈，如何在激烈的竞争环境中做到精确营销是所有航空公司都要关注的重要问题。

本文利用国内某航空公司的会员数据通过建立决策树和多类别Logistic回归模型对客户流失进行刻画及预测，再建立基于权重的RFM模型，采用层次分析法和K—均值聚类法，以客户价值为依据对客户进行细分和价值评估，最后针对不同的客户提出不同的营销方案，做到精确营销，达到提高航空客运上座率这一目标。

首先通过数据预处理筛选出跟客户流失关系最大的五个客户行为变量，随机将数据分为训练集与测试集，建立决策树对实验样本进行拟合，得到客户是否流失和客户行为的关系，并使用测试集将预测结果与实际数据进行对比，预测效果显著。

为了更好地刻画客户流失程度，建立多类别Logistic回归模型，将客户分成三类：

忠诚客户、游离客户、流失客户，模型和参数都通过显著性检验，预测的总正确率达到66.4%，其中流失客户的预测正确率高达82.3%，并且测试集预测的准确性为65.8%，说明模型是显著有效的。

然后为了更好地对客户的价值进行细分，建立了基于权重的RFM模型，先用层次分析法确定各指标权重，再用K—均值聚类法分类，根据客户价值高低分为高价值客户、一般客户、低价值客户三类，其中最能为企业带来利润的高价值客户仅占所有客户的8.96%。

最后根据不同客户类别制定不同营销方案，重点是保持好忠诚客户、稳定游离客户、赢回流失客户中的高价值客户。

关键字：

决策树多类别Logistic回归模型基于权重的RFM模型客户流失

一、问题描述

当前航空客运市场竞争环境日益激烈，如何在激烈的竞争环境中做到精确营销是所有航空公司都要关注的重要问题。

很多人都听说过马来西亚的亚洲航空、美国的西南航空等公司的大名。

这些公司成功的秘诀就是擅于提高上座率。

为了争到客源，有些公司甚至提出了与长途巴士进行价格竞争的口号。

如此看来，国内航空公司并不是把其它航空公司当作主要竞争对象，主要对手应当是火车或长途汽车。

适当的低票价，将使航空资源得到充分利用，如果空座率居高不下，哪怕票价卖得很高，本身就已经出现了资源性亏损。

本文就是期望从航空公司感兴趣的主题，例如流失预测、客户细分和客户价值评估等方面，通过数据挖掘技术，帮助航空公司在激烈的竞争环境中做到精确营销，提高上座率。

为了在航空客运市场环境下做到真正意义上的精确营销，首先第一个大问题是如何对航空客户进行精确的分类，其中涉及到两个小问题，分别是按什么分类准则才能将航空客户精确区分和用什么模型来刻画及预测更合理。

在此基础上还有第二个大问题，就是针对不同类别的航空客户如何做到“个性化营销”，即营销方案，帮助企业创造更多利益。

附件数据集来自国内某航空公司的会员数据，共有62988个样本，每个样本有63个属性，各属性说明见“变量含义”Sheet页。

除了每个客户的基本资料外，该数据集还包含了一个观测窗（2年）内8个季度的用户飞行数据，包括乘机次数、里程、积分等。

二、如何对航空客户进行分类

2.1按什么分类准则来对客户进行分类

为了对客户进行精确营销，对客户进行细分是必不可少的，而分类准则则是细分客户的依据。

分类准则要能够准确反映分类的目的，即所分的类要有实际意义。

本文根据研究背景的需求，将根据两个分类准则对客户进行细分，分别是按

客户流失程度和按客户价值尺度进行客户细分。

因为客户是否流失将决定企业是否继续耗费人力物力来追踪该客户的动态，而客户价值的高低将决定企业对该客户的重视程度以及应该采取的优惠力度。

所以这两个分类准则将有助于企业做好客户细分以达到精确营销的目的。

2.2采用什么模型刻画及预测客户流失程度

2.2.1客户流失程度的定义及客户行为变量的选择

本文将客户最后一次乘机时间到观测窗口结束的时间间隔超过半年定义为流失客户，否则为非流失客户。

建立相应的变量States，流失用户定义为0，非流失客户定义为1。

关于客户行为变量的选择，首先是数据的预处理，主要有三步：

1）凭经验剔除与目标变量无关与重复的变量，找出与目标变量相关性强的变量；2）如果变量间存在多重共线性，则通过逐步回归法消除多重共线性；3）剔除有变量值缺失的观测值；4）视问题需要对数据进行标准化处理。

本文通过对变量进行筛选，反复检验，找出了与客户流失状态密切相关的五个客户行为变量，主要有以下几个变量：

FLIGHT_COUNT（飞行次数即消费频率）、SEG_KM_SUM（观测窗口总飞行公里数）、EXPENSE_SUM_YR_2（第二年总票价）、

MAX_FLIGHT_INTERVAL（观察窗口内最大乘机间隔）、Ration_L1Y_Flight_Count

（第2年的乘机次数比率）。

2.2.2模型一：

决策树模型

决策树是作为与样本属性结点，用属性的取值作为分支的树型结构。

决策树的根节点是最大的属性信息的内容，在所有样本。

树的中间节点是在子集的根树包含的信息内容最大的属性点。

决策树的叶点是样品类别的价值。

决策树使用新的样本分类时，从树的根节点开始，根据样本属性值逐渐向下沿决策树，直到树的叶子点，这一点表现的类是新的样本类别。

使用决策树模型，能够有效地分析与客户流失有关的属性取值，从而了解到当客户出现哪些行为时，容易流失，为挽留客户做好准备。

2.2.2.1模型的建立

使用典型的Id3算法：

Generate_decision_tree（samples，attribute_list）

{

创建结点N；

ifsamples都在同一个类Cthen

returnN作为叶结点，以类C标记；ifattribut_list为空then

returnN作为叶结点，标记为samples中最普通的类；选择attribute_list中具有最高信息增益的属性test_attribute标记结点N为test_attribute

foreachtest_attribute中的未知值ai:

{

由结点N长出一个条件为test_attribute=ai的分枝；设si是samples中test_attribute=ai的样本的集合；ifsi为空then

加上一个树叶，标记为samples中最普通的类；

else{

加上一个由Generate_decision_tree（si,

attribute_list–test_attribute）返回的结点（子树）；

}

该生成算法一个重要的工作就是选择当前信息增益最大的属性对决策树进

行分裂，并根据该属性可能的取值建立对应的分支。

[1]

这里的信息增益是涉及了信息论中信息熵的概念。

信息熵是表示一个事件的不确定性的大小，不确定性越大那么该事件包含的信息熵就越大，如果一个事件完全确定了，那么它所包含的信息熵就是0。

2.2.2.2模型的求解

考虑到航空公司中的客户属性过多，不利于进行决策树分析，因此选择重要的属性运行决策树，包括COUNT（飞行次数即消费频率）、KM（观测窗口总飞行公里数）、EXPENSE（第二年总票价）、M_F_I（观察窗口内最大乘机间隔）、Ration

（第2年的乘机次数比率）、A_F_I（平均乘机时间间隔）、Points（第2年观测窗口总累计积分）；

使用SAS中的EnterprisesMiner运行决策树分析，运用InputDataSource、DataPartition、Tree、Accessment作为决策树的关键元素，并在DataPartition随机将数据的70%设置为训练集，30%设置为测试集。

结构图见图1：

图1结构图

运行决策树，结果见图2：

图2决策树

从结果中，可以看出训练集中有35.8%的客户属于流失客户。

对不同的属性进行划分，得到的结果是Ration的影响最显著，当Ration小于0.106时，所得到的集合里有98.7%的客户属于流失客户；当Ration大于于0.106时，所得到的集合里只有22.1%的客户属于流失客户。

可以看出Ration的取值对于客户是否为流失客户是显著的。

测试集中有35.3%的客户属于流失客户，可以看出测试集的结构与训练集的结构是相似的。

对测试集运用分类属性时，所得结果与训练集的结果相似，所以可以认为该决策树模型是有效的。

最终的结果显示，可将客户分成7类：

1）当Ration小于0.0172，M_F_I小于348.5时，所得集合中有100%的客户属于流失客户；

2）当Ration大于0.0172小于0.106，M_F_I小于348.5时，所得集合中有77%的客户属于流失客户；

3）当Ration小于0.106，M_F_I大于348.5时，所得集合中只有6.4%的客户属于流失客户；

4）当Ration大于0.106，EXPENSE小于1779.5，M_F_I小于295.5时，所得集合中有57.9%的客户属于流失客户；

5）当Ration大于0.106，EXPENSE小于1779.5，M_F_I大于295.5时，所得集合中只有26.6%的客户属于流失客户；

6）当Ration大于0.106，EXPENSE大于1779.5小于3862.5时，所得集合中只有26.1%的客户属于流失客户；

7）当Ration大于0.106，EXPENSE大于3862.5时，所得集合中只有6.8%的客户属于流失客户；

综上所述，可得客户的流失状态与Ration、EXPENSE、M_F_I的取值有很大的关系。

其中第1类中的客户流失率较高，第3类和第7类的客户流失率较低。

运行结果中的分类误差图见图3：

图3分类误差图

从分类误差图中，可知将客户分成7类的误分类率是较低的，所以分成7类是合理的。

2.2.2.3模型的评价

再使用EnterprisesMiner中的Accessment评估决策树的运行结果，升降图见图4：

图4升降图

可知分类后，可适当抽取客户流失率较大的类，如第1类，第2类，第4类，可使得客户流失占这些类的客户总数的比例比总体中的比例大得多，故决策树模型是有效的。

另外，由图2的决策树可知，每一分类后的数据框中第二列数据是训练集所含的观察值个数及其所占的比例，第三列数据是测试集所含的观察值个数及其所占的比例，两比例之差的绝对值可以定义为决策树的预测误差，在图2中可以看出绝大部分误差都控制在1%以内，相当一部分都控制在0.5%以内，说明用决策树进行分类是有效可行的。

2.2.3模型二：

多类别logistic回归模型

考虑到客户流失状态是一个定性变量，为了更好地刻画这一变量，我们重新定义：

客户最后一次乘机时间到观测窗口结束的时间间隔两个月内的定义为忠诚客户，即第一类客户；介于半年和两个月间的定义为游离客户，即第二类客户；超过半年的定义为流失客户，即第三类客户。

要刻画其与其他因素的关系以达到根据客户行为预测客户流失状态的目的，可以用多类别logistic回归模型。

2.2.3.1模型的建立

对于0-1型因变量，回归函数应该改用限制在[0,1]区间内的连续曲线，而不能再沿用直线回归方程。

并且因变量yi本身只取0,1两个离散值，不适于直接作为回归模型中的因变量。

可以用yi取1的比例代替yi本身作为因变量。

[2]

Logistic回归方程为：

p= exp（b0+b1xi1+L+bmxim）