医疗保险欺诈的主动识别文档格式.docx
- 文档编号:21793176
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:54
- 大小:223.04KB
医疗保险欺诈的主动识别文档格式.docx
《医疗保险欺诈的主动识别文档格式.docx》由会员分享,可在线阅读,更多相关《医疗保险欺诈的主动识别文档格式.docx(54页珍藏版)》请在冰豆网上搜索。
(2)对于表2.2病人资料费用明细
此表是所有表中有用信息最多,且是最为重要的表。
选取里面下医嘱科室WORKLOAD_RECDEP_DR、医嘱数量WORKLOAD_QUANTITY、执行科室WORKLOAD_RECDEP_DR、下嘱医生WORKLOAD_RESDOC_DR、核算分类WORKLOAD_TAREC_DR、费用WORKLOAD_TOTALPRICE、单价WORKLOAD_UNITPRICE等信息,放入新表中;
利用数据库语言,将医嘱日期WorkLoad_OrdDate到结算日期WorkLoad_FlagDate的时间间隔求出来。
(3)对于表2.3、2.4、2.5、2.6进行处理
由于这四张表里面的信息有些过于详细,有很多都是空的信息,所以在本次建模中这四个表只用于参照和核对,不直接用于建模的数据引用和处理。
通过以上的方法可以得出一张新的数据表,表的大概情况如下:
表1数据处理后形成的新表
医保对象
购药记录
年龄
病例号
医保手册号
性别
是否死亡
178614
35963074
96
6007833
工作单位
执行科室
下医嘱科室
医嘱数量
下医嘱医生
手机号
账单号
193
203
70
1326
5060035
核算分类
费用
单价
时间间隔
医嘱子类
3
1.75
0.025
25
225684
36087446
44
1519350
1
191
133
794
5066057
……
118
15
5.模型的建立与求解
5.1logit回归模型
5.1.1模型有效性检验
与一般的线性模型类似,logit模型也需要对模型进行检验和评价,同样分为回归的显著性检验、回归系数的显著性检验和模型拟合度评价。
5.1.1.1logit模型回归方程整体显著性检验
logit模型回归方程的显著性检验用于检验用于检验logitP与所有变量之间的线性关系是否显著,检验的原假设为各回归系数为零,备选假设为各回归系数不同时为零。
常用的检验方法有对数似然比检验和Housmer-Lemeshow检验。
(1)对数似然比检验
假设没有引入任何解释变量,即方程仅包含常数项时,回归方程的似然函数值为
引入解释变量后似然函数为
,则似然比为
。
显然,似然比值为
,且值越接近1表明模型中解释变量对模型总体没有显著影响;
反之,越接近0表明引入解释变量对模型具有显著影响。
构造如下似然比卡方统计量:
可以证明,在原假设成立时,该统计量服从自由度为
的卡方分布,
为引入模型变量的个数。
SPSS会自动给出似然比卡方统计量及其概率p值。
若p值小于给定的显著性水平,则拒绝原假设,认为回归方程整体显著;
反之,认为回归方程不显著。
(2)Housmer-Lemeshow检验
通过二元logit回归计算给定解释变量时被解释变量取值为1时的概率,若实际值为1的样本预测概率相对较高而实际值为0的样本预测值概率的大小将所有样本分为了m组,得到Housmer-Lemeshow检验的随机表。
Hosmer-Lemeshow统计量服从自由度为(m-2)的卡方分布。
SPSS能够给出Hosmer-Lemeshow卡方统计量及相应概率p,当p小于给定显著性水平时,拒绝原假设,认为模型整体显著。
5.1.1.2回归系数显著性检验
在二元logit回归模型中,回归系数的显著性检验是通过构造Wald统计量进行。
原假设为
,Wald统计量数学表达式为:
在满足原假设条件时,Wald统计量服从自由度为1的卡方分布。
SPSS能够自动计算Wald统计量及其对应概率p值,通过比较第j个Wald统计量对应p值和给定的显著性水平即可以判定第j个回归系数是否显著。
当p值小于给定显著水平时,认为第j个回归系数显著不为零,否则,认为其显著为零。
5.1.1.3模型拟合优度评价
二元logit模型拟合优度评价常用的统计量包括Cox-Snell
统计量和Nagelkerke
统计量。
其中Cox-Snell
统计量数学定义为:
其中,
为没有引入任何解释变量的回归方程的似然函数值,
为引入解释变量后的回归方程似然函数值,N为样本容量,类似于一般线性回归的
统计量,其值越大表明模型拟合度越高。
Nagelkerke
统计量是Cox-Snell
统计量的修正,使得其取值范围限定为0~1,其值越接近于1表明模型拟合度越高。
5.2logit模型建立
我们把事件发生的情况定义为1,事件未发生的情况定义为0。
这样在保险欺诈识别模型中,取值为0、1的因变量可以写作:
我们通常以
表示事件发生的概率(则事件未发生的概率为
),并把
看作自变量
的函数。
在本论文中,医疗保险是医疗欺诈的概率为
对于
是0-1型Bernoulli模型,有如下分布:
通过logistic转换,索赔事件的对数概率发生比写成logit模型:
Logit一方面表达出它是医疗欺诈索赔概率p的转换单位;
另一方面,它作为回归的因变量就可以与自变量识别因子之间的依存关系保持传统回归模型:
其中
分别为k个识别因子:
为常数项,
分别为k个自变量的回归系数。
5.3欺诈识别因子的选取
欺诈识别因子是指可以观测或测量到的,能够刻画保险欺诈特征的有效信息点,用以作为欺诈识别模型的解释变量。
根据给出的数据,本文选取了一下13个指标作为识别因子:
(1)被保人特征:
性别、年龄、是否有固定单位、是否死亡、是否留有手机号;
(2)医保单特征:
医嘱日期和结算日期间隔、下医嘱科室、医嘱子类、医嘱数量、执行科室、核算分类、费用、单价。
5.4选取部分记录进行初步判定
由于logist模型的要求,必须先对一小部分记录进行初步判定,利用sql语句(详见附录2)选取每一栏目中异常数据,然后利用统计学分布等知识选取判定这一小部分数据,结果如下表:
表2部分记录判定结果
是否欺诈
5.5欺诈识别因子的精炼
运用二元离散选择模型对选取的13个欺诈识别因子经行逻辑回归分析,从中获取具有显著性的因子。
本文通过IBMSPSSStatistics19软件实现样本数据的logit回归分析。
(1)参数设定为:
方法:
进入;
步进概率:
进入(N)=0.05,删除(V)=0.1;
分类标准值(U):
0.5;
最大迭代次数:
50;
Exp(B)的C.l.(X):
95%。
(2)拟合结果(详见附录3、附录4):
表3迭代历史记录
-2对数似然值
系数
constant
825.359
.207
2
825.358
a.模型中包括常量;
b.初始-2对数似然值为825.359;
c.因为参数估计的更改范围小于。
001,所以估计在迭代次数3处终止。
表4分类表
已观测医疗保险类型
已预测以来哦保险类型
是否存在医疗欺诈
百分比校正
269
331
a.包括在模型中不变
b.切割值为0.5
Block0拟合的是只含有常数的无效模型,表3为迭代历史记录,估计在迭代终止,
初始的-2对数似然值达到825.358;
表4为分类预测表,可见在600例观察值记录中,269例被预测为0,331被预测为1。
表5logit回归包含在方程中的变量估计值及检验
步骤0
B
S.E
Wals
df
Sie
Exp(B)
常量
.082
6.384
.012
1.230
在没有引入任何变量时方程的变量估计值及检验值如表5所示,常变量系数值为0.27,概率为0.082,可见常量对方程有显著性意义。
因为回归采用Enter方法,处了检查容忍度之外,没有其他任何进入标准,所有选择的变量都会进入回归方程。
将变量分别引入回归方程后对方程的显著性影响如表6所示。
可见性别、医嘱子类、是否留有手机号、执行科室、单价等五个因子引入方程对方程没有显著性影响。
表6logit回归不包括在方程中的变量进入方程
步骤0变量
得分
sig
110.805
.001
124.266
.000
7.743
.005
48.460
有无工作单位
49.992
有无手机号
3.710
.054
70.862
.353
66.272
18.610
.032
17.307
.007
112.918
59.729
2.534
.111
a.剩余的卡方不是因为冗余计算
5.6医疗欺诈识别的BP神经网络模型
人工神经网络是基于对人脑组织结构和活动机制的初步认识提出的一种类似人类神经系统的信息总处理工具。
人工神经网络由大量人工神经元相互连接而成,通过学习训练即根据输入的外界信息调整神经元之间的连接权值进而自我调整结构,达到处理实际问题的能力。
人工神经网络具有自学、自组织、自适应以及非线性逼近性、良好的容错性和计算的非精确性等特点,具有强大的模式识别和数据拟合能力,在模式分类、聚类、回归拟合、优化计算、数据压缩等众多领域得到广泛应用。
事实上,神经网络有很多种,不同类型的神经网络适用于不同的问题,其中以基于误差反传算法的多层前馈网络即BP神经网络最为流行。
BP神经网络是一种按误差你传播算法训练的多层前馈网络,目前已在国内外相关经济研究领域得到广泛应用。
5.6.1BP神经网络基本原理
BP网络模型处理信息的基本原理是:
学习过程由信号的正向传播和误差的反向传播两个过程组成。
正向传播时,输入信号通过中间层作用于输出层,经过非线形变换,产生输出信号;
若输出层的实际输出与期望输出不符,则转向误差的反向传播阶段。
误差的反向传播是将输出误差以某种形式通过中间层向输入层逐层反转,并将误差分摊给各层的所有单元,从而获得各层的误差信号作为修正各单元权值的依据。
此过程周而复始,直到输出的误差降到可以接受的程度。
此时经过训练的神经网络即能对类似样本的输入信息自行处理,进而输出误差最小的经过非线形转换的信息,然后可通过检验神经网络的有效性。
运用BP神经网络处理实际问题时分为两个步骤即网络训练和网络应用。
第一步网络训练采用有监督的学习,有监督的学习是指每一个训练样本都对应一个代表环境信息的教师信号作为期望输出,训练时计算实际输出与期望输出之间的误差,根据误差的大小和方向反复调整网络连接权值,直到误差达到预定的精度为止。
5.6.2BP神经网络的结构
BP神经网络是一种多层前馈网络,其神经元连接权值的调整规则采用误差反传算法即BP算法。
BP神经网络又是一个多层感知器,多层次感知器强调神经网络在结构上由输入层、隐含层、输出层等多层构成,BP网络则强调层间连接权值通过误差反传算法经行调整。
BP神经网络的特点是:
网络由多层次构成,包括输入层、隐含层(单层或多层)和输出层;
层与层之间全连接,同层神经元之间无连接;
传递函数必须可微,常用的有Sifmoid型的对数、正切函数或线性函数;
采用误差反传算法经行学习,逐层向前修正网络连接权值。
BP神经网络结构在设计时主要包括以下方面:
(1)网络层数
BP神经网络至少包括一个输入层和一个输出层,可以包含一个或多个隐含层,所以网络层数的决定问题即是隐含层层数的决定问题。
理论上已经证明,单个隐层可以通过适当增加神经元节点数达到任意的非线性映射,因此大多数情况单隐层结构的神经网络足以满足需求。
在样本较多的情况下,增加一个隐层可以有效减小网络规模。
(2)输入层节点数
输入层节点数取决于输入向量维数,具体可根据实际问题和数据类型确定。
如果输入数据为模型信号波形,则可根据波形的采样点数目决定输入向量维数;
如果输入数据为时间序列数据,则输入节点为时间点数;
如果输入为图像,则输入单元可以为图像像素或经处理的图像特征。
(3)隐含层节点数
隐含层节点数在很大程度上影响着BP神经网络的性能。
对此一个非常重要的定理表述为对任何一个在闭区间内的连续函数都可以用三层即单隐层BP神经网络逼近,因而单隐层BP网络可以完成任意的n维到m维的映射。
一般而言,隐含层较多节点可使网络达到更好的性能,但可能导致较长的收敛时间。
实践中,通常采用以下经验公式选择最佳节点数:
第一种:
,其中k为样本数,M为隐层节点数,n为输入节点数。
如果
,规定
第二种:
,其中n为输入节点点数,m为输出节点数,a是
之间的常数。
第三种:
,n为输入节点数。
(4)输出层节点数
输出层节点数需要根据实际问题的抽象模型进行确定。
例如在利用神经网络解决模式分类问题中,如果共有n个类别,则输出层节点数为n或
,
表示不小于x的最小整数。
(5)传递函数
根据研究经验,一般情况下输入层和隐层的传递函数选用
行函数(Logsig)
或正切
形函数(Tansig)
输出层选用线性函数作为传递函数,用purelin表示。
(6)训练方法
BP神经网络采用迭代调整的方式进行权值确定,因此在训练之前需要确定初始值作为迭代调整的起点。
初始值的大小会影响网络的性能,通常情况将初始值定为较小的非零随机值,经验值为
或
之间,其中F为权值输入端连接的神经节点数。
5.6.3BP神经网络的学习算法
BP网络的层数和神经节点数确定之后,还需确定各层之间的权值系数,此过程即为网络的学习过程。
BP网络的学习是有监督的学习,需要一组已知输出值得样本作为检验样本。
训练开始时首先选取随机值作为权值,输入检验样本得出网络输出,然后根据网络输出与已知输出之间的误差通过某种规则对权值进行不断调整,直至达到目标误差精度。
前向型神经网络常用的学习方法有最小均方误差法、梯度下降法,以及改进算法动量梯度下降法、拟牛顿法、LM等。
5.7构建医疗保险欺诈识别模型
将样本案例分为训练样本和检验样本,分别在医疗保险欺诈和非医疗保险欺诈案例中选取300例作为检验样本,其余案例作为模型训练样本进行网络训练。
用训练好的神经网络对检验样本进行预测检验,并与实际判定结果经行比较得出结论。
在健康保险欺诈识别模型当中,首先构建输入和输出数据矩阵,包括网络输入向量矩阵X、网络输出向量矩阵Y与期望输出向量矩阵T。
通过经验和实验确定网络结构和参数,采用误差梯度下降的学习算法,不断调整输入层、隐层与输出层之间的联接强度权值以及阈值,确定与最小误差相对应的网络参数(权值和阈值)。
5.7.1构建输入输出数据矩阵
网络输入数据矩阵是由经logit回归分析获取的具有模型显著性的8个欺诈识别因子向量构成。
设矩阵
,其中,
到
代表七个识别因子列向量。
矩阵X即为输入数据向量矩阵。
网络输出向量矩阵时模型判定的案例分类概率矩阵。
设
,其中
为n个案例的判定概率。
期望输出向量矩阵是获取的样本案例的索赔类别矩阵,实际是一个列向量,向量元素非0即1,代表医疗保险欺诈和非医疗保险欺诈的判定。
5.7.2神经网络结构参数设定
构建神经网络模型的关键就是合理设定结构参数,根据前文的分析和重复训练实验将欺诈识别模型的结构参数设定如下:
(1)网络层数:
选取单隐层即三层神经网络模型。
(2)神经节点:
输入节点为欺诈识别因子个数即为8,输出节点数为1,通过重复试验确定最佳隐层节点数为16,此时网络训练效果最佳;
表7给出了不同隐层节点数的训练效果比较,可以看出节点数为16和17时训练整体网络误差和拟合优度达到最佳,而节点数为16时训练次数明显少于17时,训练效率较高。
表7不同隐层数的模型训练效果对比
隐层节点数
训练次数
整体网络误差
拟合优度(R)
8
>
100000
5.4447
0.89456
9
5.4175
0.89367
10
18374
4.8990
0.91557
11
10610
4.8989
0.91558
12
5598
13
1328
0.91559
14
4029
1440
4.8988
16
4.8986
0.9156
17
10030
(3)传递函数:
通过重复训练实验,最终确定隐层传递函数tansig,输出层传递函数purelin。
(4)性能函数:
通过均方误差(MSE)来反映模型的预测精度。
(5)训练函数:
选择普通训练traindm,设定学习速率为0.1,动量系数为0.9,训练次数1000,误差精度为0.03。
5.7.3BP神经网络模型构建
运用MATLAB的newff函数建立一个前馈BP神经网络,其格式为:
5.8医疗欺诈识别的证实分析
5.8.1数据预处理
预处理数据可以有效提高神经网络训练效果,影响神经网络预测性能,是进行实证分析的关键步骤。
因此,首先需要对原始数据进行归一化处理,即通过线性变换将数据限定在
区间内。
设样本某因子向量
,n为样本例数。
设有最大值
,最小值
,令
则有
采用归一化处理后的数据进行网络训练和检验,实证分析中运用MATLAB的premnmx函数实现输入数据的归一处理。
5.8.2网络训练
运用处理之后的数据对构建的神经网络模型进行训练,基于LMS算法即最小均方误差算法(LeastMeanSquareAlgorithm),以均方误差作为反映模型预测精度的标准。
LMS体现了纠错规则,与最速下降法没有本质上的差别。
最标准最速下降法实际应用中往往收敛速度慢,因此作为改进权值更新阶段引入动量因子
使本次权值的更新方向和幅度不仅与本次计算的梯度有关还与更新有关,使权值更新有一定的惯性。
研究中动量因子设定为0.9。
模型经过100000次训练误差精度达到0.029284小于目标0.01,训练结束,训练过程如图1所示。
图1模型训练过程图
如表10所示,训练后模型的拟合优度达到0.9156,较为理想。
在合理的容错限度内可以较为准确地进行数据拟合和预测。
图2模型数据拟合图
5.9医疗欺诈识别的结果求解
运用上述已经成型的BP神经网络模型,将数据导入其中得到了结果图(详见附录14),通过MATLAB进一步的信息提取,得到判定为医疗保险欺诈的记录(详见附录15),部分结果如下表:
表8利用BP神经网络模型得到存在医疗欺诈的医疗记录
378765
625491
534329
161261
238661
93845
256400
654044
217988
341118
257604
452627
22806
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医疗保险 欺诈 主动 识别