财经数据分析综合实验报告医疗保险业的欺诈发现.docx
- 文档编号:26073821
- 上传时间:2023-06-17
- 格式:DOCX
- 页数:19
- 大小:924.94KB
财经数据分析综合实验报告医疗保险业的欺诈发现.docx
《财经数据分析综合实验报告医疗保险业的欺诈发现.docx》由会员分享,可在线阅读,更多相关《财经数据分析综合实验报告医疗保险业的欺诈发现.docx(19页珍藏版)》请在冰豆网上搜索。
财经数据分析综合实验报告医疗保险业的欺诈发现
XXXXX学院
本科学生综合性实验报告
学号
姓名
专业
班级
指导教师
开课学期2019至2020学年第二学期
完成时间2020年5月30日
实验报告
课程名称
财经数据挖掘实务
教学班级
指导老师
学号
姓名
行政班级
实验项目
案例6医疗保险业的欺诈发现
组员名单
独立完成或姓名(学号)(操作性和验证性实验均独立完成,综合性实验3-5人一组)
实验类型
□操作性实验□验证性实验■综合性实验
实验地点
实验日期
可写起止时间段
一、实验目的和要求:
在商业社会中,欺诈现象存在于各行各业,这些欺诈现象对正常的经济和生活秩序造成了极大的危害。
以下是一些典型的欺诈表现:
银行业中的伪造银行卡、办理多张信用卡消费不还、信用卡套现等;
证券业中存在的关联交易;
企业偷逃税给税收的公平性造成了极大的困扰
电信业中服务提供商的欺诈性收费
保险行业中的虚假索赔
……
如何有效预防欺诈,或者退而求其次,如何在发生欺诈后迅速识别并进行处理是各行各业普遍面临的问题之一。
本案例将以医疗保险业中存在的问题为例,实现欺诈发现。
二、数据集
Policy_Holder.sav
Provider.sav
Claims.sav
数据分析报告
――医疗保险业的欺诈发现
摘要
随着城镇职工基本医疗保险覆盖面的逐步扩大,参保人员结构更为复杂,医疗保险基金在医疗领域面临欺诈的风险也越来越大。
防范医疗欺诈问题,是研究社会医疗保险的重要课题之一,以此医疗保险欺诈为背景提出了问题,本文运用聚类分析、主成分分析等方法成功解决了这个问题,并在大量医保名单中找出了医保欺诈行为。
【关键词】:
Benford定律变量对比聚类分析
1引言
1.1案例背景
随着我国医疗保险事业快速发展,在保险赔付过程中,存在着一些借助病案进行医疗保险欺诈的事件,医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。
骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。
下面这些情况都有可能是医保欺诈:
单张处方药费特别高,一张卡在一定时间内反复多次拿药等。
1.2案例的目的和意义
医疗保险是为补偿疾病或意外风险所带来的医疗费用的一种措施。
医疗保险制度的实施对保障人民的身体健康和促进卫生事业发展起到了不可低估的作用。
然而由于利益驱动、信息不透明、监督机制不完善和法律制度不健全等原因,各类医保欺诈行为随之出现,严重影响医保基金安全运行,社会危害极大。
2数据理解与数据准备
2.1数据集概况
将数据集Policy_Holder.sav、Provider.sav、Claims.sav三个数据集导入到SPSSMolder,数据详情如图2-1所示。
图2-1:
三个数据集详情
Policy_Holder.sav:
400条记录;Provider.sav:
500条记录;Claims.sav:
9426条记录。
具体的变量取值这里就不详细介绍了。
2.2对数据进行描述
2.2.1投保人的特征分布
对投保人的分布分析中可以发现,老年保障险和伤残险的投保人年龄分部有差异,如图2-2所示。
伤残险的投保人一般没有年龄特别小的(不小于16岁),而老年保障险的投保人则有年龄较小的(小至三岁),在后续的分析中这个信息也许有用。
图2-2:
不同保险条款的年龄分布
从图2-3可以看出:
所有投保人中投老年保障险的占50.25%、投伤残险的占49.75%,两个险种的人数差别不大。
图2-3:
两种保险的比例分部
从图2-6可以看出:
所有的投保人中男性占45.25%、女性占54.75%。
图2-4:
投保人的性别分布
2.2.2医疗保健机构累呗的分布特征
通过查看如图2-5所示的医疗保健机构类别的分布图(在分布图中“字段”选为医疗保健机构大类,交叠字段中“颜色”选为变量医疗保健机构细类)可以得出如下信息:
●所有的医疗保健机构中,physical(内科)所占比例最大,达到了将近一半(49.2%)。
●在本案例数据中,对于医疗保健机构大类,只有在physical(内科)、hosp-III、labfac等三大类中包含不同的细类,而在其他25个医疗机构大类中均只包含一个细类。
图2-5:
医疗保健机构类别分布图
2.2.3金额、住院时长、服务地点等分布特征及他们之间的关联
计算住院时长、保费覆盖额、账单金额、支付金额四个变量的常规统计量及它们的相关系数得到图2-6的结果,结合业务可以得出如下结论:
●账单金额应大于保险覆盖额,而保险覆盖额应大于支付金额,三者的相关性极强。
或许后面可以通过这3个变量之间的比对发现欺诈现象的存在。
●住院时长与保费覆盖额、账单金额和支付金额3个变量无相关性。
这暗示我们希望通过住院时间的长短来判断索赔合理性以发现疑似欺诈的思路可能行不通。
图2-6:
住院时长、保费覆盖率、账单金额、支付金额四个变量的主要统计量
在数据准备过程中,一项重要的工作是将多个数据源合并、整理成一个符合数据挖掘模型要求的宽表。
按照图2-6所显示的数据结构,显然投保人信息表(Policy_Holder.sav)、医疗保健机构信息表(Provider.sav)和索赔信息表(Claims.sav)之,间可以通过两个关键字变量:
医疗保健机构编号(ProviderID)和投保人编号(Policy_HolderID)合并为一个包含3个表中所有变量的宽表。
但考虑到有6种不同的思路发现疑似欺诈线索,应该建立多个模型以发现不同的疑似欺诈线索,而不同模型对变量的要求不一样,并不是每个模型都需要全部变量,为了减少所需处理的数据量,提高模型的运行效率,在这个案例中将不做统一的数据准备工作,而是在每个建模过程中对数据进行必要的整理以适应模型的需要。
这样做对本案例中所述模型的效率影响并不大,因为本案例数据量比较小,即使先整理成宽表再进行后面的建模对效率影响也不会特别大,但在真实的企业数据挖掘项目中,欺诈发现涉及的数据量通常都非常大,这一点显得尤其重要。
图2-7:
数据理解完整数据流
3建立模型
3.1模型1:
变量对比发现疑似欺诈
从业务角度看,在索赔表中,变量之间会有--定的逻辑关系。
在这个案例中,可以对--些变量的横向与纵向作对比以发现索赔中的疑似欺诈。
以下是一些通过变量对比发现欺诈的基本想法。
●从业务逻辑讲,支付金额(保险公司通过医疗保健机构支付给投保人的费用)应小于账单金额(投保人看病的费用),如果在索赔信息表中竟然违反了这种明显的业务逻辑,则可视为是疑似欺诈。
●如果某一医疗保健机构在同一段时间内为-一个病人反复索赔次数过多,则可视为是疑似欺诈。
●如果某一医疗保健机构的月度索赔支付笔数或索赔支付金额大幅增加,则需要进-.步审查确定是否有欺诈现象存在。
图3-1是根据以上想法使用IBMSPSSModeler构建的欺诈发现数据流。
在数据流中分别针对疑似欺诈2、3、4设置了3个超级节点参数,可以帮助业务人员灵活地进行配置。
图3-1:
模型数据流
根据这一模型得到如图3-2所示的4份疑似欺诈个案报告。
图3-2:
根据模型得到的疑似欺诈名单
3.2模型2:
通过Benford定律发现疑似欺诈
BenFord定律被广泛运用于审计、欺诈发现等领域,这里要建立的模型就是试图通过BenFord定律进行欺诈发现,数据流见图3-3。
在数据流中,为了找出支付金额的第一位数字的分布与Benford定律所描述分布的差异,这里使用了K-Means聚类的方法。
选择所有医疗保险机构第一位数字为1、2、3、4、5、6、7、8、9的出现频率(d1_1_Mean、d1_2_Mean......d1_9_Mean)等9个变量作为输入变量,并在K-Means模型节点中选择“生成距离字段”(代表各医疗保健机构9个变量的取值与聚类中心的距离,而聚类中心符合Benford定律所描述的1~9数据分布规律),则K-Means模型生成的距离字段$KMD-K-Means越大,说明该医疗保健机构与Benford定律所描述的规律差异越大。
图3-4中的散点图横轴是距离字段$KMD-K-Means,纵轴是医疗保健机构索赔笔数。
显然,那些索赔笔数多(索赔笔数少时由于随机性原因无法应用Benford定律)且距离大的医疗保健机构可以判定为疑似欺诈。
这里选择索赔笔数大于50,距离字段$KMD-K-Means>0.2作为标准。
同样,在数据流中也设置了这两个变量的阈值作为超节点参数,可供业务人员根据业务需要进行更改。
图3-5~3-8是生成的疑似欺诈个案报告及所有医疗保健机构和两个疑似欺诈保健医疗机构支付金额变量的首位数字分布比较。
图3-3:
模型2数据流
图3-4距离字段与索赔笔数的散点图
图3-5疑似欺诈报告
图3-6全部医疗机构支付金额首位数字分布
图3-7疑似欺诈10085843968支付金额首位数字分布
图3-8疑似欺诈10083642887支付金额首位数字分布
3.3模型3:
聚类分析
该模型依据的基本思路是:
投保人的出险模式和索赔模式应具有--致性,在一段时间内不应该发生较大的变化。
在本案例中出险和索赔模式可以用保险费覆盖额、账单金额、支付金额、支付笔数来表示。
同时,由于数据是2001年全年的数据,为了体现出险和索赔模式的变化,这里选择根据投保人住院开始时间将之区分成2001年上半年(用2001_1H)和2001年下半年(2001_2H)两部分。
这个模型将使用聚类分析的方法找出2001年上半年和下半年出险和索赔模式发生较大变化的投保人并将之视为疑似欺诈。
数据流参见图3-13,该数据流中的左半部分进行了数据准备,将投保人信息与索赔信息进行合并,为了数据的完整性,将没有任何索赔的投保人也放进来,将他们的保险覆盖额、账单金额、支付金额、支付笔数都设置为0.0。
在数据流的右半部分,选择年龄、性别、保险条款、治疗措施编码、保费覆盖额、账单金额、支付金额、支付笔数等8个变量作为输入变量,使用K-Means模型进行聚类分析,并将聚类数设为5类。
之后将这5个类别的支付金额和支付笔数的平均值进行统计,得到图3-9的结果,从图中可以看出,不同类群之间的支付金额与支付笔数有明显差异。
再将各投保人2001年上半年与下半年的类群迁移情况进行统计,得到图3-10的结果。
从结果可以看出,大部分投保人的类群是稳定的,只有表3-11所示的一些类群迁移情况。
这些迁移说明了投保人的出险、索赔模式发生了变化,在这个模型中将之视为疑似欺诈,疑似欺诈报告如图3-12所示。
图3-9:
各类群支付金额与支付笔数平均值
图3-10上半年与下半年类群迁移情况
2001年上半年类群
2001年下半年类群
迁移数量
特征变化
聚类-1
聚类-4
2
支付笔数和支付金额大幅增加
聚类-3
聚类-4
1
支付笔数和支付金额大幅增加
聚类-4
聚类-3
5
支付笔数和支付金额大幅减少
聚类-4
聚类-5
1
支付笔数和支付金额大幅减少
聚类-5
聚类-4
1
支付笔数和支付金额大幅增加
表3-11类群迁移变化情况
图3-12根据模型三得到的疑似欺诈报告
图3-13聚类模型完整数据流
4结论及建议
医疗保险欺诈行为在经济上严重危害了国家、参保人及医疗机构的公共利益,而且损害了社会道德风气和社会公平。
因此提出以下防范策略建议:
1.加强医保制度宣传和教育
大多数参保人实施诈骗的原因是不清楚医保基金对于公民生命的意义和骗取医保基金的危害性以及严重性,因此,在扩大医保范围覆盖、提升医保额度的同时,需要加强对医保制度的宣传教育,通过各种方式告知参保人员持卡就医权利,同时告知其责任和义务,规范参保人员的就医行为。
2.健全信息共享机制
完善的信息共享机制使医保机构以较低的成本快速准确地获取医疗机构和医疗服务的真实信息,及时实现医疗服务信息和医保信息共享。
建立健全医疗保险信息数据库,统一接口规范,促进医疗机构诊疗信息和原始数据及时共享,提高医疗保险机构的工作效率,监控医疗机构的医疗行为,从而有效地控制医保基金的支出。
3.健全监督机制
首先,加强对定点医疗机构和医务人员的监督和教育,提高医生职业素养,建立完整的职业道德评估体系和医务人员诚信档案,明确经办机构与医疗机构定点服务协议中的责任和义务,从源头遏制骗保行为的发生。
其次,建立严格的医保监控系统和报销流程监督机制,规范医疗服务信息监控标准,对于在工作中失误的医保工作人员加大惩罚力度。
最后加强对参保人的监督,对其身份及所持票据和处方严格核查。
4.健全法律制度
虽然目前已经有法律明确表示了骗保的相关内容,并以诈骗罪论处,但是由于诈骗形式多样,法律法规适用范围有限,法律条文中对于认定社保欺诈的犯罪事实也不甚明确,导致反欺诈的力度大大减少。
今后要强化司法解释需要建立健全社保诈骗法律法规,加大惩处力度。
5收获
模型的优点:
1.在模型求解时,我们将表格合并、拆分,采用各表间的对比、相互验证的方法求解,以原始数据出发来寻找最有可能存在欺诈行为病人。
2.在模型求解过程中,我们仅用SPSS软件处理数据、解决问题,思路简单易懂。
3.在模型求解过程中,所用理论大多是常见的理论,比较容易理解,实现起来也相对较简单。
模型的缺点:
1.虽然数据较多,但为了使结果有较高的可信度,我们给出的存在医保欺诈行为的个案并不多,因此还可能存在被我们遗漏的医保欺诈个案。
2.由于SPSS软件处理数据结果较多,表格相对较大,有一些结果不能在文中得以体现。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 财经 数据 分析 综合 实验 报告 医疗 保险业 欺诈 发现