广义加性模型在医疗费用控制中的应用.docx
- 文档编号:29007553
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:17
- 大小:110.05KB
广义加性模型在医疗费用控制中的应用.docx
《广义加性模型在医疗费用控制中的应用.docx》由会员分享,可在线阅读,更多相关《广义加性模型在医疗费用控制中的应用.docx(17页珍藏版)》请在冰豆网上搜索。
广义加性模型在医疗费用控制中的应用
广义加性模型在医疗费用控制中的应用
天津医科大学柯慧、贾琼、陈金彪
摘要
医疗费用数据往往受各种因素的影响,关系错综复杂,有可能是非正态性、比较复杂的非线性联系,对于这种情形,传统的线性结构模型很难进行精确拟合。
而在实际中,对于住院费用影响因素的分析,多数研究是直接采用多重线性回归进行拟合,而没有考查因变量的分布、自变量与因变量之间的关系,或者有些研究采用一些复杂的统计学方法,使之不能广泛应用。
而GAM是建立在广义线性模型和加性模型基础之上,解决了回归模型只能简单考虑线性关系的问题,同时,也避免了一些复杂的数学算法。
因此,为探讨广义加性模型对住院费用影响因素研究的可行性,本文利用从天津银海2003-2007年住院参保人群资料库中抽取诊断为白内障的5030例患者的住院费用进行广义加性模型拟合。
该模型揭示住院费用的影响因素有医院级别,参保年度,人员类别,年龄,住院天数,耗材比例,其中年龄,住院天数,耗材比例与住院费用呈复杂的非线性关系。
关键词白内障住院费用影响因素广义加性模型Bootstrap
一、研究背景与意义
目前我国的医疗保障制度改革正处于关键时期,而医疗保险制度改革的关键
性问题都可以归结为医疗费用的控制和约束问题。
但是困扰全世界人民的一个问题——医疗费用上涨的趋势并未得到有效遏制。
2009年我国卫生总费用为17541.9亿元,比2008年增加3006.5亿元,增长了20.68%;2009年我国人均卫生费用是1314.30元,比2008年增加了219.8元,增加了20.08%,2009卫生总费用占GDP的5.15%;2010年门诊患者人均医疗费用166.80元,比上年增加14.0元(按当年价格计算,下同),增长9.74%;住院患者人均医药费用6193.90元,比上年增加509.8元,增长8.97%(1990年门诊患者人均医疗费用10.90元,2004年为118元,1990年出院患者人均医疗费用473.30元,2004年为4284.76元)[1]。
由上面的数据显示,医疗费用仍然呈快速上涨趋势,然而在医疗费用构成中,往往住院费用所占比例是最大的,住院费用的增加直接导致了医疗服务总费用的上涨。
要有效地控制医疗费用上涨,尤其是住院费用的上涨,首先需要明确住院费用的影响因素。
因此探寻住院费用的影响因素,并在此基础上合理开发、利用有限的卫生资源,提高医疗质量,减少不必要的浪费,控制医疗费用的增长和制定医院经营管理对策,己经成为卫生体制改革中亟待解决的问题[2]。
近年来,针对医疗费用过快增长的问题,国内外学者对住院费用情况和影响因素以及费用控制措施等展开了多项研究。
研究表明,医疗费用数据往往受各种因素的影响,关系错综复杂,有可能是非正态性、比较复杂的非线性联系,比如大多数影响因素会在直接影响费用的同时,通过影响住院天数来间接对费用产生影响,对于这种情形,传统的线性结构模型很难进行精确拟合。
而在实际中,对于住院费用影响因素的分析,多数研究是直接采用多重线性回归进行拟合,而没有考查因变量的分布、自变量与因变量之间的关系,或者有些研究采用一些复杂的统计学方法,使之不能广泛应用。
而GAM是建立在广义线性模型和加性模型基础之上,解决了回归模型只能简单考虑线性关系的问题,同时,也避免了一些复杂的数学算法。
这种新型的统计学方法具有很高的实用性,能够帮助我们提高对数据的分析量,如能较好运用“广义加性模型”,将可大大挖掘科研结果的信息量,更科学、合理解释实际科学研究中所遇到的问题。
二、数据来源
1.资料来源
数据来源于2003年1月1日-2007年12月31日天津银海数据库系统,随机抽取10%,选取抽取后的数据库中诊断为白内障(ICD-10编码为H25与H26.9)的全部出院的病例一共为5030例。
所选对象都是入院时诊断为白内障的患者。
该住院费用经正态性检验(Skewness=2.179,Kurtosis=15.063,D=0.212,P<0.001),为偏态分布。
2.调查内容
收集患者性别、年龄、人员类别(分为在职与退休)、医院等级、住院天数、有无第二诊断等基线情况,统计患者各单项住院费用,如药品费、检验费、检查费、治疗费、输血费用、住院费用合计、医用耗材(医用耗材是指用于临床实践医疗诊断与治疗的消耗性器材、人体植入物和消毒后可重复使用且易损耗的医疗器械,在医院向患者提供医疗服务过程中,经一次性使用价值即转化为费用)等。
三、模型介绍
广义加性模型(GAM)是Hastie和Tibshirani于1990年提出来的,是在广义线性模型和加性模型的基础上发展而来的。
GAM模型和GLM模型的应用比较类似,但GAM模型着重在非参数化的数据探索分析,而GLM模型强调的是对模型参数的估计和推断。
广义线性模型是线性回归模型的扩展,其x对y的期望的某个函数要求是线性的。
但广义线性模型的反应变量的分布和反应变量的连接函数却可以是非常广泛的,这也是它与一般线性回归模型的不同之处[3-5]。
可加模型也是线性回归模型的扩展,它只是用预测变量非参数的形式代替了线性回归模型中的参数形式。
可加模型在预测变量的效应上是可加的,保留了可加结构的解释性,为分别检验预测变量的效应提供了基础,而且克服了高维度带来的麻烦[6-7]。
同时,它不需要严格规定反应变量对解释变量的参数依存关系,可以给出许多灵活多变的回归模型。
作为两者的结合,广义加性模型唯一需做的假设是各函数项是可加的且是光滑的,集合了它们的优点[8-9]。
GAM与传统的回归方法相比,此模型不需要事先进行线性假设,对因变量的分布不仅仅局限于正态分布,也适合于数据为二项分布、泊松分布等指数分布族的情况,而且对预测变量的形式不作具体要求,而是采用非参数的方法进行拟合,它通过“加性”的假设,将一些与因变量间存在复杂非线性关系的自变量以不同函数加和的形式拟合进入模型,可以探索到变量间的非单调、非线性关系,灵活性非常强,这就决定了它是应对非线性数据的一种灵活而有效的工具[10-11]。
广义线性模型的基本形式是:
可加模型的基本形式是:
广义加性模型的形式如下[12]:
其中,
是Y的期望值,即
是连接函数,
是截矩
是针对每一个预测变量的任意
的单变量函数
假定反应变量
独立取自于某个单参数指数分布,则该分布具有密度函数或概率密度函数
,其中
为该指数类分布的自然参数,不同
对应不同的
,
为多余参数或尺度参数,它对所有
都取相同值,b和c为函数,它们决定了分布的特殊形式。
从广义加性模型的形式上可看出,它对预测变量的形式没有规定,体现了其灵活性。
由于它适用于很多分布类型的资料,所以对于不同类型的资料,连接函数
的形式也不同。
具体对应关系见表1[12]:
表1不同类型资料的连接函数形式
分布
连接函数
正态分布
单位连接
二项分布
Logit连接
负二项分布
倒数连接
Gamma分布
Log连接
Poisson分布
Log连接
对可加模型的估计,与估计一般的线性模型相似,就是借助最小二乘法追求期望值与观察值间的差距达到最小。
不过,可加模型在要求满足最小二乘法的同时,还要求用样条函数拟合的预测变量在结点的连接处要光滑。
即用惩罚最小二乘估计方法来估计可加模型。
其表达式为
其中
,
,
为各个分函数
的光滑参数,使上式最小就可得到{
}。
在实际的计算中,广义加性模型求解使用的是由IRLS(iteratively-reweightedleast-squaresalgorithm)和backfitting过程合并而成的局部积分算法(Local-ScoringProcedure)。
局部积分算法名称的由来是基于此算法在Fisher积分算法中整合了局部光滑方法,其中外部的Fisher积分过程用于联接函数的估计,而内部的backfitting过程用于估计光滑可加项,局部积分具体计算过程如下[13]:
(1)赋初值:
,
为连接函数
(2)循环记分步,
:
构建工作校正反应变量
,其中,
,
,权重
,
(3)Backfitting内循环
1)赋初值:
2)更新
:
,
(4)重复过程
(2)和(3),直到
值和光滑项
稳定为止。
其收敛与否可用以下收敛准则来判断:
对广义加性模型的估计包括连接函数的估计、每个预测变量的单变量函数
的估计、光滑参数
的选择。
四、模型拟合结果
1.变量的赋值
表2各变量赋值情况说明
变量类型
影响因素
代码
单位或量化方法
因变量
住院总费用(fsje)
Y
住院总费用原始值
自变量
性别(xb)
X1
1:
男;2:
女
年龄(nl)
X2
数据库原始数据
人员类别(rylb)
X3
1:
在职;2:
退休
第二诊断(bingfazheng)
X4
1:
无;2:
有
参保年度(nd)
X5
1:
2003;2:
2004;3:
2005;4:
2006;5:
2007
住院天数(zyts)
X6
数据库原始数据
医院等级(yylb)
X7
1:
一级医院;2:
二级医院;3:
三级医院
耗材比例(hcbl)
X8
医用材料费/住院总费用
2.广义加性模型的分析结果
表3模型参数部分的参数估计
变量
参数估计
标准误
t值
P值
常数项
375.66206
300.29693
1.25
0.2110
性别
16.12422
36.24507
0.44
0.6564
二级VS一级
-45.91795
173.86386
-0.26
0.7917
三级VS一级
1535.80764
156.05393
9.84
<.0.0001**
2004VS2003
-28.47920
72.82482
-0.39
0.6958
2005VS2003
290.68674
69.08945
4.21
<.0.0001**
2006VS2003
328.93383
68.64941
4.79
<.0.0001**
2007VS2003
315.99637
70.05039
4.51
<.0.0001**
人员类别
175.53956
83.67034
2.10
0.0360**
第二诊断
45.91554
41.97141
1.09
0.2740
Linear(年龄)
-0.74375
2.22696
-0.33
0.7384
Linear(住院天数)
301.34444
4.42856
68.05
<0.0001**
Linear(耗材比例)
6526.65208
149.15708
43.76
<0.0001**
表4模型非参数部分的光滑成分分析
光滑成分
光滑参数
自由度
广义交叉认证GCV
变量取不同
值的数目
Spline(年龄)
0.999949
3.000000
596000
67
Spline(住院天数)
0.999509
3.000000
12916108
49
Spline(耗材比例)
1.000000
2.992188
1456413
4851
表5模型非参数部分的离差分析
光滑成分
自由度
平方和
卡方值
P值
Spline(年龄)
3.00000
18942791
12.2156
0.0067
Spline(住院天数)
3.00000
492233082
317.4243
<0.0001
Spline(耗材比例)
2.99219
1105043346
712.6047
<0.0001
图1采用样条光滑法拟合自变量后,SAS输出的光滑曲线图
统计结果主要分三个部分,见表3、表4、表5,第一部分是模型的参数回归分析,以线性参数形式进入模型的年龄没有统计学意义(t=-0.33,P=0.7384),住院天数、耗材比例都有意义。
第二部分是光滑样条非参数分析的结果,给出相应的光滑参数、自由度、GCV的取值。
第三部分是离差分析部分,用于比较全模型与不含该变量的非参数部分模型的离差,离差分析结果发现年龄、住院天数、耗材比例这三个变量的非参数效应对住院费用是有影响的。
图1是采用样条光滑法拟合自变量后,SAS输出的光滑曲线图。
阴影部分为预测值的95%可信区间,图中显示年龄、住院天数、耗材比例具有曲线形式,它们的95%可信区间可能不包括0。
由以上结果的初步判断,去掉无统计学意义的变量,进一步拟合半参数模型。
表6模型参数部分的参数估计
变量
参数估计
标准误
t值
P值
Intercept
421.21090
237.65734
1.77
0.0764
三级VS一级
1568.54840
77.72584
20.18
<.0001**
2005VS2003
323.70517
49.9059
6.49
<0.0001**
2006VS2003
362.24973
49.06622
7.38
<.0001**
2007VS2003
346.36931
50.59121
6.85
<0.0001**
人员类别
166.73784
81.59412
2.04
0.0411**
Linear(年龄)
-1.01059
2.19512
-0.46
0.6453
Linear(住院天数)
302.65496
4.27951
70.72
<0.0001**
Linear(耗材比例)
6525.53059
148.88312
43.83
<0.0001**
表7模型非参数部分的光滑成分分析
光滑成分
光滑参数
自由度
广义交叉认证GCV
变量取不同
值的数目
Spline(年龄)
0.999949
3.000000
699243
67
Spline(住院天数)
0.999509
3.000000
14213275
49
Spline(耗材比例)
1.000000
2.992188
1588873
4851
表8模型非参数部分的离差分析
光滑成分
自由度
平方和
卡方值
P值
Spline(年龄)
3.00000
18589401
11.9923
0.0074
Spline(住院天数)
3.00000
507971173
327.6998
<0.0001
Spline(耗材比例)
2.99219
1107309266
714.3418
<0.0001
图2去掉无统计学意义的自变量后,SAS输出的光滑曲线图
由半参数模型拟合的结果发现,医院级别,参保年度,人员类别,年龄,住院天数,耗材比例这些因素都对住院费用的发生有影响,其中年龄,住院天数,耗材比例与住院费用呈曲线关系。
3.置信区间的估计
Bootstrap法是以现有样本为基础的模拟样本统计推断法,可用于研究一组数据的某统计量的分布特征,特别适用于那些难以用常规方法导出的参数的区间估计、假设检验等问题[10,14-15]。
由于该数据分布不明确,因此,采用bootstrap对参数进行区间估计。
该方法是基于有放回抽样理论。
它是采取有放回抽样形成训练集,即已经选做的观测将放回原来的数据集中,使得它与数据集中其它的观测有相同的概率被重新抽取。
本文采用最常用的0.632自引导法,即一个拥有n个观测的数据集(原始数据集)进行了n次有放回抽样,形成另一个含有n例的数据集,在该数据集中,会有(几乎肯定会)一些重复观测,那么在原始数据集中必有部分观测未被抽取,因此可选取这些未被抽取的观测作为测试集。
因为观测被抽中的概率是
,当N足够大,该概率逐渐逼近
。
因为训练集只用了63.2%的观测,用测试集进行泛化能力的估计,得到的将是一个对真实误差较为悲观的估计。
为了补尝这一点,通常采用0.632自引导法评估模型的性能。
如计算指标是准确率,则通过计算每个bootstrap样本的准确率(
)和由包含所有标记样本的训练集的准确率(
),从而计算最终准确率的估计值,如下公式所示。
其中b是指生成的bootstrap样本的个数。
在本研究中采用了1000次自引导法对参数的置信区间进行估计。
在本研究中,数据集中共有5030例观测。
1个bootstrap样本是指进行5030次有放回抽样,产生一个bootstrap样本。
一个bootstrap样本生成后用于训练模型,会有一部分观测没有被抽中,这部分数据用于测试,测试数据集中每个观测生成对应的预测概率。
1000次bootstrap抽样的结果即是每次给予不同的随机种子数,重复生成1000个bootstrap样本和1000个测试集。
即用于训练的所有标记样本的概率平均值×0.368+用于测试的所有样本的概率平均值×0.632,计算所得的每个观测的参数进行区间估计。
表9bootstrap法估计各变量系数的结果
变量名
系数(
)
(观察值)
系数(
)
(bootstrap估计)
标准误
95%可信区间
常数项
420.937
446.082
310.659
(-170.553,1047.324)
s(年龄)
-1.011
-1.018
2.419
(-5.788,3.589)
s(住院天数)
302.665
303.007
18.189
(269.506,340.444)
人员类别
166.831
159.998
112.027
(-45.341,383.115)
三级VS一级
1568.660
1551.325
111.874
(1328.933,1772.705)
2005VS2003
323.741
324.494
51.928
(219.695,420.780)
2006VS2003
362.039
363.413
57.187
(257.385,474.940)
2007VS2003
346.364
344.716
52.732
(240.765,446.425)
s(耗材比例)
6525.759
6519.353
221.526
(6109.095,6964.236)
五、模型评价
如果y与x的关系符合线性假定,我们可以用经典的回归模型,因为参数回归模型的构建、估计方法及算法相对简单,以及由假设条件带来的额外信息,使得参数回归模型有很高的推断精度,其结果也容易解释。
但由于生命现象的复杂性,y与x的关系并不总是线性的,尤其是在探索性研究中,我们常常不能确定所要建立回归方程中各项的基本形式。
对于不符合线性假定的回归数据,与其使用可能不适合的参数回归方法,不如“让数据说话”(Letthedataspeakforitself),使用非参数回归以获得虽然精度不高但合理的估计[16]。
虽然对于某些数据可以通过变量变换或采用多项式回归等方法使用线性模型,但是这些方法有一定的局限性,也会损失数据信息。
因此,假若待分析数据不符合参数回归的线性假定或因变量的分布以及其与自变量的关系不明确时,使用参数回归并不是一个正确的选择。
而广义加性模型具有非参数模型的诸多优点,如放宽了线性条件的要求,适用于任意分布的资料等。
当反应变量与解释变量之间的具体依存关系不明确、反应变量的分布不易判定或不符合所要求的分布,而解释变量的个数大于1时,可以采用广义加性模型。
本次研究通过广义加性模型对天津市5030例参保白内障患者住院费用的影响因素分析,不仅筛选出对其有影响的因素,为政府相关管理部门制订医疗保险相关政策以及医疗服务单位在今后的工作中如何加强自身管理、提高经济效益、减轻患者负担、实现多方共赢提供指导。
另外,在方法学上也提供了参考,本数据反应变量不服从正态分布,且很难判断反应变量与解释变量之间确切的依存关系,传统的线性模型假定条件不满足,而广义加性模型恰恰能解决这类难题。
从分析结果可以看出,采用广义加性模型分析,年龄实际上有统计学意义;而如果采用参数回归分析,则年龄无统计学意义,从而得出错误的结论。
而且利用光滑参数图可以提供更加丰富的信息,提示在今后的医学领域中可以尝试采用该方法来解决类似问题。
本文存在的不足:
本研究的数据是直接来源于医保系统数据库,此数据库中的信息变量太少,对一些可能影响结果的其他因素未能纳入,比如,患者的文化程度,经济状况,婚姻状况、医疗保险类型、住院治疗方式等信息。
这些因素可能会影响结论的可靠性与稳定性。
六、政策建议
本文通过广义加性模型的分析,发现对白内障病人住院费用的影响因素,包括年龄,住院天数、医院等级、材料费比例、人员类别、参保年度。
因此,参保白内障患者住院费用的控制策略理应围绕这些因素展开,提出以下建议:
(一)控制药品费用、材料费用所占比例,提高医护人员医疗服务价值
(二)缩短平均住院日,减少不合理住院天数
(三)完善社区卫生服务,合理分流人员,切实减轻患者住院费用
(四)医疗保险机构应制定合理的单病种支付价格
(五)提高医务人员的医德水平
(六)加快相关立法,完善和加强相应的医疗服务监督约束机制
参考文献
[1]中华人民共和国中央人民政府.2009年我国卫生事业发展统计公报,[EB/OL](2010-04-09)[2010-10-08]
[2]何平平.我国医疗支出增长因素研究[D].北京:
北京邮电大学,2007.
[3]Li,K.C.,Duan,N.Regressionanalysisunderlinkviolation[J].Ann.Statist,1989,17:
1009-52.
[4]Nadarya,H.G.Onestimatingregression[J].TheorProb,1964,9:
141-142.
[5]Rosenblatt,M.CurveEstimates[J].Statist,1971,42:
1818-1842.
[6]Priestley,M.B.,Chao,M.T.Non-parametricfunctionfitting[J].J.R.Statis,1972,4:
385-392.
[7]Cleveland,W.S.Robustlocally-weightedregressionandsmoothingscatterplots[J].J.Am.Statist.Assoc,1979,74:
829-836.
[8]Reinsch,C.Smoothingbysplinefunctions.Numer.Math,1976,10:
177-83.
[9]EugeneNovikov,EmmanuelBarillot.Regulatorynetworkreconstructionusinganintegraladditivemodelwithflexiblekernelfunctions[J].BMCSystemsBiology,2008,2:
8.
[10]饶克勤.卫生统计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 广义 模型 医疗 费用 控制 中的 应用