书签分享收藏举报版权申诉 / 17

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 基础医学 > 广义加性模型在医疗费用控制中的应用.docx

广义加性模型在医疗费用控制中的应用.docx

文档编号：29007553
上传时间：2023-07-20
格式：DOCX
页数：17
大小：110.05KB

《广义加性模型在医疗费用控制中的应用.docx》由会员分享，可在线阅读，更多相关《广义加性模型在医疗费用控制中的应用.docx（17页珍藏版）》请在冰豆网上搜索。

广义加性模型在医疗费用控制中的应用.docx

广义加性模型在医疗费用控制中的应用

天津医科大学柯慧、贾琼、陈金彪

摘要

医疗费用数据往往受各种因素的影响，关系错综复杂，有可能是非正态性、比较复杂的非线性联系，对于这种情形，传统的线性结构模型很难进行精确拟合。

而在实际中，对于住院费用影响因素的分析，多数研究是直接采用多重线性回归进行拟合，而没有考查因变量的分布、自变量与因变量之间的关系，或者有些研究采用一些复杂的统计学方法，使之不能广泛应用。

而GAM是建立在广义线性模型和加性模型基础之上，解决了回归模型只能简单考虑线性关系的问题，同时，也避免了一些复杂的数学算法。

因此，为探讨广义加性模型对住院费用影响因素研究的可行性，本文利用从天津银海2003-2007年住院参保人群资料库中抽取诊断为白内障的5030例患者的住院费用进行广义加性模型拟合。

该模型揭示住院费用的影响因素有医院级别，参保年度，人员类别，年龄，住院天数，耗材比例，其中年龄，住院天数，耗材比例与住院费用呈复杂的非线性关系。

关键词白内障住院费用影响因素广义加性模型Bootstrap

一、研究背景与意义

目前我国的医疗保障制度改革正处于关键时期，而医疗保险制度改革的关键

性问题都可以归结为医疗费用的控制和约束问题。

但是困扰全世界人民的一个问题——医疗费用上涨的趋势并未得到有效遏制。

2009年我国卫生总费用为17541.9亿元，比2008年增加3006.5亿元，增长了20.68%；2009年我国人均卫生费用是1314.30元，比2008年增加了219.8元，增加了20.08%，2009卫生总费用占GDP的5.15%；2010年门诊患者人均医疗费用166.80元，比上年增加14.0元（按当年价格计算，下同），增长9.74%；住院患者人均医药费用6193.90元，比上年增加509.8元，增长8.97%（1990年门诊患者人均医疗费用10.90元，2004年为118元，1990年出院患者人均医疗费用473.30元，2004年为4284.76元）[1]。

由上面的数据显示，医疗费用仍然呈快速上涨趋势，然而在医疗费用构成中，往往住院费用所占比例是最大的，住院费用的增加直接导致了医疗服务总费用的上涨。

要有效地控制医疗费用上涨，尤其是住院费用的上涨，首先需要明确住院费用的影响因素。

因此探寻住院费用的影响因素，并在此基础上合理开发、利用有限的卫生资源，提高医疗质量，减少不必要的浪费，控制医疗费用的增长和制定医院经营管理对策，己经成为卫生体制改革中亟待解决的问题[2]。

近年来，针对医疗费用过快增长的问题，国内外学者对住院费用情况和影响因素以及费用控制措施等展开了多项研究。

研究表明，医疗费用数据往往受各种因素的影响，关系错综复杂，有可能是非正态性、比较复杂的非线性联系，比如大多数影响因素会在直接影响费用的同时，通过影响住院天数来间接对费用产生影响，对于这种情形，传统的线性结构模型很难进行精确拟合。

而在实际中，对于住院费用影响因素的分析，多数研究是直接采用多重线性回归进行拟合，而没有考查因变量的分布、自变量与因变量之间的关系，或者有些研究采用一些复杂的统计学方法，使之不能广泛应用。

而GAM是建立在广义线性模型和加性模型基础之上，解决了回归模型只能简单考虑线性关系的问题，同时，也避免了一些复杂的数学算法。

这种新型的统计学方法具有很高的实用性，能够帮助我们提高对数据的分析量，如能较好运用“广义加性模型”，将可大大挖掘科研结果的信息量，更科学、合理解释实际科学研究中所遇到的问题。

二、数据来源

1.资料来源

数据来源于2003年1月1日-2007年12月31日天津银海数据库系统，随机抽取10%，选取抽取后的数据库中诊断为白内障（ICD-10编码为H25与H26.9）的全部出院的病例一共为5030例。

所选对象都是入院时诊断为白内障的患者。

该住院费用经正态性检验（Skewness=2.179，Kurtosis=15.063，D=0.212，P<0.001），为偏态分布。

2.调查内容

收集患者性别、年龄、人员类别（分为在职与退休）、医院等级、住院天数、有无第二诊断等基线情况，统计患者各单项住院费用，如药品费、检验费、检查费、治疗费、输血费用、住院费用合计、医用耗材（医用耗材是指用于临床实践医疗诊断与治疗的消耗性器材、人体植入物和消毒后可重复使用且易损耗的医疗器械，在医院向患者提供医疗服务过程中，经一次性使用价值即转化为费用）等。

三、模型介绍

广义加性模型（GAM）是Hastie和Tibshirani于1990年提出来的，是在广义线性模型和加性模型的基础上发展而来的。

GAM模型和GLM模型的应用比较类似，但GAM模型着重在非参数化的数据探索分析，而GLM模型强调的是对模型参数的估计和推断。

广义线性模型是线性回归模型的扩展，其x对y的期望的某个函数要求是线性的。

但广义线性模型的反应变量的分布和反应变量的连接函数却可以是非常广泛的，这也是它与一般线性回归模型的不同之处[3-5]。

可加模型也是线性回归模型的扩展，它只是用预测变量非参数的形式代替了线性回归模型中的参数形式。

可加模型在预测变量的效应上是可加的，保留了可加结构的解释性，为分别检验预测变量的效应提供了基础，而且克服了高维度带来的麻烦[6-7]。

同时，它不需要严格规定反应变量对解释变量的参数依存关系，可以给出许多灵活多变的回归模型。

作为两者的结合，广义加性模型唯一需做的假设是各函数项是可加的且是光滑的，集合了它们的优点[8-9]。

GAM与传统的回归方法相比，此模型不需要事先进行线性假设，对因变量的分布不仅仅局限于正态分布，也适合于数据为二项分布、泊松分布等指数分布族的情况，而且对预测变量的形式不作具体要求，而是采用非参数的方法进行拟合，它通过“加性”的假设，将一些与因变量间存在复杂非线性关系的自变量以不同函数加和的形式拟合进入模型，可以探索到变量间的非单调、非线性关系，灵活性非常强，这就决定了它是应对非线性数据的一种灵活而有效的工具[10-11]。

广义线性模型的基本形式是：

可加模型的基本形式是：

广义加性模型的形式如下[12]：

其中，

是Y的期望值，即

是连接函数，

是截矩

是针对每一个预测变量的任意

的单变量函数

假定反应变量

独立取自于某个单参数指数分布，则该分布具有密度函数或概率密度函数

，其中

为该指数类分布的自然参数，不同

对应不同的

，

为多余参数或尺度参数，它对所有

都取相同值，b和c为函数，它们决定了分布的特殊形式。

从广义加性模型的形式上可看出，它对预测变量的形式没有规定，体现了其灵活性。

由于它适用于很多分布类型的资料，所以对于不同类型的资料，连接函数

的形式也不同。

具体对应关系见表1[12]：

表1不同类型资料的连接函数形式

分布

连接函数

正态分布

单位连接

二项分布

Logit连接

负二项分布

倒数连接

Gamma分布

Log连接

Poisson分布

Log连接

对可加模型的估计，与估计一般的线性模型相似，就是借助最小二乘法追求期望值与观察值间的差距达到最小。

不过，可加模型在要求满足最小二乘法的同时，还要求用样条函数拟合的预测变量在结点的连接处要光滑。

即用惩罚最小二乘估计方法来估计可加模型。

其表达式为

其中

，

为各个分函数

的光滑参数，使上式最小就可得到{

}。

在实际的计算中，广义加性模型求解使用的是由IRLS（iteratively-reweightedleast-squaresalgorithm）和backfitting过程合并而成的局部积分算法（Local-ScoringProcedure）。

局部积分算法名称的由来是基于此算法在Fisher积分算法中整合了局部光滑方法，其中外部的Fisher积分过程用于联接函数的估计，而内部的backfitting过程用于估计光滑可加项，局部积分具体计算过程如下[13]：

（1）赋初值：

，

为连接函数

（2）循环记分步，

：

构建工作校正反应变量

，其中，

，

，权重

，

（3）Backfitting内循环

1）赋初值：

2）更新

：

，

（4）重复过程

（2）和（3），直到

值和光滑项

稳定为止。

其收敛与否可用以下收敛准则来判断：

对广义加性模型的估计包括连接函数的估计、每个预测变量的单变量函数

的估计、光滑参数

的选择。

四、模型拟合结果

1.变量的赋值

表2各变量赋值情况说明

变量类型

影响因素

代码

单位或量化方法

因变量

住院总费用（fsje）

Y

住院总费用原始值

自变量

性别（xb）

X1

1：

男；2：

女

年龄（nl）

X2

数据库原始数据

人员类别（rylb）

X3

1：

在职；2：

退休

第二诊断（bingfazheng）

X4

1：

无；2：

有

参保年度（nd）

X5

1：

2003；2：

2004；3：

2005；4：

2006；5：

2007

住院天数（zyts）

X6

数据库原始数据

医院等级（yylb）

X7

1：

一级医院；2：

二级医院；3：

三级医院

耗材比例（hcbl）

X8

医用材料费/住院总费用

2.广义加性模型的分析结果

表3模型参数部分的参数估计

变量

参数估计

标准误

t值

P值

常数项

375.66206

300.29693

1.25

0.2110

性别

16.12422

36.24507

0.44

0.6564

二级VS一级

-45.91795

173.86386

-0.26

0.7917

三级VS一级

1535.80764

156.05393

9.84

<.0.0001**

2004VS2003

-28.47920

72.82482

-0.39

0.6958

2005VS2003

290.68674

69.08945

4.21

<.0.0001**

2006VS2003

328.93383

68.64941

4.79

<.0.0001**

2007VS2003

315.99637

70.05039

4.51

<.0.0001**

人员类别

175.53956

83.67034

2.10

0.0360**

第二诊断

45.91554

41.97141

1.09

0.2740

Linear（年龄）

-0.74375

2.22696

-0.33

0.7384

Linear（住院天数）

301.34444

4.42856

68.05

<0.0001**

Linear（耗材比例）

6526.65208

149.15708

43.76

<0.0001**

表4模型非参数部分的光滑成分分析

光滑成分

光滑参数

自由度

广义交叉认证GCV

变量取不同

值的数目

Spline（年龄）

0.999949

3.000000

596000

67

Spline（住院天数）

0.999509

3.000000

12916108

49

Spline（耗材比例）

1.000000

2.992188

1456413

4851

表5模型非参数部分的离差分析

光滑成分

自由度

平方和

卡方值

P值

Spline（年龄）

3.00000

18942791

12.2156

0.0067

Spline（住院天数）

3.00000

492233082

317.4243

<0.0001

Spline（耗材比例）

2.99219

1105043346

712.6047

<0.0001

图1采用样条光滑法拟合自变量后，SAS输出的光滑曲线图

统计结果主要分三个部分，见表3、表4、表5，第一部分是模型的参数回归分析，以线性参数形式进入模型的年龄没有统计学意义（t=-0.33，P=0.7384），住院天数、耗材比例都有意义。

第二部分是光滑样条非参数分析的结果，给出相应的光滑参数、自由度、GCV的取值。

第三部分是离差分析部分，用于比较全模型与不含该变量的非参数部分模型的离差，离差分析结果发现年龄、住院天数、耗材比例这三个变量的非参数效应对住院费用是有影响的。

图1是采用样条光滑法拟合自变量后，SAS输出的光滑曲线图。

阴影部分为预测值的95%可信区间，图中显示年龄、住院天数、耗材比例具有曲线形式，它们的95%可信区间可能不包括0。

由以上结果的初步判断，去掉无统计学意义的变量，进一步拟合半参数模型。

表6模型参数部分的参数估计

变量

参数估计

标准误

t值

P值

Intercept

421.21090

237.65734

1.77

0.0764

三级VS一级

1568.54840

77.72584

20.18

<.0001**

2005VS2003

323.70517

49.9059

6.49

<0.0001**

2006VS2003

362.24973

49.06622

7.38

<.0001**

2007VS2003

346.36931

50.59121

6.85

<0.0001**

人员类别

166.73784

81.59412

2.04

0.0411**

Linear（年龄）

-1.01059

2.19512

-0.46

0.6453

Linear（住院天数）

302.65496

4.27951

70.72

<0.0001**

Linear（耗材比例）

6525.53059

148.88312

43.83

<0.0001**

表7模型非参数部分的光滑成分分析

光滑成分

光滑参数

自由度

广义交叉认证GCV

变量取不同

值的数目

Spline（年龄）

0.999949

3.000000

699243

67

Spline（住院天数）

0.999509

3.000000

14213275

49

Spline（耗材比例）

1.000000

2.992188

1588873

4851

表8模型非参数部分的离差分析

光滑成分

自由度

平方和

卡方值

P值

Spline（年龄）

3.00000

18589401

11.9923

0.0074

Spline（住院天数）

3.00000

507971173

327.6998

<0.0001

Spline（耗材比例）

2.99219

1107309266

714.3418

<0.0001

图2去掉无统计学意义的自变量后，SAS输出的光滑曲线图

由半参数模型拟合的结果发现，医院级别，参保年度，人员类别，年龄，住院天数，耗材比例这些因素都对住院费用的发生有影响，其中年龄，住院天数，耗材比例与住院费用呈曲线关系。

3.置信区间的估计

Bootstrap法是以现有样本为基础的模拟样本统计推断法，可用于研究一组数据的某统计量的分布特征，特别适用于那些难以用常规方法导出的参数的区间估计、假设检验等问题[10,14-15]。

由于该数据分布不明确，因此，采用bootstrap对参数进行区间估计。

该方法是基于有放回抽样理论。

它是采取有放回抽样形成训练集，即已经选做的观测将放回原来的数据集中，使得它与数据集中其它的观测有相同的概率被重新抽取。

本文采用最常用的0.632自引导法，即一个拥有n个观测的数据集（原始数据集）进行了n次有放回抽样，形成另一个含有n例的数据集，在该数据集中，会有（几乎肯定会）一些重复观测，那么在原始数据集中必有部分观测未被抽取，因此可选取这些未被抽取的观测作为测试集。

因为观测被抽中的概率是

，当N足够大，该概率逐渐逼近

。

因为训练集只用了63.2%的观测，用测试集进行泛化能力的估计，得到的将是一个对真实误差较为悲观的估计。

为了补尝这一点，通常采用0.632自引导法评估模型的性能。

如计算指标是准确率，则通过计算每个bootstrap样本的准确率（

）和由包含所有标记样本的训练集的准确率（

），从而计算最终准确率的估计值，如下公式所示。

其中b是指生成的bootstrap样本的个数。

在本研究中采用了1000次自引导法对参数的置信区间进行估计。

在本研究中，数据集中共有5030例观测。

1个bootstrap样本是指进行5030次有放回抽样，产生一个bootstrap样本。

一个bootstrap样本生成后用于训练模型，会有一部分观测没有被抽中，这部分数据用于测试，测试数据集中每个观测生成对应的预测概率。

1000次bootstrap抽样的结果即是每次给予不同的随机种子数，重复生成1000个bootstrap样本和1000个测试集。

即用于训练的所有标记样本的概率平均值×0.368+用于测试的所有样本的概率平均值×0.632，计算所得的每个观测的参数进行区间估计。

表9bootstrap法估计各变量系数的结果

变量名

系数（

）

（观察值）

系数（

）

（bootstrap估计）

标准误

95%可信区间

常数项

420.937

446.082

310.659

（-170.553，1047.324）

s（年龄）

-1.011

-1.018

2.419

（-5.788，3.589）

s（住院天数）

302.665

303.007

18.189

（269.506，340.444）

人员类别

166.831

159.998

112.027

（-45.341，383.115）

三级VS一级

1568.660

1551.325

111.874

（1328.933，1772.705）

2005VS2003

323.741

324.494

51.928

（219.695，420.780）

2006VS2003

362.039

363.413

57.187

（257.385，474.940）

2007VS2003

346.364

344.716

52.732

（240.765，446.425）

s（耗材比例）

6525.759

6519.353

221.526

（6109.095，6964.236）

五、模型评价

如果y与x的关系符合线性假定，我们可以用经典的回归模型，因为参数回归模型的构建、估计方法及算法相对简单，以及由假设条件带来的额外信息，使得参数回归模型有很高的推断精度，其结果也容易解释。

但由于生命现象的复杂性，y与x的关系并不总是线性的，尤其是在探索性研究中，我们常常不能确定所要建立回归方程中各项的基本形式。

对于不符合线性假定的回归数据，与其使用可能不适合的参数回归方法，不如“让数据说话”（Letthedataspeakforitself），使用非参数回归以获得虽然精度不高但合理的估计[16]。

虽然对于某些数据可以通过变量变换或采用多项式回归等方法使用线性模型，但是这些方法有一定的局限性，也会损失数据信息。

因此，假若待分析数据不符合参数回归的线性假定或因变量的分布以及其与自变量的关系不明确时，使用参数回归并不是一个正确的选择。

而广义加性模型具有非参数模型的诸多优点，如放宽了线性条件的要求，适用于任意分布的资料等。

当反应变量与解释变量之间的具体依存关系不明确、反应变量的分布不易判定或不符合所要求的分布，而解释变量的个数大于1时，可以采用广义加性模型。

本次研究通过广义加性模型对天津市5030例参保白内障患者住院费用的影响因素分析，不仅筛选出对其有影响的因素，为政府相关管理部门制订医疗保险相关政策以及医疗服务单位在今后的工作中如何加强自身管理、提高经济效益、减轻患者负担、实现多方共赢提供指导。

另外，在方法学上也提供了参考，本数据反应变量不服从正态分布，且很难判断反应变量与解释变量之间确切的依存关系，传统的线性模型假定条件不满足，而广义加性模型恰恰能解决这类难题。

从分析结果可以看出，采用广义加性模型分析，年龄实际上有统计学意义；而如果采用参数回归分析，则年龄无统计学意义，从而得出错误的结论。

而且利用光滑参数图可以提供更加丰富的信息，提示在今后的医学领域中可以尝试采用该方法来解决类似问题。

本文存在的不足：

本研究的数据是直接来源于医保系统数据库，此数据库中的信息变量太少，对一些可能影响结果的其他因素未能纳入，比如，患者的文化程度，经济状况，婚姻状况、医疗保险类型、住院治疗方式等信息。

这些因素可能会影响结论的可靠性与稳定性。

六、政策建议

本文通过广义加性模型的分析，发现对白内障病人住院费用的影响因素，包括年龄，住院天数、医院等级、材料费比例、人员类别、参保年度。

因此，参保白内障患者住院费用的控制策略理应围绕这些因素展开，提出以下建议：

（一）控制药品费用、材料费用所占比例，提高医护人员医疗服务价值

（二）缩短平均住院日，减少不合理住院天数

（三）完善社区卫生服务，合理分流人员，切实减轻患者住院费用

（四）医疗保险机构应制定合理的单病种支付价格

（五）提高医务人员的医德水平

（六）加快相关立法，完善和加强相应的医疗服务监督约束机制

参考文献

[1]中华人民共和国中央人民政府．2009年我国卫生事业发展统计公报，[EB/OL]（2010-04-09）[2010-10-08]

[2]何平平．我国医疗支出增长因素研究[D]．北京：

北京邮电大学，2007．

[3]Li,K.C.,Duan,N.Regressionanalysisunderlinkviolation[J].Ann.Statist,1989,17:

1009-52.

[4]Nadarya,H.G.Onestimatingregression[J].TheorProb,1964,9:

141-142.

[5]Rosenblatt,M.CurveEstimates[J].Statist,1971,42:

1818-1842.

[6]Priestley,M.B.,Chao,M.T.Non-parametricfunctionfitting[J].J.R.Statis,1972,4:

385-392.

[7]Cleveland,W.S.Robustlocally-weightedregressionandsmoothingscatterplots[J].J.Am.Statist.Assoc,1979,74:

829-836.

[8]Reinsch,C.Smoothingbysplinefunctions.Numer.Math,1976,10:

177-83.

[9]EugeneNovikov,EmmanuelBarillot.Regulatorynetworkreconstructionusinganintegraladditivemodelwithflexiblekernelfunctions[J].BMCSystemsBiology,2008,2:

8.

[10]饶克勤．卫生统计

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 广义模型医疗费用控制中的应用

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：广义加性模型在医疗费用控制中的应用.docx
链接地址：https://www.bdocx.com/doc/29007553.html

广义加性模型在医疗费用控制中的应用.docx

热门标签