318数据挖掘技术在低收入诊断中的应用研究.docx
- 文档编号:3274097
- 上传时间:2022-11-21
- 格式:DOCX
- 页数:25
- 大小:177.62KB
318数据挖掘技术在低收入诊断中的应用研究.docx
《318数据挖掘技术在低收入诊断中的应用研究.docx》由会员分享,可在线阅读,更多相关《318数据挖掘技术在低收入诊断中的应用研究.docx(25页珍藏版)》请在冰豆网上搜索。
318数据挖掘技术在低收入诊断中的应用研究
数据挖掘技术在低收入诊断中的应用研究
——基于1.2万户家庭调查数据
国家统计局内蒙古调查总队王婧舒、杨洋、于纲
目录
一、绪论1
(一)研究背景及意义1
(二)问题的提出1
(三)文献综述2
二、研究思路及创新点3
(一)基本假设3
(二)本文研究思路及创新点3
(三)创新点4
三、数据的来源及预处理5
(一)数据来源5
(二)数据质量情况5
(三)数据预处理6
(四)数据预处理质量评估9
四、探索性分析10
(一)关联规则挖掘10
(二)主成分提取14
五、支持向量机模型的构建及交叉验证17
(一)模型的选择17
(二)模型的构建17
(三)模型检测18
(四)模型评价——10折交叉验证19
六、SVM模型的应用21
(一)单个家庭的诊断21
(二)31个贫困县的诊断21
七、结论及应用前景展望24
(一)结论24
(二)模型优点及不足24
(三)应用前景展望25
摘要
如何科学、合理、准确诊断低收入家庭和低收入地区是值得关注和研究的问题,其成果对扶贫工作、社会福利分配的有效性具有重要意义。
本文基于内蒙古自治区1.2万户居民家庭收支数据,使用数据挖掘技术,从中提取信息并找到家庭结构、生产状况、消费情况与收入的规律,实现了不再依赖于传统的单纯考察货币性指标的方法,而是从多个角度对低收入家庭和低收入地区进行诊断。
首先,由于原始数据结构复杂、离散程度高,本文对其进行标准化和异常值剔除预处理。
其次,对处理后的数据进行关联规则挖掘和主成分分析降维。
第三,根据提取出的主成分建立支持向量机(SupportVectorMachine,SVM)模型。
最后,使用训练好的模型分别对城乡低收入家庭(人均可支配收入低于当地低保标准)和低收入地区(国家级贫困县)进行诊断。
本文主要结论如下:
1.通过关联规则挖掘分析发现城镇低收入家庭与低文化程度相关联,农牧区低收入家庭与低劳动力水平(家庭主要劳动力缺乏)和较差的年龄结构(家庭成员主要为老龄人或未成年人)相关联。
2.利用SVM模型对城乡低收入家庭的诊断结果可信,预测误差在合理范围之内,模型具有一定的实用性,能够具体应用于低收入家庭诊断。
3.利用SVM模型对贫困县的诊断效果较好,模型具有一定的实用性,能够用于评价低收入地区居民收入数据,从而完善贫困县审批标准。
本文的创新之处如下:
1.首次将数据挖掘技术应用于1.2万户家庭调查数据,并对低收入户和贫困县的诊断问题提出了一套有效的解决方案。
2.对家庭调查数据进行关联规则分析,挖掘城乡低收入家庭的特点及异同,为政府保障低收入群体的利益提供决策依据。
3.本文构建了基于主成分分析的SVM模型,并对31个贫困县的低收入进行诊断,诊断结果基本符合实际情况,模型可广泛应用于不同地区家庭调查数据的诊断。
本文的不足之处如下:
受数据来源影响,未能考虑时间序列因素,从而影响了分析的进一步深化。
关键词:
低收入诊断;主成分分析;关联规则分析;支持向量机
一、绪论
(一)研究背景及意义
保障低收入家庭生活是重要的民生问题,是党和国家关注和改善民生的重要任务。
近年来,中央和各级地方政府先后出台了一系列针对困难群体的社会救助优待政策。
随着民生问题日渐得到重视,社会救助的项目和群体在不断扩大。
目前我国的贫困县认定标准,主要以当地贫困人口比重和人年均纯收入作为依据。
各地的低收入家庭认证方法,一般都是通过家庭收入和家庭财产等两个方面来认定。
对于国家级的贫困县来说,每年都会获得国家定向贫困资金的扶持;对于低收入家庭来说,社会救助和保障具备无偿性。
因此为了获得无偿的资金和资源,很多地区刻意压低经济指标,以通过贫困县的审批;很多家庭隐瞒收入和财产以骗取低保、骗取保障房。
如何科学、合理、准确的对贫困地区和低收入家庭进行评价,使社会资源避免浪费,准确用于对低收入群体的扶持成为重要的问题。
数据挖掘技术为问题的解决提供了一个思路。
数据挖掘技术不同于传统的统计建模和计量经济学的建模方法,其能够不受制于一系列严格的假设,从大量的数据中提取信息并找到其中的规律,因此可以使用数据挖掘技术对大量家庭的调查数据进行分析,找到消费支出、食品支出、户主的教育程度、从事的行业、劳动力情况、年龄结构等因素与收入的内在联系,从而达到准确合理的评价一个家庭甚至一个地区居民收入的目的。
因此使用数据挖掘技术对低收入诊断方面的研究和探讨既具备可操作性,又具备一定的理论和现实意义。
(二)问题的提出
根据研究的目的,本文提出以下两个问题:
问题一:
低收入群体有何有共同特征,城乡低收入家庭有何异同点?
问题二:
如何有效诊断一个家庭是否属于低收入家庭,以及诊断贫困县是否存在人为干扰收入数据的情况?
(三)文献综述
1.在数据挖掘上的研究成果
目前我国在数据挖掘上的研究成果有很多。
中国人民大学统计学系数据挖掘中心(2002)提出了建立以数据挖掘为基础的客户关系管理体系。
张少杰和王连芬(2004)运用模糊聚类分析的方法根据客户对企业的贡献度对客户的价值进行鉴别。
刘华煜(2005)认为通过训练得到数量较少的几个支持向量(SupportVector)来代表整个训练集的信息用于分类,使得SVM还具有压缩训练集信息的特点。
赵京胜、张鹏、孙宇航(2014)采用JSP+Tomcat6.0+MySQL技术搭建了基于数据挖掘算法的人口收入管理系统,将MA—Apriori算法和IM—Keans算法作为数据挖掘技术平台。
2.在低收入诊断上的研究成果
在低收入诊断上,国外学者的研究多数集中在贫困的界定上。
SeebohmRowntree(1901)年首先采用标准预算法确定贫困线。
Orshansky(1965)在SeebohmRowntree研究的基础上通过恩格尔系数建立了美国的贫困线。
经济学家AmartyaSen(1976)采用了一种公理化方法对贫困评价指数进行研究,开拓了贫困指数研究的方法和思路。
国内学者对于低收入群体界定上的研究成果中理论论述多,实证研究少。
张建华、陈立中(2006)探讨了总量贫困测度几种方法之间的关系,并研究了中国如何构建和选择科学合理的贫困指数问题。
李爱华,韩晶晶(2007)认为可以采用实名制、税收、信用卡信息以及个人征信系统的数据来界定低收入人群。
蒋翠侠,许启发(2011)利用1997~2006年的CHNS数据,在饮用水、收入、教育、健康保险、电器等五个维度对中国家庭多维贫困进行了测量。
刘泽琴(2012)认为需要建立包含更多非货币性指标的多维模型来代替单纯货币性指标。
二、研究思路及创新点
(一)基本假设
本文的研究基于以下基本条件:
假设1.在家庭调查数据中,家庭基本情况、消费数据和财产数据相对于收入数据更能反映家庭的真实收入情况和贫困程度。
假设2.对是否低收入的分类采用标准法,即根据《内蒙古自治区人民政府办公厅关于确定2013年度全区城乡居民最低生活保障标准有关事宜的通知》中各地区城镇和农村的低保标准,如果人均可支配收入低于该标准,则视为低收入。
假设3.贫困县如果有人为干扰数据的现象,那么在诊断分析中,该地区的测试样本的分类误判率就显著高于总体样本的分类误判率。
(二)本文研究思路及创新点
本文的研究目的是对低收入家庭进行科学、合理、准确的评估。
研究对象是内蒙古自治区1.2万户家庭调查数据。
研究遵循数据挖掘技术基本思路,包括以下7个流程(见图2-1):
1.问题识别:
明确研究的核心问题和目标。
2.数据理解和准备:
明确研究的问题和现有数据之间是否匹配,并对原始数据质量进行评价,为数据预处理做准备。
3.数据预处理:
初步选择并处理有价值的数据变量,通过散点图和异常值诊断技术对原始调查数据进行预处理,剔除掉不完整和存在明显误差的数据,提升样本数据质量。
4.探索性分析:
初步了解样本数据统计特征、分布特点。
通过关联规则挖掘数据特征,描述低收入家庭特点和城乡低收入群体的异同。
对预处理后的数据使用主成分分析方法对数据进行降维,提取主成分,并作为模型输入变量,为模型建立做准备。
5.模型建立:
确定好输入变量和输出变量后,通过SVM算法对样本数据进行训练,建立模型。
6.模型评价:
通过10折交叉验证方法,对比SVM及其他八个模型和机器学习算法的分类误判率(ClassificationErrorRate),客观地对SVM模型进行质量评价。
7.模型应用:
用内蒙古自治区31个贫困县的家庭调查数据做为测试样本,对是否低收入进行预测判断,对比预测值和实际值的误判率,诊断贫困县低收入家庭情况。
图2-1研究流程图
(三)创新点
1.本文首次将数据挖掘技术应用于内蒙古自治区1.2万户家庭收支调查数据,并对低收入户和贫困县的诊断识别问题提出了一套有效的解决方案。
2.针对家庭调查数据中部分细项指标离散程度高、信息价值低和数据性质不一致等特点,分别对细项指标进行标准化处理,全面反映细项指标。
3.采用关联规则分析,对家庭调查数据进行挖掘,发现低收入家庭的特点和城乡低收入家庭的异同,为政府保障低收入群体的利益供了决策依据。
4.本文构建了基于主成分分析的SVM模型,有效提高了样本信息质量和建模效率。
采用基于主成分分析的因子分析,对数据进行压缩和降维,提取出模型的有效输入变量,用SVM算法对样本进行训练,从而有效提升了建模效率。
5.本文首次用SVM模型尝试对内蒙古自治区31个贫困县的低收入户进行诊断,诊断结果基本符合实际情况,使得模型具有较好的应用前景。
三、数据的来源及预处理
(一)数据来源
目前对城乡居民低收入家庭的数据来源主要有两种,第一种是民政部低收入家庭认定指导中心存档的数据,通过多行政部门数据共享而获得。
第二种是国家统计局住户调查的数据,通过问卷和日记账调查而获得。
其主要内容包括住户成员及劳动力从业情况、住房及耐用消费品情况、家庭经营和生产投资情况、家庭日常收支记录情况。
综合比较两种数据,可以发现,前者的优点是可以得到准确的、登记在册的数据,缺点是无法获得家庭的实际收入、和生活消费支出数据。
后者的优点是可以得到中低收入阶层人群的基本收入、消费和家庭经营生产情况的数据,缺点是存在部分信息有误的数据,如调查户漏记、调查员信息编写错误以及人为干扰等情况。
在对低收入人群的判断上,家庭可支配收入是最关键的因素,因此,采用国家统计局居民收支调查数据更加利于分析家庭成员、消费结构、生产经营等因素与收入的内部联系,从而找到规律来确定其是否为低收入户。
所以本文的数据挖掘基础是内蒙古自治区2013年1.2万户居民家庭全年的收支调查数据。
(二)数据质量情况
由于收支调查数据是通过调查员入户填写问卷,以及调查对象记录日常收入及消费情况而得到的。
在低收入分析上,数据质量主要存在以下问题:
1.内蒙古现有31个国家级贫困县,为了取得国家级贫困补贴,这些地区的居民收入调查数据有可能会受到人为干扰,即出现人为“做低”居民收入的现象。
2.调查对象由于“露富”心理,可能会出现瞒报收入等情况。
3.调查采用收付实现制,部分从事生产经营的调查户存在年内动用储蓄购置大规模生产经营支出情况,从而导致其可支配收入为负的情况。
4.调查对象的漏记和调查员的疏忽导致数据不完整等情况。
基于数据中存在的瑕疵,本文对原始数据进行数据预处理。
并通过散点图来诊断异常值,对于出现问题的数据进行处理和修正。
数据预处理和探索性分析需要做到两点,一是要克服数据存在瑕疵的困难,二是找到数据变量之间的规律。
(三)数据预处理
1.数据统计特征
表3-1户主文化程度频率图
表3-2人均可支配收入统计量
通过数据的统计特征分析,发现数据中存在缺失样本,且数据离散度较高、数据结构复杂、偏差度较大。
表3-1中列出了户主文化程度的频率图,表3-2是人均可支配收入的初步统计量。
2.数据的标准化处理
家庭调查数据具有样本容量大,数据结构复杂的特点。
数据类型既有定性变量也有定量变量。
在原始样本的数据结构中,变量近千个,经过初步筛选后,实际测试分析的变量为154个。
(如表3-3所示)
表3-3家庭调查样本数据结构(部分)
本文根据研究的目的,分别对输出变量和部分输入变量进行标准化处理。
对于输出变量,本文根据《内蒙古自治区人民政府办公厅关于确定2013年度全区城乡居民最低生活保障标准有关事宜的通知》中各地区城镇和农村的低保标准来确定,如果人均可支配收入低于该标准,则视为低收入,标记为Y,否则标记为N。
各地区最低生活保障标准见附表。
对部分松散的输入变量,本文根据该变量和收入关系的特点,通过构造标准化变量,把46个变量通过分配不同的权重,家庭内部加权汇总的方式,压缩为6个标准化变量,提高数据信息集约程度。
(见表3-4,各类变量的权重分配情况见附表)
表3-4数据指标标准化处理过程
3.数据剔除异常值处理
标准化处理后剔除数据异常值,剔除的主要内容包括以下几点:
(1)剔除食品消费支出过少的样本
我们发现部分样本中食品消费支出过少的原因有两方面,一是部分农牧区食品支出中的自产自用部分漏记严重,二是城镇住户中部分调查对象对较为琐碎的食品支出漏记严重。
本文根据内蒙古自治区全体居民中最低收入5%组的食品支出数据,剔除掉了食品支出过低的样本数据。
(2)剔除家庭情况漏填的样本
该部分样本出现的主要原因是调查过程中出现的纰漏。
如某户存在工资收入,但其行业状况为空的情况,或者某户存在定期缴纳医疗保险数据,但其医保参加情况为空的情况。
(3)剔除收入异常值的样本
本文用散点图来分析收入异常值的存在。
发现财产净收入为负值情况是期内财产性支出过多造成,而财产性支出的主要内容为利息支出,所以考虑财产性支出大于5万的数据可能性较小,因此剔除了大额的财产净收入为负的部分样本。
(如图3-1所示)本步骤的其余散点图见附录。
图3-1财产净收入与可支配收入的二维散点图
(四)数据预处理质量评估
经过数据预处理之后,完整有效的样本数量为7682个,变量为11个。
变量信息涵盖了家庭的基本情况、收入情况和消费情况,数据能够与分析目标相匹配,数据的准确性和完整性能够满足分析需求。
下面使用样本数据做进一步的探索性分析。
四、探索性分析
(一)关联规则挖掘
通过对数据关联规则的挖掘,可以看出低收入户与其他要素的同时出现的频率,这对我们分析低收入户的主要特点提供了一个可行思路。
1.关联规则选取的变量和简化处理
在关联规则分析中,选择“是否低收入”变量作为Y项,选取了以下变量作为X项:
文化程度、年龄结构、健康状况、医保情况、劳动力情况和行业情况。
由于X项变量分类水平太多,不利于信息特征的挖掘,为了进一步分析,本文对X项做了简化处理,即全部变成二分类变量。
变量处理结果如下所示:
表4-1对变量分类水平的简化处理
为了分析城镇和农村牧区低收入人群的异同点,本文将样本根据城乡属性进行分类,利用R软件对城乡样本分别进行关联规则分析。
2.对总体样本的关联规则分析
本文首先对总体样本进行关联规则分析,对各变量求各种规则,从是否低收入=1作为Y项的规则中抽取各种规则的子集,核心代码如下:
rules=apriori(Income,parameter=list(support=0.01,confidence=0.01))
x=subset(rules,subset=rhs%in%"是否低收入=1"&lift>1.2)
用R软件输出计算结果并分别按支持度和提升降幂展示。
图4-1对总体样本的关联规则频率图
表4-2按支持度降幂排序
从上表发现前五个规则的supp(X=>Y)都在5%以上,conf(X=>Y)在8.7%~11.6%范围内。
表4-3按提升降幂排序
从上表中发现,前三个规则的supp(X=>Y)都在1%以上,前两个规则的conf(X=>Y)在20%以上。
通过关联规则分析,发现低收入家庭具有以下特点:
文化程度低、从事生产经营活动、家庭中主要劳动力缺乏、没有或者享受低水平的医疗保险、从事人均收入偏低的行业,家庭人口大部分身体比较健康。
3.分城乡低收入家庭关联规则分析
分别对城乡样本进行关联规则分析,本文展示出按提升降幂排序情况,其他输出结果见附表。
输出分析结果如下所示:
表4-4城镇样本按提升降幂排序
从上表可以看出,城镇低收入家庭具有以下特点:
文化程度低、从事生产经营活动、医保水平较低、行业收入水平较低。
表4-5农村(牧区)样本按提升降幂排序
从上表可以看出,农村(牧区)低收入家庭具有以下特点:
从事生产经营活动、老年人和未成年人居多,缺乏主要劳动力、行业收入水平较低、医保水平较低。
4.关联规则分析总结
通过关联规则分析,我们可以回答本文提出的第一个问题即低收入群体有何有共同特征,城乡低收入家庭有何异同点?
从总体样本的关联规则分析结果来看,低收入群体具有以下特点:
文化程度低、从事生产经营活动、家庭中主要劳动力缺乏、没有或者享受低水平的医疗保险、行业收入水平较低,家庭人口大部分身体比较健康。
从分城乡样本的关联规则分析结果来看,城乡低收入群体不同点和共同点如下所示:
表4-6分城乡样本的关联规则分析结果
城镇低收入群体和农村低收入群体呈现出比较鲜明的特征。
在城镇,家庭的收入主要来源于劳动力的工资水平,而文化程度决定了劳动力的技能水平,较低的文化程度意味着劳动力只能从事较低收入的行业;而在农村(牧区),家庭的收入主要来源于农牧业的生产活动,家庭的年龄结构和劳动力情况决定了农牧业的生产经营状况。
因此,在城镇,文化程度对家庭收入具有重要意义,而在农牧区,劳动力情况对家庭收入具有重要意义。
(二)主成分提取
家庭调查样本数据中变量较多,这些变量间存在着大量的重复信息,直接用它们分析现实问题,不但模型复杂,还会因为变量间存在的多重共线性问题而引起极大的误差。
因此本文采用了因子分析的方法对修正后的数据进行数据降维。
因子分析中选择了与居民收入具备相关关系的几个主要变量包括:
文化程度、家庭成员年龄结构、健康状况、医保情况、劳动力情况以及消费支出和食品烟酒支出。
为了检验样本数据对因子分析的适用性,本文对样本数据进行KMO(Kaiser-Meyer-Olkin)检验和Bartlett球形检验。
1.KMO检验和Bartlett球形检验
KMO检验主要用于比较变量间简单相关系数和偏相关系数。
KMO检验变量间的偏相关是否比较大,Bartlett球形检验判相关阵是否是单位阵。
通常,KMO统计量在0.7以上时,因子分析效果比较好。
本文利用SPSS软件,给出了K
MO和Bartlett球体检验的结果,输出结果见表4-7:
表4-7KMO和Bartlett的检验
由Bartlett检验可以看出,原假设被拒绝,即变量间具有较强的相关性。
KMO统计量为0.811,大于0.7,说明样本适合应用因子分析法。
2.提取公因子
主成分分析主要特点是用少数几个主分量来解释多个变量之间的内部结构。
提取后的主分量不仅尽可能多地保留原始变量的信息,且彼此间互不相关。
本文利用主成分分析方法提取公因子,以达到简化数据的目的。
根据特征根大小,确定了公因子数量为3,并通过旋转因子使公因子具有可解释性。
表4-8展示了提取三个公因子后的变量共同度,除了健康情况对应的共同度为0.607,其他的值都在0.7以上,说明每个变量被提取的三个公因子说明的程度都比较高,损失的信息较少。
表4-9所示,前3个主成分的特征根大于1,因此提取了前3个主成分。
前三个因子的累计方差贡献率已达79.755%,因此选前三个主成分也足够描述样本变量的主要信息了。
表4-8公因子方差
表4-9解释的总方差
3.旋转因子
为了使公因子的含义更容易解释,通过方差最大化正交旋转的方法旋转因子,得到旋转成分矩阵表和成分转换矩阵表。
旋转后的因子载荷矩阵,如表4-10可以发现各因子在7个变量上的载荷更趋于两极分化。
表4-11为因子旋转的变换矩阵。
表4-10旋转成份矩阵a
提取方法:
主成分分析
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在4次迭代后收敛。
表4-11成份转换矩阵
提取方法:
主成分。
旋转法:
具有Kaiser标准化的正交旋转法。
从表4-10看出,提取的三个主成分分别从三个角度反映了变量特征。
第一个主成分主要反映了家庭劳动力资源的情况,第二个主成分主要反映了家庭支出的情况,第三个主成分主要反映了医保和文化程度的情况。
4.因子表达式
根据上文分析结果,用SPSS软件输出因子得分系数矩阵(见附表2),得出各公因子的表达式:
F1=0.135X1+0.458X2+0.294X3-0.112X4+0.483X5-0.044X6-0.067X7
F2=-0.026X1+0.037X2-0.122X3-0.118X4-0.028X5+0.562X6+0.564X7
F3=0.525X1-0.052X2+0.136X3+0.709X4-0.121X5-0.09X6-0.076X7
根据以上分析,经过主成分分析和因子旋转,提取了三个公因子,得到因子得分,并将得分作为变量。
总体上看,公因子对变量的提取效果较好,起到了压缩降维的作用,为下一步的模型建立打好了基础。
五、支持向量机模型的构建及交叉验证
(一)模型的选择
支持向量机是建立在统计学习理论基础上的一种数据挖掘方法,能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)诸多问题,并可推广于预测和综合评价等领域和学科。
支持向量机模型其特点是具有较好的泛化效果,特别是在有限的样本中,可以获得非常良好的学习效果,能够较好地解决小样本、非线性等实际问题。
城乡居民家庭生活状况和收入的数据,目前尚无法获得类似于“全面普查”类型的数据。
在对低收入数据分析过程中,需要使用有限的样本获得良好的效果,因此选择支持向量机模型。
本文将进一步通过主成分分析对数据降维之后,使用三个主成分作为输入变量构建SVM模型。
(二)模型的构建
模型的输入变量即因子分析中的三个成分得分,输出变量是根据人均可支配收入与最低收入保障标准对比产生的逻辑指标——是否低收入。
模型类型为C分类,核函数为Radial,惩罚因子为1,gamma参数为0.3333333,支持向量数量为960。
表5-1SVM模型主要设计参数
本文用SVM算法对样本进行训练,核心代码如下所示。
w=read.csv("svm.csv")
attach(w)
model=svm(inc~.,data=w)
print(model)
summary(model)
pred=predict(model,w)
table(pred,inc)
plot(model,w,fac2~fac3)
(三)模型检测
R程序中绘制了以fac2和fac3为坐标轴的散点图,给出支持向量机。
如图所示,模型的支持向量数量为960个。
图形中的下方紫色部分为低收入区域,上方蓝色部分为非低收入区域。
红色X点是支持向量。
从图形分布来看,支持向量较好的区分了低收入和非低收入样本。
图5-1SVM分类散点图
使用训练后的模型,将训练集数据作为测试集数据进行检测,检测结果显示,模型检测准确数量为7293个,检测误判数量为389个,分类误判率为5.06%。
从检测误判的分布可以看出,样本中收入填报为低收入户,而检测结果为非低收入户的有385户。
样本中收入填报为非低收入户,而检测为低收入户的共4户。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 318 数据挖掘技术在低收入诊断中的应用研究 数据 挖掘 技术 低收入 诊断 中的 应用 研究