基于半监督学习的糖尿病数据建模.docx
- 文档编号:12389993
- 上传时间:2023-04-18
- 格式:DOCX
- 页数:26
- 大小:60.83KB
基于半监督学习的糖尿病数据建模.docx
《基于半监督学习的糖尿病数据建模.docx》由会员分享,可在线阅读,更多相关《基于半监督学习的糖尿病数据建模.docx(26页珍藏版)》请在冰豆网上搜索。
基于半监督学习的糖尿病数据建模
分类号TP181单位代码
密级学号
信息工程学院学生毕业论文
题目
基于半监督学习的糖尿病数据建模
学生姓名
学号
专业
指导教师
毕业论文诚信责任书
本人郑重声明:
所呈交的毕业论文,是本人在导师的指导下独立进行研究所取得的成果。
毕业论文中凡引用他人已经发表或未发表的成果、数据、观点等,均已明确注明出处。
尽我所知,除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表或撰写过的研究成果。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人毕业论文与资料若有不实,愿意承担一切相关的法律责任。
论文作者签名:
年月日
摘要
大量文献资料表明各行各业中累积的海量无标签数据具有更优推广能力的模型,如何利用大量已存在的无标签数据是机器学习领域研究的重点。
本文主要基于半监督学习(Semi-Supervisedlearning)方法以及优化的协同训练(Co-training)思路,对糖尿病数据进行建模。
首先,从UCI数据库下载关于糖尿病的数据集,对数据集进行标准化处理。
其次,将数据集划分为两个视图,再运用支持向量机(SVM)算法分别对两个视图进行协同训练建模并分析其分类器性能,确定其分类器,最后根据训练好的模型对数据集进行预测。
本文核心是实现协同训练(Co-training)算法在模型训练中的应用。
如何选择协同训练的视图,如何体现视图的协同性,又如何利用协同训练对糖尿病数据建模。
以上种种都是本文要解决的重点。
实验结果证明协同训练算法在糖尿病数据分析中表现出良好的实用性
关键字:
半监督学习;协同训练;支持向量机
Abstract
Alargenumberofliteraturesshowthatthemassthereisnodataaccumulatedinallwalksoflifehasabettergeneralizationabilitymodel,andhowtousealargenumberofexistingunlabeleddataisthefocusofmachinelearning.
Basedonsemi-supervisedlearning(semi)andoptimizedcollaborativetraining(co),theDMdataismodeled.
First,datasetsondiabetesaredownloadedfromtheUCIdatabasesandthedatasetsarestandardized.Secondly,thedatasetisdividedintotwoviews,andthenthesupportvectormachine(SVM)algorithmisusedtomodelthetwoviewsseparately,andtheperformanceoftheclassifierisanalyzed,andtheclassifierisdetermined.finally,thedatasetispredictedaccordingtothetrainingmodel.
Thecoreofthispaperistheapplicationofcooperativetraining(co)algorithminmodeltraining.Howtochoosetheviewofcollaborativetraining,howtoreflectthesynergyofview,andhowtousecollaborativetrainingtomodeldiabetesdata.Allthesearethekeypointsinthispaper.
Theexperimentalresultsshowthatthecollaborativetrainingalgorithmhasshowngoodpracticabilityindiabeticdataanalysis
Keywords:
Semi-Supervisedlearning;Co-training;SVM
目录
摘要I
AbstractII
1前言1
1.1背景和意义1
1.2主要工作3
2方法与数据4
2.1协同训练(Co-training)4
2.2支持向量机5
2.3模型评价指标6
2.4数据6
2.4.1糖尿病简介6
2.4.2数据来源及其特征8
2.5小结9
3协同训练应用于糖尿病数据建模10
3.1视图选取10
3.2协同训练建模具体步骤12
3.3建模结果与模型评价15
3.4小结16
4总结与展望17
参考文献19
致谢20
1前言
1.1背景和意义
由于计算机科学技术特别是网络通信技术这十几年的发展,我们获取信息的能力以及渠道得到了非常巨大的扩展,每个行业,每个领域都积累了大量的数据。
海量的数据在极大丰富人们信息资讯的同时,必然也会给信息的查找,组织,处理与分析带来不可思议的挑战。
怎样才能迅捷,无误地从海量的信息库里找到能满足我们需要的信息,一直是研究者们所关心的。
基于如此庞大的信息资源,仅仅通过人工方式去处理分析完全不切实际。
这个时候“机器学习”站了出来,在面对海量的数据时,基于数据的机器学习方法显得尤为重要。
机器学习的主要研究内容大致为:
从已观测到的数据样本出发,通过计算机寻找这些样本数据中可能蕴含的规律,并利用这些规律对未知数据进行预测。
现今,经济学里的金融分析、股市里的股票走势预测,制造业中的优化控制,故障排除检测以及医疗行业里的辅助诊疗和各大网站的web数据挖掘等都涉及机器学理论[1]。
特别要注意到的是,数据的获取和收集虽然相对容易,但这些收集到的数据大多数都是没有类别标记的,也就是相对来说只是一些无意义的无标记样本。
一般你很难从这些样本数据中得到你想要的信息。
相对来说,那些信息确切,信息量大的有标记样本的获取则比较困难,往往要花费大量的人力物力,甚至由于工作量的巨大而完全不可行。
并且对于少量的有标记样本来说,只利用它们所训练出来的学习系统往往很难具有强的泛化能力,另一方面抛开那些大量的无标记样本不管,更是一种对数据资源的极大浪费。
在这种情况下研究人员提出了一种将少量的已标记样本与大量的无标记样本一起进行学习的策略,即半监督学习。
协同训练(co-training)方法本质上是一种半监督学习方法[2]。
协同训练算法都会假设数据集有两个或多个冗余视图,在大量无标记数据和少量有标记数据的基础上,通过迭代的方式,让不同视图上的分类器互相学习。
本文选择的数据集是关于皮马印第安人患糖尿病的数据,是由美国的国家糖尿病和消化肾脏累疾病研究所(UnitedStatesNationalInstituteofDiabetesandDigestiveandKidneyDiseases,简称NIDDK)所开发的皮马印第安人糖尿病数据集(PimaIndiansDiabetesDataView)。
这个数据的统计结果非常让人吃惊,十分代表性的反应出皮马印第安人被糖尿病侵袭的现状,竟然有超过30%的皮马人患有糖尿病。
而与此形成鲜明对照的是美国糖尿病的患病率为8.3%,中国仅仅只有低至4.2%的患病率。
这个数据集中的每个样本数据表示一个超过21岁左右的皮马印第安女性的信息,她属于1和0两类,即5年内患过糖尿病属于类别0,以及5年内没患过糖尿病属于类别1。
此外对于每个样本数据都有8个属性。
属性如下:
1.现今怀孕次数。
2.2小时血糖浓度检测值(口服葡萄糖)。
3.血压(mmHg)(舒张期血)。
4.皮脂厚度(mm)(三头肌)。
5.血清胰岛素浓度检测(muU/ml)(2小时)。
6.质量指数(体重kg/(身高inm)^2)。
7.糖尿病家族作用。
8.年龄。
下面给出了一个样本数据的例子(样本类别:
0表示5年内没糖尿病,1表示5年内有糖尿病)。
标准数据如下:
01:
12:
1243:
744:
365:
06:
27.87:
.18:
3011:
72:
1503:
784:
295:
1266:
35.27:
.6928:
54
糖尿病是一组由遗传和环境等多种病因引起以慢性高血糖为特征的代谢性疾病群。
由于胰岛素分泌相对或绝对不足;或胰岛素作用缺陷引起糖、蛋白质、脂肪、水和电解质等一系列代谢紊乱。
持续高血糖是基本特征。
久病可引起多系统损害,导致眼、肾、神经、及心脑血管、下肢等器官的慢性并发症。
病情严重或应激时可发生急性代谢紊乱如酮症酸中毒、高渗昏迷、乳酸性酸中毒而威胁生命,常易并发化脓性感染、尿路感染、肺结核等。
糖尿病分型(1999WHO标准):
1型糖尿病、2型糖尿病、其他特殊类型糖尿病及妊娠期糖尿病四种类型。
之所以选择糖尿病数据来分析是因为近30年来,我国糖尿病患病率也是显著增加。
1980年全国14省市30万人的流行病学资料显示,糖尿病的患病率为0.7%。
1994年全国19省市21万人的调查,25~64岁年龄段糖尿病的患病率为2.5%(人口标化率为2.28%),糖耐量减低(IGT)为3.2%(人口标化率为2.12%)。
2007—2008年,在中华医学会糖尿病学分会组织下,全国14个省市进行了糖尿病的流行病学调查。
结果显示我国20岁以上的成年人糖尿病患病率为9.7%这一数字与同等发展水平国家的数据相近,比1980年增加了近3倍。
2002年全国营养调查同时调查了糖尿病的流行情况。
“世界糖尿病日”,中国中医科学院糖尿病研究总院调查资料显示,中国的糖尿病患者人数已达4000万左右,占世界糖尿病人群总数的五分之一,患病率居世界第二位,并且以每天至少3000人的速度增加,每年增加超过120万人,至2010年中国糖尿病人口总数猛增至8000万至1亿人。
2016年3月6日,世卫组织于首次发布全球糖尿病报告,显示全球糖尿病成年人患者近40年内增加了3倍,其中多数生活在发展中国家。
报告显示,中国成年人患糖尿病率接近10%。
基于半监督学习,通过对皮马印第安人患糖尿病数据集的分析预测,我更清晰知道有关糖尿病的致病机制,也希望我国民众能更重视健康,更警惕糖尿病的侵袭,对越来越高发的糖尿病有更清晰的认识。
1.2主要工作
本文主要依托于支持向量机(SVM)的算法框架,借鉴协同训练(Co-training)的算法思想对糖尿病数据进行建模分析[3]。
首先,在UCI数据集中获取本文所需的糖尿病数据,描述糖尿病数据的特征,并且利用C语言或者其它方法将初始的数据格式转化为与Libsvm软件数据输入格式一致的格式。
协同算法:
本文将总数据集768条糖尿病数据(其中500条患病数据作为0类,268没患糖尿病作为1类)。
分成168条测试集,与600条训练集,每条数据样本共有8项属性。
协同算法的视图选取直接将训练集600条数据样本的属性一分为二,形成两个视图view1与view2,每个视图有600条数据,而每个数据样本只包含一半也就是4条属性,标签值不变。
再将测试集168条数据同视图一样,进行属性拆分,形成两个测试集test1与test2分别对应两个视图view1与view2。
用view1对test1进行预测,用view2对test2进行预测,形成的预测结果,对比其标签值,选择部分test2与test2预测标签值相同的数据,移出测试集加入到训练集,即两个视图中,本文开始每次选40条数据从测试集移出加入到训练集。
后面随着预测相同的标签值递减,相对移出数据也递减,直到view1对test1预测结果的标签值与view2对test2预测结果的标签值完全不相同,再对所剩数据求取类别概率,判断其所属类别。
按上述步骤,对所有数据进行五组交叉验证,最后便能得到建模结果,进行模型评
2方法与数据
本文主要采用支持向量机的算法框架辅以协同训练的算法思想对皮马印第安人糖尿病数据集进行分类。
协同训练的方法总是假设完备的数据集具有两个视图,然后找出视图分类器classifer1与classifer2。
支持向量机的基本思想在于保证正确分类的同时最大化分类间隔面之间的距离。
2.1协同训练(Co-training)
协同训练(Co-training)的算法本质上是一种半监督学习方法。
最早是由Mitchell和Blum在1998年提出来的。
协同训练的最重要概念就是视图,一般来说,协同训练一开始都会为数据集假设两个或多个冗余视图[4]。
其反映的是从某个角度或者某个侧面观察事物所得到的信息。
简言之,视图可以理解为数据集在不同低维空间上的投影,比方截取所有样本的前八维,这些视图要求能够绝对独立的从不同侧面反映总数据集。
由于协同算法有很多方法实现,本文协同训练算法的详细步骤如下所示:
首先,本文将总数据集768,其中0(正类)有糖尿病的有500条数据,1(负类类)没有糖尿病的有268条数据。
糖尿病数据分成168条测试集,与600条训练集,每条数据样本共有8项属性。
其次,协同算法的视图选取直接将训练集600条数据样本的属性一分为二,形成两个视图view1与view2,每个视图有600条数据,而每个数据样本只包含一半也就是4条属性,标签值不变。
再,将测试集168条数据同视图一样,进行属性拆分,形成两个测试集test1与test2分别对应两个视图view1与view2。
最后,用view1对test1进行预测,用view2对test2进行预测,形成的预测结果,对比其标签值,选择部分test2与test2预测标签值相同的数据,移出测试集加入到训练集,即两个视图中,本文开始每次选40条数据从测试集移出加入到训练集。
如上重复预测过程,后面随着预测相同的标签值递减,相对移出数据也递减,直到view1对test1预测结果的标签值与view2对test2预测结果的标签值完全不相同,再对所剩数据求取类别概率,判断其所属类别。
最后进行模型评价。
2.2支持向量机
支持向量机的基本思想是:
在保证正确分类的同时,能最大化分类间隔面间的距离。
它是于1995年由Vapnik等人首先提出,一经面世,就在非线性和高维模式识别中表现出优势[5-6]。
在线可分情况下:
我们设训练集为D,
d
形如(x,y),其中x是一个已经给定的向量,将y取值为1或-1。
训练集D正负样本分布形如图2-1,假设存在分类超平面H在线性可分的情况下方程可表示为:
wTx
b
其中﹤w,x﹥为w和x这两个向量的内积,w是作为权,b是作为一个常数(偏移量),对H超平面归一列式,可以将其重新写成两个分类面的的形式,
H1:
wTxi
H2:
wTxi
其判别函数可描述为:
Yi[wT
xi
]
,i=1,2,3,…,l
如下所示:
图2-1
支持向量机方法的优点
SVM方法基本上不涉及概率测度的定义及大数定律等,因此不同于现有的统计方法。
它具有如下优点:
(1)SVM的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了高维数样本的复杂性[7]。
(2)少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性[8-9]。
(3)由于有较为严格的统计学习理论做保证,应用SVM方法建立的模型具有较好的推广能力。
SVM方法可以给出所建模型的推广能力的确定的界,这是目前其它任何学习方法所不具备的[10]。
2.3模型评价指标
模型评价对于机器学习来说是非常重要的,它是衡量机器学习形成模型优良的标准[11-12]。
本文引进四个分类器模型评价指标,分别为灵敏度和特异性、准确率(预测精度)、马修相关系数,公式如下:
灵敏度(Sensitivity,Se):
特异性(Specificity,Sp):
准确度(Accuracy,Acc):
马修相关系数(Matthew'sCorrelationCoefficient,MCC)
其中TP(TruePositive)是被分类器预测为正类的正样本,TN(TruePositive)是被分类器预测为负类的负样本,FP(FalsePositive)是被分类器预测为负类的正样本,FN(FalseNegative)是被分类器预测为正类的负样本。
2.4数据
2.4.1糖尿病简介
糖尿病是一组由遗传和环境等多种病因引起以慢性高血糖为特征的代谢性疾病群。
由于胰岛素分泌相对或绝对不足;或胰岛素作用缺陷引起糖、蛋白质、脂肪、水和电解质等一系列代谢紊乱。
持续高血糖是基本特征。
久病可引起多系统损害,导致眼、肾、神经、及心脑血管、下肢等器官的慢性并发症。
病情严重或应激时可发生急性代谢紊乱如酮症酸中毒、高渗昏迷、乳酸性酸中毒而威胁生命,常易并发化脓性感染、尿路感染、肺结核等。
糖尿病分型(1999WHO标准):
1型糖尿病、2型糖尿病、其他特殊类型糖尿病及妊娠期糖尿病四种类型。
之所以选择糖尿病数据来分析是因为近30年来,我国糖尿病患病率也是显著增加。
1980年全国14省市30万人的流行病学资料显示,糖尿病的患病率为0.7%。
1994年全国19省市21万人的调查,25~64岁年龄段糖尿病的患病率为2.5%(人口标化率为2.28%),糖耐量减低(IGT)为3.2%(人口标化率为2.12%)。
2007—2008年,在中华医学会糖尿病学分会组织下,全国14个省市进行了糖尿病的流行病学调查。
结果显示我国20岁以上的成年人糖尿病患病率为9.7%这一数字与同等发展水平国家的数据相近,比1980年增加了近3倍。
2002年全国营养调查同时调查了糖尿病的流行情况。
“世界糖尿病日”,中国中医科学院糖尿病研究总院调查资料显示,中国的糖尿病患者人数已达4000万左右,占世界糖尿病人群总数的五分之一,患病率居世界第二位,并且以每天至少3000人的速度增加,每年增加超过120万人,至2010年中国糖尿病人口总数猛增至8000万至1亿人。
2016年3月6日,世卫组织于首次发布全球糖尿病报告,显示全球糖尿病成年人患者近40年内增加了3倍,其中多数生活在发展中国家。
报告显示,中国成年人患糖尿病率接近10%。
2015年5月5日北京市国家会议中心召开的糖尿病与脑卒中论坛,论坛上介绍,最近调查显示我国40岁以上居民,24%患有糖尿病,58%血糖异常。
糖尿病在我国的发病率:
1978年:
0.7%
1990年:
1.3%
1995年:
1.6%
2000年:
2.5%
2007年:
9.9%
2016年:
10%
糖尿病引起慢性疾病的概率:
糖尿病引发高血压:
32.9%
糖尿病引发脑血管的疾病:
12.6%
糖尿病引发心血管的疾病:
15.5%
糖尿病引发下肢血管的病变:
6,1%
糖尿病引发视网膜的病变:
36.3%
糖尿病引发肾脏的病变:
35.6%
糖尿病引发神经病变:
60.3%
调查发现可引起糖尿病的因素:
年龄:
调查显示年龄越大的人发生糖尿病的几率就越高;
性别:
研究发现男性患糖尿病的概率要高于女性;
受教育程度:
调查显示受教育程度越低患糖尿病的概率相对越高;
肥胖程度:
肥胖超重的人患糖尿病的风险增加;
调查还发现,目前血糖异常但没有确诊为糖尿病的,最后有49.5%的概率发展为糖尿病。
生活作息紊乱,体育运动减少是造成这种现状的主要原因。
2.4.2数据来源及其特征
本文所用皮马印第安人糖尿病数据集(PimaIndiansDiabetesDataView)下载于机器学习标准数据库(UCIRepositoryofMachineLearningDatabases)。
该数据集是由美国的国家糖尿病和消化肾脏累疾病研究所(UnitedStatesNationalInstituteofDiabetesandDigestiveandKidneyDiseases,简称NIDDK)所开发,数据集一共768个样本数据。
这个数据集中的每个样本数据表示一个超过21岁左右的皮马印第安女性的信息,她属于1和0两类,即5年内患过糖尿病属于类别1,以及5年内没患过糖尿病属于类别0。
此外对于每个样本数据都有8个属性。
属性如下:
1.现今怀孕次数。
2.2小时血糖浓度检测值(口服葡萄糖)。
3.血压(mmHg)(舒张期血)。
4.皮脂厚度(mm)(三头肌)。
5.血清胰岛素浓度检测(muU/ml)(2小时)。
6.质量指数(体重kg/(身高inm)^2)。
7.糖尿病家族作用。
8.年龄。
下面给出了一个又是数据转化而得的标准样本数据的例子(样本类别:
0,正类,表示有糖尿病;1,负类,表示没糖尿病)。
标准数据如下:
01:
12:
1243:
744:
365:
06:
27.87:
.18:
3011:
72:
1503:
784:
295:
1266:
35.27:
.6928:
54
由初始数据转化的部分标准数据如下表2-1所示:
表2-1部分标准糖尿病数据
Class
Index1
Index2
Index3
Index4
Index5
Index6
Index7
Index8
1
1:
6
2:
148
3:
72
4:
35
5:
86
6:
33.6
7:
.627
8:
50
0
1:
1
2:
85
3:
66
4:
29
5:
79
6:
26.6
7:
.351
8:
31
1
1:
8
2:
183
3:
64
4:
0
5:
0
6:
23.3
7:
.672
8:
32
0
1:
1
2:
89
3:
66
4:
23
5:
168
6:
28.1
7:
.167
8:
21
1
1:
0
2:
137
3:
40
4:
35
5:
97
6:
43.1
7:
2.288
8:
33
0
1:
5
2:
116
3:
74
4:
0
5:
0
6:
25.6
7:
.201
8:
30
Class
Index1
Index2
Index3
Index4
Index5
Index6
Index7
Index8
1
1:
3
2:
78
3:
50
4:
32
5:
846
6:
31
7:
.248
8:
26
0
1:
10
2:
115
3:
0
4:
0
5:
0
6:
35.3
7:
.134
8:
29
1
1:
2
2:
197
3:
70
4:
45
5:
178
6:
30.5
7:
.158
8:
53
1
1:
8
2:
125
3:
96
4:
0
5:
0
6:
0
7:
.232
8:
54
1
1:
4
2:
110
3:
92
4:
0
5:
0
6:
37.6
7:
.191
8:
30
1
1:
10
2:
168
3:
74
4:
23
5:
77
6:
38
7:
.537
8:
34
1
1:
10
2:
139
3:
80
4:
19
5:
103
6:
45.8
7:
1.441
8:
59
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 监督 学习 糖尿病 数据 建模