数据统计学处理方法与选择_精品文档优质PPT.ppt
- 文档编号:15492512
- 上传时间:2022-11-02
- 格式:PPT
- 页数:59
- 大小:11.07MB
数据统计学处理方法与选择_精品文档优质PPT.ppt
《数据统计学处理方法与选择_精品文档优质PPT.ppt》由会员分享,可在线阅读,更多相关《数据统计学处理方法与选择_精品文档优质PPT.ppt(59页珍藏版)》请在冰豆网上搜索。
录人数据时,应遵循便于录入,便于核查,便于转换,便于分析的原则。
便于录入是指尽可能地减少录入工作量,录入时,用数值变量取代了字符变量,可以大大节约录入的时间和费用。
便于核查是指一定要设有标识变量,以方便数据核查。
便于转换是指录入数据时要考虑不同软件对字节和字符的要求,便于分析是指每项研究最好录成一个数据文件,录入的格式满足各种统计分析的需要,这样才能保证分析数据时的高效和全面。
冯启明,2022/11/2,二、输入数据的质量控制,1、数据核查数据录入后,首先须对录入的数据进行核查,以确保录入数据的准确性和真实性。
核查准确性可分两步进行。
第一步逻辑检查,通过运行统计软件中的基本统计量过程,列出每个变量的最大值与最小值,如果某变量的最大值或最小值不符合逻辑,则数据有误;
第二步将原始数据与输入数据进行核对,更正错误。
在一些大型数据的录入过程中,为保证数据的质量,往往采用对同一资料进行双人重复录入的方法,然后应用程序对两个数据库进行比对,如有录入结果不符,则进行核查,找出其错误所在。
二、输入数据的质量控制,2、缺失值的处理在资料收集过程中,特别是大型数据的收集,不可避免的会有一些缺失值产生,这主要来自于资料收集中的漏填和漏报。
通常认为,缺失值应控制在数据记录总量的10以内。
在计算机的数据录入过程中,要注意把缺失值和“0”区分开来,“0”通常用来表示“无”,即该事件未发生,具有确切的含义,表明该数据已收集到;
而缺失值表示该数据未填或未收集,两者要注意区分,以免混淆。
在一般的数据库软件中,缺失值通常都用“”表示。
二、输入数据的质量控制,2、缺失值的处理在资料分析中,如一例记录的某个变量有缺失值,统计分析软件都会自动把该例作删除处理。
因此,当资料可避免地产生了缺失值,而该例记录由于其他的变量仍有统计分析的价值,或者当删除该例记录后样本例数太少,不能保证数据分析结果的可靠性时,则可用一些统计学方法对缺失值进行填补。
对缺失值进行估计填补具体方法,可参阅有关文献。
二、输入数据的质量控制,3、离群数据的处理当个别数据与群体数据严重偏离时,被称为离群数据(outlier)。
判断离群数据的方法可通过观察数据的频数表或直方图进行初步判断;
统计软件一般都有判断离群数据的方法,例如,SPSS软件对其的定义为:
观察值距箱式图(boxplot)的箱体底线(第25百分位数)或顶线(第75百分位数)的距离为箱体高度(四分位数间距)的1.5倍至3倍时被视为离群点,观察值距箱体底线或顶线的距离超过3倍的箱体高度时被视为极端值。
二、输入数据的质量控制,3、离群数据的处理若有离群数据出现,可分为两种情况处理:
(1)如果确认数据有逻辑错误,又无法纠正,可直接删除该数据。
例如,若某一数据中某病例的身高变量为“1755”cm,且原始记录亦如;
又无法再找到该病例时,显然这是一个错误的记录,只能删除。
(2)若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;
若结果矛盾,并需要剔除,必须给以充分合理的解释,例如用何种方法确定偏离数据,该数据在实验中何种干扰下产生等。
第二部分数据统计描述方法的选择,总体,样本,统计推断,抽样,抽样误差,一、计量资料的描述,某市抽查187名宾馆女性服务人员年龄资料如下254033182225333035182420222225262428184021.192220223329384022181920252429313228262519,计量资料统计描述,集中趋势,离散趋势,均数几何均数中位数,全距四分位数间距方差标准差变异系数,计量资料描述的常用统计指标选择,某市抽查187名宾馆女性服务人员年龄资料如下254033182225333035182420222225262428184021.192220223329384022181920252429313228262519,现检测出11名梅毒患者的血清梅毒抗体滴度如下,请计算其平均抗体滴度。
1:
51:
201:
401:
801:
1601:
3201:
640,数据之间呈倍数关系几何均数,艾滋病患者月均收入的频数表,偏态分布与开口资料,采用中位数(M)与四分位数间距(Q75-Q25)描述,某人收集到如下的统计资料,从资料表达方式的角度看,存在的主要错误是什么?
该资料应如何进行表达?
艾滋病患者某药治疗前后CD4测定结果,明显偏态资料采用中位数描述平均水平,由于例数太少,采用最大值最小值反映离散。
标准差大于均数,提示明显偏态。
二、分类资料的统计描述,案例1,请选择适当指标描述该两组资料结果。
资料类型,多项无序分类资料,案例2,请选择适当指标描述两组结果。
两项分类资料,案例3,等级资料(多项有序分类资料),请选择适当指标描述两组结果。
资料统计描述方法,计量资料,分类资料,集中趋势,离散趋势,计数资料,等级资料,均数几何均数中位数,全距四分位数间距方差标准差变异系数,二项分类资料,多项无序分类资料,率,构成比,构成比,据表中某地、某年梅毒监测资料,计算各年龄的构成比和梅毒报告发病率,第三部分统计学假设检验方法的选择,选择统计方法的基本思路:
反应变量是单变量、双变量或多变量数据属于哪种类型资料:
计量资料、计数资料或等级资料(针对单变量数据)数据所属的设计类型:
完全随机设计、配对设计、随机区组设计或其他设计影响因素是单因素还是多因素数据是单一样本、两组样本还是多组样本数据是否符合拟采用的统计分析方法的应用条件,
(一)单变量计量资料的分析,1、样本均数于已知总体均数比较,1、一般健康孕妇生产男孩的出生体重为3kg。
随机抽样调查某地某年15名梅毒感染孕妇生产男孩的出生体重,得如下数据,问:
问梅毒感染孕妇与健康孕妇生产男孩的出生体重是否有差异?
样本均数与总体均数比较,15名梅毒感染孕妇生产男孩的出生体重(kg):
1.82.22.52.61.61.81.92.62.21.92.02.52.61.72.0,冯启明,2022/11/2,
(一)单变量计量资料的分析,2、配对样本均数比较,3、两样本均数比较,40名艾滋病患者随机分为两组,分别给予A药和B药治疗,治疗后艾滋病患者血液CD4含量如下,请比较两组患者治疗后CD4差异。
完全随机设计两样本均数比较,两种方法检测7名艾滋病患者的血液CD4含量,所得结果如下。
问:
甲乙两法检出CD4含量是否相同,用何统计方法?
样本号1234567乙法270540125500485185650甲法329602101625508175761,配对设计计量资料,
(一)单变量计量资料的分析,4、多个样本均数比较,某研究者将27只感染艾滋病雄性猩猩随机分成三组(每组9只),给予不同处理,观察12周。
测定。
处理前后血液中的CD4升高值见下表。
问三组的CD4升高值是否相同?
完全随机设计多样本比较,按性别相同、年龄相近、病情相近把33例艾滋病患者配成11个区组,每区组3个患者,分别给予A药、B药和C药治疗。
治疗后患者血浆中的IGA含量见表。
问经三种不同药物治疗后该病患者血浆中IGA含量有无差别?
随机区组设计计量资料,某医院用某中药给8名吸毒者戒毒,在治疗前、治疗后一周、二周、三周和四周分别测定患者的血清谷丙转氨酶SGPT的变化,其数据如表5-2所示,试分析各周SGPT值的差别是否有显著性意义。
单因素重复测量数据方差分析,将12名吸毒者随机分为两组,每组6名,采用某种药物进行治疗戒毒,一组服用胶囊,另一组服用片剂。
分别于服药后1,2,3,4小时测定血药浓度,血药浓度检测结果见下表。
试比较两种剂型服用后血药浓度有无差别?
两因素重复测量数据方差分析,22例艾滋病患者随机分成两组:
A药组,B药组。
从治疗开始日开始随访,随访时间(月)如下。
试比较两组的疗效有无差异,(带者为截尾数据)。
A组1,2,3,5,6,9,11,13,16,26,37B组:
10,11,14,18,22,22,26,32,38,40,42,生存数据,宜用Log-rank检验,
(二)单变量计数资料的分析,1、两个率比较,据以往调查数据,某地女性梅毒发病率一般为1.2。
某人在当地女性服务人员中抽查400名,检测出8例梅毒。
问该地女性服务人员梅毒发病率是否高于一般女性?
样本率与总体率比较基于二项分布的直接概率法,根据以往观察,一般35岁以上孕妇有10发生流产。
现某医院观察35岁以上患梅毒孕妇254例,有60例发生流产。
问35岁以上梅毒患者是否较容易流产?
样本率与总体率比较基于二项分布的u检验法,某医院将376例淋病患者随机分为两组,分别用中药和西药治疗,结果见表7-1。
问两种药物疗效的差别有无意义?
两样本率比较四格表X2检验,
(二)单变量计数资料的分析,2、行列表资料比较,当生殖器出现异常时,外展服务干预前后女性服务从业人员求医行为见下表,请比较干预前后女性服务从业人员求医行为差异有统计学意义。
行列表X2检验,干预前后女性从业人员求医行为比较(),采用两种方法检测女性服务人员梅毒感染率,结果如表所示,问两种方法的检出率差别有无统计学意义?
配对设计计数资料X2检验,某医院用三种方案治疗淋病254例,结果如下,问三组疗效有无差别?
不宜用X2检验,要采用秩和检验,(三)单变量等级资料的分析,1、两组等级资料比较,有9个艾滋病血液样品分成两份,分别在温度为80和20的条件下加入相同显色剂,结果如下,请比较两种温度下的显色效应差异,配对设计等级资料配对设计秩和检验,某医院对比两种疗法对梅毒治疗效果,结果如下,问两组的疗法是否有差别?
两样本等级资料,不宜用X2检验,要采用秩和检验,(三)单变量等级资料的分析,2、多组等级资料比较,某医院用三种方案治疗淋病254例,结果如下,问三组疗效有无差别?
完全随机设计多组秩和检验,(四)双变量资料的分析,某医师测定7名吸毒男性戒毒1个月后的血清蛋白含量(g/L)和血红蛋白含量(g/L)数据如下。
请问这两项指标有无相关?
直线相关分析,某医生研究艾滋病患者血小板数与出血症状程度有无相关,结果如下。
请作分析,有一个变量为等级资料,宜用等级相关(Spearman),(五)多变量资料的分析,1、有因变量的多变量资料,
(1)因变量y为计量资料,并服从正态分布,作多元回归分析,
(2)因变量y为分类资料(二分类或多分类),以判别分类为主要目的,作判别分析,(3)因变量y为生存时间,并含有截尾数据,作COX模型分析;
如自变量只有1个,作K-M法生存分析。
(4)因变量y为分类资料(二分类或多分类),以分析危险因素为主要目的,如资料为配比设计,作条件Logistic回归;
如资料无配比设计,作非条件Logistic回归。
(五)多变量资料的分析,2、无因变量的多变量资料,
(1)如将变量或观察单位划分为性质相近的k类,作聚类分析。
(2)如以降低变量维度,并对变量进行分类的目的,作主成分分析或因子分析,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计学 处理 方法 选择 精品 文档