IBMSPSSStatistics操作进阶Word文档格式.docx
- 文档编号:21297825
- 上传时间:2023-01-29
- 格式:DOCX
- 页数:96
- 大小:2.37MB
IBMSPSSStatistics操作进阶Word文档格式.docx
《IBMSPSSStatistics操作进阶Word文档格式.docx》由会员分享,可在线阅读,更多相关《IBMSPSSStatistics操作进阶Word文档格式.docx(96页珍藏版)》请在冰豆网上搜索。
由于在试验设计和试验实施过程中已经对非研究因素的影响做了充分考虑和控制,因此而在很多情况下往往可以只利用非常简单的统计方法(如t检验、卡方检验等)来得到最终结论。
各种复杂高深的统计模型不是没有用武之地,但它们不是至关重要的工具。
此类统计方法论的应用在实验室研究、临床试验等领域最为常见,所使用的分析方法常常是单因素分析方法,或者针对一些复杂设计使用一般线性模型(方差分析模型)的定制框架。
1.1.2半试验研究支持下的统计方法论
经典统计分析方法论对整个流程的控制和干预非常严格,但这在许多情况下是无法满足的,因此往往退而求其次,形成了所谓半实验研究支持下的统计分析方法论,其具体特征如下:
⏹研究设计具有明显的向实际情况妥协的特征,所谓七大步骤可能不被严格遵循,例如在数据存在的情况下,数据收集过程就会被省略。
总体而言,七大步骤中从数据准备开始的后三步的重要性比经典统计分析方法论高。
⏹研究设计可能无法做到理想化,例如抽样与分组的完全随机性,试验组及对照组干预措施的严格控制都可能无法严格满足。
举个最典型的例子,药物研究中理想状况应当设立安慰剂对照组,但是如果是治疗恶性肿瘤的药物,又怎么忍心让肿瘤病人吃安慰剂呢?
此时往往设定标准治疗药物对照组,甚至在一些极端情形下不设对照组。
虽然这样做在统计设计上并不理想,但更符合医疗道德的要求。
⏹整个数据采集过程难以做到理想化,举一个简单的例子,定点调查(CentralLocationTest)是市场研究常用的样本采集方式,严格地说,调查地点、调查时间,甚至当天的天气都可能会对样本的代表性以及数据结果产生影响,但它们最终只能凭借访问者的责任心和运气来尽量加以保证,而从设计本身是很难控制的。
⏹部分数据可能先于研究设计而存在,整个研究中需要在这些数据的基础上补充所需的其他部分信息。
另一方面,这些数据可能不完全满足分析需求,但这种缺陷却无法得到修正。
例如,利用全国各省的经济和人口数据进行省级综合发展程度排序,可以考虑使用因子分析来做,因子分析原则上要求至少有50个案例才能保证结果比较稳健,但全国只有34个省级行政区,难道为了这个统计分析再请有关部门弄出十几个新的省市来吗?
这显然是不切实际的。
⏹在分析方法上,由于试验设计难以做到完美,因此各种潜在影响因素的作用可能并不明确,需要以各种可能的影响因素中进行筛选和探索。
可能用到的统计方法颇为繁杂,从简单的统计描述到复杂的广义线性模型都可能用到,因此对影响因素的筛选成为很多分析项目的重点任务之一。
事实上,很多复杂的多因素分析模型就是在这类研究的实际分析需求刺激下产生并蓬勃发展的。
但无论如何,可以使用的方法仍然以经典统计分析方法为主。
此类统计方法论的应用范围目前最广泛,在社会学、经济学研究中特别常见。
1.1.3偏智能化、自动化分析的数据挖掘应用方法论
此类分析方法论是随着近年来计算机技术的飞速发展而诞生的,一方面数据库技术使得许多行业出现了业务系统,有了自动积累的海量业务数据库,相应地诞生了大批新的分析需求,但其数据量却使传统方法很难有效满足。
另一方面,人工智能和计算能力的发展也催生了一批全新的分析方法,例如Bootstrap(自助法)、Bayes(贝叶斯)方法与MCMC(马氏链蒙特卡罗)方法、神经网络、遗传算法、树模型与随机森林等,它们赋予了分析人员全新的能力。
在这些因素的相互作用下,一种新的分析方法论——数据挖掘方法论应运而生了。
一般认为,数据挖掘是近年来由计算机人工智能、统计学和数据仓库技术交叉发展而来的一种新的方法体系,它通过采用各种自动或半自动化的分析技术,从海量数据中发现有意义的行为和规则,迅速找到大量资料间的关联与趋势。
其最大的特点是自动化、智能化,即充分利用计算机人工智能技术,自动/半自动地分析数据间的复杂联系,探寻一种独特的、通过其他方法可能难以发现的模式,以便快速发现有价值的信息。
整个分析框架是动态、可更新的,并且在分析结果的验证上提供了许多新的思路。
一位博士师兄在20世纪末向我们介绍数据挖掘方法体系的时候,曾经用一句很精辟的话对其出身进行了总结:
一部分是新的,一部分是旧的,一部分是借的。
和前两种较为传统的分析方法论相比,数据挖掘方法论的特点可归纳为:
完全以商业应用需求为导向。
可认为传统方法论和数据挖掘方法论的最大区别在于:
前者需要方法体系/逻辑正确,然后慢工出细活。
后者由于需要处理的数据量大、时间要求高,只需要结果正确,分析方法的理论正确性并不重要,算法细节也可以是灰箱甚至黑箱。
正所谓无论白猫还是黑猫,只要抓住老鼠就是好猫。
数据挖掘所需要解决的问题往往具有很强的时间要求,例如消费者在网上购物时,页面上往往会出现“购买此商品的顾客也同时购买”之类的推荐栏目。
其中的商品就是利用快速的数据挖掘算法筛选出来的。
虽然这类分析的准确率能高一些最好,但是相比之下,网站更愿意选择2秒钟就能反馈给浏览者的弱关联算法,而不是采用10分钟才能计算出准确结果的强关联算法,因为买家等不起!
⏹分析流程出现了很大的变化,不再是线性的七大步骤,而是周而复始的循环结构,且非常强调前期的商业理解,以及后期的模型发布与应用。
在几种常见的数据挖掘方法论中,以CRISP-DM最具代表性。
⏹由于数据往往来源于业务系统,比如超市的POS机,银行的ATM机、电信公司的业务数据库,因此数据采集过程是全自动的,完全先于整个研究项目而存在。
这也意味着这些数据根本不是为数据分析准备的,因而难以做到理想化。
例如在对POS机数据进行分析时,如果知道购物者的年龄、性别、家庭收入状况等,将可以得到更有价值的分析结果,但即使关联了会员卡数据,这些背景资料也几乎是不可能补全的,更不用说还存在退休的父母拿着子女的会员卡去购物这种常见的情况了。
⏹由于业务系统的数据会动态增加,因此几乎不可能考虑另行加以人工收集希望补足的数据,而只能看菜吃饭,否则整个项目将永无止境,失去其实际价值。
⏹在分析方法上,由于极端强调商业应用,因此分析方法的选择其实并不重要,往往采取多种方法并行,从中择优的分析思路。
例如,对于一个客户流失预测项目,完全可以同时采用判别分析、Logistic回归、神经网络、支持向量机(SVM)、Bayes分析、树模型等多种方法平行分析,然后采用投票或者优选的方式得到最终的预测模型及结果。
在完全以满足商业需求为目标的背景之下,很多被认为非常经典和基础的统计方法,比如参数估计和常规的假设检验等方法在数据挖掘中反而不一定被用到。
另一方面,由于海量数据库、动态增量、平行分析等特点的存在,意味着数据挖掘中非常强调自动化,即使在项目期间会有很多人脑的智力投入,但最终项目结束时提交的一定是自动化的业务流,即以硅脑代替人脑,软件代码代替人工操作。
最后,能否满足商业需求,或者说模型是否能够在业务系统中得到真正的发布和应用,则是判断整个数据挖掘项目是否成功的唯一标准,这一点和传统方法论有非常鲜明的区别。
1.2CRISP-DM方法论介绍
1.2.1概述
商用数据挖掘是一个从商业中来到商业中去的过程,如图1.1所示。
分析师或客户首先提出一个商业问题,然后在企业或者组织中需要结合三方面的资源——高质量的数据、业务知识和数据挖掘软件进行数据挖掘,从而从大量数据中获取有业务价值的洞察力,继而将这些业务洞察力以某种形式嵌入到业务流程中,从而达到业务目标的实现。
例如销售收入或者利润的提高,成本的下降,运行效率的提升等。
在这个过程中,尽管数据挖掘的各种算法是数据挖掘过程的核心步骤,但是并不是全部,为了保证数据挖掘项目的成功实施,还有很多决定性因素,例如商业问题如何界定、数据如何选取、生成的模型如何嵌入到现有的业务流程中等问题都将直接影响数据挖掘是否能够取得商业上的成功。
图1.1数据挖掘应用过程逻辑图
为了使数据挖掘过程更加标准化,产生了很多指导数据挖掘过程的方法论,CRISP-DM就是其中的优秀代表。
CRISP-DM是CRossIndustryStandardProcessforDataMining(跨行业数据挖掘标准流程)的字母缩写,整个方法论的概貌如图1.2所示,它将整个数据挖掘过程分解为商业理解、数据理解、数据准备、建立模型、模型评估和结果部署6个步骤。
该方法论认为:
数据挖掘过程是循环往复的探索过程,6个步骤在实践中并不是按照直线顺序进行,而是在实际项目中经常会回到前面的步骤。
例如在数据理解阶段发现现有的数据无法解决商业理解阶段提出的商业问题时,就需要回到商业理解阶段重新调整和界定商业问题;
到了建立模型阶段发现数据无法满足建模的要求,则可能要重新回到数据准备过程;
到了模型评估阶段,当发现建模效果不理想的时候,也可能需要重新回到商业理解阶段审视商业问题的界定是否合理,是否需要做些调整。
图1.2CRISP-DM数据挖掘方法论的6个步骤
图1.3是在CRISP-DM方法论中,各个阶段的任务与输出的参考模型,其中粗体字部分是各个阶段要完成的任务,普通宋体字部分是完成这些任务应有的输出内容。
在进行实际的数据挖掘过程中,分析师不一定需要对每个任务和输出都做书面记录,但是应该对这些内容予以充分关注,从而保证项目成功完成。
图1.3CRISP-DM的任务与输出参考模型
1.2.2商业理解
商业理解(BusinessUnderstanding)阶段主要完成对商业问题的界定,以及对企业内外部资源的评估和组织,将产生如下主要文档(结果):
⏹确定商业目标。
包括商业背景、商业目标、成功标准等。
⏹形势评估。
包括企业拥有资源、需求、假定和限制、风险偶然性、专业术语、成本收益等。
⏹确定数据挖掘目标。
包括数据挖掘目标、数据挖掘成功标准等。
⏹制订项目计划。
包括项目计划、工具方法评估等。
1.2.3数据理解
数据理解(DataUnderstanding)阶段主要完成对企业数据资源的初步认识和清理,将产生如下主要文档(结果):
⏹收集原始数据,产生数据收集报告。
⏹数据描述,产生数据描述报告。
⏹数据探索性分析,产生探索性数据分析报告。
⏹数据质量描述,产生数据质量报告。
1.2.4数据准备
数据准备(DataPreparation)阶段主要完成在建立数据挖掘模型之前对数据的最后准备工作,数据挖掘模型要求的数据将是一张二维表,而在现实企业中,数据往往被存储在不同的部门、不同的数据库或者数据库中的不同数据表中。
这一步骤将把这些数据集整合在一起,生成可以建立数据挖掘模型的数据集和数据集描述。
这个阶段将产生如下文档(结果):
⏹选择数据。
不是所有数据都会适合数据挖掘,在数据准备阶段要确定数据挖掘应该包含及剔除的数据。
⏹数据清理。
在建立模型之前,必须对数据进行适当的清理,即对不符合实际情况的数据进行调整或者剔除,并生成数据清理报告。
⏹数据重构。
生成新的字段和记录。
⏹整合数据。
对相关的数据进行合并处理。
⏹格式化数据。
使之适合数据挖掘的需要。
1.2.5建立模型
建立模型(Modeling)是数据挖掘工作的核心阶段,按照大类来分,数据挖掘模型可以分为数据描述和汇总(Datadescriptionandsummarization)、细分(Segmentation)、概念描述(Conceptdescription)、分类(Classification)、预测(Prediction)和相关性分析(Dependencyanalysis)等。
这一步骤具体产生如下文档(结果):
⏹选择建模技术。
模型的假定和要求以及对模型技术进行评估。
⏹产生检验设计。
从技术角度分析如何对模型效果进行检验。
⏹建立模型。
完成模型参数的设定,建立模型并对模型做适用性概述。
⏹模型评价。
对模型使用的评价以及对各参数做调整。
1.2.6模型评价
模型评价(Evaluation)是数据挖掘整个流程中非常重要的环节,这一步将直接决定模型是否达到了预期的效果,模型是否可以发布应用,还是必须重新进行调整。
模型评价可以分为两个部分:
一个是技术层面,主要由建模人员从技术角度对模型效果进行评价;
另一个是商业层面,主要由业务人员对模型在现实商业环境中的适用性进行评估。
这一阶段将产生如下文档(结果):
⏹结果评估。
评估产生的数据挖掘模型,从中筛选出被认可的数据挖掘模型。
⏹数据挖掘过程回顾。
查找是否存在疏忽和遗漏之处。
⏹确定下一步的工作内容。
列出所有可能的行动方案,以进行决策。
1.2.7结果部署
结果部署(Deployment)阶段是运用数据挖掘结果解决现实商业问题的过程,这一阶段将实现数据挖掘的商业价值,具体产生如下文档(结果):
⏹结果发布计划。
⏹监测和维护模型计划。
随着商业环境的变化,模型的适用性和效果也可能发生改变,必须建立对模型进行监测和维护的机制。
⏹生成最终的数据挖掘报告。
⏹项目回顾。
总结项目中的经验教训,为以后的数据挖掘项目进行经验积累。
第2章数据分析方法体系简介
本章将概括介绍目前常见的数据分析方法,以及这些方法在IBMSPSSStatistics或IBMSPSSModeler中的实现位置。
无论哪一种分析方法,都离不开数据的计算机化及存储操作,因此我们将从数据的存储类型讲起。
2.1统计软件中的数据存储格式
2.1.1二维数据表
对于比较复杂的分析项目,特别是基于业务系统的分析项目,所需的数据很可能是以一个结构复杂的数据仓库的形式出现,统计软件需要从中提取所需的数据并加以分析。
但实际上,我们可以将问题简化,因为对于一个具体的分析项目,统计软件所面对的必然是一个标准的关系型数据库下的二维数据表,每一行代表一个案例,每一列代表一个变量。
统计软件所需完成的工作,就是寻找行(案例)与列(变量)之间的数量联系,从而基于这些统计信息辅助研究人员作出业务决策。
简化到二维表形式的数据集是最基本的统计分析用数据格式,也是包括Statistics以及Modeler在内的统计软件最常见的输入格式。
对于一张二维表,所有变量的属性定义构成了其数据结构,也就是该表格的框架部分,所有案例都将按照此结构来添加数据。
以IBMSPSSStatistics为例,其数据窗口实际上由两个视图构成(见图2.1):
变量视图用于显示及管理数据表的结构,其中每行代表一个变量的具体属性;
数据视图用于显示及管理具体的数据,每行代表一个观测个案的取值情况。
图2.1IBMSPSSStatistics数据窗口的数据视图和变量视图
2.1.2变量的存储类型
根据统计软件的不同需求,对变量的存储类型可以有多种设定,但基本的形式有两种:
数值型和字符型。
例如工资、年龄、成绩等变量都可以按照数值型数据来存储,而姓名、住址等则是典型的字符型变量。
此外还有多种衍生类型,例如日期型变量,在绝大多数统计软件中实际上就是一种特殊的数值型变量。
在IBMSPSSStatistics中也不例外,其中存储的是相应时间与1582年10月14日零点相差的秒数,如1582年10月15日这一时间在变量中存储的就是60´
60´
24=86400,只要将变量类型变换为数值型就可以看到。
在IBMSPSSStatistics中,变量的存储类型在变量视图的“类型”列处加以设定。
在变量视图中选择“类型”列中的单元格时,右侧会出现形如
的省略号按钮,单击它会弹出变量类型对话框,用于选择变量的存储类型,以及变量宽度、小数位数等。
2.1.3变量的测量尺度
如果只使用变量类型,很多时候并不能准确地说明变量的含义和属性,因此还需要进一步给变量增加测量尺度这一属性。
在统计学中,按照对事物描述的精确程度,将所采用的测量尺度从低级到高级分为4个层次:
定类尺度、定序尺度、定距尺度和定比尺度。
1.定类尺度
定类尺度(NominalMeasurement)是对事物的类别或属性的一种测度,按照事物的某种属性对其进行分类或分组。
定类变量的特点是其值仅代表事物的类别和属性,仅能测度类别差,不能比较各类之间的大小,所以各类之间没有顺序或等级之分,例如变量“血型”就是一个定类尺度的变量。
而对于“性别”这种两分类变量,一般仍然将其归为定类尺度变量。
但是两分类变量较为特殊,即使将其归为其他类型,一般也不会影响后续分析。
2.定序尺度
定序尺度(OrdinalMeasurement)是对事物之间等级或顺序差别的一种测度,可以比较优劣或排序。
定序变量比定类变量的信息量多一些,不仅含有类别的信息,还包含次序的信息。
例如,按照小学、中学、大学这种方式来对“学历”加以记录,它就是一个典型的定序变量。
3.定距尺度和定比尺度
定距尺度(IntervalMeasurement)是对事物类别或次序之间间距的测度。
定距变量的特点是其不仅能将事物区分为不同类型并进行排序,而且可以准确指出类别之间的差距是多少,最典型的定距尺度变量就是温度。
定比尺度(ScaleMeasurement)则更进一步,和定距尺度的差别在于它有一固定的绝对“零点”。
比如温度,0℃只是一个普通的温度(水的冰点),并非没有温度,因此它只是定距变量,而重量则是真正的定比变量,0kg意味着没有重量可言。
由于这两种测量尺度在绝大多数统计分析中没有本质的差别,因此很多时候没有做严格区分。
4.IBMSPSSStatistics中的相应功能
在IBMSPSSStatistics中,变量的测量尺度在变量视图的“度量标准”列处加以设定。
在变量视图中选择“度量标准”列中的单元格时,会弹出下拉列表,从中选择所需的测量尺度即可。
不过目前这种选择只会影响制图和制表过程,而对绝大多数统计分析过程的使用没有太大影响。
这3种尺度在许多统计书籍中会有更为通俗的称呼:
无序分类变量、有序分类变量和连续性变量。
从实用的角度出发,本书将同时采用这两种命名体系。
2.2数据的统计描述与参数估计
2.2.1连续变量的统计描述
当数据量较少,比如只有5个人的身高,或者7个人的性别资料时,研究者可以通过直接观察原始数据来了解所有的信息。
但是,实际工作中所接触的数据量往往远大于人脑可以直接处理、记忆的容量,此时就必须借助汇总后的统计指标才能了解数据的全貌。
统计指标可以反映数据几个方面的特征:
集中趋势、离散趋势、分布特征以及其他趋势。
1.集中趋势的描述指标
集中趋势用于描述数据的平均水平,这可能是人们希望了解的最基本的汇总信息,在统计学中用于描述集中趋势,或者说数据分布的中心位置的统计量就被称为位置统计量(LocationStatistic)。
针对不同的数据分布状况,统计学家提供了多种统计量来代表原始数据的中心趋势,比如平均值、中位数和众数等。
⏹算术均数(ArithmeticMean):
是常用的描述数据分布集中趋势的统计指标,往往将其直接简称为均数。
总体均数用希腊字母m表示,样本均数常用
表示。
对一组数据
而言,均数的算法为各数据直接相加,再除以例数n。
均数是最常用的集中趋势描述指标,但它不适用于对严重偏态分布的变量进行描述,只有单峰和基本对称的分布资料,使用均数作为集中趋势描述的统计量才是合理的。
⏹中位数(Median):
将全体数据按大小顺序排列,在整个数列中处于中间位置的那个值。
它把全部数值分成两部分,比它小和比它大的数值个数正好相等。
中位数适用于任意分布类型的资料,但由于中位数只考虑居中位置,对信息的利用不充分,所以当样本量较小时数值会不太稳定。
因此对于对称分布的资料,分析者会优先考虑使用均数,仅仅在均数不能使用的情况下才用中位数加以描述。
⏹几何均数(GeometricMean):
用G表示,适用于原始数据分布不对称,但经对数转换后呈对称分布的资料。
可以发现,几何均数实际上就是对数转换后的数据lgX的算术均数的反对数。
⏹截尾均数(TrimmedMean):
由于均数较易受极端值的影响,因此可以考虑按照一定比例去掉两端的数据,然后再计算均数。
如果截尾均数和原均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消。
常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。
⏹其他集中趋势描述指标:
除了上述最常用的几种指标外,还会遇到众数、调和均数等,前者是指样本数据中出现频次最大的那个数字,后者是指观察值X倒数之均数的倒数,这些指标的实际应用都比较少见。
2.离散趋势的描述指标
显然,仅仅反映数据的集中趋势是远远不够的,还要反映数据的离散趋势,即数据的波动范围,描述该趋势的统计量称为尺度统计量(ScaleStatistic),常用的尺度统计量有标准差、方差、四分位间距等。
⏹全距(Range):
全距又称为极差,即一组数据中最大值与最小值之差,它是最简单的变异指标,但因其过于简单,因此一般只用于预备性检查。
⏹方差(Variance)和标准差(StandardDeviation):
总体和样本的标准差分别用
和s来表示,方差即标准差的平方,这两个指标是应用最广泛的离散程度描述指标,由于标准差和方差的计算利用到每个原始变量值,所以它们反映的信息在离散指标中是最全的,因此也是最理想、最可靠的变异描述指标。
但也正是由于标准差和方差的计算用到每一个变量值,所以它们会受到极端值的影响,当数据中有较明显的极端值时不宜使用。
实际上,方差和标准差的适用范围应当是服从正态分布的数据。
⏹百分位数、四分位数与四分位间距:
百分位数(Percentile)是一种位置指标,用Px表示。
一个百分位数Px将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。
前面学习过的中位数实际上就是一个特定的百分位数,即P50。
除中位数外,常用的百分位数还有四分位数,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IBMSPSSStatistics 操作 进阶
