数据分析与软件运用实验指导详细资料Word格式.docx
- 文档编号:22637981
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:18
- 大小:26.45KB
数据分析与软件运用实验指导详细资料Word格式.docx
《数据分析与软件运用实验指导详细资料Word格式.docx》由会员分享,可在线阅读,更多相关《数据分析与软件运用实验指导详细资料Word格式.docx(18页珍藏版)》请在冰豆网上搜索。
班级:
实验时间:
2、正文
一级标题:
宋体,四号字,加粗;
二级标题:
宋体,小四号,加粗;
三级标题:
正文:
宋体,小四号,单倍行距;
插入页码(居中)
3、文中页面设置采用默认值;
4、文中图表均需要统一编号并标出,符号、图形等所表达的意义,必须清晰完整
5.课程实验的考核成绩
一)考核等级
根据实验报告进行评分,分为优、良、中、及格和不及格五个等级二)打分依据
1、是否达到实验的基本要求
2、报告的完整性,资料收集和整理的全面程度和准确性
3、报告的整洁与排版的规范性
实验一建立数据集
(1)
【实验目的】
1、掌握统计数据的基本结构
2、了解原始样本数据与SPSS数据集之间的对应关系
3、熟练掌握SPSS数据集的建立方法
4、熟悉SPSS主窗口及主要界面
【知识准备】
1、变量及其类型的划分
2、数据的结构
【实验内容】
时下大学生逃课成了一种比较普遍的现象,对各高校来说是一个不容忽视的问题,它会影响到学校教案质量和学生专业知识的提高,正常的教案秩序会促进校风的建设,同时也可为学生的学习创造一个良好的环境
经历了“黑色”的六月,千辛万苦,好不容易迈进梦寐以求的大学校园,背负着父母殷切希望的大学生本应珍惜学习机会,努力学习,可他们为什么要逃课呢,逃课后又在做什么‘逃课是否会影响学习成绩呢,带着这些疑问,请针对大学生“必修课选逃,选修课必逃”现象展开调查,把调查的资料录入到SPSS文档中
【实验步骤】
1、确定变量个数
2、定义变量属性
3、录入样本数据
【问题思考】
1、调查问卷中的问答设计一般有哪几种方式可采用?
2、根据本次调查的研究目的,本问卷是否有必要增加变量,多提一些问题
3、本实验中的样本数据不包含数值型变量,如出现数值型变量,应如何定义其SPSS数据集中的10个变量
【实验总结】就您所感兴趣的课题,自主设计调查方案,搜集有关数据,并建立一个包含品质变量
和数值型变量的SPSS数据集
实验一数据集的预处理
(2)
1、了解对原始数据进行预处理的意义
2、进一步熟悉SPSS主窗口中的数据浏览界面
4、熟悉掌握针对SPSS数据集进行编辑、整理和初步加工的方法和步骤
1、数据的审核
2、数据分组【实验内容】
前面根据大学生逃课设计的问卷过于简单,不能满足进一步深入和展开问题研究的需要。
为此,还必须搜集100多位以上的同学的英语、数学、经济学、统计学等几门课程的期末考试成绩。
所获取的数据是一个Excel文档,参见数据data2-1,现在需要把这个Excel
格式的文件转换为spss数据集,再与实验一中的数据data1-1合并为一个完整的spss数据
集
1、转换Excel格式文件为spss数据集2、合并数据
3、排序4、简单计算
5、选择观测6、清点观测
7、分类汇总8、分组
9、拆分数据【问题思考】
1、为何要进一步搜集100多位同学的各门课的考试成绩?
可通过何种方式、何种途径获得这些数据
2、清点观测中,如果仅仅是针对男生且各门课考试成绩85分以上者,应如何操作
3、若要对逃课后活动和对逃课的看法两个变量中的不同情况进行双重拆分,应当如何操作?
【实验总结】
结合实验内容和本实验中提供的数据,自主完成Edit,View,Data,Transform4个主菜单中所有操作。
实验一数据的描述统计分析(3)
1、掌握定类数据、定序数据和数值型数据的图表表示方法
2、掌握定类数据、定序数据和数值型数据图表表示的Spss操作
3、熟练描述统计量的类型划分及其作用
4、准确理解各种描述统计量的构造原理并熟练掌握描述统计量的spss操作
5、培养运用描述统计方法解决身边之际问题的能力【知识准备】
1、定类数据的频数分布表、分布图(条形图、帕累托图、饼形图)
2、数值型数据的频数分布表、分布图(茎叶图、盒行图、直方图)
3、描述集中趋势、离散趋势及分布形态的统计量
随着证券市场的发展,基金理财目前已成为一种非常普遍的投资方式。
统计数据显示,目前基金持有人账户总数已过1.1亿户,估计约有四分之一的城镇居民家庭参与了基金投资。
投资者面对300多只基金,如何选择基金公司,投资何种类型的基金,需要对基金作出全面了解的基础上进行决策。
这里搜集了晨星开放式基金2007年业绩业绩评级资
料,供您分析使用。
此数据以2007年12月28日最后一个交易日为截止日期,反映了317
只开放式基金的综合数据。
见数据data3-1.sav,这些变量中,V24是我们比较关心的一个
丁磊变量,V5,V6为比较典型的两个定序变量。
针对这些变量数据制作频数分布表和分布图
为帮助您了解和分析上海的综合状况,我们搜集到上海A股的一部分财务数据并建立
了Spss数据集。
见数据data4-1.sav,此数据级反映上海A股中32各行业840家上市公司
2007年12月28日,即本年度最后一个交易日的资料,请根据需要制作品数分布图表进行通描述
绝大多数课程的期末考试成绩成对称的钟形分布,但这也不是绝对的规律。
“证券市场模拟实战”是一门深受学生喜爱的选修课程,课程性质有其特殊性,那么其期末考试成绩是否也有其分布规律的特殊性?
这里有一份2008年期末5个班263名学生的考试成绩,见数据data5-1.sav,请运用统计量描述手段对此数据做一个分析
1、V24频数分布表与频数分布条形图打开数据集Analyze---DescriptiveStatistics—Frequencies根据提示进行操作
V5的频数分布饼形图帕累托图Graphs—Pie;
Pareto根据提示进行操作
2、V3茎叶图打开数据集Analyze---DescriptiveStatistics—Explore根据提示进行操作
3、V8频数分布盒形图V10频数分布直方图Graphs—Boxplot,Histogram
4、263名学生成绩整体的统计量描述Analyze---DescriptiveStatistics—Descriptives
5、各班级学生成绩的统计量描述Data—SplitFile系统将数据拆分成5组
Analyze---DescriptiveStatistics—Descriptives【问题思考】
1、定类数据和定序数据的频数分布表有何不同?
2、欲制作不同投资类型下的V5和V6的聘书分布图表,应如何操作
3、数据集中的大量数据可谓我们选择具体的基金管理公司提供什么帮助?
4、直方图与条形图有什么不同
5、欲比较不同行业在同已变量上的频数分布直方图,应如何操作
6、由此数据集中的数据我们可以认识到上海A股股市的哪些特点
7、Spss中还可以通过哪些途径计算有关的描述统计量
8、试对此数据集进行图表描述,并结合本实验中的输出结果评述此课程考试成绩的频数分布特征
【实验总结】观察上述实验步骤中的输出结果,发现问题,思考原因,撰写一份数据分析报告
实验二均值分析
(1)
t检验的方法原理
t检验Spss操作
t检验的方法解决身边的实际问题
2、准确掌握单样本、两个独立样本和配对样本
2、熟练掌握单样本、两个独立样本和配对样本
3、学会利用单样本、两个独立样本和配对样本
1、t检验的基本概念
2、t检验的基本步骤
某对外汉语教案中心进行了一项汉语教案实验,同一年级的两个平行班参与了该实验。
两个班分别采用两种不同的教案方式学习40个生字,其中一个班采用的是集中识字的方式,即安排外国留学生在学习课文前集中学习生字,然后再学课文;
二班采用的是分散识字的方式,即安排学生一边学习课文一边学习生字。
为了考察两种教案方式对生字读音的记忆效果是否有影响,教案效果是否有差异,分别从一班和二班随机抽取20名学生,要
求他们对40个汉字进行注音,每注对一个得一分,注错不得分,从而获得了两个独立样本的数据。
Data7-1.sav试根据此数据集评价两种教案方式的优劣。
为研究某种减肥茶是否具有明显的减肥功效,某健身机构对35名肥胖志愿者进行了减肥效果跟踪调研。
首先,将其喝减肥茶以前的体重记录下来,三个月后在依次将这35名志愿者核查后的体重记录下来,从而获得一个数据集data8-1.sav,试推断减肥茶是否具有明显的功效【实验步骤】
1、对测试成绩进行描述性分析(计算两个班级整体的测试成绩的平均值、标准差、最高和最低分;
分别计算一班和二班学生测试成绩的平均值、标准差、最高和最低分)
2、两个独立样本的t检验CompareMeans—IndependentSampleTTest根据提示进行操作
3、分析输出结果【问题思考】
1、如果不采用Explore对话框,是否还可以通过其他对话框来计算两个班级学生总成绩的平均值、标准差、最高和最低分等描述统计量
2、对data8-1.sav的数据集该采用什么检验,如采用独立样本他检验过程来实现,会有什么结果,请比较两者的差异
【实验总结】结合实验内容重复上述操作步骤,整理输出结果,得出分析结论
实验二方差分析
(2)
3、掌握单因素、多因素方差分析和协方差分析的基本理论和基本步骤2、掌握单因素、多因素方差分析和协方差分析的Spss操作
3、能够利用单因素、多因素方差分析和协方差分析工具解决身边的实际问题【知识准备】
1、单因素、多因素方差分析和协方差分析的基本概念
2、单因素、多因素方差分析和协方差分析的理论假设
3、单因素、多因素方差分析和协方差分析基本思路
4、单因素、多因素方差分析和协方差分析基本步骤
5、单因素方差中的多重比较【实验内容】
2006年全国五省的一项调查显示,企业的担保方式和信用程度对企业获得的贷款金额具有显著影响。
此次所获得的部分数据如数据集data11-1.sav所示,试分析本次调查中主要担保方式和信用等级两个变量对变量贷款金额的影响是否显著。
如果显著,再分析各因素的不同水平对其影响是否显著。
社会经济因素能否影响人的语言表达能力?
这是一个有趣的心理学和社会学问题。
本实验讲演示如何运用协方差分析方法来解决这个问题。
考虑成年人的表达能力会受到后天的很多因素的影响,我们选择幼儿园进行测验,获
取了有关变量的观察值如data12-1.sav。
问题中的Language为观测变量,level为可控制变
量。
根据研究目的,可以以level为自变量,Language为因变量做单因素方差分析。
但考虑到old可能会对观测变量产生影响,因此为准确评价社会阶层因素对语言表达能力的影响,还需采用单因素协方差分析方法进行深入分析研究。
Analyze—GeneralLinearModel—Univariate根据对话框提示进行操作
1、多因素方差分析的前提条件是什么?
单因素方差分析和多因素饭方差分析的方差齐性检验有什么不同?
2、对于给出的数据文件,还可以用什么统计方法进行分析
【实验总结】结合实验内容重复上述操作步骤,观察、整理分析输出结果,得出分析结论,撰写一
份分析报告。
实验三聚类分析
(1)
1、准确理解聚类分析的方法原理
2、了解掌握七种层次聚类方法的区别和联系
3、熟练掌握聚类分析的SPSS操作
4、培养运用聚类分析方法解决身边实际问题的能力
1、聚类分析的基本思想
2、定距型数据分类的距离和相似性的计算
3、几种层次聚类方法的介绍
4、层次聚类的基本步骤
本实验要求利用2001年全国31个省市自治区各类小康和现代化指数的数据,参见数据
data18-1.sav,对地区进行聚类分析。
【实验步骤】打开数据集,选择菜单Analyze—Classify—Hierarchicalcluster根据提示进行操作。
1、尝试在方法选择对话框ClusterMethod中选择不同的层次聚类方法或者在"
Measure"
框
中选择不同的样品距离计算方法,比较其层次聚类结果与本实验中的结果的区别与联系?
2、SPSS层次聚类分析将所有可能的聚类解全部输出,应如何确定分类数目?
3、层次聚类分析后还需分析各类的特征,可对各类的各个变量分别进行描述统计?
【实验总结】
结合实验内容重复上述操作步骤,观察、整理分析输出结果,得出分析结论,撰写分析报告。
实验三因子分析
(2)
1、熟悉因子分析的用途、目的
2、掌握因子分析的使用条件,能正确选择适当的因子
3、熟悉因子旋转的含义并能正确运用
4、掌握分析结果的解释【知识准备】
1、因子分析的基本思想
2、因子分析的数学模型【实验内容】
SUV是众多厂商和爱车族经常提及的名字。
SUV是SportsUtilityVehicle的缩写,即运动型多功能车。
它即具有轿车的舒适性,有具有越野车的越野性能,配备有高地盘、越野轮胎,爬坡能力强,通过性能好。
另外,SUV外形威猛大气,储物空间大,用途比较广泛。
在1996、1997年时,中国的SUV市场主要有两类产品构成,一类是以2020为代表的北京吉普,另一类是走私进来的SUV,两类产品基本各占50%。
在1998、1999年时,一
方面由于国家对于走私SUV的严格限制,另一方面由于北京吉普的销量锐减,中国的SUV销量呈下降趋势。
直到2000年,随着国内SUV厂商的崛起,如湖南长丰个、福建东南、重庆庆林等,SUV的销量有逐渐回复到了1999年以前的水平。
特别是在2002年,随着整个汽车市场的爆发性增长,SUV也呈现出了明显的增长态势。
但2005年,SUV市场
却发生了很大的变化。
根据中国乘用车市场信息联席会的统计数据,2005年上半年全国
SUV的产量为8.77万辆,同比下降22.1%;
销量8.89万辆,比去年同期的9.6万辆下降了7.4%。
产销量的下降导致了利润的减少甚至亏损,许多产量只有几百辆的经济型SUV生产
企业濒临破产的边缘。
SUV车型的市场死穴究竟在哪里?
各大厂商都在谋求出路。
根据对消费者所做的调查如数据集data20-1.sav,进行适当的分析。
选择菜单Analyze—DataReduction---Factor根据对话框提示进行操作【问题思考】
1、如何考察现有变量是否适合进行因子分析?
2、为何要对初始因子分析结果进行旋转
3、一般采用何种方法确定选择提取因子的数目【实验总结】
结合实验内容重复上述操作步骤,观察、整理分析输出结果,得出分析结论。
以本实验为出发点,查阅有关资料,撰写一份分析报告。
实验四综合实验
(1)
【实验目的】本实验演示了如何就现成的样本数据,选择适当的统计方法,由表及里,由浅入深的进行数据的整理、加工、计算和分析。
通过本实验的操作,使学生掌握数据分析的一般程序和步骤,提高综合运用各种统计方法分析问题和解决问题的能力。
某市场调研公司是一家独立的机构,主要面向各类厂商提供市场信息咨询服务。
在一项研究中,某厂商为了能够预测信用卡进行支付的数据,要求其对消费者的特点进行调查研究。
为此这家市场调研公司专门就一个由50名消费者著称的随即样本,采集了有关年收入、家庭成员人数和年信用卡支付数额的数据,见数据集data2-1-1.sav。
作为一名数据分
析人员,您应当如何着手分析这些数据,并从中挖掘尽可能多的有用信息,从而为厂商提供优质的信息咨询服务?
【实验步骤一】
1、对数据进行排序
2、制作频数分布图形
3、计算有关描述统计量
4、观察和分析上述描述结果,得出初步的分析结论【实验步骤二】
在实验步骤一的基础上,可利用样本数据对信用卡支付数额的总体均值做一个区间估计
Analyze—CompareMeans—OneSampleTTest得出信用卡支付数额总体均值95%的置信区间
【实验步骤三】
以年收入为自变量、信用卡支付数额为因变量进行回归分析,建立回归方程,用以通过年收入的取值来预测信用卡支付数额的取值。
【实验步骤四】
以家庭成员为自变量、信用卡支付数据为因变量进行回归分析
【实验步骤五】
以年收入和家庭成员数为自变量、信用卡支付数额为因变量进行多元回归分析,建立回归方程,用已通过家庭成员数和年收入的取值来预测信用卡支付数据的取值。
【实验步骤六】
回归分析是建立在一系列理论假设的基础上的,其中最重要的就是误差项随机变量的正态性假设。
我们所掌握的样本数据如果违反了这些理论假定,那么上述分析结果就全部是无效的。
因此本实验的最后一步、也是最为关键的一步,就是利用样本数据来证实模型假定,主要内容是观察和分析残差的分布形态。
1、以95%的置信度,预测年收入为40000元的3口之家,其中信用卡支付数额是多少?
2、本实验中采用了强行进入法“Enter”进行多元线性回归分析,试采用逐步回归法
“Stepwise”作一个多元线性回归分析,看结果如何?
3、处于严密性考虑,还应当从哪几个方面来证实模型假定
4、本实验第36个观察值为异常值,异常值一般会对回归分析的结果造成较大的影响,如何测定异常值这种影响的大小。
结合实验内容参考上述操作步骤自主选择分析方法,并完成相关的SPSS操作,观察
和整理输出及结果,得出分析结论。
查阅有关资料,撰写一份主题明确、论证充分的分析报告。
分析报告应包括以下要点:
1、问题的剔除
2、变量设置的理由
3、数据搜集的基本方法和过程
4、数据的结构特点
5、分析方法的选择
6、分析过程中的主要步骤及其结果的评述
7、数据对有关模型理论假设的符合程度
8、分析结论
实验四综合实验
(2)
实验目的】
本实验将演示如何就较大规模的样本数据,选择适当的统计方法,进行统计描述和统计推断。
通过本实验的操作,培养和提高学生迅速把握数据结构、灵活驾驭大规模数据的能力。
住房问题涉及千家万户,了解消费者对住房现状的满意程度及对未来的住房期望,对于政府制定房地产市场管理的有关措施,具有一定的指导意义。
为此市政府委托某高校统计学院做了一项关于本市居民住房情况的调查。
这是一个规模比较大的调查工程,调查小组通过问卷形式就2993各住户,获得了14个变量的样本数据。
问卷的部分内容如下:
关于住房情况的问卷调查(部分)
1、您居住所在区是(
2、您的性别是()
)。
(1)A区
(2)B区
(3)C区
(4)D区
(1)男
(2)女
3、您的年龄是()
4、您的文化程度是(
(1)
初中以下
(2)
高中(中专)
(3)大学(专、本)
(4)研究生以上
5、您的职业是()。
(1)行政事业单位
(2)
国营企业
(3)私营企业
(4)大专院校科研单位
(5)事业
(6)其他
6、婚否()。
(1)已婚
(2)未婚
7、您的家庭常住人口数(
8、户口状况()。
(1)本地户口
(2)外地户口
9、您的家庭年收入(
10、您现住房面积(
)
11、您的家庭人均住房面积是(
12、您的住房产权状况是(
(1)无产权(
2)部分产权
(3)二手房
(4)经
济适用房(5)多层商品房
(6)高层商品房
(7)别墅(8)
其他
13、您对目前的住房是否满意(
(1)满意
(2)不满意
14、您未来三年打算购房吗?
(1)不买
(2)
购买
尽管调查工程不多,单数据的手机、录入、审核和整理工作也是相当繁重和复杂的。
作为一名数据分析人员,您应但如何着手整理和描述这些数据,从而为进一步的数据分析工作提供一个良好的开端?
【实验步骤一】根据问卷结构的特点,定义数据中应当包含的变量个数及其属性,并在此基础上逐条录入2993个观测的数据值,参见数据data2-2-1.sav.
【实验步骤二】
单变量频数统计二维交叉频数统计表和分布图三维交叉频数统计表和分布图
【实验步骤三】在频数统计的基础上,结合已经掌握的各方面知识和日常经验,您会对数据中的某些变量之间的关系形成一个初步判断。
接下来的工作就是选择恰当的方法对这种关系作出统计推断。
【实验步骤四】判断文化程度与家庭收入两变量间可能存在相关关系。
1、本实验中,我们只是对给定数据演示了部分统计描述和统计推断的步骤。
您是否还对其他内容感兴趣?
尝试一下进一步完善统计描述和统计推断的其他步骤。
2、您是否对家庭收入与未来三年两个变量之间的关系感兴趣?
是否考虑过以家庭收入的多少,来预测其未来三年是否购置新房?
应当采用什么方法?
如何预测?
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 软件 运用 实验 指导 详细资料