参考答案of数据挖掘.docx
- 文档编号:3939064
- 上传时间:2022-11-26
- 格式:DOCX
- 页数:29
- 大小:305.68KB
参考答案of数据挖掘.docx
《参考答案of数据挖掘.docx》由会员分享,可在线阅读,更多相关《参考答案of数据挖掘.docx(29页珍藏版)》请在冰豆网上搜索。
参考答案of数据挖掘
第一章
下列属于数据挖掘任务的是( )
根据性别划分公司的顾客
计算公司的总销售额
预测一对骰子的结果
利用历史记录预测公司的未来股价
可以在不同维度合并数据,从而形成数据立方体的是( )
数据库
数据源
数据仓库
:
数据库系统
目的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果的是( )
数据清洗
数据集成
数据变换
数据归约
下述四种方法哪一种不是常见的分类方法( )
决策树
支持向量
K-Means(聚类)
\
朴素贝叶斯分类
下列任务中,属于数据挖掘技术在商务智能方面应用的是( )
欺诈检测
垃圾邮件识别
根据因特网的搜索引擎查找特定的Web页面
定向营销
异常检测的应用包括( )
网络攻击
预测某股票的未来价格
计算公司的总销售额
)
根据性别划分公司顾客
将原始数据进行集成、变换、维度规约、数值规约是哪个步骤的任务( )
频繁模式挖掘
分类和预测
数据预处理
数据流挖掘
KDD是( 数据挖掘与知识发现 )
下列有关离群点的分析错误的是( )
一般情况下离群点会被当作噪声而丢弃
离群点即是噪声数据
(
在某些特殊应用中离群点有特殊的意义
信用卡在不常消费地区突然消费大量金额的现象属于离群点分析范畴
下列关于模式识别的相关说法中错误的是( )
模式识别的本质是抽象出不同事物中的模式并由此对事物进行分类
医疗诊断属于模式识别的研究内容之一
手机的指纹解锁技术不属于模式识别的应用
自然语言理解也包含模式识别问题
( )不属于数据挖掘的应用领域。
商务智能
信息识别
:
搜索引擎
医疗诊断
目前数据分析和数据挖掘面临的挑战性问题不包括( )
数据类型的多样化
高维度数据
离群点数据
分析与挖掘结果可视化
常见的机器学习方法有监督学习、无监督学习、半监督学习
数据挖掘是从大规模的数据中抽取或挖掘出感兴趣的知识或模式的过程或方法。
频繁模式是指数据集中频繁出现的模式
&
离群点是指全局或者局部范围内偏离一般水平的观测对象
联机分析处理是数据仓库的主要应用
分类是指通过建立模型预测离散标签,回归是通过建立连续值模型推断新的数据的某个数值型属性。
数据库是面向事务,数据仓库是面向主题
数据挖掘主要侧重解决的四类问题:
分类、聚类、关联、预测
数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结。
特征化是一个目标类数据的一般特性或特性的汇总。
无监督学习可以在没有标记的数据集上进行学习。
对
聚类就是把一些对象划分为多个组或者聚簇,从而使同组内对象间比较相似而不同组对象间差异较大。
对
事务数据库的每个记录代表一个事务。
对
}
数据仓库和数据库其实是相同的,都是数据或信息的存储系统。
错
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
对
离群点因偏离一般水平而不需要考虑和研究。
错
聚类过程的输入对象有与之关联的目标信息。
错
数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
对
数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
对
数据仓库一般存储在线交易数据,数据库存储的一般是历史数据。
错
数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,并提取出有用的信息的过程。
对
数据分析的定义:
数据分析就是对数据进行分析。
专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
对
数据库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
错(说的是数据仓库)
~
第二章
下面哪个不属于数据的属性类型( )
标称
序数
区间
相异
属于定量的属性类型是( )
标称
序数
区间
|
相异
一所大学内的各年纪人数分别为:
一年级200人,二年级160人,三年级130人,四年级110人。
则年级属性的众数是( )
一年级
二年级
三年级
四年级
假设属性income的最大最小值分别是12000元和98000元。
利用最大最小规范化的方法将属性的值映射到0至1的范围内。
对属性income的73600元将被转化为( )
~
考虑数据集{12243324556826},其四分位数极差是( )
31
24
55
3
光年所属的属性类型为( )
标称属性
序数属性
区间标度属性
>
比率标度属性
某班数学期末考成绩分组数据如下,则数据的中位数区间是( )
60至69分
70至79分
80至89分
90至100分
军衔所属的属性类型为( )
标称属性
序数属性
二元属性
数值属性
计算p1(2,1,4,10)和p2(3,0,3,8)两个对象之间的曼哈顿距离( )
4
2
5
3
用AM和PM表示的时间的属性类型是( )
标称
序数
'
二元
区间
属性可分为标称、序数、二元和数值四类
中心趋势度量包括众数、均值、中位数和中列数
假设给定的数据集的值已经分组为区间。
区间和对应的频率如下。
则数据的近似分组中位数是____。
某部门的月薪情况如下(单位:
千元),30,33,48,50,53,53,57,60,64,68,70,70,90,则该部门员工的月薪的均值为____。
数据集{5,10,11,13,15,15,35,50,55,72,92,204,215}的中位数为____,众数为____。
3515
假设小明某一学期的考试成绩及每门课的学分如下表所示,则小明本学期的加权平均成绩为。
给定两个对象的元组x=(4,3,5,1)与y=(1,6,7,3),它们之间的余弦相似度为____。
'
小明参加数学竞赛选拔赛,他十次测试成绩为:
76,84,90,86,81,87,86,82,85,83。
则小明同学十次测试成绩的方差是____。
已知点A的空间坐标为(6,30,9),点B的空间坐标为(10,35,2),则A与B之间的切比雪夫距离为____。
7
只有非零值才重要的二元属性被称作____。
非对称二元属性
某组同学的成绩评定结果如下,则A与B,A与C,B与C之间的相异性是____、____和____。
给定两个词向量元祖A(6,2,5,8)和B(4,5,2,6),则这两个对象之间的闵可夫斯基距离(其中h=4)是____。
假定用于分析的数据包含属性age,数据元组中age的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,45,52,70。
则该组数据的中列数是。
人的血型属于标称属性。
对
酒店的星级属于数值属性。
错(序列)
某品种玉米苗中抽取10株,测得它们的株高为:
21,42,39,14,19,22,37,41,40,25(单位:
cm),则玉米苗株高的标准差为。
对
…
离散属性总是具有有限个值。
错
标称属性的值提供了足够的信息用于区分对象。
对
数值属性的值提供足够的信息确定对象的顺序。
错
欧几里得距离、曼哈顿距离、闵可夫斯基距离和切比雪夫距离均满足非负性、同一性和三角不等式。
对
余弦相似性利用向量空间中两个向量夹角的余弦值来衡量两个个体间的差异。
余弦值越接近0,夹角越大,向量之间匹配越大(小)。
余弦值越接近1,夹角越小,向量之间匹配越小。
错
二元属性的相异性有两种,一种是对称的二元相异性,另一种是非对称的二元相异性。
对
已知点X的空间坐标为(3,4,2),点Y的空间坐标为(1,6,1),则X与Y的欧几里得距离为3。
对
计算由不对称的二元变量描述的对象间的相异度可以使用Jaccard系数;
计算用分类变量描述的对象间的相异度可以采用属性值匹配的方法(属性值匹配,相似度为1,否则为0);对
第三章
#
下面属于维归约常用的线性代数技术的有()
主成分分析
特征提取
特征加权
离散化
将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务()
频繁模式挖掘
分类和预测
数据预处理
数据流挖掘
'
假设12个销售价格记录组已经排序如下:
5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,15在第几个箱子内()
第一个
第二个
第三个
第四个
数据清理不包括以下哪些处理( )
缺失值的处理
噪声的处理
重复数据的处理
不一致数据的处理
》
数据规范化方法包括( )
数据归约
数据泛化
数据集成
最小最大规范化
给定一组二维样本S,S={S1,S2,S3,S4,S5}={(1,2),(3,0),(4,3),(5,7),(1,6)},在距离阈值d大于等于4、非邻点样本的阈值部分p大于等于3时的噪声数据为( )欧几里得距离
S4,S5
S1,S4
S2,S5
S1,S5
¥
两组向量x={6,4,7,10,8},y={5,6,1,4,12}的协方差为( )
cov(x,y)=Exy-ExEy=E[(x-Ex)(y-Ey)]
假定用于分析的数据包含属性age,数据元祖中age的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。
对age值35进行小数定标规范化转换,转换后的值为( )
¥
已知某工厂车间工人的年终奖,其均值为34349元,标准差为16928元,对于观测值为57000元,使用z-score方法对其进行规范化为( )
假定用于分析的数据包含属性age,数据元祖中age的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。
使用min-max规范化,将age值35转换d到[,]区间的值为( )
【
下列数据变换类型及方法正确的是( )
数据平滑:
去噪,将连续数据离散化,增加粒度
数据聚集:
对数值属性进行监督或无监督离散化
特征构造:
构造出新的属性
数据规范化:
使数据按照比例缩放,落入特定区域
数据变换的类型包括( )
)
数据预处理
数据泛华
数据离散化
特征构造
数据规约的技术包括维规约、数量规约、数据压缩
下面哪些属于数据预处理的方法( )
变量代换
离散化
聚集
估计遗漏值
|
在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各方法正确的有( )
忽略元组
从数据中挑选一个数据填写
使用属性的平均值填写空缺值
使用与给定元组属同一类的所有样本的平均值
数据清理的原则包括( )
相异性原则
连续性原则
唯一性原则
空值原则
!
高质量数据的要求有准确性、完整性、一致性
数据预处理的技术手段包括数据清理、数据变换、数据集成、数据规约
假定用于分析的数据包含属性age,数据元祖中age的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。
已知age的标准偏差为年,使用z-score规范化对age值35进行转换,转换后得到的值为____。
在现实世界的数据中,元组在某些属性上的缺失值是常有的。
处理该问题的常用方法有删除数据对象或属性、估计遗漏值、忽略遗漏值
对数据进行偏差检测的3个原则分别是唯一性原则、连续性原则、空值原则
数据归约技术包括维归约、数量归约、数据压缩
在使用分箱法实现特征离散化时,可以用每个箱中的_____中值____或___平均值____替换箱中所有的值。
某工厂车间工人的年终奖金结果如下(已按照递增排序):
15750,20000,25000,36000,48000,50000,52000,56000,57000,68000,10000,135000(元)。
使用最小-最大值规范化将奖金57000转换到[,]区间为 ;使用小数定标规范化将奖金57000转换到[-1,1]区间为
·
数据清理一般需要对 __缺失值__ 和_噪声_ 进行处理。
我们要进行数据预处理,是因为原始数据大多都是“ 脏数据 ”。
四种处理缺失数据的方法是____、____、____、____。
人工填写、使用全局常量填充缺失值、直接删除缺失属性的记录、使用属性的中心趋势度量值填充缺失值
数据平滑的方法包括 ____ 、____ 和 ____ 。
分箱、回归、聚类
噪声是指被测量的变量产生的错误或误差。
错
数据规约技术可以得到数据集的规约表示,虽然小,但仍大致保持原数据的完整性。
对
数据变换是通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。
对
数据预处理的任务包括数据清理、数据集成、数据规约和数据泛化。
错
唯一性原则是指一个属性的每个值都是唯一的,不能和这个属性的其他值相同。
对
数据变换策略主要包括光滑、聚集、数据泛化、规范化、属性构造和离散化。
对
:
每个属性的最大值和最小值之间没有缺失值既满足连续性原则。
错
数据挖掘所处理的数据必须具有准确性、完整性、一致性、时效性、可信性和可解释性。
错
数据规约就是指对数据集进行简化表示。
对
数据集成有助于减少结果数据集的冗余和不一致,可以提高集成之后的挖掘过程的准确性和速度。
对
在确定数据中的离群点时,一般不必检查整个数据集。
对
第四章
数据仓库是随着时间变化的,下面的描述不正确的是( )
捕捉到的新数据会覆盖原来的快照
数据仓库随时间的变化不断增加新的数据内容
数据仓库随着事件变化不断删去旧的数据内容
~
数据仓库中的综合数据会随着时间的变化不断地进行重新综合
关于基本数据的元数据是指( )
基本元数据包括与企业相关的管理方面的数据和信息
基本元数据包括日志文件和简历执行处理的时序调度信息
基本元数据包括数据源,数据仓库和应用程序等结构相关的信息
基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息
下面关于数据粒度的描述不正确的是( )
数据越详细,粒度就越小,级别也就越高
粒度是指数据仓库小数据单元的详细程度和级别
数据综合度越高,粒度也就越大,级别也就越高
粒度的具体划分将直接影响数据仓库中的数据量以及查询质量
有关数据仓库的开发特点,不正确的描述是( )
数据仓库开发要从数据出发
数据仓库使用的需求在开发时就要明确
数据仓库的开发是一个不断循环的过程,是启发式的开发
在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式
在有关数据仓库测试,下列说法不正确的是( )
在完成数据仓库的实施过程中,需要对数据仓库进行各种测试
在数据仓库进行测试之前一般不必要制定非常详细的测试计划
系统测试需要对数据仓库的组件进行大量的功能测试和回归测试
[
当数据仓库的每个单独组件完成后,就需要对他们进行单元测试
OLAP技术的核心是( )多维分析
关于OLAP和OLTP的说法,下列不正确的是( )
OLAP管理大量历史数据,OLTP仅管理当前数据
OLAP主要用于事务和查询处理,而OLTP用于数据分析
OLAP中综合提炼的数据主要来自OLTP所依赖的底层数据库
OLAP数据较之OLTP数据要进行更多的数据维护或预处理的操作
数据仓库设计的三级数据模型不包含( )
概念模型
逻辑模型
@
关系模型
物理模型
改变数据立方体维次序的操作是( )旋转
在给定的数据立方体的一个维度上进行的选择操作为( )切片
下列选项中关于粒度描述错误的是:
粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别;
粒度影不响存放在数据仓库中的数据量的大小
粒度影响数据仓库所能回答查询问题的细节程度;
粒度组织数据的方式有:
①简单堆积结构;②轮转综合结构;③简单直接结构;④连续结构。
简述数据仓库设计的三级模型及其基本内容,不正确的是
@
概念模型设计:
对问题域内事务进行描述,是在较高的抽象层次上的设计,其主要内容包括:
界定系统边界和确定主要的主题域;
逻辑模型设计:
对概念模型细化,定义实体属性及其关系,主要内容包括:
分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统;
物理数据模型设计:
在数据库中建立表及索引,主要内容包括确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。
三种模型设计时主要考虑的因素有I/O存取时间、空间利用率和维护代价等。
关于OLAP的特性,下面正确的是( )
集成性
快速性
多维性
可分析性
数据模型是数据仓库建设的基础,一个完整、灵活、稳定的数据模型对数据仓库项目的成功起到的重要作用有( )
·
利于数据的整合
消除数据仓库的冗余数据
排除数据描述的不一致性
为整个系统建设提供导航图
根据使用情况的不同,元数据可以分为( )技术元数据;业务元数据
关于数据仓库的逻辑模型,正确的说法有( )
是数据仓库设计中的核心基础
对概念数据模型的分解和细化
对物理模型设计和实现具有指导作用
为全局服务,集成全方位数据形成统一蓝图
(
关于OLAP和OLTP的区别描述,正确的是( )
OLAP是信息处理,OLTP是操作处理
OLAP面向底层管理人员,OLTP面向高层决策人员
OLAP管理大量历史数据,OLTP主要关注当前数据
OLAP数据是细节性数据,OLTP数据则是综合性数据
OLAP按照数据存储格式划分,实现方式有 __MOLAP__、__ROLAP__和HOLAP三种
根据使用情况的不同,元数据可以分为_技术元数据___和业务元数据;根据数据状态的区别又可分为__静态元数据__和动态元数据。
数据仓库按照设计顺序,依次分为_概念模型设计___、_逻辑模型设计___ 和_物理模型设计__三个设计步骤
OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。
错
数据仓库中间层OLAP服务器只能采用关系型OLAP。
错
,
数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分。
错
数据仓库测试工作中主要包括单元测试和系统测试。
对
改变数据立方体维度的操作称为下钻。
错
数据仓库实际的三级模型中的概念模型不是对软件实际的描述。
对
数据仓库就是一个面向什么的数据集合主体、集成、非易失、时变
数据仓库体系结构通常采用一种三层体系结构,底层、中间层、顶层分别通常为什么OLAP服务器、数据仓库服务器、前端工具
第五章
回归分析中使用的距离是点到直线的垂直坐标距离,最小二乘准则是指( )。
使各(Yt-Yt平均值)之和最小
回归分析的步骤为( )。
③确定变量②建立预测模型 ①进行相关分析 ⑤计算预测误④确定预测值
'
下列变量之间的关系是函数关系的是( )
已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量是这个函数的判别式Δ=b2-4ac。
光照时间和果树亩产量
降雪量和交通事故发生率
每亩施用肥料量和粮食产量
对于回归分析,下列说法错误的是( )
在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
线性相关系数可以是正的,也可以是负的
回归分析中,如果r2=1,说明x与y之间完全相关
样本相关系数r∈(-1,1)
;
某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为ŷ=+,下列叙述正确的是( )。
该地区一个儿童的身高为
该地区2~9岁的儿童每年的身高约增加
该地区9岁儿童的平均身高是
利用这个模型可以准确地预测该地区每个2~9岁儿童的身高
已知对一组观察值做出散点图后确定具有线性相关关系,若对于y=bx+a,求得b=,-x̅=",-y̅=,则线性回归方程为( )。
y=+
下表是x和y之间的一组数据,则y关于x的回归方程必过( )。
点,4)平均值
反映由模型中解释变量所解释的那部分离差大小的是( )。
`
总离差平方和
回归平方和
残差平方和
可决系数
总离差平方和TSS、残差平方和RSS与回归平方和ESS三者的关系是( )。
TSS=RSS+ESS
决定系数R2的取值范围是( )。
0 回归分析中定义的( )。 解释变量和被解释变量都是随机变量 解释变量为非随机变量,被解释变量为随机变量 【 解释变量和被解释变量都为非随机变量 解释变量为随机变量,被解释变量为非随机变量 最大或然准则是按从模型中得到既得的n组样本观测值的什么最大的准则确定样本回归方程( )。 概率 下表为日本的汇率与汽车出口数量数据,其中X为平均汇率(日元/美元),Y为汽车出口数量(万辆),那么,X与Y的相关系数为( )。 已知某农场通过试验取得早稻收获量与春季降雨量和春季温度的数据如下,则早稻收获量对春季降雨量和春季温度的二元线性回归方程为( )。 y=++ 为研究某市家庭收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下,则回归直线方程为()。 } y=+ 在回归分析中,检验线性相关显著性常用的三种检验方法,包含( )。 相关系数显著性检验法;t检验法;F检验法 回归方程y= ,则下列说法不正确的有( ) y=-15 15是回归系数a 是回归系数a x=10时,y=0 下列关系中具有相关关系的是( )。 人的年龄与他拥有的财富之间的关系 曲线上的点与该点的坐标之间的关系 苹果的产量与气候之间的关系 森林中的同一种树木,其断面直径与高度之间的关系 下列变量中,属于正相关的是( )。 收入增加,储蓄额增加 产量增加,生产费用增加 收入增加,支出增加 价格下降,消费增加 回归分析按照涉及变量的多少,分为: 一元回归分析,多元回归分析 若线性回归方程中的回归系数b=0,则相关系数r为: 0 】 某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算得 ,则其线性回归方程为(系数保留两位小数)____ y=+ 已知关于某设备的使用年限x与所支出的维修费用y(万元),有如下统计资料。 若y对x呈线性相关关系,则回归直线方程 表示的直线一定过定点: ____平均值 使用F检验对多元线性回归方程进行线性关系的显著性检验,所求F值越大,说明线性关系越:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参考答案 of 数据 挖掘