参考答案of数据挖掘.docx
- 文档编号:30131206
- 上传时间:2023-08-05
- 格式:DOCX
- 页数:37
- 大小:71.72KB
参考答案of数据挖掘.docx
《参考答案of数据挖掘.docx》由会员分享,可在线阅读,更多相关《参考答案of数据挖掘.docx(37页珍藏版)》请在冰豆网上搜索。
参考答案of数据挖掘
笫一章
卜列JS于数据挖掘任务的是<)
根据性别划分公司的顾客
计斃公司的总销傅额
预測一对股子的结果
利用历史记录预测公司的未來股价
吋以在不同维度合并数据.从而形成数据立方体的足()
数据库
数据祿
数据仓库
数据库系统
目的足缩小数据的取值范用•使其更适合于数据挖掘以浓的需要.井且能够得到和原始数据相同的分析结果的足()
数据清洗
数据集成
数据变换
数据归約
卜谜四种方法嘛一种不足雷见的分类方法(〉
决第树
支持向fit
K-Xeans(聚类)
朴素贝叶斯分类
卜列任务中.朋于数据挖掘技术在商务智能方面应用的足()
欺诈检测
垃圾邮件识别
根据因特网的捜索引擎伍找特定的Web页面
定向营销
舁常检测的应用包括()
网络攻击
预测某股票的未来价格
计算公司的总带會额
根据性别划分公司顾客
将原始数据进行集成.变换.维度规约、数值规约足哪个步驟的任务(〉
猿繁模式挖掘
分类和预测
数据预处理
数据流挖掘
KDD是(数据挖掘9知识发现)
卜列有关离群点的分析错谦的足(〉
-纓宿况卜离群点会被肖作唤声而去弃
离群点即足噪声数据
在荣些待殊应用中离群点有特殊的总义
信用卡在不常消费地区突然消费人壇金额的现盘属于离群点分析范畸
卜列关于模式识别的相关说法中错谓的足(〉
模式识别的本质足抽象出不同爭物中的模式并由此对爭物进行分类
医疗诊断属干模式讲别的研宛内容之一
f机的描纹解镇技术不属r模式识别的应用
门然语育理解也包含模式识别何题
()不属干数据挖抿的应用领域。
商务智能
信息识别
I
搜童引鼻
医疗诊斷
目前数据分析和数据挖掘而临的挑战性何题不包括(〉
数据类型的多样化
高维度数据
离群点数据
分析与挖掘结果对视化
常见的机器学习方法有监悴学习.无监怦学r监悴学习
数据挖掘足从人规模的数据中抽1R或挖掘出感兴趣的知识或模式的过程或方法&
施紫模式足描数据集中频緊出现的蟆式
X
肉群点足描全局或者局部范用内偏离一履水平的观测对盘
联机分析处理足数据仓库的主要应用
分类是措通过建立模型预测离散标签.I叩丿I足通过建立连续值模型推断新的数据的某个数值型属性。
数据库足面向%务.数据仓库足面向匸题
数据挖掘主要侧审解决的四类何题:
分类、聚类、关联、找测
数据分析足折采用适当的统计分析方法对收集到的数据12行分析、槪括和总结&
特征化足一个目标类数据的-・纓特性或特性的汇总。
无监俗学习町以在没有标记的数据集上进行学习.对
聚类就是把一些对盘划分为多个组或者聚族.从而使同组内对仪何比较相似而不同组对异较儿对
出务数据库的毎个记录代茨一个爭务.时
数据仓库和数据库其实足相同的.都足数据或信总的存储系统。
辂
区分是将目标类数据对象的一般特性与一个或多个对比类对◎的-•履特性逬行比较.对
离群点因偏离一股水平而不需要考老和研究。
错
聚类过程的输入对猱有与之关联的目标信总。
樁
数据挖掘的主要任务足从数据中发现潜在的规则.从而能更好的完成描述数据、预测数据等任务。
对
数据挖掘的目标不在干数据采集策略.而在于对干已经存在的数据进行校式的发掘.对
数据仓库一般存储在线交易数据.数据库存储的一般足历史数据。
错
数据分析足揺采用适当的统计分析方法对收集到的数据进行分析、概括和总结.对数据进行恰当的描述.井提取出有用的信息的过程。
对
数据分析的定义:
数据分析就足对数据进行分析。
S业的说法.数据分析是播根据分析目的•用适当的统计分析方法及工具.
对收集来的数据进行处理与分析.搓取有价值的信恩.发挥数据的作用。
对
数据阵是一个面向主題的.集成的.相对臆宦的、反映历史变化的数据集合.用于支持管理决策。
馆(说的足数据仓库)
■
第二章
卜面嘛个不属于数据的属性类型(>
标称
序数
区何
相舁
属干定fit的属性类型足(〉
标称
烬数
Kfn]
相舁
-所人学内的各年纪人数分别为:
一年级200人.二年级160人.三年级130人.四年级1102則年级属性的众数足()
一年级
二年级
三年级
四年级
假设朋性incoine的最人说小值分别足12000元和9SOOO元。
利用欣丿嵌小规范化的加人将属性的值映対到0至1的范用内。
对
属性income的73600尤将被转化为()
考虑数据集{12243324556826}•其四分位数极签是(
31
24
55
3
光年所属的属性类型为(〉
标称属性
用数属性
区何标度属性
>
比率标度属性
某班数学期末考成绩分组数据如下・则数据的中卩数区仙足(
分戢
人B
0至刃分
3
8至旳分
10
8至R分
眇全的分
II
90至100分
S
60至69分
70至79分
S0至S9分
90至100分
军衔所届的属性类型为(
标称届性
序数属性
二元属性
数值IS性
计CTP1(2・"4.10)和p2(3.0.3.8)两个对象之阊的曼哈顿跖呀(
4
用AM和PM表示的时何的属性类型足<
标称
序数
二元
区何
属性可分为标称•疔数.尤和故值四类中心趋势度St包扌舌众数、均仏中位数和中列数假设给定的数据集的值已经分组为区间.区间和对应的频率如K则数据的近似分组中仆敌足—,
«♦
2W
>15
4M
15-2
W
2O-5
IW
5G-M
TW
44
某部门的月薪宿况如卜(单位,千元)•30,33,4S,50,53,53,57,60,6l,6S,70,70,90,则该部门员工的月薪的均值为。
数据Hi{5,10,11,13,15,15,35,50,55,72,92.204,215}的中位数为.众数为,3513
假设小明某一学期的考试成绩及毎门课的学分如F表所示•则小明本学期的ftl权平均成绩为。
■-
O
b • •”x 11 *•» ** * < ■ 给定两个对象的元组x=(4,3.5,1}与y=(l,6,7,3》,它们之间的余弦用似度为—。 小明参加数学竞赛选拔赛・他十次测试成绩为】76,84»90,86,S1,87,86,82,85,S3*则小明同学十次测试成绩的方厂足. 己知点A的空坐标为(6.30,9),点B的空间坐标为(10,35,2).则A与B之间的切比艸夫距肉为、7 只有非零值才里要的二元属性被称作—・II对称•元城件 某组同学的成绩评定结果如卜J则A与B・A与C・b与C之间的相足—、—和—・ E学 凿文 A 不及格(D) S(B) »«(C) B 优(A) 熨(B> ft(B) C R«(C) 优(A) 优⑷) 给定两个词向址元祖A(6,2,5,8)和B(4,5,2,6),则这两个对象之间的闵町夫斯基即离(其中h=l)是_. 假定川于分析的数据包a2e.数据元组中乜e的值如卜(按递增序): 13,15,16,16.19,20,20,21,22,22.25,25,25,25,30,33,33,35.35,35,35,36,40,45,45.52.70•则该组数据的中列数足。 人的曲型属干标称属性。 对 酒店的星级属于数值属性。 催(序列) 幕品种玉米苗中捕取10株•测得它们的株高为: 21>42.39,14,19,22,37,41,40,25(单位: cm)・则玉米苗株高的标准菱为。 对 离散届性总足具有有限个值。 错 标称属性的值提供了足够的信息川于区分对紀对 数值IS性的值提供足够的信息确定对盘的顺用.铅 欧几里那跆离、曼哈顿距离、闵可夫斯基距离和切比国夫跖离均满足非负性、同一性和三角不等式。 对 余弦相似性利用向扯空间中两个向fit夹介的余弦值来衡fit两个个体间的羞异.余弦值越接近0・夹角越人•向啟之河匹配越人 (小)。 余弦值越接近1,夹角越小,向扯之何匹配越小.tfi 二元属性的相异性有两种.一种足对称的二元相异性.另一种足非对称的二元相异性.対 己知点X的空河坐标为(3,4,2).点Y的空阊坐标为(1,6,1).则X与Y的欧几里側跖肉为3.对 计算由不对称的二元变址描述的对做何的相异麼町以使用J&ccard系数: 计貝用分类变城描述的对荻何的相异度町以采用属性值匹配的方法(属性值匹配•相似度为1・否則为0八时 第三章 卜面属于维归約常用的线件代数技术的有<) 主成分分析 特征提取 特征加权 离敵化 将原始数据进fj傑成•殳换.樂度规约.数伉规约足在以卜哪个步棘的任务() 頻繁模式挖掘 分类和预测 数据预处理 数据流挖掘 假设12个销售价格记录组已经排序如卜、5.10.11,13,15,35,50,55,72,92,204,215使用如卜毎种方法将它们划分 成四个ffh等频(等深)划分时.15在第几个箱子内() 第一个 第二个 第三个 笫四个 数据淸理不包括以卜哪业处理() 缺失值的处理 噪声的处理 重复数据的处理 不一致数据的处理 > 数据规范化方法包括() 数据归约 数据泛化 数据集成 最小垠大规范化 给定一组二堆样本S,S=aS2,S3,St 55}={(1.2),(3,0),(4,3),(5,7),(1,6)},在距离阈值d大于等于4、非邻点样本 的阈值部分D人于等干3时的噪声数据为( )欧几里得距离 S1,S3 51,S1 52,S5 SI,S5 两组向fitx={6,1,7,10,8},y=(5,6,1,4,12}的协方差为( cov(x,y)=Exy"ExEy=E[(x*Ex)(y"Ey)] 假定用于分析的数据包含属件a2e,数据元祖中age的值如卜(按递增序): 13,15,16,16,19,20,20,21,22,22,25,25.25,25,30,33,33,33,35,35,35,35,36,10.15,46,52,70, Mage(|*(35进行小数定标规范化转换・转换后的俺为( 已知某工厂车间工人的年终奖.其均值为34349元.标准差为16928元.对于观测值为57000元•使用z-score方法对其进 行規范化为() 假定川于分析的数据包含属件a2e,数据元祖中aze的值如M按递增序): 13,15,16,16.19,20,20,21,22,22.25,25,25,25,30,33,33,33,35,35,35,35,36,10.15.16,52,70.使用nunpix规范化.将age血35转换d到[,]区仙的值为() 卜•列数据变换类型及方法正确的足(> 数据平滑: 去嗓.将连续数据离散化.增加粒度数据聚集: 对数值属性进行监特或无监特离散化持術构适: 构楚出新的属性数据规范化: 使数据按照比例缩放.落入特定区域进据变换的类型包括() ) 数据预处理 数据泛华 符征构适 数据规约的技术包括维规约、数址规约、数据压缩 卜面哪些属干数据预处理的方法(〉 变址代换 离散化 估计遗湎值 在现实世界的数据中•元组在荣些属性上缺少値足常有的,描述处理该问题的齐方法正确的有() 忽略元组 从数据中挑选一个数据填写 使用属杵的平均值填写空缺徒 使用与给定元组属同一类的所右样本的平均值 数据清理的原则包括() 相异性原则 连续性原则 唯一性原则 空值膜则 I 高质扯数据的要求有准确件、完滋件、•致件 数据预处理的技术F段包括数据淸理、数据变換.数据集成.数据规约 假定用于分析的数据包含属件age,数据元祖中age的值如卜•(按递增序): 13,15,16,16.19,20,20,21,22,22.25,25,25,25,30,33,33,33,35,35,35,35,36,10,15,16,52,70. 已知a"的标准偏筮为年.使用z-score规范化对age(ft35进行转換・转换后須到的値为—‘在现实世界的数据中.元组在某些属性上的缺失值足密有的。 处理该问题的常川方浓有删险数据对象或風件、仿计遗泅伍、忽 略遗制值 对数据进行偏差检测的3个原則分别足唯•件原則、连埃性原则、空值原则 数据归约技术包括维归约.数址IH约、数据斥缩 在使用分箱法实现转征离散化时.可以用毎个箱中的中值—"、_『韵_咎换箱中所有的值. 某工厂车间工人的年终奖金结果如下(已按照递増排序): 15750.20000.25000.36000.1SOOO.50000.52000.56000. 57000.6S000.10000.135000(元)•使用最小-彊人值规范化将奖金57000转换到[,]区何为: 使用小数 定标规范化将奖金57000转换到卜1,订区何为 数据清理一般需要对_块失伉_和-噪兀进行处理。 我们要进行数据预处理.足因为原始数据人多都足M肌数据”• 四种处理缺失数据的加人足—、—、—、—」、「;•使用全局常量”•宜按剧除缺畑性的吐总使用 属性的中心趙养度fit值塡充缺失值 数据平滑的方法包括—•—和—。 分箱■回0仁聚类 噪声足描彼测壇的变址产生的培谋或误菱。 锚 数据规约技术M以得到数据集的规约茨示.虽然小.但仍人致保持原数据的完整性。 对 数据变换足通过平淆聚集.数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。 对 数据预处理的任务包括数据清理.数据集成、数据规约和数据泛化.锚 唯一性原则足捋一个属性的毎个值都是唯一的.不能和这个JK性的其他值相同&对 数据变换策略主耍包括光滑、聚集.数据泛化、規范化、属性沟适和离敬化,对 S 衬个届性的/ftAtfi和说小值之何没有缺失值既满足连续性原则。 错 数据挖掘所处理的数据必须貝有准确性、完整性、一致性、时效性、可信性和可解释性。 锚 数据规约就足播对数据集进行简化茨示.对 数据集成有助于减少结果数据集的冗余和不一致・可以捉高集成之后的挖掘过程的准确性和速度。 对 在确定数据中的离群点时.一般不必捡査整个数据集。 对 笫四車 捕捉到的新数据会覆盖原来的怏照 数据仓库随时河的变化不断增加新的数据内容 数据仓库lit! 7? ^件变化不斯删云川的数据内容 ■ 数据仓库中的综合数据会随若时徇的变化不断地进行虫新综合 关干基木数据的元数据足抬<) 基本元数据包括与企业相关的诗理方面的数据和信总 基本元数据包播日志文件和简历执行处理的时序调度倍息 基本元数据包括数据浙.数据仓库和应用程序等结构相关的信总 基本元数据包括关于裟我和更新处理.分析处理以及管理方面的信息 卜•面关于数据粒度的描述不止确的是(〉 数据越详细.純度就越小.级别也就越高 粒度足描数据仓库小数据单元的详细程度和级别 数据综合度越高•粒度也就毬人.级别也就越岛 a 粒度的人体划分将宜接影响数据仓库中的数据fit以及査询质城 有关数据仓库的开发特点.不正确的描述足() 数据仓库开发要从数据出发 数据仓库使用的需求在开发时就要明确 数据仓库的开发足一个不断循环的过程.足启发式的开发 在数据仓库环境中.井不存在操作型环境中所固定的和较确切的处理流.数据仓库中数据分析和处理更灵活.且没有固宦的桧 式 在有关数据仓阵测试・卜列说法不正确的是() 在完成数据仓阵的实施过程中•盂翌对数据仓库进fj•备种测试 在数据仓库进行测试之曲一股不必要制定非常详细的测试计划 系统测试缶要对数据仓.库的组件进行人扯的功能测试和回归测试[ 当数据仓库的毎个单独组件完成后.就需要对他们进行单元测试 OLAP技术的核心足()笋维分析 关于OLAP和OLTP的说法.卜列不正确的足() OLAP设理人fit历史数据.OLTP仅管理当制数据 OLAP左塑用于事务和戏询处理•而OLTP用于数据分析 OLAP中综合提炼的数据主要來门OLTP所依覆的底层数据库 OLAP数据较之OLTP数据要进行更多的数据维护或预处理的操作 数据仓库设计的三级数据模型不包含(〉 槪念模型 逻辑模型 关系模熨 物理模型 改变数据立方体维次廉的操作足()族转 在绐定的数据立方体的一个维度上进行的选择操作为()切片 卜列选项中关于粒度描述锚误的是: 粒度是播数据仓库的数据单位中保存数据细化或综台程度的级别: 粒隨彫不响存放在数据仓库中的数据歆的人小 粒度鮎响数据仓库所能回答査询问题的细节程度; 粒度组织数据的方式有: ①简单堆枳结构: ②轮转综合结构: ③简单宜按结构: ④连续结构. 简述数据仓库设汁的二级枳型及其施本内客,不正确的足概念模型设计: 对何题域内泵务进行描述.足在较高的抽仗层次上的设汁.其主耍内容包括: 界定系统边界和确定主耍的主题域: 逻懈模型设计: 对概念模型细化.定义实体属性及其关系・主要内容包插: 分析主题域.确定粒度层次划分•确定数据分割策略、定义关系模式、定义记录系统: 物理数据模空设讣: 在数据库中建立表及索引.主要内容包扌舌确定数据存储结构、确定数据存放位亀、确定存储分配以及确定索引策略等. 三种模型设计时主耍考虑的因倉冇I/O存取时何.空间利用率和维护代价等. 关干OLAP的待性•卜面正确的足() 集成性 快递性 多樂性 可分析性 数据模型足数据仓库建设的基础.一个完整、灵活.稳定的数据模型对数据仓库项目的成功起到的鱼要作用有(〉 ■ 利干数据的整合 消除数据仓库的冗余数据 排除数据描述的不一致性 为侈个系统建设提供导航图 根据使用伤况的不同•元数据町以分为(〉技术元数据: 业务兀数据 关干数据仓库的逻笹模型.正确的说法有() 是数据仓库设计中的核心基础 对槪念数据模型的分斛和细化 对物理模型设计和实现具有抬导作用 为全局眼务.集成全方位数据形成统一蓝图 fl 关干OLAP和OLTP的区别描述.正确的足() OLAP足信总处理.OLTP足操作处理 OLAP面向底层管理人员.OLTP而向高层决策人员 OLAP谡理人fit历史数据.OLTP主要关注当前数据 OLAP數据足细节性数据.OLTP数据則是综合性数据 OLAP按照数据存储恪式划分・实现方式有_MOLAP_、_ROLAP_和HOLAP三种 根据使用情况的不同.元数据町以分为—技术元数据_和业务元数据: 根据数据状态的区别又町分为_静态元数据_和动态元数据。 数据仓库按照设汁顺斥.依次分为-槪念模型设计_、■逻辑模型设计_和_物理核型设计_三个设计步骤 OLAP技术侧电干把数据库中的数据进行分析、转換成辅助决策信息.足继数据库技术发展之后迅症发展起来的一种新技术, 数据仓库中间层OLAP眼务器只能采用关系厘OLAP。 数据仓库系统的组成部分包括数据仓库.仓库管理.数据抽耿・分析工人等四个部分,错 数据仓库测试工作中主要包括单元测试和系统测试。 对 改变数据立方体维度的操作称为卜•钻.错 数据仓库实际的三级模型中的穩念模型不足对软件实际的描述。 对 数据仓库就足一个面向什么的数据腹合主体.集成.非易失•时变 数据仓库体系结构通常采用一种三层体系结构•底层■中河层、顶层分别通常为什么OLAPI阪务器、数据仓库服务器、館端工人 第五章 回归分析中使用的距离足点到直线的垂宜坐标距离.展小二柬准则足播(〉•使备(Yt-Yt平均值〉之和城小 回归分析的步驟为()• ③确定变址②建立预测模型①进行相关分析⑤计并狈测谓④确定硕测值 卜列变fit之间的关系足函数关系的足<) 已知二次曲数y=2bx+c・其中釦c足已知常数•取b为自变flb因变接足这个函数的判别式A=b2-4ac> 光照时间和果树商产泄 降晋扯和交通爭故发生率 毎亩施用肥料扯和粮食产fit 对干回归分析・卜列说法锚谋的足() 在回归分析中•变址何的关系若足非确定性关系.那么因变址不能由门变惟唯一确定 线性相关系数可以足正的.也町以是负的 回归分析中.如果3.说明x与y之仙完全相关 样本相关系ftre(-l,1) 9 9 某地区调査了2、9岁儿虫的身高•由此建立的身高八沁与年龄x(岁)的回归模型为yh.卜列叙述正确的足(儿 该地区一个儿堂的身奇为 该地区2'9岁的儿亜毎年的身高约增加 该地区9岁儿崑的平均身岛足 利用这个模型可以准确地预测该地区旬个2、9岁儿觅的身高 已知对一组观蔡值做岀敢点图后确定貝有线性相关关系.若对于y=bx*a.求得b=・-x=*・■》•=•则线性回归方程为 <)•y=* 卜茨是x和y之间的一组数据.则y关干m的回归方程必过(〉• X 1 2 3 4 y I 3 5 7 点,4)平均值 反映由模型中解f*变賦所解释的那滦分离雄川啲是(>. 总离差平方和 回归平方和 残差平方和 可决系数 总离差平方和TSS、残差平方和RSS与回归平方和ESS三者的关系足(). TSS-RSS+ESS 决定系数R2的取值范用足()。 0 回归分析中定义的()• 解释变1»和被解俘变捷都是随机变壇 解释变At为非髓机变笊.被解释变按为随机变就 解释变lit和被解释变婕都为非随机变fit解邨变fit为Hi机变fib菽解释变蚩为非随机变fit 过人或然准則是按从模型中得到既得的n组样本观测值的什么直人的准则确定样本回归方程<).概率 卜表为日本的汇率与汽车出口数瞰数据.其中X为平均汇率(日元/美元)•Y为汽车出口数扯(万辆),那么.X与Y的相关系数为()。 196« 1987 1933 19W 1990 1W1 1992 1993 19M 1956 X 168 14& 32« 130 14、 13D 127 111 202 24 Y 661 631 •10 W8 585 575 567 502 446 3T9 L1知某农场通过试验取那早稻收获附卅季降雨肚和探季温度的数据如卜;则早稻收获笊对春季降雨址和祥季温度的二元线性 回归方程为( m $ MV 站 1 41CCI 45 10 6! S0 145 l> 72K» 110 14 ? *«• IIS lb K: 9O IM IT 7=' 为研宪某市家庭收入与月平均生活支出的关系.该市统计部门随机调査了10个家庭・得数据如下,则回归宜线方程为()• 1 2 3 4 5 6 7 8 9 10 X,(枚入〉干元 0.8 1.1 1.3 ).5 1.5 1.8 2.0 Z2 2.4 2.8 y,(支出)T•元 0.7 1.0 1.2 1.0 1.3 1.5 1.3 1.7 2.0 2.5 y=* )•相关系数显著性检脸法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参考答案 of 数据 挖掘