书签分享收藏举报版权申诉 / 7

立即下载加入VIP,免费下载

当前位置：首页 > 高等教育 > 历史学 > 数据挖掘大学练习题瑞睿锐的博客CSDN博客.docx

数据挖掘大学练习题瑞睿锐的博客CSDN博客.docx

文档编号：11024739
上传时间：2023-02-24
格式：DOCX
页数：7
大小：23.04KB

《数据挖掘大学练习题瑞睿锐的博客CSDN博客.docx》由会员分享，可在线阅读，更多相关《数据挖掘大学练习题瑞睿锐的博客CSDN博客.docx（7页珍藏版）》请在冰豆网上搜索。

数据挖掘大学练习题瑞睿锐的博客CSDN博客.docx

数据挖掘大学练习题瑞睿锐的博客CSDN博客

数据挖掘大学练习题_瑞睿鋭的博客-CSDN博客

数据挖掘中北大学练习题

第一章绪论一.判断题共10题,83.0分下面各项是否是数据挖掘任务1根据性别划分公司的顾客我的答案×得分8.3分正确答案×答案解析这属于简单的数据库查询2根据可盈利性划分公司的顾客我的答案×得分8.3分正确答案×答案解析这是简单的会计计算3计算公司的总销售额我的答案×得分8.3分正确答案×答案解析这是简单的会计计算4按学生的标识号对学生数据库进行排序我的答案×得分8.3分正确答案×答案解析这是简单的数据库查询5预测掷骰子的结果我的答案×得分8.3分正确答案×答案解析由于每一面都是同等概率属于概率计算如果概率是不同等根据历史数据预测结果则更类似于数据挖掘任务6使用历史记录预测某公司未来的股价价格我的答案√得分8.3分正确答案√答案解析需要建立模型来预测股票价格属于数据挖掘领域中的预测模型可以使用回归来建模或使用时间序列分析7监测病人心率的异常变化我的答案√得分8.3分正确答案√答案解析需要建立正常心率行为模型并预警非正常心率行为。

这属于数据挖掘领域的异常检测。

若有正常和非正常心率行为样本则可看作一个分类问题8监视地震活动的地震波我的答案√得分8.3分正确答案√答案解析需要建立与地震活动相关的不同波形的模型并预警波形活动。

这属于数据挖掘领域的分类问题9提取声波的频率我的答案×得分8.3分正确答案×答案解析属于信号处理问题10为用户提供电影推荐我的答案√得分8.3分正确答案√答案解析典型推荐问题二.简答题共2题,17.0分1举例说明数据挖掘、数据分析、机器学习、人工智能的概念以及区别。

正确答案数据挖掘是从海量的业务数据中识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。

数据挖掘受到很多学科领域的影响其中数据库、机器学习、统计学无疑影响最大。

简言之对数据挖掘而言数据库提供数据管理技术机器学习和统计学提供数据分析技术。

数据分析是指使用适当的统计分析方法（如聚类分析、相关性分析等）对收集来的大量数据进行分析从中提取有用信息和形成结论并加以详细研究和概括总结的过程。

机器学习利用经验以数据的形式存在来改善计算机系统自身的性能是人工智能的核心研究领域之一也是计算机科学的子领域同时也是人工智能的一个分支和实现方式。

同时给出了形式化的描述对于某类任务T和性能度量P如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善那么就称这个计算机程序在从经验E学习。

人工智能是使计算机模拟或实现人类的学习行为以获取新的知识和技能使之不断改善自身的性能。

区别我们可以把数据挖掘理解为一种类型的工作或工作中的某种成分机器学习是帮助完成这个工作的方法所以说机器学习和数据库是数据挖掘的两大支撑技术。

统计学、数据库和人工智能共同构造了数据挖掘技术的三大支柱许多成熟的统计方法构成了数据挖掘的核心内容。

数据分析是把数据变成信息的工具数据挖掘是把信息变成认知的工具如果我们想要从数据中提取一定的规律即认知往往需要数据分析和数据挖掘结合使用。

从数据分析的角度来看绝大多数数据挖掘技术都来自机器学习领域但机器学习研究往往并不把海量数据作为处理对象因此数据挖掘要对算法进行改造使得算法性能和空间占用达到实用的地步。

同时数据挖掘还有自身独特的内容即关联分析。

我的答案一、概念数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析提取有用信息和形成结论而对数据加以详细研究和概括总结的过程机器学习通过计算机实现并采用特定算法学习和识别被测对象的隐含规律和联系并做出智能决策人工智能是使计算机模拟或实现人类的学习行为以获取新的知识或技能使之不断改善自身的性能二、区别1、数据挖掘通常与计算机科学有关更多针对内部企业行业小众化的数据挖掘数据挖掘主要发现的是问题和诊断2、数据分析就是进行做出针对性的分析和诊断3、机器学习强调学习任务➡训练过程➡模型表现P而不是计算机程序4、人工智能包括了数据挖掘和机器学习人工智能是目的、结果。

机器学习是方法、工具批语回答正确2当前主流的数据挖掘工具有哪些下载其中一个工具尝试简单操作。

正确答案1、WekaWEKA作为一个公开的数据挖掘工作平台集合了大量能承担数据挖掘任务的机器学习算法包括对数据进行预处理分类回归、聚类、关联规则以及在新的交互式界面上的可视化。

2、RapidMinerRapidMiner是世界领先的数据挖掘解决方案在一个非常大的程度上有着先进技术。

它数据挖掘任务涉及范围广泛包括各种数据艺术能简化数据挖掘过程的设计和评价。

3、OrangeOrange是一个基于组件的数据挖掘和机器学习软件套装它的功能即友好又很强大快速而又多功能的可视化编程前端以便浏览数据分析和可视化基绑定了Python以进行脚本开发。

它包含了完整的一系列的组件以进行数据预处理并提供了数据帐目过渡建模模式评估和勘探的功能。

其由C和Python开发它的图形库是由跨平台的Qt框架开发。

4、KnimeKNIME（KonstanzInformationMiner）是一个用户友好智能的并有丰演的开源的数据集成数据处理数据分析和数据勘探平台。

5、jHepWorkjHepWork是一套功能完整的面向对象科学数据分析框架。

Jython宏是用来展示一维和二维直方图的数据。

该程序包括许多工具可以用来和二维三维的科学图形进行互动。

6、ApacheMahoutApacheMahout是ApacheSoftwareFoundation（ASF）开发的一个全新的开源项目其主要目标是创建一些可伸缩的机器学习算法供开发人员在Apache在许可下免费使用。

该项目已经发展到了它的最二个年头目前只有一个公共发行版。

Mahout包含许多实现包括集群、分类、CP和进化程序。

此外通过使用Apachehadoop库Mahout可以有效地扩展到云中。

7、ELKIELKI（EnvironmentforDevelopingKDD-ApplicationsSupportedbyIndex-Structures）主要用来聚类和找离群点。

ELKI是类似于weka的数据挖掘平台用java编写有GUI图形界面。

可以用来寻找离群点。

8、RattleRattle（易于学习的R分析工具）提供数据的统计和可视化摘要将数据转换成容易建模的形式从数据中构建无监督和监督模型以图形方式呈现模型的性能并得出新的数据集。

第二章数据仓库一.简答题共5题,100.0分1数据仓库与数据库的本质区别是什么我的答案1、数据库用于事务处理数据仓库用于决策分析2、数据库保持事务处理的当前状态数据仓库既保存过去的数据又保存当前的数据3、数据仓库的数据是大量数据库的集成4、对数据库的操作比较明确操作数据量少对数据仓库操作不明确操作数据量大。

5、数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理6、数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。

数据库是一种逻辑概念用来存放数据的仓库。

通过数据库软件来实现。

数据库由很多表组成表是二维的一张表里可以有很多字段。

字段一字排开对应的数据就一行一行写入表中。

数据库的表在于能够用二维表现多维关系。

目前市面上流行的数据库都是二维数据库。

如Oracle、DB2、MySQL、Sybase、MSSQLServer等。

数据仓库是数据库概念的升级。

从逻辑上理解数据库和数据仓库没有区别都是通过数据库软件实现的存放数据的地方只不过从数据量来说数据仓库要比数据库更庞大得多。

数据仓库主要用于数据挖掘和数据分析辅助领导做决策。

2OLAP、OLTP全称是什么两者有何区别我的答案操作型处理叫联机事务处理OLTPOn-LineTransactionProcessing也可以称面向交易的处理系统1、它是针对具体业务在数据库联机的日常操作通常对少数记录进行查询、修改。

用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。

传统的数据库系统作为数据管理的主要手段主要用于操作型处理。

2、OLTP是传统关系数据库的主要应用主要是基本的、日常的事务处理如银行交易。

分析型处理叫联机分析处理OLAPOn-LineAnalyticalProcessing1、是数据仓库的主要应用支持复杂的分析操作侧重决策支持并且提供直观易懂的查询结果。

2、OLAP具有汇总、合并和聚集功能以及从不同角度观察信息的能力支持多维分析和决策。

3说明数据仓库与数据挖掘的关系我的答案1一般情况下进行数据挖掘之前都会先用各个数据库中的数据构建数据仓库再在数据仓库的基础之上进行挖掘。

2数据挖掘是在数据仓库中进行数据深层分析的一种必不可少的手段。

3数据仓库并不是进行数据挖掘必需的条件数据挖掘可以不在建立数据仓库的基础上进行。

4什么是元数据元数据在数据仓库中有什么作用我的答案元数据是对数据描述的基础是数据的数据。

元数据的作用1用来对数据仓库中的各种数据进行描述。

2用来组织和管理并挖掘信息资源。

3描述系统的具体功能要求、执行程序和系统的整体过程。

4为数据模型提供存储说明和存储格式便于扩展。

5说明数据仓库的4个特点我的答案1、数据仓库的数据是面向主题的2、数据仓库的数据是集成的3、数据仓库的数据是不可更新的4、数据仓库的数据是随时间不断变化的第三章分类一.单选题共10题,50.0分1决策树中不包含一下哪种结点A、根结点B、内部结点C、外部结点D、叶结点正确答案C我的答案C得分5.0分2以下哪项关于决策树的说法是错误的A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题正确答案C我的答案C得分5.0分3以下关于人工神经网络ANN的描述错误的有A、神经网络对训练数据中的噪声非常鲁棒B、可以处理冗余特征C、训练ANN是一个很耗时的过程D、至少含有一个隐藏层的多层神经网络正确答案A我的答案A得分5.0分4在ID3算法中信息增益是指A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大正确答案D我的答案D得分5.0分5分类是一种学习A、无监督B、半监督C、监督D、以上都错正确答案C我的答案C得分5.0分6朴素贝叶斯分类算法是基于的朴素假定A、类条件相关B、类条件独立C、类条件正相关D、类条件负相关正确答案B我的答案B得分5.0分7下列哪项说法不正确A、人工智能是对人类智能的模拟B、人工神经元是对生物神经元的模拟C、生物神经信号由树突传递给轴突D、人工神经元的激活函数可以有多种设计正确答案C我的答案C得分5.0分8贝叶斯网络起源于贝叶斯统计学是以为基础的有向图模型它为处理不确定知识提供了有效方法。

A、线性代数B、逻辑学C、概率论D、信息论正确答案C我的答案C得分5.0分9SVM算法的性能取决于A、核函数的选择B、软间隔参数C、核函数的参数D、以上所有正确答案D我的答案D得分5.0分10以下有关支持向量机说法不正确的是A、具有很好的推广能力B、采用结构化风险最小化原理C、是凸二次优化问题D、得到的是局部最优解正确答案D我的答案D得分5.0分

二.判断题共10题,50.0分1神经网络对噪音数据具有高承受能力并能对未经过训练的数据具有分类能力但其需要很长的训练时间因而对于有足够长训练时间的应用更合适。

我的答案√得分5.0分正确答案√2数据分类由两步过程组成第一步建立一个聚类模型描述指定的数据类集或概念集第二步使用模型进行分类。

我的答案×得分5.0分正确答案×3分类规则的挖掘方法通常有决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。

我的答案√得分5.0分正确答案√4对于SVM分类算法待分样本集中的大部分样本不是支持向量移去或者减少这些样本对分类结果没有影响。

我的答案√得分5.0分正确答案√5Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法待分样本的分类结果取决于各类域中样本的全体。

我的答案×得分5.0分正确答案×6分类是预测数据对象的离散类别预测是用于数据对象的连续取值。

我的答案√得分5.0分正确答案√7反向传播算法中要先计算靠近输入层参数的梯度再计算靠近输出层参数的梯度我的答案×得分5.0分正确答案×8贝叶斯网络具有的条件独立性是结点与其后代结点条件独立我的答案×得分5.0分正确答案×9支持向量是最靠近决策表面的数据点我的答案√得分5.0分正确答案√10数据有噪声有重复值不会导致SVM算法性能下降我的答案×得分5.0分正确答案×

第四章数据预处理一.单选题共10题,100.0分1假设个销售价格记录组已经排序如下,,,,,,,,,,,,,,,。

将它们划分成四个箱。

等频划分时在第几个箱子内A、第一个B、第二个C、第三个D、第四个正确答案C我的答案C得分10.0分2下面哪个不属于数据的属性类型（）A、标称B、相异C、区间D、序数正确答案B我的答案B得分10.0分3下列关于等距离分箱的说法中错误的是A、等距离分箱能使每个区间内包含的取值个数大致相同B、等距离分箱可能导致属于某些的取值非常多而某些由非常少C、若区间个数为k每个区间的间距为Lmax-min/kD、又称为等宽度分箱正确答案A4下列关于数据规范化说法错误的是A、数据规范化是为了避免不同属性的不平等地位B、数据规范化又称数据标准化C、数据规范化是将属性的取值范围统一D、数据规范化是为了给重要的属性赋予更大的权重正确答案D我的答案D得分10.0分5数据预处理的任务不包括A、数据规范化和离散化B、特征提取和特征选择C、数据分类D、数据清洗正确答案C我的答案C得分10.0分6缺失值处理方法中错误的是A、对于所有属性都可以使用均值B、对于离散属性或定性属性使用众数C、转换为分类问题或数值预测问题D、对于分类属性使用同类对象属性值的均值正确答案A我的答案A得分10.0分7使用零均值规范化方法年收入属性的均值为65标准差为12则年收入59万元规范化后为A、-0.2B、0.2C、0.5D、-0.5正确答案D我的答案D得8使用最小-最大法进行数据规范化需要映射的目标区间为【0100】原来的取值范围是【-10,10】。

根据等比映射的原理一个值8映射到新区间后的值是A、80B、85C、90D、95正确答案C我的答案C得分10.0分9列哪些选项能表示序数属性的数据集中趋势度量A、标准差B、四分位数C、极差D、众数正确答案D我的答案D得分10.0分10下列对客户相关属性描述中不是标称属性的是A、身份证号B、性别C、年龄D、婚姻状况正确答案C我的答案C得分10.0分第五章聚类一.单选题共10题,100.0分1下列描述正确的是A、分类和聚类都是有指导的学习B、分类和聚类都是无指导的学习C、分类是有指导的学习聚类是无指导的学习D、分类是无指导的学习聚类是有指导的学习正确答案C2简单地将数据对象集划分成不重叠的子集使得每个数据对象恰在一个子集中这种聚类类型称作A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类正确答案B我的答案B得分10.0分3关于K均值聚类说法不正确的是A、算法可能终止于局部最优解B、簇的数目k必须事先给定C、对噪声和离群点数据敏感D、适合发现非凸形状的簇正确答案D我的答案D得分10.0分4闵可夫斯基距离表示为曼哈顿距离时p为A、1B、2C、3D、4正确答案A我的答案A得分10.0分5有关聚类的说法中错误的是A、无须有标记的样本B、可以用于提取一些基本特征C、可以解释观察数据的一些内部结构和规律D、聚类分析一个簇中的数据之间具有高差异性正确答案D我的答案D得分10.0分6K中心点算法每次迭代的计算复杂度是A、O

（1）B、O（k）C、O（nkD、O（kn-k2正确答案D我的答案D得分10.0分

7如果有m个点DBSCAN算法在最坏的情况下的时间复杂度为A、O（m）B、O（mlogm）C、O（m2）D、O（logm）正确答案C我的答案C得分10.08DBSCAN能够聚类以下哪种形状的数据A、球形B、环状C、方型D、以上都可以正确答案D我的答案D得分10.0分9DBSCAN之所以难以有效处理高维数据其主要原因是A、数据的形状太复杂B、簇的大小未知C、噪声点过多D、开销过大正确答案D我的答案10K均值算法中当相似度函数采用时合适的质心是簇中各点的中位数。

A、曼哈顿距离B、欧几里得距离C、余弦距离D、马氏距离正确答案A我的答案A得分10.0分