10236大数据技术.docx
- 文档编号:4352780
- 上传时间:2022-11-30
- 格式:DOCX
- 页数:26
- 大小:26.03KB
10236大数据技术.docx
《10236大数据技术.docx》由会员分享,可在线阅读,更多相关《10236大数据技术.docx(26页珍藏版)》请在冰豆网上搜索。
10236大数据技术
复习题
一、选择题
1、大数据的6V特征中,Volume表示(A)
A、大量
B、多样
C、低价值密度
D、高速
2、大数据的6V特征中,Variety表示(B)
A、大量
B、多样
C、低价值密度
D、高速
3、大数据的6V特征中,Veracity表示(D)
A、大量
B、多样
C、低价值密度
D、高速
4、大数据技术的(B)指的是数据量超大规模和增长,尤其是非结构化数据比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。
A、大量性
B、多样性
C、低价值密度
D、高速
5、大数据的(B),指的是数据有很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显、且语法或句义不连贯。
A、大量性
B、多样性
C、低价值密度
D、高速
6、大数据的(C)指数据能够被组织并呈现。
借助于图形化手段,清晰有效地传达和沟通信息。
基于数据,借助可视化手段提高大脑利用率。
A、大量性
B、多样性
C、可视化
D、低价值密度
7、Web内容挖掘实现技术不包括(A)
A、文本展示
B、文本聚类
C、文本分类
D、关联规则
8、(B)是在已知各种情况发生概率的基础上,通过构成树状结构来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。
A、生成树
B、决策树
C、哈夫曼树
D、文本树
9、以下哪个不是决策树的算法(D)
A、ID3
B、C4.5
C、CART
D、Prim
10、分类与回归树(ClassificationAndRegressionTree)是一种(D)
A、最小生成树
B、无向图
C、有向图
D、决策树
11、可用作数据挖掘分析中的关联规则算法有(C)
A、决策树
B、K均值法
C、Apriori算法
D、线性回归
12、分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于(A)问题。
A、关联规则挖掘
B、分类与回归
C、聚类分析
D、时序预测
13、协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度(D),并将这些用户喜欢的项推荐给有相似兴趣的用户。
A、相似
B、相同
C、推荐
D、预测
14、以下说法不正确的是(D)
A、分类是预测数据对象的离散类别。
B、预测是用于数据对象的连续取值。
C、Apriori算法是一种典型的关联规则挖掘算法。
D、决策树方法通常用于关联规则挖掘。
15、以下说法正确的是(D)
A、原始数据集来自多个数据库或数据仓库,它们的结构和规则是相同的
B、孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。
C、可信度是对关联规则的准确度的衡量。
D、聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
16、推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于网站最热卖商品、客户所处城市、(D),推测客户将来可能的购买行为。
A、客户的朋友
B、客户的个人信息
C、客户的兴趣爱好
D、客户过去的购买行为和购买记录
17、(C)是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
A、边界点
B、质心
C、离群点
D、核心点
18、BIRCH是一种(B)。
A、分类器
B、聚类算法
C、关联分析算法
D、特征选择算法
19、预测建模任务主要包括哪几大类问题?
(A)A.B.回归C.模式发现D.模式匹配
A、分类和回归
B、分类和模式匹配
C、模式发现和模式匹配
D、分类和模式发现
20、以下各项均是针对数据仓库的不同说法,不正确的有(A)。
A、数据仓库就是数据库
B、数据仓库是一切商业智能系统的基础
C、数据仓库是面向业务的,支持联机事务处理(OLTP)
D、数据仓库支持决策而非事务处理
21、以下哪些算法是基于规则的分类器(A)
A、C4.5
B、KNN
C、朴素贝叶斯
D、人工神经网络
22、以下哪些算法是分类算法(B)
A、DBSCAN
B、C4.5
C、K-Means
D、EM
23、在统计计算中,(C)算法是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。
A、K-Means算法
B、Apriori算法
C、最大期望算法
D、KNN算法
24、以下哪个不是无监督学习(D)
A、Apriori
B、K-means
C、PCA
D、KNN
25、以下哪个不属于有监督学习技术(D)
A、线性回归
B、CART
C、朴素贝叶斯
D、K-Means
26、以下哪个不属于大数据可视化的应用(D)
A、医学影像
B、天气云图
C、热点地图
D、响应式表单
27、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?
(C)
A、根据内容检索
B、建模描述
C、预测建模
D、寻找模式和规则
28、决策树中不包含一下哪种结点(c)
A、根结点
B、内部结点
C、外部结点
D、叶结点
29、(B)是在掌握大量观察数据的基础上,利用数理统计方法建立变量与自变量之间的回归关系函数表达式。
A、指数分析
B、回归分析
C、预测分析
D、主成分分析
30、(D)是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。
A、指数分析
B、回归分析
C、预测分析
D、主成分分析
31、以下哪些方法可用于预测分析(D)
A、指数平滑
B、周期变化分析
C、回归分析
D、其余选项均是
32、(D)是研究两个或两个以上处于同等地位的随机变量相关性的统计分析方法,包括变量之间是否存在依存关系,存在什么样的依存方向等等。
A、判别分析
B、主成分分析
C、回归分析
D、相关分析
33、(C)分析又称为变异数分析,主要用于两个及两个以上样本均数差别的显著性检验。
A、回归分析
B、因子分析
C、方差分析
D、相关分析
34、Kmeans算法包括如下步骤:
①在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类;②更新中心点为每类的均值;③随机选取k个中心点;④j<-j+1,迭代更新,直至误差小到某个值或者到达一定的迭代步数,误差不变。
这些步骤正确的排序是(D)
A、①②③④
B、④③②①
C、①④③②
D、③①②④
35、Hadoop框架中最核心的设计是(C)。
A、MapReduce和Hive
B、Hive和HDFS
C、MapReduce和HDFS
D、ZooKeeper和HDFS
36、以下哪一项不属于Hadoop可以运行的模式(C)。
A、单机(本地)模式
B、伪分布式模式
C、互联模式
D、分布式模式
37、下列哪项通常是集群的最主要瓶颈(C)。
A、CPU
B、网络
C、磁盘IO
D、内存
38、HDFS默认BlockSize的大小是(B)。
A、32MB
B、64MB
C、128MB
D、256M
39、下列关于MapReduce说法不正确的是(C)。
A、MapReduce是一种计算框架
B、MapReduce来源于google的学术论文
C、MapReduce程序只能用Java语言编写
D、MapReduce隐藏了并行计算的细节,方便使用
40、HDFS中的block默认保存几份?
(A)
A、3份
B、2份
C、1份
D、不确定
41、电商网站上的"猜你喜欢”实际上是基于(D)原理。
A、物联网
B、数据仓库
C、网络爬虫
D、推荐系统
42、将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为(B)。
所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
A、关联规则
B、聚类
C、机器学习
D、云计算
43、美国沃尔玛连锁超市的真实案例:
尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。
这个案例是使用了(A)的典型例子。
A、关联规则
B、聚类
C、物联网
D、云计算
44、以下哪个是聚类分析的典型算法(C)
A、Apriori算法
B、SVM算法
C、K均值算法
D、KNN算法
45、以下哪个不属于分类算法(C)
A、朴素贝叶斯
B、决策树
C、K均值算法
D、KNN算法
46、(C)是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。
它实现了一个分布式文件系统,充分利用集群的威力进行高速运算和存储。
A、NoSQL
B、Tomcat
C、Hadoop
D、Linux
47、用于分类与回归应用的主要算法有:
(D)
A、Apriori算法、HotSpot算法
B、RBF神经网络、K均值法、决策树
C、K均值法、SOM神经网络
D、决策树、BP神经网络、贝叶斯
48、分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于(A)问题。
A、关联规则挖掘
B、分类与回归
C、聚类分析
D、时序预测
49、噪声数据处理的主要方法不包括(C)
A、分箱
B、聚类
C、关联分析
D、回归
50、以下各项均是针对数据仓库的不同说法,不正确的是(A)。
A、数据仓库就是数据库
B、数据仓库是一切商业智能系统的基础
C、数据仓库是面向业务的,支持联机事务处理
D、数据仓库支持决策而非事务处理
51、推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于网站最热卖商品、客户所处城市、(D),推测客户将来可能的购买行为。
A、客户的朋友
B、客户的个人信息
C、客户的兴趣爱好
D、客户过去的购买行为和购买记录
52、如下哪个不是最近邻分类器的特点。
(C)
A、它使用具体的训练实例进行预测,不必维护源自数据的模型
B、分类一个测试样例开销很大
C、最近邻分类器基于全局信息进行预测
D、可以生产任意形状的决策边界
53、下列关于网络用户行为的说法中,错误的是(C)。
A、网络公司能够捕捉到用户在其网站上的所有行为
B、用户离散的交互痕迹能够为企业提升服务质量提供参考
C、数字轨迹用完即自动删除
D、用户的隐私安全很难得以规范保护
54、下列关于大数据的说法中,错误的是(C)。
A、处理大数据需采用新型计算架构和智能算法等新技术
B、大数据的应用注重相关分析而不是因果分析
C、大数据的应用注重因果分析而不是相关分析
D、大数据的目的在于发现新的知识与洞察并进行科学决策
55、以下哪项不属于数据挖掘的内容(C)
A、补充与完善路网属性
B、多维分析统计用户出行规律
C、高德地图导航躲避拥堵的功能
D、建立道路拥堵概率与拥堵趋势变化模型
56、以下哪个选项是目前利用大数据分析技术无法进行有效支持的(B)
A、新型病毒的分析判断
B、精确预测股票价格
C、个人消费习惯分析及预测
D、天气情况预测
57、以下与大数据最密切相关的技术是(C)
A、wifi
B、蓝牙
C、云计算
D、博弈论
58、(D)的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
A、数据清洗
B、数据集成
C、数据变换
D、数据归约
59、以下关于大数据可视化的说法,不正确的是(D)
A、大数据可视化利用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行各种交互处理的理论、方法和技术
B、能够把抽象、枯燥或难以理解的内容,包括看似毫无意义的数据、信息、知识等等以一种容易理解的视觉方式展示出来
C、涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术
D、对多维数据进行切片、块、旋转等动作剖析数据,从而多角度多侧面观察数据
60、大数据可视化可以用在以下何种场景(D)
A、公司财务报表、销售统计
B、电子地图
C、股票趋势
D、其余所有选项均可
61、可视化的分类包括(D)
A、科学可视化
B、信息可视化
C、可视分析学
D、包含其余所有选项
62、可视化实现时,根据可视化目标选择相应的图表形式,如果关注3个变量的分布情况,可选择(C)
A、折线直方图
B、柱状直方图
C、3D区域图
D、二维散点图
63、(D)反映数据的精细化程度,越细化的数据,价值越高。
A、规模
B、活性
C、关联度
D、颗粒度
64、智能健康手环的应用开发,体现了(D)的数据采集技术的应用。
A、统计报表
B、网络爬虫
C、API接口
D、传感器
65、下面关于数据开放的陈述哪个是不正确的(C)
A、要提供应用程序开放接口
B、允许公众免费查询、下载
C、要提供全部的原始数据
D、允许公民要求数据开放数据
66、大数据的特征不包含(D)
A、规模性
B、多样性
C、高速性
D、价值密度高
67、(A)是目标类数据的一般特性的汇总,通常以用户指定类的数据通过数据库查询收集,其输出可以用多种形式呈现,例如饼图,条形图,折线图等等。
A、数据属性
B、数据整合
C、数据采集
D、数据特征
68、大数据处理流程不包括以下哪个(C)
A、数据分析与挖掘
B、数据采集
C、抽样统计
D、结果展示
69、(D)是数值数据分布的精确图形表示,是一个连续变量(定量变量)的概率分布的估计。
它是一种条形图。
A、圆环图
B、折线图
C、散点图
D、直方图
70、(C)是一种用作显示一组数据分散情况资料的统计图,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
A、雷达图
B、折线图
C、箱形图
D、直方图
71、(B)表示数据分布的集中位置,如Mean:
平均数、Median:
中位数、Mode:
众数等。
A、数据属性
B、集中趋势度量
C、离中趋势度
D、数据分布形状
72、数据的统计特征的分类包括(D)
A、集中趋势度量
B、离中趋势度量
C、数据分布形状
D、其余均是
73、(A)主要包括偏态和峰值,常见的有正态分布、偏态分布等。
A、数据分布形状
B、集中趋势度量
C、离中趋势度
D、数据属性
74、可视化常见应用领域包括(D)
A、地理信息可视化
B、层次和网络数据可视化
C、文本和文档可视化
D、其余均是
75、数据的不确定性的产生原因不包括(D)
A、数据采集与传输
B、数据精度转换
C、缺失值处理
D、数据特征描述
76、可视化实现时,根据可视化目标选择相应的图表形式,如果关注3个变量的分布情况,可选择(C)
A、折线直方图
B、柱状直方图
C、3D区域图
D、二维散点图
77、(D)为大数据提供弹性可扩展的基础设施支撑环境及数据服务的高效模式,作为计算资源的底层,支撑着上层的大数据处理。
A、数据挖掘
B、物联网
C、机器学习
D、云计算
78、大数据可视化的含义是(D)
A、将不可见现象转换为可见的图形符号,并从中发现规律和获取知识
B、通过可视表达增强人们完成某些任务的效率
C、其实质是用大脑以外的资源增强大脑本身的认知能力
D、其余均是
79、中国大数据产业特征不包括(A)
A、大数据整体解决方案成熟
B、区域产业集聚现雏形
C、大数据基础研究受到重视
D、互联网企业表现强势
80、以下关于大数据关键问题的说法,不正确的是(B)
A、非结构化与半结构化数据的处理是一项重要的课题
B、传统的统计理论与技术能很好地实现大数据知识发现
C、大数据复杂性,不确定性特征描述的方法及大数据的系统建模是实现大数据知识发现的前提与关键
D、大数据处理问题复杂多样,难以用一种单一的计算模式涵盖
81、数据可视化中实现中数据映射指的是(B)
A、从数据源中选取有效数据
B、确定数据到标记和视觉通道的映射
C、视图的选择与用户交互控制的设计
D、概括现实生活中用户遇到的问题
82、描述数据对象的特征的量叫做(A)
A、数据属性
B、数据筛选
C、数据映射
D、数据分类
83、下面哪一项不属于大数据关键技术(D)
A、云计算
B、分布式文件系统
C、数据众包
D、关系型数据库
84、最早提出大数据时代概念的公司是(D)
A、微软公司
B、谷歌公司
C、脸谱公司
D、麦肯锡公司
85、下面陈述不正确的是(C)
A、大数据将实现科学决策
B、大数据使政府决策更加精准化
C、大数据彻底将群体性事件化解在萌芽状态
D、大数据将实现预测式决策
86、下面哪一项不属于大数据系统的必备要素(D)
A、云平台
B、物联网
C、数据
D、数据库
87、以下哪个不属于大数据的技术特征(D)
A、分析全面的数据
B、重视数据的复杂性
C、关注数据的相关性
D、力求数据的精确性
88、以下哪个不属于大数据的关键技术(D)
A、流处理
B、可视化
C、并行化
D、数据表
89、许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险,这是大数据在(C)的技术。
A、知识搜索
B、数据整合
C、预测分析
D、数据校验
90、国务院于(B)年印发了《促进大数据发展行动纲要》,指出数据已成为国家基础性战略资源。
A、2014
B、2015
C、2016
D、2017
91、目前,我国互联网、移动互联网用户规模居全球第(A),拥有丰富的数据资源和应用市场优势。
A、一
B、二
C、三
D、四
92、NoSQL,泛指(A)
A、非关系型的数据库
B、关系型数据库
C、结构型数据库
D、大容量数据库
93、下列哪项不属于NoSQL(D)
A、键值数据库
B、文档型数据库
C、图形数据库
D、关系型数据库
94、以下哪个不属于大数据技术的特征(D)
A、全面分析数据
B、重视数据的复杂性
C、关注数据的相关性
D、随机抽样
95、以下哪个属于非关系型数据库(D)
A、Mysql
B、Access
C、SQL
D、MonogoDB
96、(C)是指对数据源进行清洗、裁剪,并共享多样化数据来加快数据分析。
A、数据挖掘
B、数据抽取
C、数据整合
D、数据加载
97、大数据往往是指(B)及以上级别的数据量。
A、TB
B、PB
C、GB
D、MB
98、大数据的所谓6个V的特征不包括(D)
A、Volume
B、Variety
C、Velocity
D、Virtual
99、目前所获取的总数据量的80%以上都是(B)数据。
A、结构化
B、非结构化
C、半结构化
D、文本
100、大数据的价值密度(C),含有大量的不相关信息。
A、高
B、大
C、低
D、多
101、大数据环境下的隐私担忧,主要表现为(BC)。
选择一项:
a.恶意广告推送
b.个人信息的被识别与暴露
c.病毒入侵
d.用户画像的生成
102.目前,我国互联网、移动互联网用户规模居全球第(D),拥有丰富的数据资源和应用市场优势。
选择一项:
a.二
b.三
c.四
d.一
103.下列演示方式中,不属于传统统计图方式的是(B)。
选择一项:
a.饼状图
b.网络图
c.曲线图
d.柱状图
104.MapReduce任务过程分为两个处理阶段:
map阶段和(D)阶段。
。
选择一项:
a.master
b.map
c.Map/Reduce
d.reduce
105.(D)框架由一个单独的masterJobTracker和每个集群节点一个slaveTaskTracker共同组成。
选择一项:
a.Reduce
b.Map
c.master
d.Map/Reduce
106.下面(B)程序负责HDFS数据存储。
选择一项:
a.Jobtracker
b.Datanode
c.SecondaryNameNode
d.NameNode
107.HDFS中的block默认保存(D)份
选择一项:
a.2
b.不确定
c.1
d.3
108.
2、判断题
1、数据生命周期管理旨在产生效益的同时,降低生产成本。
(×)
2、大数据预测能够分析和挖掘出人们不知道或没有注意到的模式,确定判断事件必然会发生。
(×)
3、处理大数据需采用新型计算架构和智能算法等新技术。
(√)
4、大数据一般是指数量级为GB以上的数据。
(×)
5、根据数据价值的不同应该数据采取不同的管理策略。
(√)
6、利用数据融合、数学模型、仿真技术等,可以逼近事物的本质,可以揭示出原来没有想到或难以展现的关联,大大提升政府决策的科学性。
(√)
7、在大数据分析中,在数据基础上是倾向于全体数据而不是抽样数据。
(√)
8、于大数据而言,最基本、最重要的要求就是减少误、保证质量。
因此,大数据收集的信息量要尽量精确。
(×)
9、大数据还是一种思维方式和新的管理、治理路径。
(√)
10、大数据分析中,在数据基础上倾向于典型抽样数据。
(×)
11、躲避拥堵是高德地图导航的数据挖掘内容之一。
(×)
12、数据重组是数据的重新生产和重新采集。
(×)
13、传统营销模式比基于大数据的营销模式投入更小。
(×)
14、Apriori算法是一种典型的聚类分析算法。
(×)
15、数据重组有利于实现新颖的数据模式创新。
(√)
16、大数据具有6V特征。
(√)
17、Apriori方法通常用于关联规则挖掘。
(√)
18、数据清洗的方法有缺失值处理、噪声数据清除、一致性检查等。
(√)
19、Hadoop作者是MartinFowler。
(×)
20、大数据的数据规模大,数据价值密度高。
(×)
21、根据数据价值的不同应该数据采取不同的管理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10236 数据 技术
![提示](https://static.bdocx.com/images/bang_tan.gif)