南开大学20秋学期《大数据开发技术二》在线作业参考答案.docx
- 文档编号:8103733
- 上传时间:2023-01-28
- 格式:DOCX
- 页数:9
- 大小:17.06KB
南开大学20秋学期《大数据开发技术二》在线作业参考答案.docx
《南开大学20秋学期《大数据开发技术二》在线作业参考答案.docx》由会员分享,可在线阅读,更多相关《南开大学20秋学期《大数据开发技术二》在线作业参考答案.docx(9页珍藏版)》请在冰豆网上搜索。
南开大学20秋学期《大数据开发技术二》在线作业参考答案
1.()是AMPLab发布的一个R开发包,使得R摆脱单机运行的命运,可以作为Spark的Job运行在集群上。
A.SparkR
B.BlinkDB
C.GraphX
D.Mllib
答案:
A
2.图的结构通常表示为:
G(V,E),其中,V是图G中()。
A.顶点
B.顶点的集合
C.边
D.边的集合
答案:
B
3.Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存。
A.print
B.saveAsTextFiles
C.saveAsObjectFiles
D.saveAsHadoopFiles
答案:
D
4.()是Spark的核心,提供底层框架及核心支持。
A.SparkCore
B.SparkSQL
C.SparkStreaming
D.Mllib
答案:
A
5.Spark中的每个RDD一般情况下是由()个分区组成的。
A.0
B.1
C.多
D.无数
答案:
C
6.RDD的()操作通常用来划分单词。
A.filter
B.union
C.flatmap
D.mapPartitions
答案:
C
7.图结构中如果任意两个顶点之间都存在边,那么称之为()。
A.完全图
B.有向完全图
C.无向图
D.简单图
答案:
A
8.SparkGraphX中类Graph的aggregateMessages方法可以()。
A.收集邻居顶点的顶点Id和顶点属性
B.收集邻居顶点的顶点Id
C.向指定顶点发送信息并聚合信息
D.将顶点信息更新到图中
答案:
C
9.Spark中DataFrame的()方法是进行连接查询。
A.where
B.join
C.limit
D.apply
答案:
B
10.以下哪个不是Scala的数据类型?
()
A.AnyRef
B.Anything
C.NULL
D.Nothing
答案:
B
11.GraphX中()方法可以释放边缓存。
A.cache
B.presist
C.unpersistVertices
D.edges.unpersist
答案:
D
12.()是Spark的数据挖掘算法库。
A.SparkCore
B.BlinkDB
C.GraphX
D.Mllib
答案:
D
13.在图结构中,每个元素都可以有()后继。
A.至少一个
B.零个或多个
C.一个
D.零个
答案:
B
14.以下哪个方法可以从外部存储中创建RDD?
()
A.parallelize
B.makeRDD
C.textFile
D.loadFile
答案:
C
15.Graph类中如果要根据分开存放的顶点数据和边数据创建图,应该用()方法。
A.Graph(vertices,edges,defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]],defaultValue)
C.Graph.fromEdgeTuples(rawEdges:
RDD[(VertexId,VertexId)],defaultValue)
D.GraphLoader.edgeListFile(sc,filename)
答案:
A
16.SparkGraphX中类Graph的joinVertices方法可以()。
A.收集邻居顶点的顶点Id和顶点属性
B.收集邻居顶点的顶点Id
C.向指定顶点发送信息并聚合信息
D.将顶点信息更新到图中
答案:
D
17.Scala列表方法中返回所有元素,除了最后一个的方法是()。
A.drop
B.head
C.filter
D.init
答案:
D
18.以下哪个函数可以对RDD进行排序?
()
A.sortBy
B.filter
C.distinct
D.intersection
答案:
A
19.递归函数意味着函数可以调用它()。
A.其他函数
B.主函数
C.子函数
D.自身
答案:
D
20.SparkStreming中()函数可以通过对源DStream的每RDD应用RDD-to-RDD函数返回一个新的DStream,这可以用来在DStream做任意RDD操作。
A.trans
B.reduce
C.join
D.cogroup
答案:
A
21.如果numPartitions是分区个数,那么Spark每个RDD的分区ID范围是()。
A.[0,numPartitions]
B.[0,numPartitions-1]
C.[1,numPartitions-1]
D.[1,numPartitions]
答案:
B
22.图结构中如果任意两个顶点之间都存在有向边,那么称之为()。
A.完全图
B.有向完全图
C.无向图
D.简单图
答案:
B
23.GraphX中VertexRDD[VD]继承自()。
A.EdgeRDD
B.RDD[Edge]
C.VertexRDD[VD]
D.RDD[(VertexId,VD)]
答案:
D
24.Scala列表方法中通过给定的方法将所有元素重新计算的方法是()。
A.filter
B.foreach
C.map
D.mkString
答案:
C
25.图结构中如果无重复的边或者顶点到自身的边,那么称之为()。
A.完全图
B.有向完全图
C.无向图
D.简单图
答案:
D
26.以下哪个方法可以从集合中创建RDD?
()
A.parallelize
B.makeRDD
C.textFile
D.loadFile
答案:
AB
27.Scala支持()。
A.匿名函数
B.高阶函数
C.函数嵌套
D.柯里化
答案:
ABCD
28.MapReudce不适合()任务。
A.大数据计算
B.迭代
C.交互式
D.离线分析
答案:
BC
29.SparkDataFrame中()方法可以获取若干行数据。
A.first
B.head
C.take
D.collect
答案:
ABCD
30.MLBase包括()
A.Mllib
B.MLI
C.SparkR
D.GraphX
答案:
AB
31.Spark中的RDD的说法正确的是()。
A.弹性分布式数据集
B.是Spark中最基本的数据抽象
C.代表一个可变的集合
D.代表的集合里面的元素可并行计算
答案:
ABD
32.SparkStreaming能够处理来自()的数据。
A.Kafka
B.Flume
C.Twitter
D.ZeroMQ
答案:
ABCD
33.SparkDataFrame中()方法可以获取所有数据。
A.collect
B.take
C.takeAsList
D.collectAsList
答案:
AD
34.Scala中使用()方法来连接两个集合。
A.append
B.++
C.concat
D.Set.++()
答案:
BD
35.SparkStreaming支持实时流式数据,包括()。
A.Web服务器日志文件
B.社交网络数据
C.实时交易数据
D.类似Kafka的信息数据
答案:
ABCD
36.SparkStreming中DStream代表着一系列的持续的RDDs。
()
A.正确
B.错误
答案:
A
37.RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。
()
A.正确
B.错误
答案:
A
38.MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。
()
A.正确
B.错误
答案:
A
39.MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。
()
A.正确
B.错误
答案:
A
40.RDD的filter过滤会将返回值为true的过滤掉。
()
A.正确
B.错误
答案:
B
41.用户可以在HadoopYARN上运行Spark。
()
A.正确
B.错误
答案:
A
42.Scala中创建一个方法时经常用void表示该方法无返回值
A.正确
B.错误
答案:
B
43.ScalaSet(集合)是没有重复的对象集合,所有的元素都是唯一的。
()
A.正确
B.错误
答案:
A
44.PairRDD中reduceByKey的功能是合并具有相同键的值,作用域是KeyValue类型的键值对,并且是只对每个Key的Value进行处理。
()
A.正确
B.错误
答案:
A
45.RDD的flatMap操作是将函数应用于RDD之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD。
()
A.正确
B.错误
答案:
A
46.RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。
()
A.正确
B.错误
答案:
A
47.SparkStreaming中时间片也可称为批处理时间间隔(batchinterval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD实例。
()
A.正确
B.错误
答案:
A
48.Spark在同一个应用中不能同时使用SparkSQL和Mllib。
()
A.正确
B.错误
答案:
B
49.Scala中允许集成多个父类。
()
A.正确
B.错误
答案:
B
50.Dstream提供了sort方法。
()
A.正确
B.错误
答案:
B
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据开发技术二 南开大学 20 学期 数据 开发 技术 在线 作业 参考答案