书签分享收藏举报版权申诉 / 9

立即下载加入VIP,免费下载

当前位置：首页 > 高中教育 > 英语 > 南开大学20秋学期《大数据开发技术二》在线作业参考答案.docx

南开大学20秋学期《大数据开发技术二》在线作业参考答案.docx

文档编号：8103733
上传时间：2023-01-28
格式：DOCX
页数：9
大小：17.06KB

《南开大学20秋学期《大数据开发技术二》在线作业参考答案.docx》由会员分享，可在线阅读，更多相关《南开大学20秋学期《大数据开发技术二》在线作业参考答案.docx（9页珍藏版）》请在冰豆网上搜索。

南开大学20秋学期《大数据开发技术二》在线作业参考答案.docx

南开大学20秋学期《大数据开发技术二》在线作业参考答案

1.（）是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的Job运行在集群上。

A.SparkR

B.BlinkDB

C.GraphX

D.Mllib

答案：

A

2.图的结构通常表示为：

G（V，E），其中，V是图G中（）。

A.顶点

B.顶点的集合

C.边

D.边的集合

答案：

B

3.Dstream输出操作中（）方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存。

A.print

B.saveAsTextFiles

C.saveAsObjectFiles

D.saveAsHadoopFiles

答案：

D

4.（）是Spark的核心，提供底层框架及核心支持。

A.SparkCore

B.SparkSQL

C.SparkStreaming

D.Mllib

答案：

A

5.Spark中的每个RDD一般情况下是由（）个分区组成的。

A.0

B.1

C.多

D.无数

答案：

C

6.RDD的（）操作通常用来划分单词。

A.filter

B.union

C.flatmap

D.mapPartitions

答案：

C

7.图结构中如果任意两个顶点之间都存在边，那么称之为（）。

A.完全图

B.有向完全图

C.无向图

D.简单图

答案：

A

8.SparkGraphX中类Graph的aggregateMessages方法可以（）。

A.收集邻居顶点的顶点Id和顶点属性

B.收集邻居顶点的顶点Id

C.向指定顶点发送信息并聚合信息

D.将顶点信息更新到图中

答案：

C

9.Spark中DataFrame的（）方法是进行连接查询。

A.where

B.join

C.limit

D.apply

答案：

B

10.以下哪个不是Scala的数据类型?

（）

A.AnyRef

B.Anything

C.NULL

D.Nothing

答案：

B

11.GraphX中（）方法可以释放边缓存。

A.cache

B.presist

C.unpersistVertices

D.edges.unpersist

答案：

D

12.（）是Spark的数据挖掘算法库。

A.SparkCore

B.BlinkDB

C.GraphX

D.Mllib

答案：

D

13.在图结构中，每个元素都可以有（）后继。

A.至少一个

B.零个或多个

C.一个

D.零个

答案：

B

14.以下哪个方法可以从外部存储中创建RDD?

（）

A.parallelize

B.makeRDD

C.textFile

D.loadFile

答案：

C

15.Graph类中如果要根据分开存放的顶点数据和边数据创建图，应该用（）方法。

A.Graph（vertices，edges，defaultVertexAttr）

B.Graph.fromEdges（RDD[Edge[ED]]，defaultValue）

C.Graph.fromEdgeTuples（rawEdges:

RDD[（VertexId，VertexId）]，defaultValue）

D.GraphLoader.edgeListFile（sc，filename）

答案：

A

16.SparkGraphX中类Graph的joinVertices方法可以（）。

A.收集邻居顶点的顶点Id和顶点属性

B.收集邻居顶点的顶点Id

C.向指定顶点发送信息并聚合信息

D.将顶点信息更新到图中

答案：

D

17.Scala列表方法中返回所有元素，除了最后一个的方法是（）。

A.drop

B.head

C.filter

D.init

答案：

D

18.以下哪个函数可以对RDD进行排序?

（）

A.sortBy

B.filter

C.distinct

D.intersection

答案：

A

19.递归函数意味着函数可以调用它（）。

A.其他函数

B.主函数

C.子函数

D.自身

答案：

D

20.SparkStreming中（）函数可以通过对源DStream的每RDD应用RDD-to-RDD函数返回一个新的DStream，这可以用来在DStream做任意RDD操作。

A.trans

B.reduce

C.join

D.cogroup

答案：

A

21.如果numPartitions是分区个数，那么Spark每个RDD的分区ID范围是（）。

A.[0，numPartitions]

B.[0，numPartitions-1]

C.[1，numPartitions-1]

D.[1，numPartitions]

答案：

B

22.图结构中如果任意两个顶点之间都存在有向边，那么称之为（）。

A.完全图

B.有向完全图

C.无向图

D.简单图

答案：

B

23.GraphX中VertexRDD[VD]继承自（）。

A.EdgeRDD

B.RDD[Edge]

C.VertexRDD[VD]

D.RDD[（VertexId，VD）]

答案：

D

24.Scala列表方法中通过给定的方法将所有元素重新计算的方法是（）。

A.filter

B.foreach

C.map

D.mkString

答案：

C

25.图结构中如果无重复的边或者顶点到自身的边，那么称之为（）。

A.完全图

B.有向完全图

C.无向图

D.简单图

答案：

D

26.以下哪个方法可以从集合中创建RDD?

（）

A.parallelize

B.makeRDD

C.textFile

D.loadFile

答案：

AB

27.Scala支持（）。

A.匿名函数

B.高阶函数

C.函数嵌套

D.柯里化

答案：

ABCD

28.MapReudce不适合（）任务。

A.大数据计算

B.迭代

C.交互式

D.离线分析

答案：

BC

29.SparkDataFrame中（）方法可以获取若干行数据。

A.first

B.head

C.take

D.collect

答案：

ABCD 　　　　

30.MLBase包括（）

A.Mllib

B.MLI

C.SparkR

D.GraphX

答案：

AB

31.Spark中的RDD的说法正确的是（）。

A.弹性分布式数据集

B.是Spark中最基本的数据抽象

C.代表一个可变的集合

D.代表的集合里面的元素可并行计算

答案：

ABD

32.SparkStreaming能够处理来自（）的数据。

A.Kafka

B.Flume

C.Twitter

D.ZeroMQ

答案：

ABCD

33.SparkDataFrame中（）方法可以获取所有数据。

A.collect

B.take

C.takeAsList

D.collectAsList

答案：

AD

34.Scala中使用（）方法来连接两个集合。

A.append

B.++

C.concat

D.Set.++（）

答案：

BD

35.SparkStreaming支持实时流式数据，包括（）。

A.Web服务器日志文件

B.社交网络数据

C.实时交易数据

D.类似Kafka的信息数据

答案：

ABCD

36.SparkStreming中DStream代表着一系列的持续的RDDs。

（）

A.正确

B.错误

答案：

A

37.RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。

（）

A.正确

B.错误

答案：

A

38.MLlib中Normalizer是一个转换器，它可以将多行向量输入转化为统一的形式。

（）

A.正确

B.错误

答案：

A

39.MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。

（）

A.正确

B.错误

答案：

A

40.RDD的filter过滤会将返回值为true的过滤掉。

（）

A.正确

B.错误

答案：

B

41.用户可以在HadoopYARN上运行Spark。

（）

A.正确

B.错误

答案：

A

42.Scala中创建一个方法时经常用void表示该方法无返回值

A.正确

B.错误

答案：

B

43.ScalaSet（集合）是没有重复的对象集合，所有的元素都是唯一的。

（）

A.正确

B.错误

答案：

A

44.PairRDD中reduceByKey的功能是合并具有相同键的值，作用域是KeyValue类型的键值对，并且是只对每个Key的Value进行处理。

（）

A.正确

B.错误

答案：

A

45.RDD的flatMap操作是将函数应用于RDD之中的每一个元素，将返回的迭代器（数组、列表等）中的所有元素构成新的RDD。

（）

A.正确

B.错误

答案：

A

46.RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。

（）

A.正确

B.错误

答案：

A

47.SparkStreaming中时间片也可称为批处理时间间隔（batchinterval），时间片是人为地对数据进行定量的标准，作为拆分数据的依据，一个时间片的数据对应一个RDD实例。

（）

A.正确

B.错误

答案：

A

48.Spark在同一个应用中不能同时使用SparkSQL和Mllib。

（）

A.正确

B.错误

答案：

B

49.Scala中允许集成多个父类。

（）

A.正确

B.错误

答案：

B

50.Dstream提供了sort方法。

（）

A.正确

B.错误

答案：

B

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 大数据开发技术二南开大学 20 学期数据开发技术在线作业参考答案

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：南开大学20秋学期《大数据开发技术二》在线作业参考答案.docx
链接地址：https://www.bdocx.com/doc/8103733.html

南开大学20秋学期《大数据开发技术二》在线作业参考答案.docx

热门标签