奥鹏远程南开大学本部20春学期《大数据导论》在线作业标准答案Word下载.docx
- 文档编号:15196519
- 上传时间:2022-10-28
- 格式:DOCX
- 页数:12
- 大小:18.44KB
奥鹏远程南开大学本部20春学期《大数据导论》在线作业标准答案Word下载.docx
《奥鹏远程南开大学本部20春学期《大数据导论》在线作业标准答案Word下载.docx》由会员分享,可在线阅读,更多相关《奥鹏远程南开大学本部20春学期《大数据导论》在线作业标准答案Word下载.docx(12页珍藏版)》请在冰豆网上搜索。
A
3.下面哪一项不是中国发展大数据产业的基础()。
A信息化积累了丰富的数据资源
B大数据技术创新取得明显突破
C大数据应用推动势头良好
D大数据产业支撑薄弱
4.数据清洗的方法不包括
A缺失值处理
B噪声数据清除
C一致性检查
D重复数据记录处理
5.以下不是数据仓库基本特征的是()
A数据仓库是面向主题的
B数据仓库是面向事务的
C数据仓库的数据是相对稳定的
D数据仓库的数据是反映历史变化的
B
6.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段()。
A运营式系统阶段
B用户原创内容阶段
C感知式系统阶段
7.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段()。
C
8.数据仓库是随着时间变化的,下列不正确的是()
A数据仓库随时间变化不断增加新内容
B捕捉到的新数据会覆盖原来的快照
C数据仓库随事件变化不断删去旧的数据内容
D数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合
9.购物篮问题是##的典型案例
A数据变换
B关联规则挖掘
C数据分类
10.PaaS是()的简称
A软件即服务
B平台即服务
C基础设施即服务
D硬件即服务
11.下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()
Aggplot2
Bnetwork
Cggmaps
Danimation
12.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段()。
13.哪个选项不属于大数据4V特点?
AVolume
BValid
CVariety
DValue
14.以下哪项不是数据可视化工具的特性()
A实时性
B简单操作
C更丰富的展现
D仅需一种数据支持方式即可
15.()是MicrosoftOffice的核心组件
ASQL
BWORD
CPPT
DEXCEL
16.云计算的特点是()
A大规模
B高扩展性
C虚拟化
D按需分配
A.B.C.D
17.大数据时代预测人类移动行为的数据来源有
A志愿者定位数据
B装有导航设备的出租车轨迹数据
C手机终端定位于通讯记录
D社会网络签到数据
18.XX大数据引擎主要包含三大组件()
A开放云
B数据工厂
CXX大脑。
A.B.C
19.KNIME(KonstanzInformationMiner)是一个对用户友好的、智能、开源的平台。
该平台包括了##、##、##、##。
A数据集成
B数据处理
C数据分析
D数据挖掘
20.大数据时代预测人类移动行为的数据特点是
A多样化
B数据量大
C维数高
D变化快
B.C.D
21.大数据采集主要包括()四种。
A系统日志采集
B网络数据采集
C数据库采集
D其他数据采集
22.数据工厂包括
A低能耗数据中心
B超大规模讲分布式架构
C新一代智能自动化运维
D超强云安全
23.数据分析的类型根据数据分析深度可以分为()
A描述性分析
B预测性分析s
C规则性分析
24.主流分布式计算平台有()
Agoogle
BIBM
Cbaidu
DAmazon
A.B.D
25.交通数据分析可用于:
A交通流量实时分析
B合理进行道路规划
C信号灯智能调度
D实时路况查询播报
26.互连网上出现的海量信息可以划分为三种,分别为()
A结构化信息
B非结构化信息
C半结构化信息
D特殊化信息
27.一个HDFS集群由一个##和##构成。
此外,还有与这两个角色之间作为沟通桥梁的客户端(Client)。
A一个名字节点
B若干个名字节点
C一个数据节点
D若干个数据节点
A.D
28.大数据在社交网络中的应用
A用户偏好、情感、社交网络结构
B用户画像、精准推荐
C舆情监控、突发事件预警
D预测外部趋势
29.开放云()
A价值呈现:
大数据应用价值呈现和创新不足
B应用建设:
周期长、门槛高、多冗余、体验差
C组织流程:
应用跨部门,缺乏流程贯串和使能业务生产
D生态建设:
无法有效构建和融入新的数字生态圈
30.大数据在电信中的应用有
A基于用户、业务及流量分级的多维管控机制
B精准的客户分析及营销
C利用位置和轨迹信息服务社会
31.数据存在形式包括结构化数据和结构化数据
T对
F错
32.数据可视化。
将大型数据集中的数据通过图形图像方式表示,并利用数据分析和开发工具发现其中未知信息。
33.Spark是基于内存的大数据并行计算框架
34.非结构化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值
35.箱式图用于描述数据的分散情况,主要数据节点包括:
均值、中值、等中心值的度量,标准偏差、方差等可变性度量。
36.Pentaho是最流行的开源商业智能软件之一
37.网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取,并按照一定规则和筛选标准将数据进行归类,形成数据库文件的一个过程。
38.云存储不仅是存储设备或技术,更是一种服务的创新。
39.当数据量表完全超过BI和传统关系数据库的能力时,我们将用到海量数据分析。
40.IDC给出的大数据定义是大数据(BigData)是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
41.Paas:
软件即服务。
它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。
42.关联分析是在数据集D中找出大于用户所给定的最大支持度阈值和最大置信度阈值的关联规则。
43.数据的大量聚集,使得黑客一次成功的攻击能够获得更多的数据,无形中降低了黑客的进攻成本,增加了“收益率“。
44.数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术,传感器,交互型社交网络,移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
45.社交网络一一通常由通过一些特定类型的相互依赖关系(例如,亲属关系、友谊、共同兴趣、信念或金融交换)链接的社会实体(例如,个人、公司、集体社会单位或组织)组成。
46.数据表达是通过计算机图形图像技术来更加友好地展示数据信息,方便人们阅读、理解和运用数据
47.时空数据是指带有地理位置与时间标签的数据。
48.大数据从概念化走向价值化是大数据的发展趋势
49.大数据的应用之一是,促进健康管理的个性化和多元化。
50.FP-growth算法需要对数据库进行三次扫描
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据导论 远程 南开大学 本部 20 学期 数据 导论 在线 作业 标准答案