南开大学19秋学期(1709、1803、1809、1903、1909)《大数据导论》在线作业Word下载.docx
- 文档编号:13071150
- 上传时间:2022-10-04
- 格式:DOCX
- 页数:13
- 大小:21KB
南开大学19秋学期(1709、1803、1809、1903、1909)《大数据导论》在线作业Word下载.docx
《南开大学19秋学期(1709、1803、1809、1903、1909)《大数据导论》在线作业Word下载.docx》由会员分享,可在线阅读,更多相关《南开大学19秋学期(1709、1803、1809、1903、1909)《大数据导论》在线作业Word下载.docx(13页珍藏版)》请在冰豆网上搜索。
D.数据不统一正确答案:
D
哪个选项不属于大数据4V特点?
A.Volume
B.Valid
C.VarietyD.Value
B
数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段()。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段正确答案:
A
下面哪一项不是中国发展大数据产业的基础()。
A.信息化积累了丰富的数据资源
B.大数据技术创新取得明显突破C.大数据应用推动势头良好
D.大数据产业支撑薄弱正确答案:
基础设施即服务的英文简称是
A.IaaSB.PaaSC.SaaS
下列哪个R语言扩展包可以创建带有点和边的网络图()A.ggplot2
B.network
C.ggmapsD.animation
MapReduce中的Map和Reduce函数使用()进行输入输出
A.key/value对
B.随机数值
C.其他计算结果正确答案:
大数据的最显著特征是()。
A.数据规模大
B.数据类型多样
C.数据处理速度快
D.数据价值密度高正确答案:
下列不属于Google云计算平台技术架构的是()
A.并行数据处理MapReduce
B.分布式锁Chubby
C.结构化数据表BigTable
D.弹性云计算EC2
以下不是数据仓库基本特征的是()
A.数据仓库是面向主题的
B.数据仓库是面向事务的
C.数据仓库的数据是相对稳定的
D.数据仓库的数据是反映历史变化的
()是MicrosoftOffice的核心组件A.SQL
B.WORD
C.PPTD.EXCEL
数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理正确答案:
DAS代表的意思是()
A.两个异步存储
B.数据归档软件
C.连接一个可选的存储
D.直连存储正确答案:
大数据智能感知层:
主要包括()及软硬件资源接入系统
A.数据传感体系
B.网络通信体系
C.传感适配体系
D.智能识别体系
ABCD
层次方法可以分为()
A.K均值算法
B.K中心点算法
C.凝聚法
D.分裂法
CD
以下可以用于数据可视化的是()。
A.R语言B.ExcelC.RapidMinerD.Weka
社会信号数据的特点有()
A.规模大
B.空间覆盖率广
C.监测时间长
D.实时性
大数据在医疗中的应用有()
A.流行性疾病预防
B.慢性病健康管理
C.临床决策支持
D.医疗器械研发
对于数值属性,我们使用()来评估一个属性的值如何随另一个属性变化。
A.欧式距离
B.相关系数
C.协方差
BC
数据变换的常用方法有##,##,##,##
A.中心化变换
B.极差规格化变换
C.标准化变换
D.对数变换
数据清洗(DataCleaning)的方法有()
A.填充空缺值
B.清除数据中的噪声
C.识别或删除离群点并解决不一致性正确答案:
ABC
数据处理的两种方法是##,##
A.批处理
B.流处理
C.单个处理
D.交叉处理
AB
最常用的方式是企业自己搜集自己生产系统所产生的数据,除生产系统的数据外,企业的信息系统还充斥着大量的()等。
A.用户行为数据
B.日志式的活动数据
C.事件信息正确答案:
去除噪声使得数据光滑的技术主要有:
A.分箱
B.回归
C.离群点分析正确答案:
常见的非结构化数据有()
A.web网页
B.即时消息
C.富文本文档
D.实时多媒体数据正确答案:
下列属于传统统计学展示方法的是()
A.柱状图
B.饼状图
C.曲线图
D.网络图
可使用##,##,##进行光滑。
A.最大值
B.箱中位数
C.箱边界
D.箱均值
BCD
网络数据采集常用的是通过##或##等方式从网站上获取数据信息。
A.网络爬虫
B.网站公开API
C.手动获取正确答案:
分类是在给定数据基础上构建分类函数或分类模型,将数据划分到预定义的目标类中的某一种类别。
T.对
F.错
规则性分析(PrescriptiveAnalysis)用于解决决策制定和提高分析效率
原始交通数据记录是离散样本点而且可能不能映射到城市的道路网络中。
广播变量在广播后可以修改
FP-growth算法需要对数据库进行3次扫描
数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值。
IDC给出的大数据定义是大数据(BigData)是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多
样化的信息资产。
NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。
分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光;
不同类型的大数据可以揭示一个区域或城市的活动以及人口分布状态()
韩国政府利用位置信息和通话记录数据,规划出合理的公交线路,提升了政府科学决策和公共服务水平,提高了公众满意度。
大数据分为“结构化数据“与”非结构化数据”和“半结构化数据”。
在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。
只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。
数据共享联盟有望逐步壮大,成为产业、科研和学术界一个环环相扣的支撑环节和产业发展的核心环节。
分类是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。
组内相似度高,组间差异性大。
数据存储是数据流在加工过程中产生的临时文件或加工过程中需要查
找的信息。
云存储中用户需要按需付费并使用存储服务
发现满足最小支持度阈值的所有项集,这些项集被称为频繁项集。
噪声(noise)是被测量变量的随机误差或方差。
数据缺失是大数据库中常见的问题,产生的原因也是多种多样的。
主要包括机械原因和人为原因。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据导论 南开大学 19 学期 1709 1803 1809 1903 1909 数据 导论 在线 作业
![提示](https://static.bdocx.com/images/bang_tan.gif)
链接地址:https://www.bdocx.com/doc/13071150.html