奥鹏南开课程考试《数据分析》19秋期末考核.docx
- 文档编号:24693197
- 上传时间:2023-05-31
- 格式:DOCX
- 页数:15
- 大小:18.79KB
奥鹏南开课程考试《数据分析》19秋期末考核.docx
《奥鹏南开课程考试《数据分析》19秋期末考核.docx》由会员分享,可在线阅读,更多相关《奥鹏南开课程考试《数据分析》19秋期末考核.docx(15页珍藏版)》请在冰豆网上搜索。
奥鹏南开课程考试《数据分析》19秋期末考核
并行算法包括()
A.MapRedce
B.关联分析
C.KNN
D.Kmeans
正确答案:
A
维克托?
迈尔-舍恩伯格在《大数据时代:
生活、工作与思维的大变革》一书中,持续强调了一个观点:
大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。
其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()
A.K-means
B.BayesNetwork
C.C4.5
D.Apriori
正确答案:
D
决策树学习应用()准则选择特征
A.经验条件熵
B.经验熵
C.互信息
D.信息增益
正确答案:
D
以下哪个会降低Apriori算法的挖掘效率()
A.支持度阈值增大
B.项数减少
C.事务数减少
D.减小硬盘读写速率
正确答案:
D
算法中用到了外存的算法是()
A.随机算法
B.外存算法
C.并行算法
D.Anytime算法
正确答案:
B
LDA导入先验分布是为了应对()现象
A.欠拟合
B.话题识别不准
C.过拟合
D.分词困难
正确答案:
C
数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段()。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
正确答案:
A
皮尔森相关系数的变化分为是()
A.[0,1]
B.[-1,1]
C.[-1,0]
D.[0.5,1]
正确答案:
B
评估模型的分类预测准确率,使用()进行评估;
A.训练数据集
B.验证数据集
C.测试数据集
D.未知数据
正确答案:
C
向量空间模型中,用一个()表示语义
A.向量
B.特征
C.数字
D.距离
正确答案:
A
闵式距离参数是()时代表曼哈顿距离
A.0
B.1
C.2
D.无穷
正确答案:
B
为了计算中介度,必须计算所有边上()的数目。
A.所有路径
B.最短路径
C.结点入度
D.节点出度
正确答案:
B
聚类属于()
A.有监督学习
B.无监督学习
C.强化学习
D.对抗学习
正确答案:
B
聚合聚类算法的代表是()
A.AGNES
B.Apriori
C.KNN
D.FP-Growth
正确答案:
A
逻辑回归优化的目标函数为()
A.极大似然估计
B.对数似然函数
C.特征独立假设
D.贝叶斯定理
正确答案:
B
支持向量机的MapReduce实现要进行几轮MapReduce()
A.1
B.2
C.3
D.自行规定
正确答案:
D
潜在语义分析中,以()表示文本的语义内容
A.话题
B.话题向量
C.语义向量
D.距离向量
正确答案:
B
向量空间的度量,表示文本之间的()。
A.关系
B.相似度
C.语义关系
D.语义相似度
正确答案:
D
度量距离中,表示各个坐标距离最大值的是()
A.欧氏距离
B.曼哈顿距离
C.切比雪夫距离
正确答案:
C
KNN算法用MapReduce实现,要进行几轮MapReduce()
A.1
B.2
C.3
D.4
正确答案:
B
大数据在社交网络中的应用
A.用户偏好、情感、社交网络结构
B.用户画像、精准推荐
C.舆情监控、突发事件预警
D.预测外部趋势
正确答案:
ABCD
交通数据分析可用于:
A.交通流量实时分析
B.合理进行道路规划
C.信号灯智能调度
D.实时路况查询播报
正确答案:
ABCD
常见的推荐系统算法包括()
A.基于流行度的推荐算法
B.基于内容的推荐算法
C.协同过滤推荐算法
正确答案:
ABC
KNN模型由哪些基本要素决定()
A.距离度量
B.特征选择
C.k值的选择
D.分类决策规则
正确答案:
ACD
大数据聚类分析中,归并依据的是()
A.特征的相似度
B.特征的距离
C.特征显著性
D.置信度
正确答案:
AB
Q型聚类的结果具有()的特点
A.直观
B.细致
C.全面
D.合理
正确答案:
ABCD
下列属于分类算法的有()。
A.k近邻法
B.朴素贝叶斯
C.支持向量机
D.随机森林
正确答案:
ABCD
基于聚类结构的分类有()
A.Q型聚类
B.凝聚方式
C.R型聚类
D.分解方式
正确答案:
AC
回归分析方法中,按照输入变量个数分类,可分为
A.一元回归
B.多元回归
C.线性回归
D.非线性回归
正确答案:
AB
决策树的生成过程是()
A.递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类
B.如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去
C.构建根结点,将所有训练数据都放在根结点
D.选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类
E.如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点
正确答案:
ABCDE
统计学习的重要性()
A.统计学习是处理海量数据的有效方法
B.统计学习是计算机智能化的有效手段
C.统计学习是计算机科学发展的一个重要组成部分
正确答案:
ABC
向量空间模型中,是将()看成()
A.文档
B.单词
C.词袋
D.编码
正确答案:
AB
差异性可以用()度量
A.准确率
B.损失函数
C.距离
D.相似性
正确答案:
CD
下列属于朴素贝叶斯缺点的是()
A.分类效果不稳定
B.不适合增量式训练
C.先验模型可能导致结果不佳
D.对缺失数据不太敏感
正确答案:
CD
潜在语义分析中,要同时决定两部分内容,是(),使两者的乘积是原始矩阵数据的近似。
A.话题空间
B.文本在话题空间的表示
C.话题维度
D.词向量空间
正确答案:
AB
随机游走的马尔可夫链中,互联网中的每一个网页就是马尔可夫链中的一个();该马尔可夫链平稳时每个状态停留的概率即反映了相应网页的()。
A.序列
B.隐变量
C.状态
D.重要程度
正确答案:
CD
大数据四大特征包括()
A.数据量大
B.数据类型繁多
C.数据价值密度相对较低
D.处理速度快,时效性要求高
正确答案:
ABCD
下列哪些任务适合构建分类模型()
A.银行业务中,客户申请贷款,根据客户的相关数据分析他是属于“诚信”类还是“失信”类
B.邮件系统可以根据email标题和内容区分出垃圾邮件
C.医学研究人员根据病理数据,合理辨识病情状况,采取合理治疗手段
D.房价预测
正确答案:
ABC
聚合聚类的三个要素是()
A.相似度
B.置信度
C.合并规则
D.停止条件
正确答案:
ACD
大数据在电信中的应用有
A.基于用户、业务及流量分级的多维管控机制
B.精准的客户分析及营销
C.利用位置和轨迹信息服务社会
正确答案:
ABC
kNN不需存储所有的样本
T.对
F.错
正确答案:
B
如果一味追求提高对训练数据的预测能力,所选模型的复杂度往往比镇魔性更高,这种现象称为欠拟合
T.对
F.错
正确答案:
B
边的中介度定义为任意节点对的数目。
()
T.对
F.错
正确答案:
B
类的均值,又称为类的中心。
()
T.对
F.错
正确答案:
A
MapReduce模型中,程序员不必关心并行计算、容错、数据分布、负载均衡等复杂的细节。
()
T.对
F.错
正确答案:
A
ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征,递归地构建决策树。
T.对
F.错
正确答案:
B
DAG中的父节点是唯一的。
T.对
F.错
正确答案:
B
kNN算法中,选择较大的k值“学习”的估计误差会减小。
()
T.对
F.错
正确答案:
A
决策树模型的缺点是分类效率低。
()
T.对
F.错
正确答案:
B
强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题
T.对
F.错
正确答案:
A
试比较PageRank算法和HITS算法。
正确答案:
相同点:
两者都是为了提高搜索引擎查找质量而提出的两种不同算法。
不同点:
1)两者对网页的描述形式不同。
PageRank算法只用一个量值来表示网页的重要程度,而HITS算法对网页从权威性和集线性两个不同的方面来进行描述。
2)两者的理论基础不同。
虽然两者的迭代算法都利用了特征向量作为理论基础和收敛性依据,但PageRank算法更具理论支持,它用马尔可夫随机游走来建模,并用马氏链的理论来进行解释;而HITS算法更多是基于人的直观,缺乏很好的理论模型。
3)两者计算所选取的链接网络不同。
PageRank算法与用户查询无关,针对的是整个互联网的链接结构图,所有处理过程都是离线进行的,不会为实时在线查询过程付出额外的代价。
HITS算法则不同,它依赖于特定的查询,是针对与特定查询相关的互联网子图来进行计算,规模上的极大减小可以使HITS算法的迭代收敛速度比PageRank算法要快得多。
但因为与查询相关,所以查询过程以及扩展根集的过程都需要付出代价,还有可能在扩展过程中,引入大量的噪声信息,造成主题漂移出现。
以前的研究工作已经证明HITS算法的性能跟PageRank算法旗鼓相当、不相上下。
简述k近邻法的核心思想、基本算法过程,并分析其优缺点。
正确答案:
k近邻法的核心思想是,如果一个样本在特征空间的k个最相邻样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。
k近邻的优点:
简单,易于理解,易于实现,无需估计参数,对噪声数据不敏感。
缺点:
需要存储所有的样本,空间复杂度高;计算复杂度高。
层次聚类算法分为哪两种方法?
简述这两个层次聚类算法。
正确答案:
层次聚类算法是假设类别之间存在层次结构,将样本聚到层次化的类中。
层次聚类又有聚合或自底向上聚类、分裂或自顶向下聚类两种方法。
聚合聚类开始将每个样本各自分到一个类,之后将相距最近的两类合并,建立一个新的类,重复此操作直到满足终止条件,得到层次化的类别。
分裂聚类开始将所有样本分到一个类,之后将已有类中相距最远的样本分到两个新的类,重复此操作直到满足停止条件,得到层次化的类别。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据分析 南开 课程 考试 数据 分析 19 期末 考核