南开大学《数据科学导论》20秋在线作业参考答案.docx
- 文档编号:12637534
- 上传时间:2023-04-21
- 格式:DOCX
- 页数:12
- 大小:17.22KB
南开大学《数据科学导论》20秋在线作业参考答案.docx
《南开大学《数据科学导论》20秋在线作业参考答案.docx》由会员分享,可在线阅读,更多相关《南开大学《数据科学导论》20秋在线作业参考答案.docx(12页珍藏版)》请在冰豆网上搜索。
南开大学《数据科学导论》20秋在线作业参考答案
1.以下哪一项不是特征选择常见的方法?
()
A.过滤式
B.封装式
C.嵌入式
D.开放式
答案:
D
2.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A.最小化方差
B.最小化残差平方和
C.最大化信息熵
D.最小化标准差
答案:
C
3.以下哪些不是缺失值的影响?
()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
答案:
C
4.下列两个变量之间的关系中,哪个是函数关系?
()
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
答案:
C
5.哪一项不属于规范化的方法?
()
A.最小—最大规范化
B.零—均值规范化
C.小数定标规范化
D.中位数规范化
答案:
D
6.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
()
A.关联规则发现
B.聚类
C.分类
D.自然语言处理
答案:
A
7.考虑下面的频繁3-项集的集合:
{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5};假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()。
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
答案:
C
8.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。
A.1
B.2
C.3
D.4
答案:
B
9.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A.4
B.5
C.6
D.7
答案:
C
10.以下哪一项不属于数据变换?
()
A.简单函数变换
B.规范化
C.属性合并
D.连续属性离散化
答案:
C
11.一元线性回归中,真实值与预测值的差称为样本的()。
A.误差
B.方差
C.测差
D.残差
答案:
D
12.聚类的最简单最基本方法是()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
答案:
A
13.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
答案:
A
14.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A.最优回归线
B.最优分布线
C.最优预测线
D.最佳分布线
答案:
A
15.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大
答案:
B
16.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
答案:
C
17.对于k近邻法,下列说法错误的是()。
A.不具有显式的学习过程
B.适用于多分类任务
C.k值越大,分类效果越好
D.通常采用多数表决的分类决策规则
答案:
C
18.实体识别属于以下哪个过程?
()
A.数据清洗
B.数据集成
C.数据规约
D.数据变换
答案:
B
19.在回归分析中,自变量为(),因变量为()。
A.离散型变量,离散型变量
B.连续型变量,离散型变量
C.离散型变量,连续型变量
D.连续型变量,连续型变量
答案:
D
20.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A.越小
B.越大
C.无关
D.不确定
答案:
B
21.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
答案:
AB
22.系统日志收集的基本特征有()。
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
答案:
ABC
23.Apriori算法的计算复杂度受()影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
答案:
ABCD
24.距离度量中的距离可以是()。
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
答案:
ABCD
25.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
答案:
ABD
26.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
答案:
AD
27.一元回归参数估计的参数求解方法有()。
A.最大似然法
B.距估计法
C.最小二乘法
D.欧式距离法
答案:
ABC
28.什么情况下结点不用划分?
()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
答案:
ABC
29.数据科学具有哪些性质?
()
A.有效性
B.可用性
C.未预料
D.可理解
答案:
ABCD
30.下面例子属于分类的是()。
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
答案:
ABC
31.剪枝是决策树学习算法对付“过拟合”的主要手段。
()
A.正确
B.错误
答案:
A
32.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
()
A.正确
B.错误
答案:
B
33.相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
()
A.正确
B.错误
答案:
B
34.分拆方法是自底向上的方法。
()
A.正确
B.错误
答案:
B
35.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
()
A.正确
B.错误
答案:
A
36.在数据预处理时,无论什么情况,都可以直接将异常值删除。
()
A.正确
B.错误
答案:
B
37.对于项集来说,置信度没有意义。
()
A.正确
B.错误
答案:
A
38.给定关联规则A→B,意味着:
若A发生,B也会发生。
()
A.正确
B.错误
答案:
B
39.信息熵越小,样本结合的纯度越低。
()
A.正确
B.错误
答案:
B
40.聚合方法是自底向上的方法。
()
A.正确
B.错误
答案:
A
41.BFR聚类簇的坐标可以与空间的坐标保持一致。
()
A.正确
B.错误
答案:
B
42.集中趋势能够表明在一定条件下数据的独特性质与差异。
()
A.正确
B.错误
答案:
B
43.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。
()
A.正确
B.错误
答案:
B
44.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能。
()
A.正确
B.错误
答案:
A
45.数据科学运用科学方法分析数据,位于几个学科的交叉点并利用领域特定的知识,使大数据的分析成为可能。
()
A.正确
B.错误
答案:
A
46.使用SVD方法进行图像压缩不可以保留图像的重要特征。
()
A.正确
B.错误
答案:
B
47.K均值(K-Means)算法是密度聚类。
()
A.正确
B.错误
答案:
B
48.K-means算法采用贪心策略,通过迭代优化来近似求解。
()
A.正确
B.错误
答案:
A
49.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
()
A.正确
B.错误
答案:
B
50.特征的信息增益越大,则其越不重要。
()
A.正确
B.错误
答案:
B
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据科学导论 南开大学 数据 科学 导论 20 在线 作业 参考答案