南开大学19秋学期(1709、1803、1809、1903、1909)《数据科学导论》在线作业.docx
- 文档编号:138827
- 上传时间:2022-10-04
- 格式:DOCX
- 页数:7
- 大小:16.83KB
南开大学19秋学期(1709、1803、1809、1903、1909)《数据科学导论》在线作业.docx
《南开大学19秋学期(1709、1803、1809、1903、1909)《数据科学导论》在线作业.docx》由会员分享,可在线阅读,更多相关《南开大学19秋学期(1709、1803、1809、1903、1909)《数据科学导论》在线作业.docx(7页珍藏版)》请在冰豆网上搜索。
19秋学期(1709、1803、1809、1903、1909)数据科学导论在线作业
为了解决任何复杂的分类问题,使用的感知机结构应至少包含个隐含层。
A.1
B.2
C.3
D.4
正确答案B
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数
据挖掘的哪类问题
A.关联规则发现
B.聚类
C.分类
D.自然语言处理
正确答案A
只有非零值才重要的二元属性被称作,其中购物篮数据就属于这种属性。
A.计数属性
B.离散属性
C.非对称的二元属性对称属性
正确答案C
变量之间的关系一般可以分为确定性关系与。
A.非确定性关系
B.线性关系
C.函数关系
D.相关关系
正确答案A
BFR聚类是用于处理数据集的
k-means
变体。
A.大
B.中
C.小
D.所有
正确答案A
例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
正确答案B
数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,
脏数据不包括以下
A.普通值
B.异常值
C.不一致的值
D.重复值
正确答案A
层次聚类适合规模较的数据集
A.大
B.中
C.小
D.所有
正确答案C
某商品的产量X,件与单位成本Y,元/件之间的回归方程为Y100-1.2X,这说
明。
A.产量每增加一台,单位成本增加
100元
B.产量每增加一台,单位成本减少
1.2元
C.产量每增加一台,单位成本平均减少
1.2元
D.产量每增加一台,单位平均增加
100元
正确答案C
设X{1,2,3}是频繁项集,则可由
X产生个关联规则。
A.4
B.5
C.6
D.7
正确答案C
根据映射关系的不同可以分为线性回归和。
A.对数回归
B.非线性回归
C.逻辑回归
D.多元回归
正确答案B
多层感知机是由层神经元组成。
A.二
B.三
C.大于等于二层
D.大于等于三层
正确答案D
通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用
户可能存在窃漏电等异常行为属于数据变换中的
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
正确答案C
单层感知机是由层神经元组成。
A.一
B.二
C.三
D.四
正确答案B
比如一张表,从业务上讲,一个用户应该只会有一条记录,那么如果某个用户出现
了超过一条的记录,这就产生了
A.异常值
B.不一致的值
C.重复值
D.缺失值
正确答案C
我们需要对已生成的树进行剪枝,将树变得简单,从而使它具有更好的泛化能力。
A.自上而下
B.自下而上
C.自左而右
D.自右而左
正确答案B
一元线性回归中,真实值与预测值的差称为样本的。
A.误差
B.方差
C.测差
D.残差
正确答案D
以下哪一项不是特征工程的子问题
A.特征创建
B.特征提取
C.特征选择
D.特征识别
正确答案D
对于k近邻法,下列说法错误的是。
A.不具有显式的学习过程
B.适用于多分类任务
C.k值越大,分类效果越好
D.通常采用多数表决的分类决策规则
正确答案C
聚类的最简单最基本方法是。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
正确答案A
多层感知机的学习过程包含。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
正确答案AD
Apriori算法的计算复杂度受影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
正确答案ABCD
什么情况下结点不用划分
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
正确答案ABC
聚类的主要方法有。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
正确答案ABC
下列选项是BFR的对象是
A.废弃集
B.临时集
C.压缩集
D.留存集
正确答案ACD
关联规则的评价度量主要有。
A.支持度
B.置信度
C.准确率
D.错误率
正确答案AB
数据科学具有哪些性质
A.有效性
B.可用性
C.未预料
D.可理解
正确答案ABCD
系统日志收集的基本特征有
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
正确答案ABC
相关性的分类,按照相关的方向可以分为。
A.正相关
B.负相关
C.左相关
D.右相关
正确答案AB
距离度量中的距离可以是
A.欧式距离
B.曼哈顿距离
C.Lp
距离
D.Minkowski距离
正确答案ABCD
多层感知机的学习能力有限,只能处理线性可分的二分类问题。
T.对
F.错
正确答案B
阶跃函数具有不光滑、不连续的特点。
T.对
F.错
正确答案A
标准BP
算法是在读取全部数据集后,对参数进行统一更新的算法。
T.对
F.错
正确答案B
剪枝是决策树学习算法对付“过拟合”的主要手段
T.对
F.错
正确答案A
为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支
过少,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过
拟合
T.对
F.错
正确答案B
当训练集较大的时候,标准
BP算法通常会更快的获得更好的解。
T.对
F.错
正确答案A
方差过小的特征对数据的区分能力强
T.对
F.错
正确答案B
利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。
T.对
F.错
正确答案B
两个对象越相似,他们的相异度就越高。
T.对
F.错
正确答案B
给定一个数据集,如果存在某个超平面
S
能够将数据集的部分正实例点和负实例
点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。
T.对
F.错
正确答案B
一般而言,信息增益越大,则意味着使用属性
a
来进行划分所获得的“纯度提升越
大”,因此我们可用信息增益来进行决策树的最优特征选择。
T.对
F.错
正确答案A
决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进
行分割,使得各个子数据集有一个最好的分类的过程,这一过程对应着特征空间的
划分,也对应着决策树的构建
T.对
F.错
正确答案A
K-means聚类是发现给定数据集的
K
个簇的算法。
T.对
F.错
正确答案A
增加神经元的个数,无法提高神经网络的训练精度。
T.对
F.错
正确答案B
神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。
T.对
F.错
正确答案A
茎叶图失去原始数据的信息,而直方图保留原始数据的信息。
T.对
F.错
正确答案B
当特征为离散型时,可以使用信息增益作为评价统计量。
T.对
F.错
正确答案A
K-means算法采用贪心策略,通过迭代优化来近似求解。
T.对
F.错
正确答案A
对于分类数据,经常使用表格,来统计各种类别的数据出现的频率。
T.对
F.错
正确答案A
啤酒与尿布的故事是聚类分析的典型实例。
T.对
F.错
正确答案B
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据科学导论 南开大学 19 学期 1709 1803 1809 1903 1909 数据 科学 导论 在线 作业
链接地址:https://www.bdocx.com/doc/138827.html