《数据科学导论》19秋期末 参考资料Word下载.docx
- 文档编号:18758463
- 上传时间:2023-01-01
- 格式:DOCX
- 页数:10
- 大小:17.79KB
《数据科学导论》19秋期末 参考资料Word下载.docx
《《数据科学导论》19秋期末 参考资料Word下载.docx》由会员分享,可在线阅读,更多相关《《数据科学导论》19秋期末 参考资料Word下载.docx(10页珍藏版)》请在冰豆网上搜索。
A数值型数据
B字符型数据
C语音数据
D所有数据
5聚类是一种()。
A有监督学习
B无监督学习
C强化学习
D半监督学习
6在一元线性回归模型中,残差项服从()分布。
A泊松
B正态
C线性
D非线性
7利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A最小化方差#最小化标准差
B最小化残差平方和
C最大化信息熵
8例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A简单函数变换
B规范化
C属性构造
D连续属性离散化
9数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A异常值
B缺失值
C不一致的值
D重复值
10单层感知机是由()层神经元组成。
A一
B二
C三
D四
11BFR聚类用于在()欧氏空间中对数据进行聚类
A高维
B中维
C低维
D中高维
12聚类的最简单最基本方法是()。
A划分聚类
B层次聚类
C密度聚类
D距离聚类
13只有非零值才重要的二元属性被称作:
(),其中购物篮数据就属于这种属性。
A计数属性
B离散属性
C非对称的二元属性#对称属性
14单层感知机拥有()层功能神经元。
15通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
16在回归分析中,自变量为(),因变量为()。
A离散型变量,离散型变量
B连续型变量,离散型变量
C离散型变量,连续型变量
D连续型变量,连续型变量
17置信度(confidence)是衡量兴趣度度量()的指标。
A简洁性
B确定性
C实用性
D新颖性
18数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()
A普通值
B异常值
19具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A1,线性
B2,线性
C1,非线性
D2,非线性
20以下哪一项不属于数据变换()
C属性合并
21Apriori算法的计算复杂度受()影响。
A支持度阈值
B项数
C事务数
D事务平均宽度
2多选题
1层次聚类的方法是()
A聚合方法
B分拆方法
C组合方法
D比较方法
2多层感知机的学习过程包含()。
A信号的正向传播
B信号的反向传播
C误差的正向传播
D误差的反向传播
3K-means聚类中K值选取的方法是()。
A密度分类法
B手肘法
C大腿法
D随机选取
4下面例子属于分类的是()
A检测图像中是否有人脸出现
B对客户按照贷款风险大小进行分类
C识别手写的数字
D估计商场客流量
5关联规则的评价度量主要有:
()。
A支持度
B置信度
C准确率
D错误率
6k近邻法的基本要素包括()。
A距离度量
Bk值的选择
C样本大小
D分类决策规则
7什么情况下结点不用划分()
A当前结点所包含的样本全属于同一类别
B当前属性集为空,或是所有样本在所有属性上取值相同
C当前结点包含的样本集为空
D还有子集不能被基本正确分类
8系统日志收集的基本特征有()
A高可用性
B高可靠性
C可扩展性
D高效率
9下列选项是BFR的对象是()
A废弃集
B临时集
C压缩集
D留存集
10对于多层感知机,()层拥有激活函数的功能神经元。
A输入层
B隐含层
C输出层
11一元回归参数估计的参数求解方法有()。
A最大似然法
B距估计法
C最小二乘法
D欧式距离法
12数据科学具有哪些性质()
A有效性
B可用性
C未预料
D可理解
13聚类的主要方法有()。
14相关性的分类,按照相关的方向可以分为()。
A正相关
B负相关
C左相关
D右相关
15交叉表可以帮助人们发现变量之间的相互作用。
T对
F错
3判断题
1标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。
2关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。
3当特征为离散型时,可以使用信息增益作为评价统计量。
4给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。
5不满足给定评价度量的关联规则是无趣的。
6两个对象越相似,他们的相异度就越高。
7决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布
8特征的信息增益越大,则其越不重要。
9信息熵越小,样本结合的纯度越低
10如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
11EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。
12当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
13多元线性回归模型中,标准化偏回归系数没有单位。
14决策树分类时将该结点的实例强行分到条件概率大的那一类去
15每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
16K均值(K-Means)算法是密度聚类。
17关联规则可以用枚举的方法产生。
18获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
19啤酒与尿布的故事是聚类分析的典型实例。
20决策树的基本组成由结点和有向边组成,其中结点分为哪两种类型和代表含义是什么?
以及决策树的基本思想?
1).结点有两种类型:
内部结点和叶节点,内部结点表示一个特征或属性,叶结点表示一个类。
2).决策树的基本思想:
从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;
每个子节点对应着该特征的取值,如此递归地对实例进行测试并分配,直至到达叶结点,最后将实例分到叶结点的类中。
<
br>
4论述题
1单层感知机和多层感知机分别解决的是哪类问题?
1).单层感知机只能解决线性可分的问题;
2).多层感知机可以解决非线性可分的问题。
5简答题
1什么是神经网络?
神经网络中最基本的成分是什么?
1).神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。
2).神经网络中最基本的成分是神经元模型。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据科学导论 数据科学导论19秋期末 参考资料 数据 科学 导论 19 期末