CPDA重要知识点.docx
- 文档编号:9847265
- 上传时间:2023-02-07
- 格式:DOCX
- 页数:15
- 大小:21.19KB
CPDA重要知识点.docx
《CPDA重要知识点.docx》由会员分享,可在线阅读,更多相关《CPDA重要知识点.docx(15页珍藏版)》请在冰豆网上搜索。
CPDA重要知识点
二、单选题
1.检查异常值常用的统计图形是( )
A、柱状图
B、箱线图
C、帕累托图
D、气泡图
正确答案:
B
2.什么是KDD?
( )
A、数据挖掘与知识发现
B、领域知识发现
C、文档知识发现
D、动态知识发现
正确答案:
A
3.东北人养了一只鸡和一头猪。
一天鸡问猪:
"主人呢?
"猪说:
"出去买蘑菇了。
"鸡听了撒丫子就跑。
猪说:
"你跑什么?
"鸡叫道:
“有本事主人买粉条的时候你小子别跑!
"
以上对话体现了数据分析方法中的( )
A、关联
B、聚类
C、分类
D、自然语言处理
正确答案:
A
4.假设检验中显著性水平
是( )
A、推断时犯取伪错误的概率
B、推断时取伪弃真的概率
C、正确推断的概率
D、是推断的可信度
正确答案:
B
5.矩估计的基本原理是( )
A、用样本矩估计总体矩
B、使得似然函数达到最大
C、使得似然函数达到最小
D、小概率事件在一次试验中是不可能发生的
正确答案:
A
6.SQL查询语句中HAVING子句的作用是( )
A、指出分组查询的范围
B、指出分组查询的值
C、指出分组查询的条件
D、指出分组查询的内容
正确答案:
C
7.以下哪项关于决策树的说法是错误的( )
A、冗余属性不会对决策树的准确率造成不利的影响
B、子树可能在决策树中重复多次
C、决策树算法对于噪声的干扰非常敏感
D、寻找最佳决策树是NP完全问题
正确答案:
C
8.以下哪种方法不属于于监督学习模型( )
A、决策树
B、线性回归
C、关联分析
D、判别分析
正确答案:
C
9考虑下面的频繁3-项集的集合:
{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,若采用合并策略,则由候选产生过程得到4-项集不包含()
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、1,3,4,5
正确答案:
C
10.下列不属于原始数据来源的是( )
A、行政记录
B、统计调查
C、统计年鉴
D、实验
正确答案:
C
11.下列不属于分类算法的是( )
A、C4.5算法
B、逻辑回归
C、KNN算法
D、TF-TDF算法
正确答案:
D
12.相关分析与回归分析的一个重要区别是( )
A、前者研究变量之间关系的密切程度,后者研究变量间的变动关系,并用方程式表示
B、前者研究变量之间的变动关系,后者研究变量间关系的密切程度
C、两者都研究变量间的变动关系
D、两者都不研究变量间的变动关系
正确答案:
A
13.数据仓库是随着时间变化的,下面的描述不正确的是( )
A、数据仓库随时间的变化不断增加新的数据内容
B、捕捉到的新数据会覆盖原来的快照
C、数据仓库随时间变化不断删去旧的数据内容
D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合
正确答案:
C
14.资金的时间价值是( )
A、同一资金在同一时点上价值量的差额
B、同一资金在不同时点上价值量的差额
C、不同资金在同一时点上价值量的差额
D、不同资金在不同时点上价值量的差额
正确答案:
B
15.描述一组对称(或正态)分布数据的离散程度时,最适宜选择的指标是( )
A、极差
B、标准差
C、均值
D、变异系数
正确答案:
B
16.下列有关Apriori算法的说法中不正确的是( )
A、Apriori算法是关联分析中最常用的算法之一。
B、应用Apriori算法时,需要先设定模型的最小支持度、最小置信度等阈值。
C、应用Apriori算法时,输入的数据可以是连续型数据也可以是离散型数据。
D、Apriori算法扫描数据库的次数依赖于最大频繁项集中项的数量。
正确答案:
C
17.当置信水平一定时,置信区间的宽度( )
A、随着样本量的增大而减小
B、随着样本量的增大而增大
C、与样本量的大小无关
D、先随着样本量的增大而减小,到一定程度后会随着样本量的增大而增大。
正确答案:
A
18.一种商品价格变动与由此引起另外一种商品需求量相对变动的比率称为( )
A、需求价格弹性
B、供给价格弹性
C、需求交叉弹性
D、供给交叉弹性
正确答案:
C
19.分类器效果检验中的准确率是指( )
A、预测正确的数据在总数据中的比例
B、预测为正的数据在总数据中的比例
C、预测为正的数据中实际为正的数据所占比例
D、实际为正的数据中被预测为正的数据所占比例
正确答案:
C
20.给出下列结论:
(1)在回归分析中,可用指数系数R方的值判断模型的拟合效果,R方越大,模型的拟合效果越好;
(2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;
(3)在回归分析中,可用相关系数r的值判断模型的拟合效果,r越小,模型的拟合效果越好;
(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越宽,说明模型的拟合精度越高.
以上结论中,正确的有( )个.
A、1
B、2
C、3
D、4
正确答案:
A
21.维度规约是在以下哪个步骤的任务?
()
A、频繁模式挖掘
B、降维
C、数据预处理
D、数据流挖掘
正确答案:
C
22.假设属性income的最大最小值分别是12000元和98000元。
利用最大-最小规范化的方法将属性的值映射到0至1的范围内。
对属性income的73600元将被转化为()
A、0.751
B、0.163
C、0.457
D、0.716
正确答案:
D
23.假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:
使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为( )
A、15.7
B、18.3
C、19.7
D、以上都不对
正确答案:
B
24.EXCEL中,求标准差的函数是( )
A、AVERAGE
B、MEDIAN
C、MODE
D、STDEV
正确答案:
D
25.人们购买制冷用空调主要是为了在夏天获得凉爽空气,这属于空调产品整体概念中的()
A、有形产品
B、直接产品
C、核心产品
D、主要产品
正确答案:
C
26.贝叶斯决策是根据( )进行决策的一种方法。
A、极大似然概率
B、先验概率
C、边际概率
D、后验概率
正确答案:
D
27.某人欲为子女筹措250000元的留学经费,预计在8年内的每年年初在银行存入一笔款项,如银行存款年利率为8%,每年应存入金额为( )
A、23502.87
B、23505.20
C、12698.6
D、21762.67
正确答案:
D
28.指数平滑法可以用以下哪种指标来反映对时间序列资料的修正程度( )
A、平滑常数
B、指数平滑数初始值
C、跨越期
D、季节指数
正确答案:
A
29.某牙膏厂原来生产两面针药物牙膏,现在又增加牙刷生产,这属于( )
A、同心多元化
B、水平多元化
C、集团多元化
D、相关多元化
正确答案:
B
30.净现值、内部收益率、获利指数指标之间的数量关系是( )
A、当NPV>0时,IRR>i,PI<1
B、当NPV>0时,IRR>i,PI>1
C、当NPV<0时,IRR>i,PI<1
D、当NPV<0时,IRR>i,PI>1
正确答案:
B
三、多选题
1.以下关于皮尔森相关分析叙述正确的是( )
A、两变量独立,两者的皮尔森相关系数必然等于0
B、两变量皮尔森相关系数不等于0,两者必然不独立
C、皮尔森相关系数是否等于零,不能指明两变量是否独立
D、两变量不独立,两者的皮尔森相关系数必然不等于0
正确答案:
AB
2.在实际数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法有:
( )
A、直接删除
B、使用属性的平均值填充空缺值
C、使用一个全局常量填充空缺值
D、使用与给定元组属同一类的所有样本的平均值
正确答案:
ABCD
3.描述变量离期望值大小的指标是( )
A、方差
B、变异系数
C、标准差
D、期望
正确答案:
ABC
4.以下属于分类器评价或比较尺度的有( )
A、预测准确度
B、召回率
C、模型描述的简洁度
D、F1-Score
正确答案:
ABD
5.以下关于逻辑回归的说法正确的是( )
A、应用逻辑回归时,异常值会对模型造成很大的干扰。
B、逻辑回归的自变量必须是分类变量,因此要对连续型变量进行离散化处理。
C、逻辑回归对模型中自变量的多重共线性较为敏感。
D、逻辑回归属于分类算法。
正确答案:
ACD
6.下列项目中,其变动可以改变盈亏平衡点位置的因素有( )
A、单价
B、单位变动成本
C、销量
D、固定成本
正确答案:
ABCD
7.关于基准收益率的表述,正确的是( )
A、基准收益率越高越好
B、基准收益率越低越好,但不能低于银行贷款利率
C、可以采用项目加权平均资金成本为基础确定基准收益率
D、可以采用国家有关部门或行业统一发布的行业基准收益率
正确答案:
CD
8.数据离散化是指为了数据分析的需要,将连续数据转换为离散型数据的过程。
数据离散化的方法有( )
A、随机取值
B、等距离散法
C、数值规约
D、等频离散法
正确答案:
BD
9.根据分析内容和侧重面不同,风险分析的方法有( )
A、敏感性分析
B、概率分析
C、经济效益分析
D、盈亏平衡分析
正确答案:
ABD
10.以下说法正确的有( )
A、评价预测精度是通过测量与分析预测误差进行的
B、绝对误差是实际观测值与预测值的离差
C、相对误差反映实际观测值与预测值之间差异的相对程度
D、平均误差反映实际观测值与预测值之间的平均差异
正确答案:
ABCD
11.下列公式正确的是( )
A、流动资金=流动资产-流动负债
B、流动资产=应收账款+存货
C、流动负债=应付账款+预收账款
D、流动资金本年增加额=本年流动资金-上年流动资金
正确答案:
ACD
12.如下哪些不是基于规则的分类器的特点( )
A、规则集的表达能力远不如决策树好
B、基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分
C、无法被用来产生更易于解释的描述性模型
D、非常适合处理类分布不平衡的数据集
正确答案:
AC
13.以下有关随机森林算法的说法正确的是( )
A、随机森林算法的分类精度不会随着决策树数量的增加而提高。
B、随机森林算法对异常值和缺失值不敏感。
C、随机森林算法不需要考虑过拟合问题。
D、决策树之间相关系数越低、每棵决策树分类精度越高的随机森林模型的分类效果越好。
正确答案:
ABD
14.以下算法中对缺失值敏感的有( )
A、Logistic回归
B、SVM算法
C、CART决策树
D、朴素贝叶斯
正确答案:
AB
15.层次聚类的聚类方式有( )
A、凝聚方式聚类
B、分解方式聚类
C、Q型聚类
D、R型聚类
正确答案:
AB
1.方差分析的基本假设前提包括( )
A、各处理条件下的样本均来自正态总体
B、各处理条件下的样本相互独立
C、各处理条件下样本的方差都相等
D、各处理条件下样本均值相等,方差可以不等
正确答案:
ABC
2.按照性质,预测方法大致可分为( )。
A、定性预测
B、情景预测
C、时间序列预测
D、回归预测
正确答案:
ACD
18.下列关于统计量的表述中,正确的有( )
A、估计同一个总体参数可以用多个不同的统计量
B、统计量是样本的函数
C、统计量不含有总体的参数
D、统计量是随机变量
正确答案:
ABD
19.在假设检验中,犯一类错误的概率
和犯第二类错误的概率
的关系是( )
A、只能直接控制
,不能直接控制
B、
和
不可能同时减小
C、在其他条件不变的情况下,增大
,必然后减小
D、在其他条件不变的情况下,增大
,必然后增大
E、增加样本容量可以同时减小
和
正确答案:
ACE
20.概率密度曲线( )
A、位于X轴的上方
B、在X轴上下摆动
C、与X轴之间的面积为1
D、与X轴之间的面积为0
正确答案:
AC
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CPDA 重要 知识点