数据仓库面试题.docx
- 文档编号:9147982
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:6
- 大小:18.45KB
数据仓库面试题.docx
《数据仓库面试题.docx》由会员分享,可在线阅读,更多相关《数据仓库面试题.docx(6页珍藏版)》请在冰豆网上搜索。
数据仓库面试题
数据仓库及BI工程师面试题集锦
前言
K介绍一下项目经验、项目中的角色。
一、数据库
1、Oracle数据库,视图与表的区别?
普通视图与物化视图的区别?
物化视图的作用?
i.视图与表的区别
1.1、视图是已经编译好的sql语句。
而表不是
2.视图没有实际的物理记录。
而表有。
3.表是内容,视图是窗口
4.表只用物理空间而视图不占用物理空间,视图只是逻辑概念的存在,表可以及时四对它进行修改,但视图只能有创建的语句来修改
ii.物化视图与视图区别
1.物化视图和视图差别非常大,不是几句能说清物化视图是自动刷新或者手动刷新的,视图不用刷新物化视图也可以直接update,但是不影响basetabIe,对视图的update反映到basetab
AHA12GAGGAGAGGAFFFFAFAF
le上物化视图主要用于远程数据访问,物化视图中的数据需要占用磁盘空间,视图中不保存数据。
2、Oracle数据库,有哪几类索引,分别有什么特点?
a)1.单列索引与复合索引
b)一个索引可以由一个或多个列组成,用来创建索引的列被称为“索引列”。
c)单列索引是基于单列所创建的索引,复合索引是基于两列或者多列所创建的索引。
d)2.唯一索引与非唯一索引
e)唯一索引是索引列值不能重复的索引,非唯一索引是索引列可以重复的索引。
f)无论是唯一索引还是非唯一索引,索引列都允许取NULL值。
默认情况下,Oracle创建的索引是不唯一索引。
g)3.B树索引
h)B树索引是按B树算法组织并存放索引数据的,所以
B树索引主要依赖其组织并存放索引数据的算法来实现快速检索功能。
i)4.位图索引
j)位图索引在多列查询时,可以对两个列上的位图进行AND和OR操作,达到更好的查询效果。
k)5.函数索引
l)Oracle中不仅能够直接对表中的列创建索引,还可以对包含列的函数或表达式创建索引,这种索引称为“位图索引”。
3、Union与UnionAII的区别?
a)Union会对查询结果进行排序去重,效率比unionaII低,unionall只是两个查询集的合并操作。
建议使用Unionall,查询出来后再对数据进行去重操作。
4、对游标的理解?
游标的分类?
使用方法?
游标是映射在结果集中一行数据的位置实体,有了游标,用户就可以访问结果集中的任何一条数据。
游标分为静态游标和REF游标,静态游标分为显示游标和隐式游标,显示游标使用步骤是声明游标,打开游标,获取记录,关闭游标。
所有的DML语句为隐式游标,可以从游标的属性获得sql语句的信息。
REF游标是动态关联结果集的临时对象,使用步骤也是先要进行声明游标,然后打开游标,获取记录,关闭游标。
5、如何查找和删除表中的重复数据?
给出方法或SQL。
查询表中重复数据。
SeIect*frompeopIewhereidin(SelectidfrompeopIegroupbyidhavingcount(id)>1);
DeIetefrompeopIewhereidin(seIectidfrompeopIegroupbyidhavingcount(id)>1)androwidnotin(selectmin(rowid)frompeopIegroupbyidhacingcount(id)>1);
创建索引有哪些需要注意的要点?
a)一般来说,不需要为比较小的表创建索引(数据占用存储空间小)
b)即使是大表,如果经常需要查询的数据不超过10%到15%的话,那就没有必要为其建立索引的必要。
c)如对于一些重复内容比较少的列,特别是对于那些定义了唯一约束的列。
在这些列上建立索引,往往可以起到非常不错的效果。
d)数据库管理员,需要隔一段时间,如一年,对数据库的索引进行优化。
该去掉的去掉,该调整的调整,以提高数据库的性能。
e)通常来说,表的索引越多,其查询的速度也就越快。
但是,表的更新速度则会降低。
这主要是因为表的更新(如往表中插入一条记录)速度,反而随着索引的增加而增加。
f)对于一些数据仓库或者决策型数据库系统,其主要用来进行查询。
g)位图索引。
基数是位图索引中的一个基本的定义,它是指数据库表中某个字段内容中不重复的数值。
6、Oracle数据库中,有哪几种分区?
各自特点是什么?
作用是什么?
分区索引的分类和作用?
范围分区,散列分区,复合分区,索引分区
7、表T(a,b,c,d),要根据字段c排序后取第21—30条记录显示,请给出sqIo
seIect*from(seIectc.*,rownumasrnfrom(seIect*fromtorderbyc)c)wherernberween21and30;
8、怎样优化数据库?
i.首先应确定那里出现性能问题,一般一个调度时常
都会有时间log记录,若发现某个调度时间过长,那么我们可以使用oracle自带profiIer进行诊断出该模块出现性能问题的sqL
ii.找出问题sql后对表大小进行分析,知道哪些是大表和小表。
iii.查看该sql执行计划(用autotrace)即可大概找出问题原因。
iv.查询方面:
查看是否未走索引,或sql写法中有运算或◊等影响走索引条件,或并未对关键关联字段创建索引,必要情况重建索引。
v.删除更新情况,尽量使用rowido
9、华为开发流程是什么(CMMI)
a)华为接口人或业务提出需求文档。
b)我们根据需求文档写入概要设计。
c)根据概要设计进行开发。
d)开发完成后进行Ut测试。
e)编写详细设计。
f)上线后编写产品文档。
二、ETL工具
kInformatica中,Update组件叫什么?
更新机制?
2.Informatica中丄ookUp组件有哪几类?
区别是什么?
3.Informatica中,如何调用存储过程?
4.Informatica中,工作流控制有哪些组件?
5、Informatica优化方案?
6、DataStage的JOB有哪些类型?
特点分别是什么?
7、DataStage中,如何设置paraIIeIjob并行运行?
8、DataStage中,JoinStage与LookupStage组件在使
用上有何区别?
9、DataStage的优化方案?
10.什么是维度?
人们观察数据的特定角度。
例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。
这里的时间、地区和产品就是维。
11.事实表、维度表是什么?
12.事实表:
就是所有需要统计值的表;维度表:
根据时间或地区需要分析的数据表。
13.DW维表分类
a)1.一致性维度
b)2.杂项维度
03.角色类
14、缓慢变化维
a)随着时间的推移维度中的属性,慢慢会改变。
例如一个产品销售地区之前为国内省,现在上国际,为各个国家。
15、ETL分别是"Extract"、“Transform”、"Load”。
16、datastage优点
a)优点在于,把复杂的工作,分解成,易查错的job。
三、模型设计
1、有哪几种模型设计方法?
特点分别是什么?
2、模型设计的步骤?
确定该业务过程每个事实表的粒度
确定维度的属性
确定维度的层次
确定每个事实所需要关联的维度
确定数字型事实,包括预先计算的
确定缓慢变化维
3、维度模型的设计方法?
4、模型设计的思路?
业务需求驱动?
数据驱动?
3、模型设计经验说明。
在概念模型设计、逻辑模型设计
以及物理模型设计几个阶段主要的工作是什么?
四、Cognos开发
kCube刷新方案?
2、报表数据权限控制方案?
3、Cube增量刷新方案?
五、Shell开发
1、在Unix/Linux中,查看磁盘空间可以用哪些命令?
2、在Unix/Linux中,压缩和解压缩文件可以用哪些命
令?
3、sed命令的作用?
4、在Unix/Linux中,添加用户用什么命令?
5、在Unix/Linux中,查看文件行数什么命令?
六、数据仓库设计
-增量数据获取方案?
2、请解释以下概念:
数据集市、事实表、维度表、OLAP
3、元数据管理在数据仓库中的运用有何心得?
4、数据仓库系统的数据质量如何保证?
方案?
5、数据仓库系统组件接口设计方案?
七、项目管理
八、其他
1、能否出差?
2、期望薪资待遇多少?
3、个人发展方向?
4、如有侵权请联系告知删除,感谢你们的配合!
5、
6、
7.6C»仗Sft:
01:
3463M1S9今%讽♦l-Sfe659e13t:
6N=b
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 试题