最新数据仓库商业智能相关面试题带答案.docx
- 文档编号:2298189
- 上传时间:2022-10-28
- 格式:DOCX
- 页数:13
- 大小:28.14KB
最新数据仓库商业智能相关面试题带答案.docx
《最新数据仓库商业智能相关面试题带答案.docx》由会员分享,可在线阅读,更多相关《最新数据仓库商业智能相关面试题带答案.docx(13页珍藏版)》请在冰豆网上搜索。
最新数据仓库商业智能相关面试题带答案
1商务智能
1.1数据仓库
1.1.1数据仓库的4大特点(特征)?
面向主题的,集成的,相对稳定的,反映历史变化的。
1.1.2数据仓库的四个层次体系结构?
1.数据源
是数据仓库系统的基础,是整个系统的数据源泉。
通常包括企业内部信息和外部信息。
内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。
外部信息包括各类法律法规、市场信息和竞争对手的信息等等;
2.数据的存储与管理
是整个数据仓库系统的核心。
数据仓库的真正关键是数据的存储和管理。
数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。
要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。
针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。
数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)
3.OLAP服务器
对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。
其具体实现可以分为:
ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理)。
ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
4.前端工具
主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。
其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
1.1.3描述一下联机分析处理OLAP?
(维的概念,基本多维操作,层次结构,与OLTP的区别)
OLAP(联机分析处理On-LineAnalyticalProcessing)也叫多维DBMS。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
也叫做多维数据集。
一般一个多维数据集可以用一个立方体的方式进行描述。
多维数据集是联机分析处理(OLAP)中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术。
多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。
每个多维数据集都有一个架构,架构是数据仓库中已联接的各表的集合,多维数据集从数据仓库提取其源数据。
架构中的核心表是事实数据表,事实数据表是多维数据集度量值的源。
OLAP的基本多维分析操作有钻取(rollup和drilldown)、切片(slice)和切块(dice)、以及旋转(pivot)、drillacross、drillthrough等。
·钻取是改变维的层次,变换分析的粒度。
它包括向上钻取(rollup)和向下钻取(drilldown)。
rollup是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drilldown则相反,它从汇总数据深入到细节数据进行观察或增加新维。
·切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。
如果剩余的维只有两个,则是切片;如果有三个,则是切块。
·旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
1.1.4多维数据集为什么显示有些表即是事实表又是维度表?
退化维度。
1.1.5描述一下粒度?
维度?
Cube?
粒度反映了数据仓库按照不同的层次组织数据,根据不同的查询需要,存储不同细节的数据。
在数据仓库中,粒度越小,数据越细,查询范围就越广泛。
相反,粒度级别越高,表示细节程度越低,查询范围越小。
1.1.6描述一下ODS,统一数据视图
运营数据存储(Theoperationaldatastore,ODS)或称操作型数据存储是一个面向主题的、集成的、当前的并且是可"挥发"的数据集合,它反映了在某一个时间切片瞬间,经营分析系统和外围系统(BOSS、MIS...)用以相互交换数据的集合,主要用于经营分析系统与外围系统关键数据一致性校验、以及经营分析系统对其它外围系统的决策支持数据的回馈,回馈数据包括以客户扩展属性为主体的详细资料等。
运营数据存储扮演的是用于数据稽核与交互的角色。
ODS的存储结构是以企业范围所有相关业务系统的数据,以全面、统一进行关系型实体来体现的,ODS中的数据是基于分析主题进行组织,而不是基于业务系统的功能进行组织。
ODS只是存储了当前的数据且数据是“挥发”性的,因此其数据的刷新是很快,过期的数据将要被挥发掉。
因此ODS的存储量取决于业务接口数据的抽取与刷新频率,取决于企业的服务客户的数量。
从ODS的作用和实现来说,ODS将各个孤立的业务系统的运营数据集成起来,现成全企业的统一数据视图,同时可实现ODS的数据共享。
1.1.7描述一下企业信息工厂
数据仓库领域里,有一种构建数据仓库的架构,叫CorporateInformationFactory,中文一般翻译为“企业信息工厂”。
企业信息工厂的创始人是数据仓库之父Inmon。
企业信息工厂主要包括集成转换层(I&T)、操作数据存储(ODS)、数据仓库(EDW)、数据集市(DM)、探索仓库(EW)等部件。
这些部件有机的结合在一起,为企业提供信息服务。
集成转换层的目的是将来自操作型源系统的数据集成转换到数据仓库中,它通常由一组程序组成,而其它部件如数据仓库和数据集市等则主要由数据组成。
当业务数据来源多,业务复杂时,集成转换层会建立一些临时表,为数据处理提供方便。
这时,集成转换层包括程序和数据,也称数据准备区(DataStagingArea)。
通常中等规模及以上的数据仓库系统都会建立数据准备区。
操作数据存储(ODS)是建立在数据准备区和数据仓库之间的一个部件。
用来满足企业集成的、综合的操作型处理需要。
例如,出尽可能实时的集成的操作报表等需求。
一般,也称操作数据存储是用来满足企业战术决策的需要。
操作数据存储是个可选的部件。
数据仓库是企业信息工厂的核心部件,用来保存整个企业的数据。
一般,也称数据仓库是用来满足企业战略决策的需要。
数据仓库的数据来自数据准备区和操作数据存储。
数据集市是为了满足企业特定部门的分析需求而专门建立的数据的集合。
数据集市的数据来源是数据仓库。
企业信息工厂中的数据集市一般来说是非规范化的、定制的和汇总的。
而多维体系架构中的数据集市分为两种,分别是原子数据集市和聚集数据集市。
一般来说,企业信息工厂中的数据集市相当于多维体系架构中的聚集数据集市。
1.1.8数据是数据集市?
数据集市中的数据具有数据仓库中数据的特点,只不过数据集市专为某一部门或某个特定商业需求定制,而不是根据数据容量命名。
数据集市面向部门、业务单元或特定应用,因而规模较小,便于快速实现,且成本较低,短期内即可获得明显效果。
数据集市的应用不仅满足了部门的数据处理需求,而且作为数据仓库的子集有助于构建完整的企业级数据仓库。
1.1.9元数据的定义,元数据管理,元数据的作用用?
数据仓库的元数据是关于数据仓库中数据的数据。
它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。
广义上讲,在数据仓库中,元数据描述了数据仓库内数据的结构和建立方法的数据。
元数据是数据仓库管理系统的重要组成部分,元数据管理器是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。
(1)构建数据仓库的主要步骤之一是ETL。
这时元数据将发挥重要的作用,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。
数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。
(2)用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制报表。
(3)数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。
元数据可分为技术元数据和业务元数据。
技术元数据为开发和管理数据仓库的IT人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。
而业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。
在数据仓库中,元数据的主要作用如下。
(1)描述哪些数据在数据仓库中,帮助决策分析者对数据仓库的内容定位。
(2)定义数据进入数据仓库的方式,作为数据汇总、映射和清洗的指南。
(3)记录业务事件发生而随之进行的数据抽取工作时间安排。
(4)记录并检测系统数据一致性的要求和执行情况。
(5)评估数据质量。
1.1.10什么是主数据,主数据管理?
和元数据有什么区别?
主数据管理和传统数据仓库的区别?
主数据是指在整个企业范围内各个系统(操作/事务型应用系统以及分析型系统)间要共享的数据,比如,可以是与客户(customers),供应商(suppliers),帐户(accounts)以及组织单位(organizationalunits)相关的数据。
主数据通常需要在整个企业范围内保持一致性(consistent)、完整性(complete)、可控性(controlled),为了达成这一目标,就需要进行主数据管理(MasterDataManagement,MDM)。
主数据不是企业内所有的业务数据,只是有必要在各个系统间共享的数据才是主数据,比如大部分的交易数据、帐单数据等都不是主数据,而像描述核心业务实体的数据,而像客户、供应商、帐户、组织单位、员工、合作伙伴、位置信息等都是主数据。
主数据是企业内能够跨业务重复使用的高价值的数据。
主数据管理(MasterDataManagement,MDM)是指一组约束和方法用来保证一个企业内主题域和系统内相关数据和跨主题域和系统的相关数据的实时性、含义和质量。
这是从深层次来说来说明主数据管理(MDM)的深度和复杂性,简单的说,主数据管理(MDM)保证你的系统协调和重用通用、正确的业务数据(主数据)。
通常,我们会把主数据管理作为应用流程的补充,通过从各个操作/事务型应用以及分析型应用中分离出主要的信息,使其成为一个集中的、独立于企业中各种其他应用核心资源,从而使得企业的核心信息得以重用并确保各个操作/事务型应用以及分析型应用间的核心数据的一致性。
通过主数据管理,改变企业数据利用的现状,从而更好地为企业信息集成做好铺垫。
主数据管理(MDM)可以帮助我们创建并维护整个企业内主数据的单一视图(SingleView),保证单一视图的准确性、一致性以及完整性,从而提供数据质量,统一商业实体的定义,简化改进商业流程并提供业务的响应速度。
从变化的频率来看,主数据和日常交易数据不一样,变化相对缓慢,另外,主数据由于跨各个系统,所以对数据的一致性、实时性以及版本控制要求很高。
主数据(MasterData)和元数据(MetaData)是两个完全不同的概念。
元数据是指表示数据的相关信息,比如数据定义等,而主数据是指实例数据,比如产品目录信息等。
主数据管理和传统数据仓
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 数据仓库 商业 智能 相关 试题 答案