ETL的过程原理和数据仓库建设Word下载.docx
- 文档编号:19177817
- 上传时间:2023-01-04
- 格式:DOCX
- 页数:22
- 大小:39.59KB
ETL的过程原理和数据仓库建设Word下载.docx
《ETL的过程原理和数据仓库建设Word下载.docx》由会员分享,可在线阅读,更多相关《ETL的过程原理和数据仓库建设Word下载.docx(22页珍藏版)》请在冰豆网上搜索。
=”,索引只能告诉什么存在于表中,而不能告诉什么不存在于表中,当数据库遇到NOT和”!
=”时,就会停止使用索引转而执行全表扫描。
(4)索引列上用>
=替代>
SELECT*FROMEMPWHEREDEPTNO>
=4
3
两者的区别在于,前者DBMS将直接跳到第一个DEPT等于4的记录而后者将首先定位到DEPTNO=3的记录并且向前扫描到第一个DEPT大于3的记录。
(5)函数的列启用索引方法,如果一定要对使用函数的列启用索引,Oracle9i以上版本新的功能:
基于函数的索引(Function-BasedIndex)是一个较好的方案,但该类型索引的缺点是只能针对某个函数来建立和使用该函数。
CREATEINDEXEMP_IONEMP(UPPER(ENAME));
SELECT*FROMEMPWHEREUPPER(ENAME)='
BLACKSNAIL’;
3.2游标的正确使用
当在海量数据表中进行数据的删除、更新和插入操作时,用游标处理的效率是最慢的方式,但它在ETL过程中的使用又必不可少,而且使用有着及其重要的地位,所以游标的正确使用尤为重要。
对数据仓库维表的数据进行维护时,因为需要保证维表ID的一致性,所以采用游标的是数据维护完整性的最好方式。
由于它的效率低,如果按照普通的方式将无法处理大数据量的维表数据维护(一般是指10万条记录以上的维表),以下是处理这种情况的有效方式:
(1)在数据抽取的源表中使用时间戳,这样每天的维表数据维护只针对更新日期为最新时间的数据来进行,大大减少需要维护的数据记录数。
(2)在INSERT和UPDATE维表时都加上一个条件来过滤维表中已经存在的记录,实例为:
INSERTINTODIM_CUSTOMERSELECT*FROMODS_CUSTOMERWHEREODS_CUSTOMER.CODENOTEXISTS(DIM_CUSTOMER.CODE)
(3)使用显式的游标(CURSORs),因为使用隐式的游标将会执行两次操作,第一次检索记录,第二次检查TOOMANYROWS这个EXCEPTION,而显式游标不执行第二次操作。
3.3数据抽取和上载时的SQL优化
◆3.3.1WHERE子句中的连接顺序
ORACLE采用自下而上的顺序解析WHERE子句,根据这个原理,表之间的连接必须写在其它WHERE条件之前,那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。
SELECT*FROMEMPEWHERESAL>
50000ANDJOB='
MANAGER’AND25<
(SELECTCOUNT(*)FROMEMPWHEREMGR=E.EMPNO);
SELECT*FROMEMPEWHERE25<
(SELECTCOUNT(*)FROMEMPWHEREMGR=E.EMPNO)ANDSAL>
MANAGER’;
◆3.3.2删除全表时用TRUNCATE替代DELETE
当DELETE删除表中的记录时,有回滚段(rollbacksegments)用来存放可以被恢复的信息,而当运用TRUNCATE时,回滚段不再存放任何可被恢复的信息,所以执行时间也会很短。
同时需要注意TRUNCATE只在删除全表时适用,因为TRUNCATE是DDL而不是DML。
◆3.3.3尽量多使用COMMIT
ETL中同一个过程的数据操作步骤很多,数据仓库采用的是数据抽取后分析模型重算的原理,所以对数据的COMMIT不像业务系统为保证数据的完整和一致性而需要某个操作过程全部完成才能进行,只要有可能就在程序中对每个DELETE、INSERT和UPDATE操作尽量多使用COMMIT,这样系统性能会因为COMMIT所释放的资源而大大提高。
◆3.3.4用EXISTS替代IN
在许多基于基础表的查询中,为了满足一个条件往往需要对另一个表进行联接,例如在ETL过程写数据到模型时经常需要关联10个左右的维表,在这种情况下,使用EXISTS而不用IN将提高查询的效率。
◆3.3.5用NOTEXISTS替代NOTIN
子查询中,NOTIN子句将执行一个内部的排序和合并,无论在哪种情况下,NOTIN都是最低效的,因为它对子查询中的表执行了一个全表遍历。
用NOTEXISTS替代NOTIN将提高查询的效率。
◆3.3.6优化GROUPBY
提高GROUPBY语句的效率,可以通过将不需要的记录在GROUPBY之前过滤掉。
SELECTJOB,AVG(SAL)FROMEMPGROUPBYJOBHAVINGJOB='
PRESIDENT’ORJOB='
MANAGER’
SELECTJOB,AVG(SAL)FROMEMPWHEREJOB='
MANAGER’GROUPBYJOB
◆3.3.7有条件的使用UNION-ALL替换UNION
ETL过程针对多表连接操作的情况很多,有条件的使用UNION-ALL替换UNION的前提是:
所连接的各个表中无主关键字相同的记录,因为UNIONALL将重复输出两个结果集合中相同记录。
当SQL语句需要UNION两个查询结果集合时,这两个结果集合会以UNION-ALL的方式被合并,然后在输出最终结果前进行排序。
如果用UNIONALL替代UNION,这样排序就不是必要了,效率就会因此得到提高3-5倍
◆3.3.8分离表和索引
总是将你的表和索引建立在不同的表空间内,决不要将不属于ORACLE内部系统的对象存放到SYSTEM表空间里。
同时确保数据表空间和索引表空间置与不同的硬盘控制卡控制的硬盘上。
Oracle数据库游标使用大全
SQL是用于访问ORACLE数据库的语言,PL/SQL扩展和加强了SQL的功能,它同时引入了更强的程序逻辑。
PL/SQL支持DML命令和SQL的事务控制语句。
DDL在PL/SQL中不被支持,这就意味作在PL/SQL程序块中不能创建表或其他任何对象。
较好的PL/SQL程序设计是在PL/SQL块中使用象DBMS_SQL这样的内建包或执行EXECUTEIMMEDIATE命令建立动态SQL来执行DDL命令,PL/SQL编译器保证对象引用以及用户的权限。
下面我们将讨论各种用于访问ORACLE数据库的DDL和TCL语句。
查询
SELECT语句用于从数据库中查询数据,当在PL/SQL中使用SELECT语句时,要与INTO子句一起使用,查询的返回值被赋予INTO子句中的变量,变量的声明是在DELCARE中。
SELECTINTO语法如下:
SELECT[DISTICT|ALL]{*|column[,column,...]}
INTO(variable[,variable,...]|record)
FROM{table|(sub-query)}[alias]
WHERE............
PL/SQL中SELECT语句只返回一行数据。
如果超过一行数据,那么就要使用显式游标(对游标的讨论我们将在后面进行),INTO子句中要有与SELECT子句中相同列数量的变量。
INTO子句中也可以是记录变量。
%TYPE属性
在PL/SQL中可以将变量和常量声明为内建或用户定义的数据类型,以引用一个列名,同时继承他的数据类型和大小。
这种动态赋值方法是非常有用的,比如变量引用的列的数据类型和大小改变了,如果使用了%TYPE,那么用户就不必修改代码,否则就必须修改代码。
例:
v_empnoSCOTT.EMP.EMPNO%TYPE;
v_salaryEMP.SALARY%TYPE;
不但列名可以使用%TYPE,而且变量、游标、记录,或声明的常量都可以使用%TYPE。
这对于定义相同数据类型的变量非常有用。
DELCARE
V_ANUMBER(5):
=10;
V_BV_A%TYPE:
=15;
V_CV_A%TYPE;
BEGIN
DBMS_OUTPUT.PUT_LINE
('
V_A='
||V_A||'
V_B='
||V_B||'
V_C='
||V_C);
END
SQL>
/
V_A=10V_B=15V_C=
PL/SQLproceduresuccessfullycompleted.
其他DML语句
其它操作数据的DML语句是:
INSERT、UPDATE、DELETE和LOCKTABLE,这些语句在PL/SQL中的语法与在SQL中的语法相同。
我们在前面已经讨论过DML语句的使用这里就不再重复了。
在DML语句中可以使用任何在DECLARE部分声明的变量,如果是嵌套块,那么要注意变量的作用范围。
例:
CREATEORREPLACEPROCEDUREFIRE_EMPLOYEE(pempnoinnumber)
AS
v_enameEMP.ENAME%TYPE;
BEGIN
SELECTenameINTOv_ename
FROMemp
WHEREempno=p_empno;
INSERTINTOFORMER_EMP(EMPNO,ENAME)
VALUES(p_empno,v_ename);
DELETEFROMemp
UPDATEformer_emp
SETdate_deleted=SYSDATE
EXCEPTION
WHENNO_DATA_FOUNDTHEN
DBMS_OUTPUT.PUT_LINE('
EmployeeNumberNotFound!
'
);
END
DML语句的结果
当执行一条DML语句后,DML语句的结果保存在四个游标属性中,这些属性用于控制程序流程或者了解程序的状态。
当运行DML语句时,PL/SQL打开一个内建游标并处理结果,游标是维护查询结果的内存中的一个区域,游标在运行DML语句时打开,完成后关闭。
隐式游标只使用SQL%FOUND,SQL%NOTFOUND,SQL%ROWCOUNT三个属性.SQL%FOUND,SQL%NOTFOUND是布尔值,SQL%ROWCOUNT是整数值。
SQL%FOUND和SQL%NOTFOUND
在执行任何DML语句前SQL%FOUND和SQL%NOTFOUND的值都是NULL,在执行DML语句后,SQL%FOUND的属性值将是:
.TRUE:
INSERT
.TRUE
ELETE和UPDATE,至少有一行被DELETE或UPDATE.
SELECTINTO至少返回一行
当SQL%FOUND为TRUE时,SQL%NOTFOUND为FALSE。
SQL%ROWCOUNT
在执行任何DML语句之前,SQL%ROWCOUNT的值都是NULL,对于SELECTINTO语句,如果执行成功,SQL%ROWCOUNT的值为1,如果没有成功,SQL%ROWCOUNT的值为0,同时产生一个异常NO_DATA_FOUND.
SQL%ISOPEN
SQL%ISOPEN是一个布尔值,如果游标打开,则为TRUE,如果游标关闭,则为FALSE.对于隐式游标而言SQL%ISOPEN总是FALSE,这是因为隐式游标在DML语句执行时打开,结束时就立即关闭。
事务控制语句
事务是一个工作的逻辑单元可以包括一个或多个DML语句,事物控制帮助用户保证数据的一致性。
如果事务控制逻辑单元中的任何一个DML语句失败,那么整个事务都将回滚,在PL/SQL中用户可以明确地使用COMMIT、ROLLBACK、SAVEPOINT以及SETTRANSACTION语句。
COMMIT语句终止事务,永久保存数据库的变化,同时释放所有LOCK,ROLLBACK终止现行事务释放所有LOCK,但不保存数据库的任何变化,SAVEPOINT用于设置中间点,当事务调用过多的数据库操作时,中间点是非常有用的,SETTRANSACTION用于设置事务属性,比如read-write和隔离级等。
显式游标
当查询返回结果超过一行时,就需要一个显式游标,此时用户不能使用selectinto语句。
PL/SQL管理隐式游标,当查询开始时隐式游标打开,查询结束时隐式游标自动关闭。
显式游标在PL/SQL块的声明部分声明,在执行部分或异常处理部分打开,取数据,关闭。
下表显示了显式游标和隐式游标的差别:
表1隐式游标和显式游标
隐式游标显式游标
PL/SQL维护,当执行查询时自动打开和关闭在程序中显式定义、打开、关闭,游标有一个名字。
游标属性前缀是SQL游标属性的前缀是游标名
属性%ISOPEN总是为FALSE%ISOPEN根据游标的状态确定值
SELECT语句带有INTO子串,只有一行数据被处理可以处理多行数据,在程序中设置循环,取出每一行数据。
使用游标
这里要做一个声明,我们所说的游标通常是指显式游标,因此从现在起没有特别指明的情况,我们所说的游标都是指显式游标。
要在程序中使用游标,必须首先声明游标。
声明游标
语法:
CURSORcursor_nameISselect_statement;
在PL/SQL中游标名是一个未声明变量,不能给游标名赋值或用于表达式中。
CURSORC_EMPISSELECTempno,ename,salary
FROMemp
WHEREsalary>
2000
ORDERBYename;
........
在游标定义中SELECT语句中不一定非要表可以是视图,也可以从多个表或视图中选择的列,甚至可以使用*来选择所有的列。
打开游标
使用游标中的值之前应该首先打开游标,打开游标初始化查询处理。
打开游标的语法是:
OPENcursor_name
cursor_name是在声明部分定义的游标名。
OPENC_EMP;
关闭游标
CLOSEcursor_name
CLOSEC_EMP;
从游标提取数据
从游标得到一行数据使用FETCH命令。
每一次提取数据后,游标都指向结果集的下一行。
语法如下:
FETCHcursor_nameINTOvariable[,variable,...]
对于SELECT定义的游标的每一列,FETCH变量列表都应该有一个变量与之相对应,变量的类型也要相同。
SETSERVERIUTPUTON
DECLARE
v_enameEMP.ENAME%TYPE;
CURSORc_empISSELECTename,salaryFROMemp;
OPENc_emp;
FETCHc_empINTOv_ename,v_salary;
DBMS_OUTPUT.PUT_LINE('
SalaryofEmployee'
||v_ename
||'
is'
||v_salary);
CLOSEc_emp;
这段代码无疑是非常麻烦的,如果有多行返回结果,可以使用循环并用游标属性为结束循环的条件,以这种方式提取数据,程序的可读性和简洁性都大为提高,下面我们使用循环重新写上面的程序:
LOOP
EXITWHENc_emp%NOTFOUND;
END
记录变量
定义一个记录变量使用TYPE命令和%ROWTYPE,关于%ROWsTYPE的更多信息请参阅相关资料。
记录变量用于从游标中提取数据行,当游标选择很多列的时候,那么使用记录比为每列声明一个变量要方便得多。
当在表上使用%ROWTYPE并将从游标中取出的值放入记录中时,如果要选择表中所有列,那么在SELECT子句中使用*比将所有列名列出来要安全得多。
R_empEMP%ROWTYPE;
CURSORc_empISSELECT*FROMemp;
FETCHc_empINTOr_emp;
DBMS_OUT.PUT.PUT_LINE('
||r_emp.ename||'
||r_emp.salary);
ENDLOOP;
END;
%ROWTYPE也可以用游标名来定义,这样的话就必须要首先声明游标:
R_empc_emp%ROWTYPE;
带参数的游标
与存储过程和函数相似,可以将参数传递给游标并在查询中使用。
这对于处理在某种条件下打开游标的情况非常有用。
它的语法如下:
CURSORcursor_name[(parameter[,parameter],...)]ISselect_statement;
定义参数的语法如下:
Parameter_name[IN]data_type[{:
=|DEFAULT}value]
与存储过程不同的是,游标只能接受传递的值,而不能返回值。
参数只定义数据类型,没有大小。
另外可以给参数设定一个缺省值,当没有参数值传递给游标时,就使用缺省值。
游标中定义的参数只是一个占位符,在别处引用该参数不一定可靠。
在打开游标时给参数赋值,语法如下:
OPENcursor_name[value[,value]....];
参数值可以是文字或变量。
DECALRE
CURSORc_deptISSELECT*FROMdeptORDERBYdeptno;
CURSORc_emp(p_deptVARACHAR2)IS
SELECTename,salary
WHEREdeptno=p_dept
ORDERBYename
r_deptDEPT%ROWTYPE;
v_tot_salaryEMP.SALARY%TYPE;
OPENc_dept;
FETCHc_deptINTOr_dept;
EXITWHENc_dept%NOTFOUND;
Department:
||r_dept.deptno||'
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ETL 过程 原理 数据仓库 建设