datastage综合使用参考手册.docx
- 文档编号:6946240
- 上传时间:2023-01-13
- 格式:DOCX
- 页数:85
- 大小:3.90MB
datastage综合使用参考手册.docx
《datastage综合使用参考手册.docx》由会员分享,可在线阅读,更多相关《datastage综合使用参考手册.docx(85页珍藏版)》请在冰豆网上搜索。
datastage综合使用参考手册
AscentialDataStageEnterpriseEdition
综合使用参考手册
1.引言
1.1.编写目的
IBMDataStage作为项目主要使用的ETL开发工具,在项目中得到了比较充分的应用,对IBMDataStage产品方方面面的功能,都有所涉及。
作为对产品使用的了解和技术沉淀,我们搜集整理了这个总结性质的手册,旨在综合描述该产品的安装、常规应用、高级开发等等项目所涉及到的各个方面。
为项目组内部或其他使用该产品的项目组提供一个全面而综合的产品操作指导,帮助使用者能够在最短的时间内了解该产品,并上手使用。
1.2.帮助使用
由于DataStage产品功能强大,配置复杂,我们不可能在本手册中涉及到所有功能,也无法对每一个描述的能够都给出详尽的例子。
能够为阅读者穿针引线的整理产品的开发思路,通过对常用、基本的功能的描述,让大家掌握到该产品的使用精髓,并能够举一反三的掌握其它本手册没有介绍的功能。
这就是我们的目的。
我们通常使用的帮助有如下两个途径。
a.智能化的帮助功能;产品在几乎所有的操作窗口都有一个Help键,点击该键可以显示出当前使用的界面的功能和各项选项的具体的说明和操作方法。
DataStage独有的智能化的帮助能够指引你方面的查找到你想要得到的帮助。
b.OnlineManuals;就是产品安装后程序组中的DataStageDocuments,里面更加综合、全面的对整个产品从普通到高级,从Server版到EnterpriseEdition版,从ForWindows到ForUnix等等方面的详尽叙述。
能够帮助更加系统、全面的掌握该产品。
2.产品概述
DataStage企业版是原AscentialSoftware公司所有企业整合系列产品中关键产品。
企业版支持大容量数据的收集、整合和转换,数据从简单结构到很复杂的结构。
基于高可扩展性的软件架购,企业版使得企业能够通过高性能来解决大部分业务问题,并行处理大容量数据。
强大的企业元数据管理能力使得可以在数据整合生命周期中在所有工具中共享和使用工具。
DataStage企业版发布了四个核心功能来成功实施企业数据整合:
advanceddevelopmentandmaintenance,先进的开发和简单化的维护;enterprisedeploymentandmanagement,企业级别的开发、监测和管理;highlyscalablearchitecture,在吞吐量和性能方面提供了无限制的高扩展的体系架构;end-to-endenterprisemetadatamanagement,端对端的企业级元数据管理。
2.1.AdvancedDevelopmentandMaintenance
DataStage企业版提供了全面的功能去最优化用户在建立、升级和管理数据整合架构时的速度、灵活性和效率。
DataStage企业版增强的功能减少了学习的周期、简单化了管理和优化了开发资源的使用,减少了数据整合应用的开发和维护周期。
结果,DataStage企业版使得企业能够花更少的时间开发他们的整合应用,更多的时间是不断的从中受益。
DataStage企业版使用了Client-server架构,如下所示。
图一、DataState企业版Client-Server架构
用户通过各个客户端工具访问DataStage企业版的开发、配置和维护功能。
这些工具包括:
Designer:
用来建立和编辑DataStage作业和表的定义。
Designer中的“JobSequencer”控制作业的执行,其他作业成功完成(或失败,等)的条件。
Administrator:
用来执行管理任务,如建立DataStage用户、建立和删除工程并且建立清洗标准。
Manager:
用来编辑管理用户工程的DataStage资料库。
Director:
用来验证、时序安排、运行和监测企业版作业。
如图一所示,DataSage企业版的服务器组件运行在一系列的流行服务器上,如Unix、Windows等。
2.2.CompleteDevelopmentEnvironment
用户使用DataStage企业版的Designer组件建立企业版数据整合应用。
企业版设计是基于数据流的概念。
数据流使得用户非常容易建立和理解应用。
用户在一个强大的图形化调色板上通过一系列的功能组件(Stage)标示数据集合的流程来构建一个数据整合应用。
一个完整的数据流图(DataStage作业),从一个永久存储的数据源开始,并且执行一系列的增值转换和其他处理操作,最后加载数据到一个永久的存储。
一个完整的企业版数据流图如图二所示。
图二、DataStage企业版数据流图示
在建立一个企业版数据流图表时,通过一系列的处理步骤对庞大的数据集合构架顺序流。
用户不需要担心如何在多处理器计算机上运行该应用。
每个企业版Stage是一个完整的功能组件,这些Stage摒弃了对通用数据处理用于的传统编写代码方式。
用户可以在企业版DesignerGUI中找到这些内嵌的Stage。
用户可以使用Stage的下拉菜单来调整Stage的参数。
企业版AggregatorStage的编辑器如下所示。
图三、企业版编辑AggregatorStage图标和Stage编辑器例子
企业版TransformerStage是一个强大和灵活的组件,允许用户对inputlink输入的数据进行转换。
并且将数据传到另一个活动的Stage或者将数据写到目标数据或文件。
Transformer编辑器(如下所示)使得用户可以在inputliks和outputlink间简单建立mapping,并且可以使用BASIC等语言建立任意转换。
这些转换可以并行执行来提高吞吐量和性能。
企业版提供了超过100个内嵌的功能,另外可以用C或C++编写的route在转换中使用和进行互操作。
图四、企业版TransformerStage图标和Stage编辑器例子
企业版的内嵌扩展Stage提供了数据整合应用中80%到90%的最常用的逻辑需要。
另外,企业版提供了许多机制用来建立自定义的Stage:
⏹Wrapped--允许并行执行一个顺序程序。
⏹Build――允许自动并行执行自定义Stage的C语言表达式。
⏹Custom提供了完整的C++API,来开发复杂和扩展的Stage。
基于组件架构和扩展内嵌组件类库的DataStage企业版消除了对传统编码方式的需要,最大化了组件的重复使用。
企业版开发和扩展架构使得和第三方软件和以存在的程序的整合到扩展数据整合应用变得非常容易。
其次,企业版提供了Director和Manager的图形化功能。
象前面说过的,manager是用来管理工程的,包括导入和导出组件,用来将应用配置到产品。
Dirctor用来执行和监测job(或job序列)。
另外,企业版提供了command-line、API和webservices用来对应用进行配置、执行、监测和管理。
Job能够使用所有的工具进行开始、停止和监测。
可以提供所有的工具查看Job监测的详细内容-包括Dirctor。
企业版返回的信息包括每个并行分区的记录条数、CPU使用率、开始/结束时间等。
所有的这些都是在单独的stage级别。
2.3.HighlyScalableArchitecture
建立在高扩展软件架构上的企业版提供了高级别的吞吐量和性能。
象前面所描述的,用户可以使用企业版的Designer工具建立简单的顺序数据流图表。
当构架出顺序的数据流图表,用户不用担心底层的硬件架构和处理器的数量。
一个专门的配置文件可以定义这些底层多处理器计算环境中的资源(处理器、内存、磁盘)。
这个配置可以在顺序数据流图表和应用的并行执行之间建立一个清晰的分离。
这样就可以很简单开发扩展的数据整合系统并且并行执行(如图六所示)。
DataStage企业版可在管道并行和分区并行的机制下执行,这样可以获得高吞吐量和性能:
⏹数据管道意味着应用可以从源系统拉入数据并且在数据流图表中定义的顺序处理功能间移动。
记录通过管道进行流动-使用上面介绍过的数据集合【虚拟】-这样使得记录通过一系列的功能组件进行流动而不需要将记录加载到磁盘。
⏹数据分区是一种将记录集合分割到各个分区,或记录子集的并行方法。
数据分区通常提供了一种好的、可以线性增长的应用性能。
企业版支持记录集通过应用流的自动分区,象DB2一样使用hash、range、entire、random、roundrobin等方法。
2.4.End-to-EndEnterpriseMetaData
MetaData是数据整合基础架构的黏合剂,是维护一致性、分析解释清晰和正确的关键。
DataStage企业版的端对端元数据在数据整合生命周期中所有的工具中共享,确保有关元数据可以勾画出一个清晰、明确的业务视图。
DataStage企业版元数据管理通过提供一致、正确的元数据来帮助用户管理数据中有用的部分。
这样就可以减少在多工具中共享元数据时候存储和更新元数据目录的负担。
通过DataStage企业版的元数据分析和管理功能确保整个商务智能架构中整合和业务规则的重复使用变得简单,而不需要传统编码方式。
DataStage企业版不像竞争对手,因为对ETL工具的偏执,而使得整个整合处理不能得到一个完整的元数据视图。
DataStage企业版通过提供独特的元数据共享功能而不仅仅在ETL工具中具有,避免了不同方法定义间的混淆和冲突,这样就使得用户可以在建模工具、ETL工具和最终用户报表工具中获得最完整的语义层。
确保没用的或冗余的元数据被排除掉,使得业务管理者通过常用的方法理解数据,作出严谨的决策。
3.安装
DataStage的安装分Server端和Client端两部分,我们以DataStage7.5forAix5.1/5.2为例,来详细说明其安装步骤。
3.1.Server安装
3.1.1.Server安装前准备
1)硬件及软件准备
准备内容
具体要求描述
1.
硬件环境
CPU
(建议每个node分配2个CPU)
内存
(建议每个node分配2G内存)
磁盘空间
至少1.5G硬盘空间
4.
软件环境
IBMAIX5.1,5.2
2)创建用户及组
1)在安装机器上创建dstage组,ADMINISTRATIVEUSER选项为true,
PrimaryGROUP,GroupSET,ADMINISTRATIVEGROUPS:
均为dstage
2)创建用户dsadm,主属为dstage,ADMINISTRATIVEUSER选项为true;
确保主机重启时datastageserver也同样自动重启。
3)用户dsadm的环境变量设置
用dsadm用户登入,在profile文件添加如下内容(请根据实际环境进行修改):
#----------oracle----------
exportORACLE_HOME=/home/db/oracle/product/10.2.0
exportPATH=$PATH:
$ORACLE_HOME/bin
exportNLS_LANG=AMERICAN_AMERICA.ZHS16CGB231280
exportLD_LIBRARY_PATH=$ORACLE_HOME/lib:
$LD_LIBRARY_PATH:
/lib:
/usr/lib:
/home/ap/dsadm/Ascential/DataStage/DSEngine/lib:
/home/ap/dsadm/Ascential/DataStage/RT_BP1.O:
/home/ap/ods/lib:
/home/ap/ods/bin:
$ORACLE_HOME/lib32
#----------datastage-------------
exportDSHOME=/home/ap/dsadm/Ascential/DataStage/DSEngine
exportLANG=iso8859
exportAPT_ORCHHOME=/home/ap/dsadm/Ascential/DataStage/PXEngine
exportPATH=$PATH:
$HOME/bin:
$APT_ORCHHOME/bin:
$DSHOME/bin
3.1.2.Server安装步骤
Tar开安装程序包v7.5.tar
确保以超级用户root进入系统(非常重要)
(1)执行./install.sh–adminroot
(2)验证dsadm用户环境变量设置,确认输入y,回车:
(3)安装向导画面,输入n,回车
(4)版本更新信息,输入n,回车
(5)licenseagreement,输入y,回车
(6)选择安装文件临时存放目录,此目录必须存在,dsadm用户要有存取权限,且目录必须为空,输入c可以改变临时目录,使用默认临时目录输入n,回车
(7)输入serialnumber,CPUcount,expirationdate,enterpriseeditioncode,servercode,回车。
MVSeditioncode不用输入,注意日期的格式。
(8)确认serialnumber,CPUcount,expirationdate,enterpriseeditioncode,servercode是否正确,正确,输入n,回车
(9)根据实际购买RTIAgent,SASIntegration,IMSSource情况,以下三个code可以选择填写,输入n,回车
(10)确认DataStageServer的安装目录,根据实际情况选择c做更改,指定目录dsadm需有存取权限,确认安装目录后,输入c,回车进行修改
(11)修改正确的DataStageServer的安装目录/home/ap/dsadm,回车
(12)确认DataStage的安装目录已修改成/home/ap/dsadm,输入n,回车
(13)选择语言,输入c,回车进行修改
(14)选择Chinese-Simplified简体中文,输入6,回车
(15)确认已选择6Chinese-Simplified简体中文,输入n,回车
注意:
语言一定要修改为CHS
(16)选择相关插件,这样要把所有插件都选择安装,输入a,回车
(17)确认已选择所有插件都安装,输入n,回车
(18)DataStage工程存放路径,回车选择默认路径,如需指定确保dsadm有存取权限
(19)创建工程,第一次创建的默认工程不用,随便起个名字,将来在JCI公共组件安装的时候会重新建立工程。
(20)输入U,回车。
U为非受保护工程,P为受保护工程。
(21)回车
(22)输入n,回车
(23)确认DataStage的安装路径,输入n,回车
(24)确认oracle数据库的安装路径,输入n,回车
(25)输入n,回车
(26)输入n,回车
(27)确认环境,输入n,回车
(28)执行关于Oracle数据库的相关驱动程序
#cd/home/ap/dsadm/Ascential/DataStage/PXEngine/install
执行命令#./install.liborchoracle
(29)安装完datastage,请修改datastage安装目录的属性dsadm:
dstage以及文件权限为775。
3.1.3.验证DataStage的安装
检查Datastage的进程是否已启动,执行命令#ps-ef|grepdsrpcd
检查/etc/services,执行命令#vi/etc/services,有如下信息
3.1.4.Server启动和停止
以dsadm用户进入,执行以下命令:
1)Server启动命令:
$HOMEDIR/uv–admin-start
注意:
启动前,需要查看端口是否被释放,通过‘netstat–afinet|grepds’查看,如果有连接,则需要等待操作系统自动释放后在启动服务。
2)Server停止命令:
$HOMEDIR/uv–admin/stop
注意:
停止前最好确保没有Client连接,可以通过‘onstat–a|grepds’查看,是否还存在Client连接,否则要通知相应登录的client端彻底退出。
3.2.Client安装
1)执行datastageclient文件夹中执行setup,选择client端安装。
注意:
Client需要安装Microsoft.NetFramework支持。
如未安装Framework,client安装程序开始后会提示是否从安装光盘安装Framework,选择是安装Framework。
安装结束后,请重新执行安装光盘中的setup,继续安装client.
2)依次输入客户端的输入Serialnumber,UserLimit,EnterpriseCode,AuthorizationCode;
3)选择安装文件夹,点击Next直到安装完成。
4.常规应用
4.1.常用组件使用方法
4.1.1.Sequentialfile
功能特点:
适用于一般顺序文件(定长或不定长),可识别文本文件或IBM大机ebcdic文件。
使用要点:
Ø按照命名规范命名
Ø点住文件,双击鼠标,在general说明此文件内容,格式,存储目录等
Ø修改文件属性,文件名称,reject方式等到
Ø修改文件格式,比如记录结束符是什么,字段分隔符,字符串是用什么区别等
Ø输入此文件字段内容
4.1.2.Annotation
功能特点:
一般用于注释,可利用其背景颜色在job中分颜色区别不同功能块
使用要点:
4.1.3.ChangeCaptureStage
Ø功能特点:
ChangeCaptureStage有两个输入,分别标记为beforelink及afterlink。
输出的数据表示beforelink和afterlink的区别,我们称作changeset。
ChangeCaptureStage可以和ChangeApplyStage配合使用来计算afterset。
Økey及value的说明
key值是比较的关键值,value是当key值相同是作进一步比较用的。
Øchangemode选项说明:
Allkeys,ExplicitValues需要指定value,其余字段为key
ExplicitKeys&Valueskey及value都需要指定
ExplicitKeys,AllValues需要指定key,其余的字段为value
Ø输出策略说明
DropOutputForCopyFalse:
保留before及aftelink中key值相同的行
True:
删除before及aftelink中key值相同的行
DropOutputForDeleteFalse:
保留beforelink中有但是afterlink中没有的key值所在的行
True:
删除beforelink中有但是aftelink中没有的key值所在的行
DropOutputForEditFalse:
保留key值相同,value不同的行
True:
删除key值相同,value不同的行
DropOutputForInsertFalse:
保留beforelink中没有但aftelink中有的key值所在的行
True:
删除beforelink中没有但aftelink中有的key值所在的行
4.1.4.CopyStage
Ø功能说明:
CopyStage可以有一个输入,多个输出。
它可以在输出时改变字段的顺序,但是不能改变字段类型。
注意:
当只有一个输入及一个输出时最好将Force设置为True,这样可以在Designer里看到运行结束,否则将无法标识运行结束,但不会影响运行结果数据。
4.1.5.FilterStage
Ø功能说明:
FilterStage只有一个输入,可以有多个输出。
根据不同的筛选条件,可以将数据输出到不同的outputlink。
4.1.6.FunnelStage
Ø功能说明:
将多个字段相同的数据文件合并为一个单独的文件输出
Ø合并策略说明
ContinuousFunnel:
从每一个inputlink中循环取一条记录
SortFunnel:
按照Key值排序合并输出
Sequence:
先输出第一个inputlink的数据,输出完毕后再输出第二个inputlink的数据,依此类推,直到结束。
(此时可以通过调整linkOrdering调整输出顺序)
4.1.7.TansformerStage
Ø功能说明:
一个功能极为强大的Stage。
有一个inputlink,多个outputlink,可以将字段进行转换,也可以通过条件来指定数据输出到那个outputlink。
在开发过程中可以使用拖拽。
ØConstraint及Derivation的区别
Constraint通过限定条件使符合条件的数据输出到这个outputlink。
Derivation通过定义表达式来转换字段值。
在Constraint及Derivation中可以使用Jobparameters及StageVariables。
Ø注意:
TransformerStage功能强大,但在运行过程中是以牺牲速度为代价的。
在只有简单的变换,拷贝等操作时,最好用ModifyStage,CopyStage,FilterStage等来替换TransformerStage。
4.1.8.SortStage
功能说明:
只能有一个输入及一个输出,按照指定的Key值进行排列。
可以选择升序还是降序,是否去除重复的数据等等。
ØOption具体说明
AllowDuplicates:
是否去除重复数据。
为False时,只选取一条数据,当StableSort为True时,选取第一条数据。
当SortUnility为UNIX时此选项无效。
SortUtility:
选择排序时执行应用程序,可以选择DataStage内建的命令或者Unix的Sort命令
OutputStatistics:
是否输出排序统计信息到job日志
StableSort:
是否对数据进行二次整理
CreateClusterKeyChangeColumn:
是否为每条记录创建一个新的字段:
clusterKeyChange。
当SortKeyMode为Don’tSort(PreviouslySorted)或Don’tSort(PreviouslyGrouped)时,对于第一条记录该字段被设置为1,其余的记录设置为0。
CreateKeyChangeColumn:
是否为每一条记录创建一个新的字段KeyChange。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- datastage 综合 使用 参考手册