ELT平台操作手册KETTLE文档格式.docx
- 文档编号:20313048
- 上传时间:2023-01-21
- 格式:DOCX
- 页数:95
- 大小:2.19MB
ELT平台操作手册KETTLE文档格式.docx
《ELT平台操作手册KETTLE文档格式.docx》由会员分享,可在线阅读,更多相关《ELT平台操作手册KETTLE文档格式.docx(95页珍藏版)》请在冰豆网上搜索。
功能4:
导入、导出XML文件
图标,可将建立好的转换或作业导出为XML文件,存储在本地,也可从本地XML文件导入到知识库。
2.3基本功能
1、转换管理。
2、作业管理。
3、节点连接类型。
转换管理
1、新建或打开一个转换,可看到转换设计页面,如下图:
2、单击主对象树,可将菜单中的转换步骤拖到转换设计页面中。
3、单击
可运行转换。
4、右键单击空白区域,可设置转换的属性。
作业管理
1、新建或打开一个作业,可看到作业设计页面,如下图:
2、单击主对象树,可将菜单中的作业步骤拖到作业设计页面中。
可运行作业。
4、右键单击空白区域,可设置作业的属性。
节点连接类型
1、在一个节点处按住SHIFT拖动鼠标到另一节点可建立节点连接。
2、改变开始复制的数量
有时候多次运行相同的步骤是非常有用的。
例如,执行一个数据库查询三次或者三次以上,这是因为数据库连接通常有一个反应时间,改变步骤运行的次数,可以有效的减少反应时间,提高效率。
要运行一个步骤的多个副本,你只要在图形界面的步骤上点击鼠标右键,选择“改变开始复制的数量…”
3、分发或复制
分发表示所有的行被平均分发到各个目标步骤,复制表示所有行被复制到全部目标步骤。
4、串行或并行
仅用在作业中,默认串行,右键单击作业步骤,选择并行,可并行运行一个作业中的各个分步骤。
5、有连接条件和无条件连接
仅用在作业中,用于控制连接生效的条件,可设置上一步骤运行成功则运行下一步骤,或上一步骤运行失败则运行下一步骤,或无论成功或失败都运行下一步骤,即无条件连接。
如下图:
带平行线表示是并行连接;
绿色表示该连接生效(灰色表示失效);
勾号表示结果为真运行下一步骤,圆圈表示结果为假运行下一步骤,锁标志表示无条件连接。
第3章转换步骤
3.1文本文件输入
可通过此步骤读取大量不同的文本文件,可指定读取的文件列表,或者用正则表达式表示的目录列表。
文件名称指定
1、指定文件名后,并按“增加”按钮,你可以添加一个文件到“选择文件”中,如下所示:
2、你也可以用指定正则表达式通配符的形式来搜索文件。
正则表达式比简单的用“?
”和“*”通配符更有效。
文件名
正则
选择的文件
/dirA/
.*userdata.*/.txt
所有在/dirA/目录下的并且文件名包含userdata、以txt为后缀的文件。
/dirB/
AAA.*
所有在/dirB/目录下的并且文件名以AAA开头的文件。
/dirC/
[A-Z][0-9].*
所有在/dirC/目录下的并且文件名以字母开头、紧接着一个数字的文件。
内容指定
1、内容标签允许你指定正在读取的文本文件的格式:
2、下面是标签的选项列表:
选项
描述
文件类型
可以是CSV或者Fixedlength(固定长度)。
分隔符
在文本的单行中,一个或多个字符将被用来分隔字段,
比较有代表性的是;
或者一个tab制表符。
封闭字符
一些字段能够被一对允许分隔的字符来封闭。
串是可选的。
逃逸字符
如果你的数据中有逃逸字符,就指定逃逸字符(或者逃
逸字符串)。
如果\作为逃逸字符,文本’Notthenine
o\’clocknews.’(’作为封闭字符),将被解析成Not
thenineo’clocknews.
头部/头部行数量
如果你的文本文件有头部行就使用这个。
你可以指定头
部行出现的次数。
尾部/尾部行数量
如果你的文本文件有尾部行就使用这个。
你可以指定尾
包装行/包装行数量
利用这个来处理被某些页限制包装的数据行。
注:
头部
和尾部从来不考虑被包装。
分页布局/每页行数/文档头部行
在行打印机上打印的时候,你可以用这个选项作为最终
的手段。
用头部行的数量来跳过介绍性的文本,用每页
的行数来定位数据行。
压缩
如果你的文件是ZIP文件或者GZIP归档文件,就启用
这个。
此刻归档文件中仅仅第一个文件被读取。
没有空行
不往下一步发送空行。
输出包含文件名
如果你想文件名作为输出的一部分,可以启用这个。
文件名字段名称
包含文件名的字段名称。
输出行数
如果你想行数作为输出的一部分,可以启用这个。
行数字段名称
包含行数的字段名称。
根据文件获取行数
允许每个文件重置的行数。
格式
可以是DOS、UNIX或者混合模式。
UNIX行终止可以是
回车,DOS中可以是回车或者换行。
如果你选择混合模
式,将不会验证。
编码方式
指定文本文件编码方式。
如果不设置就使用系统默认的
编码方式。
如果想用Unicode,可以指定UTF-8或者
UTF-16。
第一次使用的时候,Spoon将搜索系统,寻找
可用的编码。
记录数量限制
设置读取记录的行数。
0代表读取所有的。
解析日期时是否严格要求
如果你想严格的解析数据字段,可以禁用这个选项。
如
果启用的时候,Jan32nd将变成Feb1st。
本地日期格式
在本地日期常常被解析为“Februarywnd,2006”的形
式,在用法语本地化的系统中日期将不会被解析,因为
在法语本地化中February不能理解。
错误处理
1、当错误发生的时候,错误处理标签允许你指定这个步骤将重新做些什么。
2、下面是标签的选项列表
忽略错误
如果在解析的时候忽略错误,就指定这个选项。
跳过错误行
使用这个选项来跳过那些出现错误的行。
你可以生成另外的文件来包含发生错误的行号。
如果不跳过错误行,解析错误字段将是空的。
错误计数字段
在输出流行中增加一个字段,这个字段将包含错误发生的行数。
错误字段字段名
在输出流行中增加一个字段,这个字段将包含错误发生的字段名称。
错误文本字段名
在输出流行中增加一个字段,这个字段将包含解析错误发生字段的描述。
警告文件目录
当警告发生的时候,它们将被放进这个目录。
文件名将是<
警告目录>
/文件名.<
日期时间>
.<
警告文件扩展>
。
错误文件目录
当错误发生的时候,它们将被放进这个目录。
错误文件目录>
错误文件扩展>
失败行数文件目录
当解析行的时候发生错误,行号将被放到这个目录。
错误行目录>
错误行扩展>
过滤
1、在“过滤”标签中,你可以指定文本文件中要过滤的行。
2、下面是标签的选项列表。
过滤字符
搜索字符串。
过滤位置
在行中过滤字符串必须存在的位置。
0是起始位置,如果你指定一个小于0的值,过滤器将搜索整个字符。
停止在过滤器
如果你想在文本文件遇到过滤字符的时候,停止处理,就指定Y。
功能5:
字段
1、设定要导入的字段。
2、选项。
描述。
名称
设置要在输出流中显示的字段名称。
类型
字段类型(String、Date、Number等)。
长度
对于Number:
有效数的数量。
对于String:
字符的长度。
对于Date:
打印输出字符的长度(例如4代表返回年份)。
精度
浮点数的数量。
对于String,Date,Boolean:
未使用。
货币类型
用来解释如$10,000.00的数字。
小数
小数点可以是”.”(10;
000.00)或者”,”(5.000,00)。
分组
分组可以是”.”(10;
如果为空
空值如何处理。
默认
字段为空的时候的默认值。
去空字符串
处理之前先去空。
重复
Y/N:
如果在当前行中对应的值为空,则重复最后一次不为空的值
3.2表输入
这一步常常用来利用连接和SQL,从数据库中读取信息。
自动生成基本的SQL语句。
指定选项
步骤名称
步骤的名称,在单一的步骤中,名称必需唯一。
连接
读取数据的数据库连接。
SQL
SQL语句用来从数据库连接中读取数据。
从步骤插入数据
指定我们期待读取数据的步骤名称。
这些信息能被插入到SQL语句。
限制
设置从数据库中读取的行数。
0所有行。
示例:
指定如下SQL语句:
日期可以从“获取系统信息”步骤类型中获取。
3.3EXCEL输入
这个步骤从EXCEL文件输入数据。
指定文件名
参考3.1文本文件输入
指定内容
检查是否工作表指定了一个头部行。
非空记录
检查是否不需要空行输出。
停在空记录
当步骤在读取工作表遇到一个空行的时候停止读取。
限制输出的行数,0代表输出所有行。
字段和错误处理
3.4CSV文件输入
这个步骤从CSV文件输入数据。
CSV文件名。
分割符
文件中使用的分割符。
#附件
只将符号内的字符串输入。
NIO的缓冲区大小
定义缓冲区大小。
延迟转换
是否延迟转换。
标题行存在
是否去掉标题行。
添加文件名到结果
是否在结果中输出文件名。
行号字段
行号字段命名。
并行运行
指定并行属性。
文件编码
选择字符集编码。
3.5文本文件输出
这个步骤将数据流输出到文本文件。
指定文件
文件名称
输出文件名。
以命令行方式运行
根据指定,把结果输出到命令行或者脚本。
扩展名
在文件名的最后添加一个点和扩展名(.txt)。
文件名里包含步骤数
如果你在多个拷贝中运行步骤,拷贝的数量将包含到文件名中(在扩展名之前)。
文件名包含分区
文件名中包含数据分区数量。
文件名包含日期
文件名中包含系统日期(_20041231)。
文件名包含时间
文件名中包含系统时间(_235959)。
特殊日期格式
指定特殊日期格式。
追加
是否在指定的文件最后追加行。
指定在文本中分隔字段的字符,例如;
或者制表符。
封闭符
封闭字段的一对字符。
可选。
如果你想有一个头部行,使这个选项可用(文件第一行)。
尾部
如果你想有一个尾部行,使这个选项可用(文件最后一行)
DOS或者UNIX。
UNIX文件行分隔符是换行符。
DOS文件可以是换行符或者回车符。
编码
指定文件使用的编码。
如果空白就使用系统缺省的编码。
指定压缩的类型(zip或者gzip)。
长度固定
在字段最后添加空格或者删除字符,直到长度达到指定。
快速数据导出
当处理大量数据到一个文本文件时,提高性能。
(不包含任何格式化信息)。
分拆…每一行
如果N比0大,用N行拆分文本文件,分割成多个部分。
增加文件结束行
指定输出文本的结束行。
指定字段
参考3.1文本文件输入
3.6表输出
这个步骤将数据导入数据库表。
用来写数据的数据库连接。
目标模式
数据库的模式名。
目标表
要写数据的表名。
提交记录数量
在数据表中用事务插入行。
如果N比0大,每N行提交一次连接。
否则,不使用事务,速度会慢一些。
裁剪表
在第一行数据插入之前裁剪表。
忽略插入错误
使Kettle忽略比喻违反主键约束之类的插入错误,最多20个警告将被日志记录。
在批量插入的时候这个功能不可用。
使用批量插入
如果你想批量插入的话,就使用这个选项。
这个选项的速度最快,默认被选上。
表分区数据
使用这个选项可以在多个表之间拆分数据。
表名定义在一个字段
使用这些选项可以拆分数据到一个或者多个表里,目标表名可以用你指定的字段来定义。
例如如果你想存储顾客性别数据,这些数据可能会存储到表M和表F里面(female女性和male男性表)。
这个选项可以阻止这些字段插入到对应的表里。
返回一个自动产生的关键字
往表中插入行时,是否产生一个关键字。
自动产生关键字的字段名称
指定包含关键字的输出字段的字段名称。
指定数据库字段
只导入指定的字段,多余的字段忽略。
字段值与数据流对应
3.7EXCEL输出
这个步骤将数据写入EXCEL表。
文件名和扩展名
用于指定输出文件。
不要在启动时创建文件
只写入已存在文件。
允许文件并行创建,并在文件名里包含步骤数。
文件名里包含日期
在文件名里包含日期。
文件名里包含时间
在文件名里包含时间。
指定日期时间格式
指定日期时间格式。
添加文件名到结果中
输出字段中包含文件名字段。
追加记录。
头
检查表单是否有头部。
脚
检查表单是否有尾部。
指定EXCEL表单使用的编码。
分割所有行
分割数据到几个输出文件中。
使用模板
输出的EXCEL数据是否使用模板。
EXCEL模板
格式化EXCEL输出的模板的名称。
追加EXCEL模板
是否将EXCEL输出添加到指定的EXCEL模板中。
指定你想输出到EXCEL文件中的字段
3.8插入/更新
这个步骤利用查询关键字在表中搜索行。
如果行没有找到,就插入行。
如果能被找到,并且要被更新的字段没有任何改变,就什么也不做。
如果有不同,行就会被更新。
提交之前要改变(插入/更新)的行数。
不执行任何更新
如果被选择,数据库的值永远不会被更新。
仅仅可以插入。
用来查询的关键字
可以指定字段值或者比较符。
可以用以下比较符:
=,
<
>
<
=,>
LIKE,BETWEEN,ISNULL,ISNOTNULL。
更新字段
指定你想要插入/更新的字段。
3.9更新
这个步骤查找当前数据库符合要求的记录,并更新指定字段。
提交之前要改变的行数。
跳过扫描
不执行查询。
忽略查询失败
如果被选择,则查询失败时不执行任何操作。
用来查询值的关键字
指定你想要更新的字段。
3.10删除
这个步骤查找当前数据库符合要求的记录,并删除。
查询值所需的关键字
3.11调用DB存储过程
这个步骤允许你运行一个数据库存储过程,获取返回结果。
存储过程所有的数据库的连接名称。
存储过程名称
调用的存储过程或者函数名称。
自动提交
在运行存储过程的时候自动提交。
返回值名称
调用存储过程或者函数返回结果的名称。
返回值类型
调用存储过程或者函数返回结果的类型。
参数
存储过程或者函数需要的参数列表。
3.12Switch分支
这个步骤允许你将数据流按条件分流,输送到不同的下一个步骤。
字段名称转换
待判断分流条件的字段名。
使用字符串包含
开启模糊匹配。
选择数据类型。
格式表达式
指定数据的格式(数字格式或日期格式)。
小数点符号
指定小数点符号。
分组符号
指定分组符号。
值
指定不同的值,以及相应的目标步骤。
3.13修改JavaScript的值
这个步骤允许你用JavaScript语言做复杂的运算。
✧Java脚本功能
针对可用的脚本、函数、输入字段和输出字段,提供一个树菜单浏览。
✧脚本
这个区域为你提供脚本的编辑。
你可以插入函数、常量、输入字段等等。
✧字段
字段表包含了脚本变量的列表,其中包括元数据。
✧获取变量
获取脚本中的变量列表。
✧测试脚本
测试脚本的语法。
3.14值映射
这个步骤简单的映射字符串,从一个值映射到另一个值。
例如:
如果你想替换Languagecodes,你可以:
使用的字段名:
LanuguageCode
目标字段名:
LanguageDesc
源值/目标值:
EN/English,FR/French,NL/Dutch,ES/Spanish,DE/German,…。
使用的字段名
待进行值映射转换的字段名。
源值
转换前的值。
目标值
转换后的值。
3.15列转行
这个步骤允许你将按列存储的数据转换为按行存储。
分隔字段
需要列转行的字段名。
字段中的分隔符。
新字段名
转换后的字段名。
3.16去除重复记录
这个步骤允许你去除关键字重复的记录。
拒绝重复行
增加重复行数到输出。
错误描述
包含重复行号的字段的名称。
用来比较的字段
指定重复值字段。
3.17去除重复记录(哈希集合)
参考3.16去除重复记录。
3.18增加常量
这个步骤很简单,主要是添加常量到流中。
它的使用也很容易:
用字符串形式指定名称,类型和值。
利用选择的数据类型指定转换格式。
增加的字段名称。
字段类型。
字段格式(数据格式、日期格式)。
长度、精度
增加的字段的长度和精度。
3.19增加序列
这个步骤在流中增加一个序列。
一个序列是在某个起始值和增量的基础上,经常改变的整数值。
你可以使用数据库的序列,也可以使用ETL工具决定的序列。
备注:
ETL序列在同一个转换中是唯一使用的。
每一次转换运行的时候,序列的值又会重新循环一次(从开始值开始)。
值的名称
新序列值的名称,将被添加到流中。
使用数据库获取序列
如果想使用数据库的序列,使用些选项。
使用计数器来计算序列
如果想使用ETL工具生成的序列,使用此选项。
计数器名称(可选)
如果一个转换中多个步骤生成同样的值名称,这个选项允许你指定计数器的名称,避免按照先后顺序通过多个步骤。
3.20字段选择
这个步骤常常用来:
选择字段、重命名字段、指定字段的长度或者精度。
下面是三个不同标签的功能:
1、选择和修改:
指定需要流到输出流中的字段的精确顺序和名称。
2、删除:
指定必须从输出流中删除的字段。
3、元数据:
修改元数据字段的名称、类型、长度和精度。
字段名称
选择或者修改的字段名称。
改名
如果不想改名,就使用空白。
输入数字指定长度(-1:
代表没有长度指定)。
输入数字指定精度(-1:
代表没有精度指定)。
3.21字符串裁剪
这个步骤允许你将数据流中的字符串进行裁剪,生成新的字符串。
在流中
输入流中的原字段名。
输出流
裁剪后的输出字段名。
开始
开始裁剪位置(若从第一个字符开始,填0)。
结束
结束裁剪位置(第一个字符为1,依次类推)。
3.22封锁步骤
这是一个非常简单的步骤。
它冻结所有的输出,直到从上一步骤来的最后一行数据到达,最后一行数据将发送到下一步。
你可以使用这个步
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ELT 平台 操作手册 KETTLE