IBM DataStage 使用
一、什么是DS
DS是为ETL开发提供图形化开发环境的工具,数据整合的核心内容就是从不同数据源中抽取数据,然后对数据进行转化,最终加载到目标数据库中去。是基于C/S模式,Client只能端安装在Windows平台上,Server端支持多种平台。
二、工具组成
Designer:
用来完成job(job Sequence ,Parallel job)的开发、编译、执行;设置参数;导入表的元数据等。
Administrator:
用来执行管理任务,如建立DataStage用户、建立和删除工程等,设置参数、系统环境变量等。
Manager:
用来管理项目资源,实现job的备份,和多个项目之间重复使用
Director :
监测job的运行状态,查看日志等;设置何时运行job
三、DS控件介绍
DB操作控件:主要用于各种DB的连接
文件操作控件:Sequence File
处理控件:Transform 负责数据转换;Aggregator 类似于Group By
四、DS的参数引用
#…#
五、DS的调度
运行Director,选择需要设置的job, 右键单击Add to schedule,选择定时执行的选项
六、DS存储过程调用
1、shell调度
2、Stored_Procedure
七、Designer组件使用说明
1、Transformer Stage
对输入的数据进行转换,并将数据输出到其它stage中
2、Sort Stage
用来执行复杂的排序操作
3、Merge Stage
将其中的一个输入设为Master,其余的为update,把update中Master Key值相同的记录合并入Master
4、join Stage
连接操作,支持多表连接
5、Aggretagor Stage
分组统计,需要设置分组关键字、要计算的字段、计算函数
6、Compare Stage
比较2个已经分类的有序文件
7、Lookup Stage
把数据读入内存后合并输出
8、Lookup File Set Stage
为提高查找效率,将数据生成专门的参考文件
9、Funnel Stage
将多个字段相同的文件合并为一个单独的文件
10、Copy Stage
拷贝一个输入集到多个输出集
11、Remove Duplicates
去除记录中关键字重复的记录
12、Modify Stage
修改表结构、删除字段、给字段改名、修改字段类型等
13、Filter Stage
根据筛选条件(where 子句) 输出
14、Switch Stage
case 关键值分配到不同的输出 类似于switch函数
15、Change Capture Stage
比较两组数据记录后者的差异
16、Head Stage
输出第一个N条记录
17、Tail
输出最后一个N条记录
18、Encode Stage
将文件转为二进制数据流
19、Decode Stage
将二进制数据流转为数据
20、Compress Stage
将data set 文件压缩成二进制文件
21、Expand Stage
将压缩的二进制文件进行解压
22、Difference Stage
比较两个文件找出不同的记录
23、Column import Stage
从一个字段导入数据到多个字段
24、Column Export Stage
从多个不同的字段导出数据到一个字段
八、作业顺序器
DS提供了图形化的作业顺序器,允许用户定义作业执行的序列;
从工具条增加一个Activities,通过Trigger进行连接用以定义控制流,每个activity都有属性,可以在trigger表达式中测试并且传到其他的activity中,activity也可以有参数,可以用来支持job参数,job序列可以有自己的属性和参数,这些属性和参数可以顺序传到activity中。序列也可以包括控制信息,例如:序列中job的成功或失败影响活动的走向。
http://blog.163.com/zhuqingqing_2010/blog/#m=0