manual data stage.pdf

27
Factorit y Compañía Limitada Servicios Integrales de Informática IBM WebSphere DataStage

Upload: 00110101001

Post on 20-Dec-2015

611 views

Category:

Documents


71 download

TRANSCRIPT

Page 1: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

IBM WebSphere DataStage

Page 2: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

2

Introducción

En el siguiente documento se procederá a mostrar la funcionalidad de los Stages de una

manera que sea fácil de entender y su rápida aplicación, A continuación se dará una breve

explicación de lo que es Data Stages a grandes rasgos

Datastage es una herramienta que permite crear rápidamente procesos ETL. Se basa

básicamente en una arquitectura Cliente-Servidor (en sus versiones más nuevas puede ser

hasta una arquitectura de 4 capaz). Puede acceder a distintos orígenes de datos y lo hace

ideal para realizar las tareas de carga de datos a un Data Warehouse o Data Mart, aunque

también se puede utilizar en cualquier proyecto que requiera mover datos desde un origen

a un destino. Las tareas (o Jobs) son compilados y se crean ejecutables que luego pueden

ser ejecutados mediante la misma herramienta o por línea de comandos.

En la actualidad existen varias versiones de la herramienta pero la más popular es la

Enterprise Edition que posee los dos motores de tareas que posee la herramienta (server

engine y parallel engine)

Ejercicio DataStage

Page 3: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

3

Extracción

Paso 1: Lo primero que tenemos que hacer es dirigirnos a la paleta de herramientas

(“Palette”), vamos a la opción “File” y de ese repositorio sacamos un (”Sequential File”) y lo

arrastramos al diseñador esto servirá para obtener los datos de origen.

Paso 2: Lo segundo que debemos hacer es dirigirnos nuevamente a la paleta de

herramientas (“Palette”), vamos a la opción “Processing” y luego de esa opción extraemos

un tranformer y lo arrastramos al diseñador. La característica de un Transformer puede

tener una sola entrada y cualquier número de salidas. También puede tener un enlace que

lleva rechazar cualquier fila que no han sido escritos en cualquiera de las salidas de enlaces

por razón de un error de escritura o expresión fracaso evaluación (“tener en cuenta que hay

que unir los procesos”)

Paso 3: Lo tercero que tenemos que hacer es dirigirnos nuevamente a la paleta de

herramientas (“Palette”), vamos a la opción ”File” y de ese repositorio sacamos un “Data

Set” y lo arrastramos al diseñador, La función del Data Set es básicamente de recibir los

datos ya filtrados del tranformer especificado la ruta donde se quiera guardar.

A continuación se mostrara en la siguiente ilustración como estaría todo el esquema unido

en el DataStage.

Tener en cuenta que hay que cambiar los nombres de los link y de los procesos

dependiendo a que proceso corresponda.

Page 4: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

4

Configuración de los procesos (“Extracción”)

a) Sequential File: Una vez ya realizado todo el esquema de unión nos dirigimos a las

propiedades del Sequential File, donde tenemos que ingresar en el (“textbox File”)

la ruta de los datos de origen como se especifica en la siguiente ilustración.

b) Format: A continuación nos dirigimos a la opción Format donde tendremos que ir a la

carpeta “Field Defaults” vamos a la opción Delimiter donde tenemos que especificar qué

Page 5: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

5

tipo de delimitador tiene nuestros datos en este caso tiene un “|” que se está usado para

separar los datos, luego de eso vamos a la opción Quote donde tendremos que seleccionar

si nuestros datos son (“Doublé, single o none”) en este este caso se está utilizando none.

c) Columns: Una vez realizado las configuraciones en Format vamos a la opción Columns

donde tendremos que ingresar las columnas de las base datos o archivo plano con sus

Page 6: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

6

respectivos valores (“tipo de dato, largo y si null”). una vez ingresado todos los datos

correctamente presionan OK.

Configuración de los procesos (“Tranformer”)

Page 7: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

7

a) Tranformer: A continuación ingresamos a las propiedades del tranformer donde tendremos

las tablas de origen del Sequential file donde tendremos que hacer las siguiente

configuración como lo muestra las siente ilustración (“b”).

b) Tranformer traspaso de datos: Como vimos en lo anterior ahora tenemos que traspasar los

datos de origen de la tabla izquierda a la tercera tabla del lado derecho. De esta maneara

habremos dado pase al siguiente proceso.

Page 8: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

8

Configuración de los procesos (“Data Set”)

Page 9: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

9

a) Data Set: A continuación vamos a las propiedades del Data Set donde básicamente

tendremos que ingresar la ruta en el text box File donde queremos que se guarde los datos

finales. Una vez ingresado la ruta presionan OK.

Page 10: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

10

Ejercicio DataStage

Transformación

Paso 1: Lo primero que tenemos que hacer es extraer el proceso final de la extracción

“Data Set” copiamos y luego nos dirigimos a la carpeta transformación donde pegamos el

proceso.

Paso 2: Lo segundo que debemos hacer es dirigirnos a la paleta de herramientas

(“Palette”), y extraemos el proceso Join hay cuatro tipos de combinaciones que se le puede

dar al proceso Join como por ejemplo

Left Outer Join

Right Outer Join

Inner Join

Full Outer Join

Paso 3: Lo tercero que tenemos que hacer es dirigirnos a la paleta de herramientas

(“Palette”), y extraemos el proceso Remove Duplicates y lo arrastramos al diseñador

Paso 4: Lo cuarto que debemos es dirigirnos nuevamente a la paleta de herramientas

(“Palette”), vamos a la opción “Processing” y luego de esa opción extraemos un tranformer

y lo arrastramos al diseñador

Paso 5: Lo quinto que tenemos que hacer es dirigirnos nuevamente a la paleta de

herramientas (“Palette”), vamos a la opción “File” y de ese repositorio sacamos un “Data

Set” y lo arrastramos al diseñador

Paso 6: Lo sexto que tenemos que hacer es dirigirnos al nuevamente a la paleta de

herramientas (“Palette”), vamos a la opción “File” y de ese repositorio sacamos un

“(”Sequential File”) y lo arrastramos al diseñador”

Page 11: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

11

Configuración (“Transformación”)

Sequential File (Transformación): Una vez realizado el esquema nos dirigimos a al

Sequential que pegamos e ingresamos a las propiedades y veremos como se muestra en

la siguiente ilustración donde tendremos que poner la ruta del Sequential de la extracción

como mostraremos en la siguiente ilustración Data Set 2

Page 12: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

12

Data Set 2:

A continuación nos dirigiremos al text box “File” donde indicamos la ruta de la extracción

así de esta manera estaremos llamando los datos finales de la extracción.

Page 13: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

13

Sequential File: Posteriormente una vez ya realizado la configuración del Data Set nos

dirigimos al Sequential File y abrimos las propiedades y ponemos la ruta en el text box File

de los datos de que queremos que se hagan el cruce en Join. (“Tener en cuenta que hay

que revisar las columnas”)

Page 14: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

14

Join: A continuación nos dirigimos a las propiedades del Join donde tendremos que buscar

las keys para hacer el cruce de los datos y luego filtrarlos a un tranformer o un data set

dependiendo lo que se necesite, en este caso solo está capturando una sola “key” como se

muestra en la siguiente ilustración pero no siempre es una sola key en la siguiente

ilustración, mostraremos como agregar más keys al Join en la siguiente ilustración.

Page 15: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

15

Join (“Agregar keys”): Como mencionado en lo anterior mostraremos como agregar más

keys al Join, nos dirigimos a la carpeta “Join Keys” presionamos en ella y luego vamos a la

parte de abajo del lado derecho y presionamos en la opción “Key” y nos estará agregando

automáticamente una nueva key pero no obstante tendremos que agregar la key

correspondiente como lo hicimos anteriormente.

Page 16: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

16

Join (“Mapping”): Luego de haber agregado las key(s) nos dirigimos a la pestaña “Output” y

“Mapping” donde le aparecerá solo la tabal “Columns” llena donde ustedes tendrán que

seleccionar toda la tabla y arrastrarla a la tabla del lado derecho.

Page 17: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

17

Join (“Columns”): En la pestaña “Columns” solo tendremos que verificar si los datos son correctos

pero por lo general una ver traspasado los datos del Mapping estas se agregan automáticamente.

Page 18: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

18

Archivo de rechazo: A continuación veremos cómo hacer un archivo de rechazo cómo

podemos ver en la siguiente ilustración para ello tendremos que dirigirnos a la paleta de

herramientas y en la opción Processing extraemos un Remove Duplicates lo cual esta

opción nos removerá los duplicados y en el Transformer ingresaremos la condición de

rechazo y luego de eso agregamos un Sequential file para recepcionar los datos

rechazados.

Page 19: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

19

Remove Duplicates: Como ya visto en el Join este proceso tiene el mismo mecanismo,

hay que extraer la key luego dirigirse a Output y hacer el Mapping y verificar las Columnas.

Page 20: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

20

Remove Duplicates (Mapping): Como mencionado en lo anterior nos dirigimos al

Mapping donde tendremos que seleccionar la tabla del lado izquierdo y arrastrarlo a la tabla

del lado derecho para traspasar los datos y luego de eso verificar las columnas

Page 21: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

21

Tranformer (Transformación): A continuación nos dirigimos al Transformer donde

abrimos en las propiedades en la cual se nos desplegara la siguiente interfaz y en ella

tendremos que realizar los mismos pasos que se realizó en el tranformer anterior de la

extracción donde seleccionaremos todos los datos de la tabla izquierda y luego

procederemos arrastrarlo a la tercera tabla del lado derecho hacemos el mismo

procedimiento para la cuarta tabla del lado derecho. Luego de eso tenemos que hacer un

paso que es vital para realizar el archivo de rechazo ya que en ella ingresaremos la

condición para que nos filtre los datos como se puede apreciar en la siguiente ilustración

por lo general en este tipo de condiciones se utiliza la sentencia IF dado que es una manera

más óptima de realizarlo, en este caso se está haciendo una rechazo a los RUT con la letra

“K” por lo que se está ingresando la siguiente sentencia (“If Trim (DSLink9.Item ,'k' ,"A")

= DSLink9.Item Then 1 Else 0”) ya que de esta maneara se realiza el rechazo. .

Page 22: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

22

Sequential file (“rechazo”): Una vez ya echo la condición en el tranformer nos dirigimos

a las propiedades del Sequential file en la cual ingresaremos en el text box file la ruta

donde queremos que se guarde los datos de rechazo.

Page 23: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

23

Data Set: Una vez realizado el Transformer nos dirigimos al Data set en donde este será vuestro

paso final para terminar la transformación, una vez más abrimos en las propiedades en donde se

nos mostrara la siguiente interfaz en la cual tendremos que especificar en el “Text box file” la

ruta en donde queremos que se guarde.

Page 24: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

24

Ejercicio DataStage

Carga

Paso 1: Lo primero que tenemos que hacer es dirigirnos al archivo final de la

transformación y copiarlo para luego posteriormente pegarlo en el Job de carga.

Paso 2: Lo segundo que tenemos que hacer es dirigirnos a la paleta de herramientas en

la opción Processing y sacamos un tranformer y lo arrastramos al diseñador.

Paso 3: Lo tercero que tenemos que hacer es ir nuevamente a la paleta de herramientas

en la opción file y sacamos un Sequential file y lo arrastramos al diseñador

A continuación se mostrara como debe estar armado el esquema en el Data Stage

Page 25: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

25

Configuración (“Carga”)

Data Set (Final transformación): Como mencionado en lo anterior tenemos que copiar

el data set final de la transformación para luego pegarlo en el Job de carga una vez echo

eso vamos a las propiedades del data set donde tendremos que pegar la ruta del data set

de la transformación como se muestra en la siguiente ilustración. (“tener en cuenta que si

no copias bien la ruta los datos no se traspasaran con éxito”).

Page 26: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

26

Tranformer (“Carga”): Una vez realizado el proceso anterior nos dirigimos al tranformer

donde abrimos las propiedades y hacemos los mismos pasos que llevas haciendo en todo

el manual en el tranformer como se muestra en la siguiente ilustración.

Page 27: manual data Stage.pdf

Factorit y Compañía Limitada Servicios Integrales de Informática

27

Data Set (Carga): Este sería el último paso para realizar la serie de extracción,

transformación y carga. Lo que tenemos que hacer es dirigirnos a las propiedades del data

set y especificar la ruta donde va ser destinado los datos y de esta manera usted habrá

completado la serie de los Jobs.