manual data stage.pdf
TRANSCRIPT
Factorit y Compañía Limitada Servicios Integrales de Informática
IBM WebSphere DataStage
Factorit y Compañía Limitada Servicios Integrales de Informática
2
Introducción
En el siguiente documento se procederá a mostrar la funcionalidad de los Stages de una
manera que sea fácil de entender y su rápida aplicación, A continuación se dará una breve
explicación de lo que es Data Stages a grandes rasgos
Datastage es una herramienta que permite crear rápidamente procesos ETL. Se basa
básicamente en una arquitectura Cliente-Servidor (en sus versiones más nuevas puede ser
hasta una arquitectura de 4 capaz). Puede acceder a distintos orígenes de datos y lo hace
ideal para realizar las tareas de carga de datos a un Data Warehouse o Data Mart, aunque
también se puede utilizar en cualquier proyecto que requiera mover datos desde un origen
a un destino. Las tareas (o Jobs) son compilados y se crean ejecutables que luego pueden
ser ejecutados mediante la misma herramienta o por línea de comandos.
En la actualidad existen varias versiones de la herramienta pero la más popular es la
Enterprise Edition que posee los dos motores de tareas que posee la herramienta (server
engine y parallel engine)
Ejercicio DataStage
Factorit y Compañía Limitada Servicios Integrales de Informática
3
Extracción
Paso 1: Lo primero que tenemos que hacer es dirigirnos a la paleta de herramientas
(“Palette”), vamos a la opción “File” y de ese repositorio sacamos un (”Sequential File”) y lo
arrastramos al diseñador esto servirá para obtener los datos de origen.
Paso 2: Lo segundo que debemos hacer es dirigirnos nuevamente a la paleta de
herramientas (“Palette”), vamos a la opción “Processing” y luego de esa opción extraemos
un tranformer y lo arrastramos al diseñador. La característica de un Transformer puede
tener una sola entrada y cualquier número de salidas. También puede tener un enlace que
lleva rechazar cualquier fila que no han sido escritos en cualquiera de las salidas de enlaces
por razón de un error de escritura o expresión fracaso evaluación (“tener en cuenta que hay
que unir los procesos”)
Paso 3: Lo tercero que tenemos que hacer es dirigirnos nuevamente a la paleta de
herramientas (“Palette”), vamos a la opción ”File” y de ese repositorio sacamos un “Data
Set” y lo arrastramos al diseñador, La función del Data Set es básicamente de recibir los
datos ya filtrados del tranformer especificado la ruta donde se quiera guardar.
A continuación se mostrara en la siguiente ilustración como estaría todo el esquema unido
en el DataStage.
Tener en cuenta que hay que cambiar los nombres de los link y de los procesos
dependiendo a que proceso corresponda.
Factorit y Compañía Limitada Servicios Integrales de Informática
4
Configuración de los procesos (“Extracción”)
a) Sequential File: Una vez ya realizado todo el esquema de unión nos dirigimos a las
propiedades del Sequential File, donde tenemos que ingresar en el (“textbox File”)
la ruta de los datos de origen como se especifica en la siguiente ilustración.
b) Format: A continuación nos dirigimos a la opción Format donde tendremos que ir a la
carpeta “Field Defaults” vamos a la opción Delimiter donde tenemos que especificar qué
Factorit y Compañía Limitada Servicios Integrales de Informática
5
tipo de delimitador tiene nuestros datos en este caso tiene un “|” que se está usado para
separar los datos, luego de eso vamos a la opción Quote donde tendremos que seleccionar
si nuestros datos son (“Doublé, single o none”) en este este caso se está utilizando none.
c) Columns: Una vez realizado las configuraciones en Format vamos a la opción Columns
donde tendremos que ingresar las columnas de las base datos o archivo plano con sus
Factorit y Compañía Limitada Servicios Integrales de Informática
6
respectivos valores (“tipo de dato, largo y si null”). una vez ingresado todos los datos
correctamente presionan OK.
Configuración de los procesos (“Tranformer”)
Factorit y Compañía Limitada Servicios Integrales de Informática
7
a) Tranformer: A continuación ingresamos a las propiedades del tranformer donde tendremos
las tablas de origen del Sequential file donde tendremos que hacer las siguiente
configuración como lo muestra las siente ilustración (“b”).
b) Tranformer traspaso de datos: Como vimos en lo anterior ahora tenemos que traspasar los
datos de origen de la tabla izquierda a la tercera tabla del lado derecho. De esta maneara
habremos dado pase al siguiente proceso.
Factorit y Compañía Limitada Servicios Integrales de Informática
8
Configuración de los procesos (“Data Set”)
Factorit y Compañía Limitada Servicios Integrales de Informática
9
a) Data Set: A continuación vamos a las propiedades del Data Set donde básicamente
tendremos que ingresar la ruta en el text box File donde queremos que se guarde los datos
finales. Una vez ingresado la ruta presionan OK.
Factorit y Compañía Limitada Servicios Integrales de Informática
10
Ejercicio DataStage
Transformación
Paso 1: Lo primero que tenemos que hacer es extraer el proceso final de la extracción
“Data Set” copiamos y luego nos dirigimos a la carpeta transformación donde pegamos el
proceso.
Paso 2: Lo segundo que debemos hacer es dirigirnos a la paleta de herramientas
(“Palette”), y extraemos el proceso Join hay cuatro tipos de combinaciones que se le puede
dar al proceso Join como por ejemplo
Left Outer Join
Right Outer Join
Inner Join
Full Outer Join
Paso 3: Lo tercero que tenemos que hacer es dirigirnos a la paleta de herramientas
(“Palette”), y extraemos el proceso Remove Duplicates y lo arrastramos al diseñador
Paso 4: Lo cuarto que debemos es dirigirnos nuevamente a la paleta de herramientas
(“Palette”), vamos a la opción “Processing” y luego de esa opción extraemos un tranformer
y lo arrastramos al diseñador
Paso 5: Lo quinto que tenemos que hacer es dirigirnos nuevamente a la paleta de
herramientas (“Palette”), vamos a la opción “File” y de ese repositorio sacamos un “Data
Set” y lo arrastramos al diseñador
Paso 6: Lo sexto que tenemos que hacer es dirigirnos al nuevamente a la paleta de
herramientas (“Palette”), vamos a la opción “File” y de ese repositorio sacamos un
“(”Sequential File”) y lo arrastramos al diseñador”
Factorit y Compañía Limitada Servicios Integrales de Informática
11
Configuración (“Transformación”)
Sequential File (Transformación): Una vez realizado el esquema nos dirigimos a al
Sequential que pegamos e ingresamos a las propiedades y veremos como se muestra en
la siguiente ilustración donde tendremos que poner la ruta del Sequential de la extracción
como mostraremos en la siguiente ilustración Data Set 2
Factorit y Compañía Limitada Servicios Integrales de Informática
12
Data Set 2:
A continuación nos dirigiremos al text box “File” donde indicamos la ruta de la extracción
así de esta manera estaremos llamando los datos finales de la extracción.
Factorit y Compañía Limitada Servicios Integrales de Informática
13
Sequential File: Posteriormente una vez ya realizado la configuración del Data Set nos
dirigimos al Sequential File y abrimos las propiedades y ponemos la ruta en el text box File
de los datos de que queremos que se hagan el cruce en Join. (“Tener en cuenta que hay
que revisar las columnas”)
Factorit y Compañía Limitada Servicios Integrales de Informática
14
Join: A continuación nos dirigimos a las propiedades del Join donde tendremos que buscar
las keys para hacer el cruce de los datos y luego filtrarlos a un tranformer o un data set
dependiendo lo que se necesite, en este caso solo está capturando una sola “key” como se
muestra en la siguiente ilustración pero no siempre es una sola key en la siguiente
ilustración, mostraremos como agregar más keys al Join en la siguiente ilustración.
Factorit y Compañía Limitada Servicios Integrales de Informática
15
Join (“Agregar keys”): Como mencionado en lo anterior mostraremos como agregar más
keys al Join, nos dirigimos a la carpeta “Join Keys” presionamos en ella y luego vamos a la
parte de abajo del lado derecho y presionamos en la opción “Key” y nos estará agregando
automáticamente una nueva key pero no obstante tendremos que agregar la key
correspondiente como lo hicimos anteriormente.
Factorit y Compañía Limitada Servicios Integrales de Informática
16
Join (“Mapping”): Luego de haber agregado las key(s) nos dirigimos a la pestaña “Output” y
“Mapping” donde le aparecerá solo la tabal “Columns” llena donde ustedes tendrán que
seleccionar toda la tabla y arrastrarla a la tabla del lado derecho.
Factorit y Compañía Limitada Servicios Integrales de Informática
17
Join (“Columns”): En la pestaña “Columns” solo tendremos que verificar si los datos son correctos
pero por lo general una ver traspasado los datos del Mapping estas se agregan automáticamente.
Factorit y Compañía Limitada Servicios Integrales de Informática
18
Archivo de rechazo: A continuación veremos cómo hacer un archivo de rechazo cómo
podemos ver en la siguiente ilustración para ello tendremos que dirigirnos a la paleta de
herramientas y en la opción Processing extraemos un Remove Duplicates lo cual esta
opción nos removerá los duplicados y en el Transformer ingresaremos la condición de
rechazo y luego de eso agregamos un Sequential file para recepcionar los datos
rechazados.
Factorit y Compañía Limitada Servicios Integrales de Informática
19
Remove Duplicates: Como ya visto en el Join este proceso tiene el mismo mecanismo,
hay que extraer la key luego dirigirse a Output y hacer el Mapping y verificar las Columnas.
Factorit y Compañía Limitada Servicios Integrales de Informática
20
Remove Duplicates (Mapping): Como mencionado en lo anterior nos dirigimos al
Mapping donde tendremos que seleccionar la tabla del lado izquierdo y arrastrarlo a la tabla
del lado derecho para traspasar los datos y luego de eso verificar las columnas
Factorit y Compañía Limitada Servicios Integrales de Informática
21
Tranformer (Transformación): A continuación nos dirigimos al Transformer donde
abrimos en las propiedades en la cual se nos desplegara la siguiente interfaz y en ella
tendremos que realizar los mismos pasos que se realizó en el tranformer anterior de la
extracción donde seleccionaremos todos los datos de la tabla izquierda y luego
procederemos arrastrarlo a la tercera tabla del lado derecho hacemos el mismo
procedimiento para la cuarta tabla del lado derecho. Luego de eso tenemos que hacer un
paso que es vital para realizar el archivo de rechazo ya que en ella ingresaremos la
condición para que nos filtre los datos como se puede apreciar en la siguiente ilustración
por lo general en este tipo de condiciones se utiliza la sentencia IF dado que es una manera
más óptima de realizarlo, en este caso se está haciendo una rechazo a los RUT con la letra
“K” por lo que se está ingresando la siguiente sentencia (“If Trim (DSLink9.Item ,'k' ,"A")
= DSLink9.Item Then 1 Else 0”) ya que de esta maneara se realiza el rechazo. .
Factorit y Compañía Limitada Servicios Integrales de Informática
22
Sequential file (“rechazo”): Una vez ya echo la condición en el tranformer nos dirigimos
a las propiedades del Sequential file en la cual ingresaremos en el text box file la ruta
donde queremos que se guarde los datos de rechazo.
Factorit y Compañía Limitada Servicios Integrales de Informática
23
Data Set: Una vez realizado el Transformer nos dirigimos al Data set en donde este será vuestro
paso final para terminar la transformación, una vez más abrimos en las propiedades en donde se
nos mostrara la siguiente interfaz en la cual tendremos que especificar en el “Text box file” la
ruta en donde queremos que se guarde.
Factorit y Compañía Limitada Servicios Integrales de Informática
24
Ejercicio DataStage
Carga
Paso 1: Lo primero que tenemos que hacer es dirigirnos al archivo final de la
transformación y copiarlo para luego posteriormente pegarlo en el Job de carga.
Paso 2: Lo segundo que tenemos que hacer es dirigirnos a la paleta de herramientas en
la opción Processing y sacamos un tranformer y lo arrastramos al diseñador.
Paso 3: Lo tercero que tenemos que hacer es ir nuevamente a la paleta de herramientas
en la opción file y sacamos un Sequential file y lo arrastramos al diseñador
A continuación se mostrara como debe estar armado el esquema en el Data Stage
Factorit y Compañía Limitada Servicios Integrales de Informática
25
Configuración (“Carga”)
Data Set (Final transformación): Como mencionado en lo anterior tenemos que copiar
el data set final de la transformación para luego pegarlo en el Job de carga una vez echo
eso vamos a las propiedades del data set donde tendremos que pegar la ruta del data set
de la transformación como se muestra en la siguiente ilustración. (“tener en cuenta que si
no copias bien la ruta los datos no se traspasaran con éxito”).
Factorit y Compañía Limitada Servicios Integrales de Informática
26
Tranformer (“Carga”): Una vez realizado el proceso anterior nos dirigimos al tranformer
donde abrimos las propiedades y hacemos los mismos pasos que llevas haciendo en todo
el manual en el tranformer como se muestra en la siguiente ilustración.
Factorit y Compañía Limitada Servicios Integrales de Informática
27
Data Set (Carga): Este sería el último paso para realizar la serie de extracción,
transformación y carga. Lo que tenemos que hacer es dirigirnos a las propiedades del data
set y especificar la ruta donde va ser destinado los datos y de esta manera usted habrá
completado la serie de los Jobs.