dr. francisco j. mata 1 relaciones entre minería de datos, bodegas de datos y olap tema 3

16
Dr. Francisco J. Mata Dr. Francisco J. Mata 1 Relaciones entre Relaciones entre minería de datos, minería de datos, bodegas de datos y bodegas de datos y OLAP OLAP Tema 3 Tema 3

Upload: eleuterio-serrato

Post on 19-Feb-2015

5 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

Dr. Francisco J. MataDr. Francisco J. Mata 11

Relaciones entre minería Relaciones entre minería de datos, bodegas de datos de datos, bodegas de datos

y OLAPy OLAP

Tema 3Tema 3

Page 2: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

22Dr. Francisco J. MataDr. Francisco J. Mata

Arquitectura de los datosArquitectura de los datos

Datos operacionales

Datos de resumen

Reglasde negocio

Detalle

Niv

el d

e ab

stra

cció

n

Bases dedatos, OLTP

Bodegas de datos,OLAP

Minería de datos,técnicas de minería dedatos

Datos

Información

Conocimiento

Page 3: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

33Dr. Francisco J. MataDr. Francisco J. Mata

Arquitectura de los datosArquitectura de los datos

Datos operacionalesDatos operacionales Forma más básica de datosForma más básica de datos Asociados con sistemas operacionalesAsociados con sistemas operacionales

Bases de datos operacionalesBases de datos operacionales

OLTP: “online transaction processing”OLTP: “online transaction processing”

Page 4: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

44Dr. Francisco J. MataDr. Francisco J. Mata

Arquitectura de los datosArquitectura de los datos

Datos de resumenDatos de resumen Derivados de datos operacionalesDerivados de datos operacionales Forma más común que los usuarios Forma más común que los usuarios

interactúan con los datosinteractúan con los datos Datos en reportes que presentan una visión Datos en reportes que presentan una visión

estática del negocioestática del negocioCondensarCondensar

SumarizarSumarizar

AgregarAgregar

Page 5: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

55Dr. Francisco J. MataDr. Francisco J. Mata

Arquitectura de los datosArquitectura de los datos

Datos de resumenDatos de resumen Entender datos y las dimensiones utilizadas Entender datos y las dimensiones utilizadas

para su resumen que representan áreas de para su resumen que representan áreas de acción en el negocioacción en el negocio

RegiónRegión

ProductoProducto

Page 6: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

66Dr. Francisco J. MataDr. Francisco J. Mata

Arquitectura de los datosArquitectura de los datos

Datos de resumenDatos de resumen Asociados con sistemas para toma de Asociados con sistemas para toma de

decisionesdecisionesBodegas de datosBodegas de datos

OLAP: “On-line Analytical ProcessingOLAP: “On-line Analytical Processing

Page 7: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

77Dr. Francisco J. MataDr. Francisco J. Mata

Arquitectura de los datosArquitectura de los datos

Datos de resumenDatos de resumen Bodegas de datosBodegas de datos

Orientadas a temasOrientadas a temas ClientesClientes ProveedoresProveedores ProductosProductos

IntegradasIntegradas Múltiples fuentes heterogéneas de datosMúltiples fuentes heterogéneas de datos

Bases de datosBases de datos

ArchivosArchivos

Registros de transacciones en líneaRegistros de transacciones en línea

Page 8: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

88Dr. Francisco J. MataDr. Francisco J. Mata

Arquitectura de los datosArquitectura de los datos

Datos de resumenDatos de resumen Bodegas de datosBodegas de datos

Dependientes del tiempoDependientes del tiempo Proveen información desde una perspectiva históricaProveen información desde una perspectiva histórica Todas las estructuras de datos tienen explícito o Todas las estructuras de datos tienen explícito o

implícito un elemento de tiempoimplícito un elemento de tiempo

No-volátilNo-volátil Se encuentran almacenadas físicamente separadas de Se encuentran almacenadas físicamente separadas de

los datos operacionaleslos datos operacionales No requiere mecanismos para procesamiento de No requiere mecanismos para procesamiento de

transacciones, recuperación y control de concurrenciatransacciones, recuperación y control de concurrencia

Page 9: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

99Dr. Francisco J. MataDr. Francisco J. Mata

OLTP versus OLAPOLTP versus OLAP

CaracterísticaCaracterística OLTPOLTP OLAPOLAP

ObjetoObjeto ProcesamientoProcesamiento

operacionaloperacional

Procesamiento Procesamiento informacionalinformacional

OrientaciónOrientación TransaccionesTransacciones AnálisisAnálisis

FunciónFunción Operaciones diariasOperaciones diarias Información de largo Información de largo plazo, apoyo a decisionesplazo, apoyo a decisiones

DiseñoDiseño Basado en modelo Basado en modelo entidad-relación, entidad-relación, orientado a orientado a aplicacionesaplicaciones

Basado en modelo Basado en modelo estrella/copo de nieve, estrella/copo de nieve, orientado a temasorientado a temas

DatosDatos actuales; actualizados actuales; actualizados a la fechaa la fecha

Históricos; precisión en el Históricos; precisión en el tiempotiempo

Page 10: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

1010Dr. Francisco J. MataDr. Francisco J. Mata

OLTP versus OLAPOLTP versus OLAP

CaracterísticaCaracterística OLTPOLTP OLAPOLAP

Nivel de Nivel de sumarizaciónsumarización

Poco, mucho detallePoco, mucho detalle Intermedio a mucho, Intermedio a mucho, sumarizados o sumarizados o consolidadosconsolidados

VistaVista Detallada y Detallada y usualmente planausualmente plana

Sumarizada, Sumarizada, multidimensional (cubos)multidimensional (cubos)

Números de Números de registros registros accesadosaccesados

DecenasDecenas Miles o millonesMiles o millones

Número de Número de usuariosusuarios

MilesMiles CientosCientos

Tamaño de la Tamaño de la base de datosbase de datos

100 MB a GB100 MB a GB 100 GB a TB100 GB a TB

Page 11: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

1111Dr. Francisco J. MataDr. Francisco J. Mata

OLTP versus OLAPOLTP versus OLAP

CaracterísticaCaracterística OLTPOLTP OLAPOLAP

PrioridadPrioridad Alto desempeño, alta Alto desempeño, alta disponibilidaddisponibilidad

Gran flexibilidad, Gran flexibilidad, autonomía de los usuariosautonomía de los usuarios

MétricaMétrica ““Throughput” de Throughput” de transaccionestransacciones

““Throughput” de Throughput” de consultas, tiempo de consultas, tiempo de respuestarespuesta

Page 12: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

1212Dr. Francisco J. MataDr. Francisco J. Mata

Ejemplo datos de resumenEjemplo datos de resumenGrados Bachilleratos Licenciatura Maestría

Año 1998 1999 2000 2001 2002 1998 1999 2000 2001 2002 1998 1999 2000 2001 2002

Centro educativo

Universidades públicas

Universidad de Costa Rica 58 110 99 128 128 7 2 0 2 2 20 10 9 19 35

Universidad Nacional 66 114 57 107 96 17 20 12 17 18 N/O N/O 27 24 16

Instituto Tecnológico de Costa Rica 37 57 38 76 85 N/O N/O N/O N/O N/O 16 23 21 26 19

Universidades privadas

Universidad Latina 40 78 156 106 210 57 37 35 13 23 N/O N/O N/O N/O N/O

Universidad Interamericana 1  0 9 7 29 N/O N/O N/O N/O N/O N/O N/O 2 27 20

Universidad Hispanoamericana 9 27 32 33 42 2 15 1 0 9 N/O N/O N/O N/O N/O

Page 13: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

1313Dr. Francisco J. MataDr. Francisco J. Mata

Ejemplo cuboEjemplo cubo

UCR

UNA

ITCR

ULat

UInt

UHis

1998 1999 2000 2001 2002

58 110 99 128 128

66 114 57 107 96

37 57 38 76 85

40 78 156 106 210

1 0 9 7 29

9 27 32 33 42

Bachillerato

Licenciatura

Maestría

Públicos

Privados

Centros deenseñanza

Año

Grados

Page 14: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

1414Dr. Francisco J. MataDr. Francisco J. Mata

Arquitectura de los datosArquitectura de los datos

Reglas de negociosReglas de negocios Describen por qué existen relaciones entre Describen por qué existen relaciones entre

los datoslos datos Son difíciles de capturarSon difíciles de capturar Técnicas de minería de datos producen tales Técnicas de minería de datos producen tales

reglasreglas

Page 15: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

1515Dr. Francisco J. MataDr. Francisco J. Mata

Bodegas de datos y minería de Bodegas de datos y minería de datosdatos

Existencia de una bodega de datos facilita Existencia de una bodega de datos facilita la recolección de información en la la recolección de información en la minería de datosminería de datos

Sin embargo, la minería de datos no Sin embargo, la minería de datos no requiere la existencia de una bodega de requiere la existencia de una bodega de datosdatos

Page 16: Dr. Francisco J. Mata 1 Relaciones entre minería de datos, bodegas de datos y OLAP Tema 3

1616Dr. Francisco J. MataDr. Francisco J. Mata

OLAP y minería de datosOLAP y minería de datos

OLAP es una herramienta útil para OLAP es una herramienta útil para visualización y pude ser utilizada en visualización y pude ser utilizada en conjunto con técnicas de descubrimiento conjunto con técnicas de descubrimiento indirecto de conocimientoindirecto de conocimiento

OLAP no es minería de datosOLAP no es minería de datos