dr. francisco j. mata 1 relaciones entre minería de datos, bodegas de datos y olap tema 3
TRANSCRIPT
Dr. Francisco J. MataDr. Francisco J. Mata 11
Relaciones entre minería Relaciones entre minería de datos, bodegas de datos de datos, bodegas de datos
y OLAPy OLAP
Tema 3Tema 3
22Dr. Francisco J. MataDr. Francisco J. Mata
Arquitectura de los datosArquitectura de los datos
Datos operacionales
Datos de resumen
Reglasde negocio
Detalle
Niv
el d
e ab
stra
cció
n
Bases dedatos, OLTP
Bodegas de datos,OLAP
Minería de datos,técnicas de minería dedatos
Datos
Información
Conocimiento
33Dr. Francisco J. MataDr. Francisco J. Mata
Arquitectura de los datosArquitectura de los datos
Datos operacionalesDatos operacionales Forma más básica de datosForma más básica de datos Asociados con sistemas operacionalesAsociados con sistemas operacionales
Bases de datos operacionalesBases de datos operacionales
OLTP: “online transaction processing”OLTP: “online transaction processing”
44Dr. Francisco J. MataDr. Francisco J. Mata
Arquitectura de los datosArquitectura de los datos
Datos de resumenDatos de resumen Derivados de datos operacionalesDerivados de datos operacionales Forma más común que los usuarios Forma más común que los usuarios
interactúan con los datosinteractúan con los datos Datos en reportes que presentan una visión Datos en reportes que presentan una visión
estática del negocioestática del negocioCondensarCondensar
SumarizarSumarizar
AgregarAgregar
55Dr. Francisco J. MataDr. Francisco J. Mata
Arquitectura de los datosArquitectura de los datos
Datos de resumenDatos de resumen Entender datos y las dimensiones utilizadas Entender datos y las dimensiones utilizadas
para su resumen que representan áreas de para su resumen que representan áreas de acción en el negocioacción en el negocio
RegiónRegión
ProductoProducto
66Dr. Francisco J. MataDr. Francisco J. Mata
Arquitectura de los datosArquitectura de los datos
Datos de resumenDatos de resumen Asociados con sistemas para toma de Asociados con sistemas para toma de
decisionesdecisionesBodegas de datosBodegas de datos
OLAP: “On-line Analytical ProcessingOLAP: “On-line Analytical Processing
77Dr. Francisco J. MataDr. Francisco J. Mata
Arquitectura de los datosArquitectura de los datos
Datos de resumenDatos de resumen Bodegas de datosBodegas de datos
Orientadas a temasOrientadas a temas ClientesClientes ProveedoresProveedores ProductosProductos
IntegradasIntegradas Múltiples fuentes heterogéneas de datosMúltiples fuentes heterogéneas de datos
Bases de datosBases de datos
ArchivosArchivos
Registros de transacciones en líneaRegistros de transacciones en línea
88Dr. Francisco J. MataDr. Francisco J. Mata
Arquitectura de los datosArquitectura de los datos
Datos de resumenDatos de resumen Bodegas de datosBodegas de datos
Dependientes del tiempoDependientes del tiempo Proveen información desde una perspectiva históricaProveen información desde una perspectiva histórica Todas las estructuras de datos tienen explícito o Todas las estructuras de datos tienen explícito o
implícito un elemento de tiempoimplícito un elemento de tiempo
No-volátilNo-volátil Se encuentran almacenadas físicamente separadas de Se encuentran almacenadas físicamente separadas de
los datos operacionaleslos datos operacionales No requiere mecanismos para procesamiento de No requiere mecanismos para procesamiento de
transacciones, recuperación y control de concurrenciatransacciones, recuperación y control de concurrencia
99Dr. Francisco J. MataDr. Francisco J. Mata
OLTP versus OLAPOLTP versus OLAP
CaracterísticaCaracterística OLTPOLTP OLAPOLAP
ObjetoObjeto ProcesamientoProcesamiento
operacionaloperacional
Procesamiento Procesamiento informacionalinformacional
OrientaciónOrientación TransaccionesTransacciones AnálisisAnálisis
FunciónFunción Operaciones diariasOperaciones diarias Información de largo Información de largo plazo, apoyo a decisionesplazo, apoyo a decisiones
DiseñoDiseño Basado en modelo Basado en modelo entidad-relación, entidad-relación, orientado a orientado a aplicacionesaplicaciones
Basado en modelo Basado en modelo estrella/copo de nieve, estrella/copo de nieve, orientado a temasorientado a temas
DatosDatos actuales; actualizados actuales; actualizados a la fechaa la fecha
Históricos; precisión en el Históricos; precisión en el tiempotiempo
1010Dr. Francisco J. MataDr. Francisco J. Mata
OLTP versus OLAPOLTP versus OLAP
CaracterísticaCaracterística OLTPOLTP OLAPOLAP
Nivel de Nivel de sumarizaciónsumarización
Poco, mucho detallePoco, mucho detalle Intermedio a mucho, Intermedio a mucho, sumarizados o sumarizados o consolidadosconsolidados
VistaVista Detallada y Detallada y usualmente planausualmente plana
Sumarizada, Sumarizada, multidimensional (cubos)multidimensional (cubos)
Números de Números de registros registros accesadosaccesados
DecenasDecenas Miles o millonesMiles o millones
Número de Número de usuariosusuarios
MilesMiles CientosCientos
Tamaño de la Tamaño de la base de datosbase de datos
100 MB a GB100 MB a GB 100 GB a TB100 GB a TB
1111Dr. Francisco J. MataDr. Francisco J. Mata
OLTP versus OLAPOLTP versus OLAP
CaracterísticaCaracterística OLTPOLTP OLAPOLAP
PrioridadPrioridad Alto desempeño, alta Alto desempeño, alta disponibilidaddisponibilidad
Gran flexibilidad, Gran flexibilidad, autonomía de los usuariosautonomía de los usuarios
MétricaMétrica ““Throughput” de Throughput” de transaccionestransacciones
““Throughput” de Throughput” de consultas, tiempo de consultas, tiempo de respuestarespuesta
1212Dr. Francisco J. MataDr. Francisco J. Mata
Ejemplo datos de resumenEjemplo datos de resumenGrados Bachilleratos Licenciatura Maestría
Año 1998 1999 2000 2001 2002 1998 1999 2000 2001 2002 1998 1999 2000 2001 2002
Centro educativo
Universidades públicas
Universidad de Costa Rica 58 110 99 128 128 7 2 0 2 2 20 10 9 19 35
Universidad Nacional 66 114 57 107 96 17 20 12 17 18 N/O N/O 27 24 16
Instituto Tecnológico de Costa Rica 37 57 38 76 85 N/O N/O N/O N/O N/O 16 23 21 26 19
Universidades privadas
Universidad Latina 40 78 156 106 210 57 37 35 13 23 N/O N/O N/O N/O N/O
Universidad Interamericana 1 0 9 7 29 N/O N/O N/O N/O N/O N/O N/O 2 27 20
Universidad Hispanoamericana 9 27 32 33 42 2 15 1 0 9 N/O N/O N/O N/O N/O
1313Dr. Francisco J. MataDr. Francisco J. Mata
Ejemplo cuboEjemplo cubo
UCR
UNA
ITCR
ULat
UInt
UHis
1998 1999 2000 2001 2002
58 110 99 128 128
66 114 57 107 96
37 57 38 76 85
40 78 156 106 210
1 0 9 7 29
9 27 32 33 42
Bachillerato
Licenciatura
Maestría
Públicos
Privados
Centros deenseñanza
Año
Grados
1414Dr. Francisco J. MataDr. Francisco J. Mata
Arquitectura de los datosArquitectura de los datos
Reglas de negociosReglas de negocios Describen por qué existen relaciones entre Describen por qué existen relaciones entre
los datoslos datos Son difíciles de capturarSon difíciles de capturar Técnicas de minería de datos producen tales Técnicas de minería de datos producen tales
reglasreglas
1515Dr. Francisco J. MataDr. Francisco J. Mata
Bodegas de datos y minería de Bodegas de datos y minería de datosdatos
Existencia de una bodega de datos facilita Existencia de una bodega de datos facilita la recolección de información en la la recolección de información en la minería de datosminería de datos
Sin embargo, la minería de datos no Sin embargo, la minería de datos no requiere la existencia de una bodega de requiere la existencia de una bodega de datosdatos
1616Dr. Francisco J. MataDr. Francisco J. Mata
OLAP y minería de datosOLAP y minería de datos
OLAP es una herramienta útil para OLAP es una herramienta útil para visualización y pude ser utilizada en visualización y pude ser utilizada en conjunto con técnicas de descubrimiento conjunto con técnicas de descubrimiento indirecto de conocimientoindirecto de conocimiento
OLAP no es minería de datosOLAP no es minería de datos