proceso de data mining en sistema de medición de calidad ... · pdf fileproceso de data...
TRANSCRIPT
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página I
PROYECTO FIN DE CARRERA
Proceso de Data Mining en sistema de medición de calidad en plazo del
correo nacional
DIRECTOR: JOSÉ ÁNGEL OLIVAS VARELA
AUTOR: ALFREDO CARRERAS GÓMEZ
UNIVERSIDAD PONTIFICIA COMILLAS
ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA (ICAI) INGENIERO EN INFORMÁTCA
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página II
Agradecimientos
Tras estas líneas comienza el final de mi vida universitaria. Ha sido un camino largo y
duro, y, sin embargo, lleno de buenos momentos que sin duda alguna han marcado mi carácter
personal y mi perfil profesional.
Quisiera agradecer en especial a mi familia el apoyo y cariño prestado durante todo este
tiempo, y a mi novia por la paciencia y comprensión que ha demostrado.
Igualmente, me gustaría agradecer a todos los profesores, en especial a aquellos que
decidieron andar conmigo todo o parte de este camino, sus aportaciones durante el tiempo que ha
durado esta experiencia han sido fundamentales.
Por último, me gustaría mencionar a todos los excepcionales compañeros y amigos que he
podido conocer durante estos años de carrera. En todo momento he podido contar con vosotros.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página III
Al utilizar los servicios postales que Correos y Telégrafos ofrece en este país y en el
extranjero, siempre me había preguntado si la felicitación navideña para los abuelos llegaría a
tiempo o si el regalo para mi hermano llegaría en la fecha exacta de su cumpleaños, o unos días
antes o después.
Se dispone de información obtenida tras la medición de calidad en plazo del correo
nacional mediante cartas test desde el año 2000 distribuidas entre las 52 provincias españolas
por empresas y particulares. En total, cerca de unas 650.000 cartas ordinarias y unas 50.000
cartas urgentes.
Para llevar a cabo la medición de la calidad End-to-End (medida en días de entrega entre la
fecha de deposición de un envió y la fecha de recepción) se requiere un panel de empresas y
particulares distribuidas entre las 52 provincias españolas, que pueden actuar tanto de emisores
como de destinatarios de cartas test.
Cada semana se asigna el volumen de correo a enviar para cubrir unos requerimientos
mínimos impuestos por Correos, llegando a enviarse anualmente cerca de 130.000 cartas para la
línea básica y 25.000 para la línea urgente. El estudio mide la calidad en plazo de la carta
ordinaria (envíos de carácter personal que no superen los 2 Kg), tanto la línea básica como
urgente, para flujos de correo local, provincial y nacional. Para cada uno de estos flujos se
distingue el método de franqueo (sello, máquina de franquear o franqueo pagado), método de
inducción (buzón, oficina de correos o centro de admisión masiva), el tipo de carta (definido
según parámetros como tamaño, peso, dirección postal, lugar de recogida,...), dirección (escrita a
mano o a maquina), tipo de panelista (empresa o particular), día de la semana en que fue
depositada, etc.
Toda esta información relevante para el estudio se almacena en una base de datos histórica
de gran tamaño. La base de datos contiene millones de registros, cada registro a su vez tiene
cientos o miles de campos. Bajo estas condiciones, es casi imposible obtener información de
interés con una simple exploración de datos.
RESUMEN
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página IV
Para obtener conocimiento mediante reconocimiento de patrones, predicciones basadas en
datos históricos, clasificación automática, clustering� es necesario diseñar una herramienta de
Data Mining que realice este tipo de análisis de forma automatizada, a gran velocidad y con
altos niveles de exactitud.
La base de datos contiene millones de registros, cada registro a su vez tiene cientos o
miles de campos. Bajo estas condiciones, es casi imposible obtener información de interés con
una simple exploración de datos. Para obtener conocimiento mediante reconocimiento de
patrones, predicciones basadas en datos históricos, clasificación automática, clustering� es
necesario diseñar una herramienta de Data Mining que realice este tipo de análisis de forma
automatizada, a gran velocidad y con altos niveles de exactitud.
La Minería de Datos es una etapa dentro del proceso de Descubrimiento de Conocimiento
en Bases de datos, Knowledge Discovery in Databases, KDD. KDD se define como "el proceso
no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia,
comprensibles a partir de los datos". En este proyecto de KDD se han aplicado todas las etapas
de las que consta un proceso de descubrimiento de conocimiento en bases de datos:
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página V
1. Integración y recopilación
Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas.
2. Preparación de Datos
Seleccionar y preparar el subconjunto de datos que se va a minar, mediante la detección de
valores anómalos, faltantes o erróneos y la transformación de atributos, discretización y
numeración.
3. Minería de Datos
Dentro de la etapa propia de Minería de Datos se han identificado tareas y técnicas para la
búsqueda de información oculta, novedosa y potencialmente útil, destacando:
- Clasificación (árboles de decisión ID3)
- Predicción (mediante reglas y factores de certeza. 319 reglas)
- Segmentación (clústering jerárquico)
- Análisis de correlación (coeficiente de correlación lineal)
Reglas de asociación (ajuste de curva univariable).
4. Evaluación
En esta fase se evalúan los patrones y se analizan por los expertos, y si es necesario vuelve
a las fases anteriores para una nueva iteración. Esto incluye resolver posibles conflictos con el
conocimiento que se disponía anteriormente.
5. Difusión y Uso de Modelos
La herramienta de Data Mining desarrollada es capaz de determinar las causas del retraso
de una carta, estimar la predicción del plazo y estado de recepción para cualquier origen y
destino nacional, identificar comunidades autónomas con similares patrones de comportamiento,
analizar como se distribuyen los datos a través del tiempo e incluso identificar las rutas óptimas y
las más tardías, para posteriormente poder realizar acciones correctoras en rutas en las que la
demora en la recepción de envíos está por debajo de los estándares. Esto redundará en una
mejora de la calidad del plazo de entrega del correo nacional.
Gracias a esta herramienta, el año que viene mis abuelos recibirán antes la felicitación de
Navidad.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página VI
After using postal services offered by Correos y Telégrafos in our country and abroad, I
have always wonder if my grandfather´s Christmas card will be arrive on time, or if my brother´s
birthday gift Hill arrive in his day of birth, maybe later or sooner.
There is a lot of information taken after measuring quality in the arrival time of the
nacional postal service through test letters since year 2000, allocated for all 52 provinces by
business and particular participants. Totally, near 650.000 ordinary letters and 50.000 urgent
letters.
The database has million of registers, rows, columns, � With this amount of data, is
almost impossible to get useful information with a simple data exploration. To get rich
knowledge using pattern recognition, automatic classification, clustering,� we need to develop
a Data Mining tool to make this kind of analysis correctly, fast and with high level of accuracy.
We deals with a KDD Project (Knowledge Discovery from Databases) where all steps of
the KDD process has been done. The steps applied to get the usefull Knowledge are:
1. Integration and recopilation
2. Data preparation
3. Data Mining
4. Evaluation
5. Deployment and Models using
ABSTRACT
Integration and recopilation
Data selection, cleansing and transformation
Data Mining Interpretation and evaluation
Diferent sources of data
Data Minable view Pattern Knowledge
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página VII
In the Data Mining stage, it has been identified tasks and technologies to
informationretrival, new and useful knowlege, such as:
- Classification (ID3 decission trees)
- Prediction (319 rules)
- Clustering (hierarchical clustering)
- Correlative analysis (linear regresion)
- Associaiton rules (one-variable adjustment curve)
The Data Mining tool developed is able to determine the causes of a setter delay, to predict
when the letter will arrive and the estate of reception for any national origin or destination, to
identify autonomous regions with similar pattern behaviour, to analize data distribuion over the
time and even to identify the bests routes and those where it takes so much times, afterwards to
be able to begin new actions to improve that routes.
Thanks to the development of this tool, the next year my grandfathers will receive earlier
the Christmas card.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página VIII
1. INTRODUCCIÓN...................................................................................................... 1
2. DEFINICIÓN DEL PROYECTO ............................................................................. 4
2.1 Análisis de las necesidades de la organización y definición del problema.............. 4
2.1.1 Antecedentes ................................................................................................... 4
2.1.2 El sector postal .............................................................................................. 20
2.1.2.1 Introducción............................................................................................ 20
2.1.2.2 El Sector Postal en la UE ........................................................................ 21
2.1.2.3 Tendencias en el sector postal europeo.................................................... 23
2.1.2.4 Estrategias de las Operadoras Postales .................................................... 32
2.1.2.5 Correos y Telégrafos ............................................................................... 35
2.1.2.6 Gestión de la logística ............................................................................. 41
2.1.3 Adquisición de conocimiento......................................................................... 44
2.2 Definición de requisitos ...................................................................................... 47
2.3 Alcance del proyecto........................................................................................... 49
2.4 Objetivos del proyecto ........................................................................................ 50
2.5 Análisis de viabilidad.......................................................................................... 51
2.6 Metodología........................................................................................................ 58
2.6.1 Ciclo de vida del proyecto.............................................................................. 61
3. INTRODUCCIÓN A LA MINERIA DE DATOS................................................... 62
3.1 El concepto de Minería de Datos y KDD............................................................. 63
3.2 Tipos de modelos ................................................................................................ 65
3.3 Tareas de la Minería de Datos ............................................................................. 67
3.3.1 Clasificación.................................................................................................. 67
3.3.2 Regresión....................................................................................................... 68
3.3.3 Agrupamiento o clustering ............................................................................. 68
3.3.4 Correlaciones................................................................................................. 68
3.3.5 Reglas de asociación...................................................................................... 69
3.4 Técnicas de Minería de Datos ............................................................................. 70
INDICE
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página IX
3.5 Relación de la Minería de Datos con otras tecnologías de bases de datos............. 71
3.5.1 SQL y OLTP ................................................................................................. 71
3.5.2 DataWarehouse y OLAP................................................................................ 73
3.6 Relación de la Minería de Datos con otras disciplinas ......................................... 75
3.7 Áreas de Aplicación............................................................................................ 78
4.EL PROCESO DE EXTRACCIÓN DE CONOCIMIENTO .................................. 80
4.1. FASE DE INTEGRACIÓN Y RECOPILACIÓN DE DATOS........................... 83
4.1.1 Identificación de fuentes internas ................................................................... 87
4.1.2 Identificación de fuentes externas .................................................................. 95
4.1.3 Diseño del nuevo esquema de almacenamiento integrado............................... 96
4.2 PREPARACIÓN DE DATOS........................................................................... 106
4.2.1 Limpieza de datos........................................................................................ 108
4.2.1.1 Detección de valores erróneos............................................................... 108
4.2.1.2 Detección de valores anómalos ............................................................. 111
4.2.1.3 Detección de valores faltantes ............................................................... 112
4.2.2 Transformación de atributos......................................................................... 114
4.2.3 Discretización y numeración........................................................................ 115
4.2.4 Selección de datos ....................................................................................... 116
4.3 MINERÍA DE DATOS..................................................................................... 117
4.3.1 Tareas de Minería de Datos realizadas ......................................................... 118
4.3.1.1 Clasificación ......................................................................................... 120
4.3.1.2 Predicción............................................................................................. 122
4.3.1.3 Análisis de correlación.......................................................................... 123
4.3.1.4 Reglas de asociación ............................................................................. 124
4.3.1.5 Segmentación........................................................................................ 126
4.3.2 Técnicas de Minería de Datos utilizadas....................................................... 128
4.3.2.1 Árboles de decisión............................................................................... 128
4.3.2.2 Predicción mediante Factores de Certeza............................................... 131
4.3.2.3 Regresión lineal .................................................................................... 133
4.3.2.4 Ajuste de curva univariable ................................................................... 134
4.3.2.5 Repertory Grid ...................................................................................... 136
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página X
4.3.3 Implementación de los algoritmos............................................................ 139
4.3.3.1 Algoritmo ID3 ...................................................................................... 139
4.3.3.2 Cálculo de Factores de Certeza.............................................................. 141
4.3.3.3 Cálculo del coeficiente de correlación lineal.......................................... 146
4.3.3.4 Tabla de Ajuste ..................................................................................... 148
4.3.3.5 Clustering jerárquico............................................................................. 149
4.3.3.6 Otros cálculos realizados....................................................................... 165
4.4 EVALUACIÓN Y PRUEBAS .......................................................................... 166
4.4.1 Evaluación del algoritmo de Clasificación................................................ 169
4.4.2 Evaluación del algoritmo de Predicción ................................................... 171
4.4.3 Evaluación del algoritmo de Clustering.................................................... 172
5. INTERPRETACIÓN DE RESULTADOS OBTENIDOS .................................... 174
5.1 Interpretación del árbol de decisión ID3............................................................ 174
5.2 Estimación de probabilidad ............................................................................... 176
5.3 Análisis del coeficiente de correlación lineal..................................................... 178
5.4 Análisis de curvas univariables ......................................................................... 182
5.5 Análisis de los clusters generados ..................................................................... 184
6. CONCLUSIONES.................................................................................................. 186
7. BIBLIOGRAFÍA.................................................................................................... 189
8. ANEXOS................................................................................................................. 196
Reglas de Predicción (FCs) ..................................................................................... 196
Glosario de términos............................................................................................... 199
Manual de usuario .................................................................................................. 205
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 1
1. INTRODUCCIÓN
El presente Proyecto Fin de Carrera describe el proceso completo de KDD (Knowledge
Discovery in Databases) para obtener conocimiento e información oculta sobre los datos
obtenidos tras la medición de calidad en plazo del correo nacional mediante cartas test, que se
está llevando a cabo en IBM Business Consulting Services para Correos y Telégrafos desde
septiembre del año 2000.
Al utilizar los servicios postales que Correos y Telégrafos (a partir de ahora CyT) ofrece en
este país y en el extranjero, siempre me había preguntado si la felicitación navideña para los
abuelos llegaría a tiempo o si el regalo para mi hermano llegaría en la fecha exacta de su
cumpleaños, o unos días antes o después. Tras desarrollar una herramienta como proyecto de fin
de carrera, que utiliza las técnicas y algoritmos más utilizados de Data Mining, ya no nos lo
preguntamos más. Lo sabemos.
El Cliente
Correos y Telégrafos S.A. es el líder indiscutible del mercado postal en España. Tiene una
cuota de mercado del 90% en el transporte de documentos y mercancías de carácter no urgente.
Gestiona más de 5.000 millones de envíos postales al año. Dispone de más de 65.000 empleados
y 10.000 puntos de atención al público.
El Proyecto
Conocer datos globales respectivos a la calidad en plazo de los envíos postales requiere
crear un diseño estadístico muy complicado, encontrar una muestra adecuada con un
performance que raye la perfección, y muchísimo esfuerzo por parte de un equipo combinado de
personas pertenecientes a IBM Business Consulting Services, y a la empresa de recogida de
datos.
La variable a medir es el número de días de entrega de las cartas y el sistema de medición
es end-to-end. Para ello es necesario una persona o empresa (panelistas) en un extremo que envíe
la carta (remitente) y otra, en el otro extremo, que la reciba (destinatario). Existen casi 900
personas enviando y recibiendo cartas desde hace más de un año.
1. INTRODUCCIÓN
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 2
Ya se han enviado más de 450.000 cartas. En total han participado más de 1.600 personas o
empresas (entre ellas Telefónica, El Corte Inglés, Iberdrola, La Caixa....).
Grabación de datos
Una vez que el destinatario recibe las cartas, las devuelve al centro de recogida de datos y
allí son grabados los datos por expertos.
Control de la red de panelistas
La calidad de la información referente a las cartas test depende en gran parte de la
actuación de los 900 panelistas. Por ello, es necesario mantener un control exhaustivo, constante
e individualizado de su comportamiento.
Medición de la calidad
Para llevar a cabo la medición de la calidad End-to-End (medida en días de entrega entre
la fecha de deposición de un envió y la fecha de recepción) se requiere un panel de empresas y
particulares distribuidas entre las 52 provincias españolas, que pueden actuar tanto de emisores
como de destinatarios de cartas test.
Junto con el plazo de entrega se almacena más información relativa a la carta tests: estado
de recepción (buena, aceptable o mala), línea (ordinario, urgente), método inducción o de
depósito (buzón, oficina de correos o centro de admisión masiva), método de franqueo (sello,
maquina de franquear o franqueo pagado),formato (normalizado, A4, C5), peso, dirección postal
(escrita a maquina, mano), participante (empresa, particular),...
Toda esta información relevante para el estudio se almacena en una base de datos
histórica de gran tamaño. La base de datos contiene millones de registros, cada registro a su vez
tiene cientos o miles de campos. Bajo estas condiciones, es casi imposible obtener información
de interés con una simple exploración de datos. Para obtener conocimiento mediante
reconocimiento de patrones, predicciones basadas en datos históricos, clasificación automática,
clustering� es necesario diseñar una herramienta de Data Mining que realice este tipo de
análisis de forma automatizada, a gran velocidad y con altos niveles de exactitud.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 3
Los resultados
El cliente ha emprendido acciones correctoras en las zonas en las que se ha identificado un
nivel de calidad inferior a la media. Esto redundará en una mejora de la calidad del plazo de
entrega del correo nacional. Se beneficiarán todas las personas que utilizan los servicios postales
que ofrece nuestro cliente (¿quién de vosotros no lo hace?). El año que viene, mis abuelos
recibirán antes la felicitación de Navidad gracias a esta herramienta.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 4
2. DEFINICIÓN DEL PROYECTO
2.1 Análisis de las necesidades de la organización y definición del
problema 2.1.1 Antecedentes Según el estándar de la Unión Europea sobre Servicios Postales EN 13850:2002 toda
empresa estatal dedicada al servicio postal debe tener una empresa ajena al servicio que realice
una medición de los tiempos de tránsito desde todas y cada una de las provincias españolas. IBM
ha venido realizando este proyecto desde el año 2000.
En el proyecto de medición se define como variable básica a analizar el plazo en días que
media entre la fecha de depósito de un envío (carta test) realizado por un usuario del servicio y la
fecha de recepción de dicho envío por parte del destinatario; en la terminología habitual esta
duración es denominada End-to-End.
Se dispone de información de cartas test distribuidas por todo el territorio nacional desde el
año 2000. Los datos generales del Sistema de Medición de la Calidad son:
- Cobertura geográfica. El sistema controla el rendimiento del correo enviado desde
todas y cada una de las provincias españolas (52).
- Flujos a medir. Los flujos objeto de la medición han sido los flujos locales,
provinciales y nacionales:
Tipo de flujo
Local Origen y destino en la misma ciudad
Provincial Origen y destino en la misma provincia
Nacional Origen en una provincia y destino en otra del territorio nacional
El número de localidades considerado en función del tipo de flujo ha sido el siguiente:
2. DEFINICIÓN DEL PROYECTO
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 5
Local Provincial y Nacional
Capitales de provincia 52 52
Localidades Importantes 50 50
Oficinas técnicas - 85
- Los resultados siguen la regla CEN Standard, es decir, se basan en una regla de
cálculo que considera únicamente los 5 días laborables. Excluye sábados, domingos
y días festivos en entrega y en admisión.
Datos generales del proyecto
Productos a medir Carta básica y Carta urgente Número de provincias 52 (origen-destino)
Métodos de franqueo Sello, Máquina de franquear y Franqueo pagado
Lugares de deposito Buzón, Oficina de Correos y Centro de admisión masiva
Tipo de escritura A mano y A máquina Días de depósito De lunes a sábado Tipo de remitentes Particulares y Empresas Tipo de destinatarios Particulares y Empresas Panelistas Más de 1.000 (40% particulares, 60% empresas) Tipos de flujos Local, Provincial y Nacional Formatos de las cartas normalizado/ C5 / A4 Pesos de las cartas 0-20gr / 20-50 gr. / 50-100 gr. Estado de recepción buena / aceptable / mala o abierta / rota
Características de las líneas Línea Básica Línea Urgente
Formatos de cartas Normalizado, C5, A4 Normalizado Tipos de cartas 11 8 Localidades 186 51
El ámbito geográfico abarca los tránsitos de correo enviado desde todas y cada una de las
provincias españolas, es decir, un total de 52.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 6
A los efectos de la medición y seguimiento de la calidad, la variable a medir se define
como los días de entrega medida de �extremo a extremo�, expresada como un factor de tiempo, y
definida como el período transcurrido entre el depósito de los objetos postales en cualquier punto
de la red postal (buzón, oficina postal o centro de admisión masiva) y la distribución de los
objetos a sus destinatarios en el punto de entrega.
La medición se hace sobre la carta ordinaria (envíos de carácter personal que no superan
los 2 kilos), tanto de la línea básica, como de la línea urgente.
Estándares de calidad
Se han acordado los estándares de calidad a aplicar en el proyecto y en la actualidad dichos
estándares de calidad son para línea básica:
Flujo Línea básica
Local D + 1 Provincial D + 2 Nacional D + 3
Y para la línea urgente los estándares de calidad son:
Flujo Línea urgente
Local D + 1 Provincial D + 1 Nacional D + 1
siendo D el día en el que el remitente envía la carta. Esto quiere decir que, para una carta
básica enviada desde Getafe a Madrid (flujo local) se espera que sea recibida en el día siguiente
al que se depositó.
D + 1 significa, por lo tanto, que la carta debe llegar a su destino en un día, D + 2 en dos
días y D + 3 en tres días.
Flujos de correo
De acuerdo con los requerimientos descritos en la norma EN 13850:2002, el sistema
controla el rendimiento del correo enviado desde todas y cada una de las provincias españolas.
Los flujos que deben ser controlados con relación a cada provincia pueden categorizarse
entre los siguientes tipos que se describen abajo:
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 7
Flujo Descripción
Local Los que tienen como destino y origen la misma ciudad o pueblo.
Provincial Los que tienen origen y destino en la misma provincia.
Nacional Los que tienen origen en una provincia y destino en otra del territorio nacional.
El sistema implantado mide, a través de todas las etapas del proceso postal los tiempos de
tránsito del correo enviado desde todas y cada una de las provincias españolas.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 8
Los tipos de poblaciones son los siguientes:
Tipo de población Línea Básica
Línea Urgente Descripción
Capitales de provincia 52 40 Capitales de provincia
Localidades importantes 50 11 Administraciones postales
Oficinas Técnicas (O.T.) 84 --- Selección de O.T. distribuidas por toda la geografía española
Para calcular la distribución de flujos de correo se genera una matriz de flujos actualizada
con el fin de asemejar el estudio lo más posible a la realidad.
A nivel nacional, el porcentaje para el correo nacido es:
Flujo correo nacido Carta Básica Carta Urgente
Local 20,0% 20,0% Provincial 23,0% 8,0% Nacional 57,0% 72,0%
Los requerimientos planteados por Correos, establecen que los porcentajes
correspondientes a la distribución del correo nacional intrazonal e interzonal deben ser:
Flujo nacional Carta Básica Carta Urgente Intrazonal 49,0% 40,0% Interzonal 51,0% 60,0%
Distribución semanal de flujos de correo
El estudio se realizará continuamente a lo largo del año. El porcentaje del correo inducido
en el sistema cada semana será el mismo todas las semanas del año, siguiendo la siguiente
proporción:
Días de la semana Carta Básica Carta Urgente Lunes 19% 19% Martes 19% 19% Miércoles 19% 19% Jueves 19% 19% Viernes 19% 19% Sábados 5% 5%
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 9
Distribución mensual de flujos de correo
Mes Línea Básica Línea Urgente Enero 8,2% 9,4% Febrero 7,8% 8,3% Marzo 8,6% 7,9% Abril 8,8% 9,3% Mayo 8,7% 9,0% Junio 8,3% 9,0% Julio 8,3% 8,4% Agosto 6,5% 4,6% Septiembre 7,6% 7,5% Octubre 8,5% 9,3% Noviembre 8,4% 8,5% Diciembre 10,3% 8,8%
Reglas de cálculo de cartas test a producir
Para estimar el número de envíos a producir, hay que considerar los siguientes factores:
• Requerimientos de precisión
Es la precisión estadística requerida que define el rango en el que debe situarse
el resultado, es decir, aquella cuyo error no sea superior al definido.
• Proporción de cumplimiento (on time proportion)
Es el porcentaje de correo que se espera que cumpla el servicio estándar de
acuerdo con el sistema. Es un factor clave para estimar el volumen de correo así como
de la exactitud o precisión de los resultados.
• El efecto del modelo (design effect)
Es una medida que afecta a la precisión de los correos. El modelo estadístico se
construye de tal forma que trata de minimizar el efecto del modelo para el plan de
producción.
• Estándar del servicio (Service Standard)
Indica el número de días que se ha fijado como objetivo para cada panelista.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 10
• Cluster
Indica el número máximo de cartas para cada flujo que se puede incluir en cada
fajo de cartas que induce cada día un panelista. Es un parámetro estadístico que
consigue que un modelo estadístico pueda asemejarse a la realidad.
• La ratio de validez (valid rate)
Es una medida que proporciona el porcentaje esperado del correo producido
que, después de un proceso de depuración, se considera como correo válido. El
objetivo del ratio de validez es del 80%, una cifra aceptable en el cálculo de los
volúmenes de correo que se requiere.
La siguiente fórmula se usa para calcular el número de cartas a producir para medir la
calidad del servicio, con los requerimientos estadísticos que se pide en el Pliego de Condiciones
Técnicas. La fórmula corresponde a la metodología del CEN sobre el asunto.
( ) ( ) ( ) ( )[ ]hhB
1b 2hbhhA
1a 1hahhh2h
h p�1p�rdp�1p�rcp�1p�nn1p�V hh −⋅+−+−⋅= ∑∑ ==
donde
∑ ∑= == h hB
1b
B
1'b hab'abha nnc
∑ ∑= == h hA
1b
A
1'b hab'abhb nnd
Hay que hacer notar que, la fórmula tiene en cuenta un efecto eventual del diseño
relacionado con los envíos de prueba recibidos por el mismo receptor el mismo día y con los
envíos enviados por el mismo emisor el mismo día.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 11
Anotaciones: Símbolo Descripción
H es una categoría geográfica (h=1,�,10) Wh es el peso de la categoría h
h
^P
es la proporción de los envíos que llegan a tiempo en la categoría h
Ah es el número de puntos de introducción en la categoría h, enviando una o más cartas durante el periodo
Bh es el número de puntos de recepción o receptores en la categoría h, recibiendo una o más cartas durante el periodo
r1h es el coeficiente de correlación entre las variables de indicador a tiempo para cartas enviadas desde el mismo punto de introducción a diferentes receptores dentro de la categoría h
r2h es el coeficiente de correlación entre las variables indicador para cartas enviadas desde diferentes puntos de introducción a los mismos receptores dentro de la categoría h
Nabh es el número de cartas de prueba enviadas desde un punto de introducción a un punto de recepción b durante el periodo en la categoría h
Nh es el número total de cartas de prueba enviadas en la categoría h durante el periodo
Para valorar los resultados obtenidos tras aplicar la regla de cálculo, se definen los
siguientes términos:
• Volumen de correo producido: Es el número de cartas test que se generan para el
estudio.
• Volumen de correo válido: Es el número de cartas test que son incluidas como válidas
en los informes entregados.
• Ratio de validez: Indica el porcentaje de correo válido.
El volumen principal se distribuye de acuerdo con el flujo real de correo y los
requerimientos geográficos descritos arriba.
Los criterios por los que se considera que una carta test no es válida para el estudio son los
siguientes:
• Plazo de entrega superior a 30 días.
• Cartas recibidas en días que no hay reparto.
• Cartas depositadas en días que no hay recogida (a excepción de las depositadas en
buzón).
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 12
• Método de inducción no coherente con el método de franqueo.
• Cartas con el plazo de entrega negativo.
Los resultados de la fórmula dan lugar al siguiente número de cartas de correo a enviar
anualmente:
Resultados de producción Año 2000 Línea Básica
Periodo de producción Semanalmente Cartas producidas ? Cartas válidas 9.257
Resultados de producción Año 2001
Línea Básica Línea Urgente Periodo de producción Semanalmente SemanalmenteCartas producidas ? x Cartas válidas 100.836 x
Resultados de producción Año 2002
Línea Básica Línea Urgente Periodo de producción Semanalmente SemanalmenteCartas producidas 109.945 x Cartas válidas 87.999 x
Resultados de producción Año 2003
Línea Básica Línea Urgente Periodo de producción Semanalmente SemanalmenteCartas producidas 129.109 25.601 Cartas válidas 99.363 19.225
Resultados de producción Año 2004
Línea Básica Línea Urgente Periodo de producción Semanalmente SemanalmenteCartas producidas 126.517 25.000 Cartas válidas 113.443 23.219
Resultados globales de producción (desde año 2000 hasta 2004) Línea Básica Línea Urgente
Cartas válidas teóricas 410.898 42.444 Cartas válidas reales (en BD) 390.546 35.996
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 13
Panel de distribución (remitentes y destinatarios)
Para asegurar que el sistema de control de la calidad del servicio de Correos refleje con
exactitud el ámbito real la red de remitentes y destinatarios tiene que ser distribuida por las 52
provincias. El correo utilizado para su seguimiento refleja la proporción real existente entre
remitentes, particulares y empresas. De igual modo se operará con los destinatarios cumpliendo
los siguientes porcentajes tanto para línea básica como la línea urgente:
• Remitentes
Empresas: 60%
Particulares: 40%
• Destinatarios
Empresas: 40%
Particulares: 60%
El número total de panelistas es más de 1000 en cada momento.
Se han establecido procedimientos estrictos de control para asegurar que los paneles de
emisores y receptores sean desconocidos para la red logística de Correos y por tanto
independientes en sus actuaciones.
La metodología para recopilar información de paneles y gestionarla para su utilización en
el proyecto implica que los emisores y receptores devuelven la información de las cartas test
recibidas, donde se graban los datos, y cómo se procesan en nuestro sistema.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 14
Los requerimientos de trabajo para la red de emisores son los siguientes:
• Un emisor no debe introducir dos o más cartas el mismo día para el mismo receptor;
• Un emisor no debe introducir dos o más cartas el mismo día para los receptores que
tienen sus direcciones en la misma categoría geográfica;
• Un emisor introduce cartas cada dos días. Es decir o los lunes, miércoles y viernes o bien
los martes, jueves y sábado;
• Se reemplaza un 25% de los emisores con carácter anual.
Para cumplir con los requerimientos descritos arriba, teniendo en cuenta el volumen total
de correo y su distribución geográfica, el número de emisores necesario es de 419 distribuidos en
todas y cada una de las provincias.
Línea básica + urgente Número de emisores 419
Los requerimientos para la red de receptores son los siguientes:
• Cada receptor debe recibir no más de una carta cada dos días;
• Se reemplaza un 25% anual de los receptores.
Basándose en los requerimientos expuestos arriba, el volumen total de correo y en el
documento de licitación, y teniendo en cuenta la distribución geográfica asumida de los envíos,
el número de receptores necesarios es de 641, extendidos a lo largo de todas las provincias
españolas.
Línea básica + urgente Número de receptores 641
Inducción del sistema
Los panelistas introducen el correo objeto de estudio en la red de Correos antes de la hora
límite de recogida o admisión fijada, a través de las siguientes vías de acceso:
• Buzón: depósito con sello o estampilla.
• Oficina postal: buzón propio de la oficina, admisión en ventanilla. Depósito con sello,
estampilla o máquina de franquear.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 15
• Centros de admisión masiva: sólo las provincias o unidades más representativas que
Correos fije. Depósito con máquina de franquear o franqueo pagado.
Todas las capitales de Provincias, así como aproximadamente otras 28 localidades de
España tendrán representados los dos (o tres en caso de tener centro de admisión masiva)
métodos de inducción.
Relación entre el método de inducción y el método de franqueo
El método de franqueo y el método de inducción están relacionados en la siguiente manera:
• Buzón: depósito con sello o estampilla.
• Oficina postal: buzón propio de la oficina, admisión en ventanilla. Depósito con sello,
estampilla o máquina de franquear.
• Centros de admisión masiva: sólo en las provincias o unidades más representativas.
Depósito con máquina de franquear o franqueo pagado.
Método de franqueo Método de inducción Todas las capitales de provincia tienen representados los dos (o tres en caso de tener
Centro de admisión masiva).
Política de logística en Correos y Telégrafos
A continuación se especifican los días en los que hay inducción y días en los que hay
reparto. Además, se muestran los horarios límite de depósito para los diferentes lugares de
Inducción.
Sello
Máquina de franquear
Franqueo pagado
Buzón
Oficina Postal
Centros de admisión masiva
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 16
Días de inducción y días de reparto Línea Básica
Inducción Reparto
Lunes-Viernes Sí Sí
Sábados Sí Sí
Domingos No No
Fiestas No No
Días de inducción y días de reparto Línea Urgente
Inducción Reparto
Lunes-Viernes Sí Sí
Sábados Sí Sí
Domingos No No
Fiestas No No
Reglas de cálculo del plazo de entrega
Los días de entrega para todas las cartas, se calculan como la diferencia entre la fecha de
inducción según el remitente y la fecha de recepción según el destinatario teniendo en cuenta las
siguientes reglas:
SÁBADO
14,00 Horas
13,00 Horas
13,00 Horas
BUZONESBuzón Calle 13,00 Horas
( Calle ) Buzón Calle 12,00 Horas
SIN SERVICIO
SIN SERVICIO
Oficinas Técnicas
ADMISIÓN MASIVA
Oficinas Técnicas y Sucursales Admisión Mañana
Depósito en Centros de Admisión Masiva
Recogida a Domicilio
17,00 Horas
17,00 HorasOFICINAS
(Ventanilla y Buzón Oficina)
Capitales de Provincia y Administraciones
15,00 Horas
15,00 Horas
14,00 Horas
17,00 Horas
13,00 Horas
HORARIOS LÍMITES DE DEPÓSITO LUNES - VIERNES
Oficinas Principales de Capitales de Provincia y Administraciones
Surcursales Urbanas Admisión Mañana y Tarde
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 17
• Todos los días en que no hay entrega (incluyendo festivos nacionales) que preceden
inmediatamente al día de recepción siempre se deducen. Esto supone, por ejemplo, que
los domingos se descuentan las entregas del lunes.
• La inducción en el sistema en cualquier día de no recogida se consideran como
introducida el primer día siguiente de recogida al de la introducción.
• Se han contrastado con Correos las fechas en las que hay o no reparto los sábados.
• El cálculo del número de días de entrega para los resultados oficiales se basa en una regla
de cálculo de una semana de 5 días, que se definen como sigue:
! Se excluyen sábados, domingos y días festivos.
! Todos los días que no hay entrega entre la introducción y el día de recepción se
deducen.
! La introducción en días en que no hay recogida se consideran como introducción
el día siguiente.
Siendo D el día de depósito de la carta test, en la siguiente tabla se muestra la fecha que Correos
especifica para su recepción. A continuación se muestra como influye el cálculo del plazo de
entrega si la fecha de depósito es festiva, después de un fin de semana, fiesta entre semana...
Lune
s
Mar
tes
Mié
rcol
es
Juev
es
Vie
rnes
Sába
do
Dom
ingo
Lune
s
Mar
tes
Mié
rcol
es
Juev
es
D D+1 D+2 D+3 D+4 D+5 D+5 D+6 D+7 D+8
D D+1 D+2 D+3 D+4 D+4 D+5 D+6 D+7
D D+1 D+2 D+3 D+3 D+4 D+5 D+6
D D+1 D+2 D+2 D+3 D+4 D+5
D D+1 D+1 D+2 D+3 D+4
D D+0 D+1 D+2 D+3
D D+0 D+1 D+2 D+3
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 18
Ejemplo 1 � Ninguna fiesta
Jueves Viernes Sábado Domingo Lunes Martes Miércoles Jueves Viernes
Inducción Inducción NInducción NInducción Inducción Inducción Inducción Inducción Inducción
Distribución Distribución NDistribución NDistribución Distribución Distribución Distribución Distribución Distribución
D D+1 D+2 (D+2) D+2 D+3 D+4 D+5 D+6
D D+1 (D+1) D+1 D+2 D+3 D+4 D+5
D-2 D-1 D+0 D+1 D+2 D+3 D+4
D-1 D+0 D+1 D+2 D+3 D+4
D D+1 D+2 D+3 D+4
D D+1 D+2 D+3
D D+1 D+2
Ejemplo 2 - Fiesta después del fin de semana en ciudad de origen
Jueves Viernes Sábado Domingo Lunes Fiesta Martes Miércoles Jueves Viernes
Inducción Inducción NInducción NInducción NInducción Inducción Inducción Inducción Inducción
Distribución Distribución NDistribución NDistribución Distribución Distribución Distribución Distribución Distribución
D D+1 D+2 (D+2) D+2 D+3 D+4 D+5 D+6
D D+1 (D+1) D+1 D+2 D+3 D+4 D+5
D-3 D-2 D-1 D+0 D+1 D+2 D+3
D-2 D-1 D+0 D+1 D+2 D+3
D-1 D+0 D+1 D+2 D+3
D D+1 D+2 D+3
D D+1 D+2
Ejemplo 3 - Fiestas durante la semana tanto en ciudad de origen como en ciudad de
destino (Fiesta Nacional) Jueves Viernes Sábado Domingo Lunes Martes
Fiesta Miércoles
Fiesta Jueves Viernes
Inducción Inducción Ninducción NInducción Inducción NInducción NInducción Inducción Inducción
Distribución Distribución NDistribución NDistribución Distribución NDistribución NDistribución Distribución Distribución
D D+1 D+2 (D+2) D+2 (D+3) (D+3) D+3 D+4
D D+1 (D+1) D+1 (D+2) (D+2) D+2 D+3
D-2 D-1 D+0 (D+1) (D+1) D+1 D+2
D-1 D+0 (D+1) (D+1) D+1 D+2
D (D+1) (D+1) D+1 D+2
D-2 D-1 D+0 D+1
D-1 D+0 D+1
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 19
Ejemplo 4 - Fiesta en fin de semana y antes del fin de semana en ciudad de destino
Jueves Viernes Sábado Domingo Lunes Martes Miércoles Jueves Viernes Fiesta
Sábado Fiesta
Domingo Fiesta
Inducción Inducción Ninducción NInducción Inducción Inducción Inducción Inducción Inducción NInducción NInducción
Distribución
Distribución
Ndistribución
Ndistribución
Distribución
Distribución
Distribución
Distribución
NDistribución
NDistribución
NDistribución
D D+1 D+2 (D+2) D+2 D+3 D+4 D+5 (D+6) (D+6) (D+6)
D D+1 (D+1) D+1 D+2 D+3 D+4 (D+5) (D+5) (D+5)
D-2 D-1 D+0 D+1 D+2 D+3 (D+4) (D+4) (D+4)
D-1 D+0 D+1 D+2 D+3 (D+4) (D+4) (D+4)
D D+1 D+2 D+3 (D+4) (D+4) (D+4)
D D+1 D+2 (D+3) (D+3) (D+3)
D D+1 (D+2) (D+2) (D+2)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 20
2.1.2 El sector postal
2.1.2.1 Introducción
A partir de los años noventa, las operadoras postales han afrontado un cambio muy
importante debido a la liberalización y privatización del sector que ha conllevado competencia
en un sector tradicionalmente protegido.
En los últimos años, el cambio del sector incluso ha aumentado. El mundo electrónico ha
perdido un poco de su brillo porque los participantes en el mercado dudan del potencial retorno
financiero de e-Commerce, pero a la vez el sector teme perder negocio en el futuro si no
invierten en esta área.
Además de los cambios regulatorios del sector y las nuevas tecnologías que pueden
sustituir sus servicios, la industria ahora tiene que vender servicios a clientes cada vez más
exigentes e informados. Como la base de clientes se concentra en pocos, pero muy importantes
mientras algunos productos con margen alto están amenazados por la sustitución de productos
electrónicos, las operadoras postales intentan aumentar la rentabilidad en los sectores que crecen,
paquetes y servicios de logística. En el negocio tradicional de cartas, la búsqueda del aumento de
la rentabilidad suele significar recorte de costes fijos en las operaciones a través de la
automatización de procesos y reducción de personal.
En el mercado internacional, donde las operadoras postales han notado el impacto de la
competencia más tiempo, la batalla se vuelve cada vez más intensa. Las empresas en el sector
buscan diversificación para completar sus mercados tradicionales y disminuir así la dependencia
de un solo país.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 21
2.1.2.2 El Sector Postal en la UE
En la UE se estima que los servicios postales manejan cerca de 135.000 millones de
objetos postales cada año, generando una venta de un total de 80.000 millones de euros o
aproximadamente un 1,4% del PIB (Producto Interior Bruto) de la UE.
Dos tercios de esta venta está generada por servicios de cartas y un tercio por paquetes y
servicios exprés. La tendencia de crecimiento es de entre el cero y el cinco por ciento anual para
el mercado de cartas y entre el tres y el diez por ciento anual para paquetes y servicios exprés.
El servicio postal es un sector que abarca tanto el monopolio (cartas) como un mercado de
competencia (paquetes, servicio exprés). Las empresas públicas en el sector normalmente
abarcan los tres tipos de productos (cartas, paquetes y servicio exprés) mientras las empresas
privadas, salvo algunas excepciones, abarcan solamente paquetes y servicio exprés.
El sector emplea en la UE un total de 1.7 millones de trabajadores. A continuación se
detallan las diferentes Operadoras Postales públicas europeas, así como un mapa con la
ubicación geográfica con las mismas, véase figura 2.1.
Operadoras Postales públicas en UE-15 Alemania Deutsche Post Holanda TPG Post Austria Österreichische Post Irlanda An Post Bélgica De Post/La Poste Italia Poste Italiane Dinamarca Post Luxemburgo Postes España Correos Portugal CTT Correios Finlandia Posti Reino Unido Royal Mail Francia La Poste Suecia Posten Grecia Hellenic Post
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 22
Figura 2.1: Las Operadoras Postales en UE-15
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 23
2.1.2.3 Tendencias en el sector postal europeo
Después de mucho tiempo bajo la protección gubernamental, la industria postal está
cambiando radicalmente. Cambios políticos, más competición sobre las fronteras, comunicación
electrónica, comercio electrónico y tecnología están cambiando el sector rápidamente, véase
figura 2.2.
En muchos países europeos el servicio postal tradicionalmente ha estado bajo el control
estatal combinado con las telecomunicaciones. Como consecuencia, los cambios en el mercado
de telecomunicaciones normalmente han implicado cambios paralelos en el sector postal.
Empujadas por las tendencias de privatización, encabezada por Inglaterra, los gobiernos
europeos están manejando cómo deben cambiar la propiedad del sector postal, mientras la
política de UE está favoreciendo a los países miembros la introducción progresiva de la
liberalización del sector postal.
Sector Postal Tecnología de Información
Requisitos del Cliente
Globalizacón
Liberalización
Figura 2.2: Tendencias en el sector postal
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 24
Algunos países, como Suecia y Finlandia, ya han abierto todo el mercado de servicios
postales a competición mientras otros países favorecen una liberalización más gradual.
El desarrollo tecnológico también ha acelerado la reestructuración del sector tanto en el
ámbito de la automatización, para reducir costes de operación, como la amenaza de sustitución
electrónica.
Los servicios postales están sujetos cada vez más a una competición con otros servicios de
comunicación como, por ejemplo, correo electrónico y redes de datos, especialmente en el
segmento business-to-business.
La competición global y la presión de precios resultante, también están acelerando la
velocidad de los cambios en el sector postal. En las áreas de servicios que ya están abiertas a la
libre competición, nuevos entrantes están introduciendo otras maneras de cumplir los cada vez
más exigentes requisitos de los clientes.
Mientras la entrega se ha vuelto más compleja y los clientes cada vez exigen mejores
servicios, las operadoras postales están en un proceso de desarrollo desde monopolios enfocados
a operaciones, a un negocio enfocado al cliente.
Empujado por la necesidad de aumentar beneficios y controlar costes, a la vez que atraer y
mantener clientes, las operadoras postales han tenido que ampliar sus catálogos de servicios con
servicios innovadores, suministrados con un alto nivel de rendimiento.
Liberalización
A excepción de Suecia, donde se abrió el sector a la competencia libre en 1993, los
mercados postales están actualmente trabajando hacia los objetivos de liberalización fijados por
directivas de la UE. Aunque nuevos entrantes han aparecido en el mercado de los servicios
postales en la mayoría de los países europeos, los operadores tradicionales todavía tienen una
cuota de mercado muy elevado. Incluso en el totalmente liberalizado mercado sueco, la
operadora sueca (Posten) tiene una cuota de mercado de cartas de un 94%.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 25
En una directiva aprobada por la Comisión Europea en 2002, se fijan objetivos para
mejorar los servicios postales y reducir precios a través de la apertura de los mercados europeos
a mayor competencia.
La directiva propone que el mercado de todo el correo doméstico que pese más de 100
gramos o cuyo precio sea más de tres veces el precio de una carta ordinaria, estará abierto para la
libre competencia en el 2003 y el peso será reducido a 50 gramos y el coste a dos veces y medio
del precio en el 2006, véase figura 2.3. Este objetivo significa en la práctica que el 13 % del
mercado postal está abierto a libre competencia desde el 2003 y aproximadamente el 23 % del
mercado a partir del 2006.
Otro objetivo de la directiva es abrir totalmente el mercado de correo internacional en diez
de los quince países miembros, dejando los países con una gran proporción de correo
internacional (España, Grecia, Irlanda, Luxemburgo y Portugal) con algunas restricciones.
En 2006 se van a fijar nuevas metas para 2009 en función de los resultados obtenidos hasta
entonces. Si los resultados son satisfactorios, el objetivo con total seguridad será la plena
liberalización en el 2009.
Este camino hacia la extinción del monopolio en Europa ha tenido su propia idiosincrasia
en cada uno de los Estados miembros, si bien son dos los polos en cuya órbita se inscriben las
distintas actuaciones de cada uno de los gobiernos:
Figura 2.3: El calendario de la liberalización en Europa
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 26
1. Actitud proactiva hacia la liberalización, con pasos decididos hacia la competencia e
incluso, en algún caso, a una velocidad mayor que la marcada por la directiva.
2. Precaución en las decisiones adoptadas, anteponiendo la seguridad en la prestación del
Servicio Postal Universal a la competencia en el mercado interno.
Reino Unido y Alemania son modelos del primer grupo, con actuaciones que han
perjudicado en ciertos aspectos a Royal Mail y Deutsche Post.
En cuanto al segundo grupo, quizás Francia y España puedan considerarse buenos
ejemplos de esta línea de actuación.
En España, ante esta moderación reguladora, han sido muchos los competidores que han
visto en ella actitudes favorecedoras hacía Correos, habiendo interpuesto demandas ante los
organismos garantes de la competencia.
Tecnología de la Información
La industria postal en todo el mundo tiene que afrontar nuevos retos operacionales y
logísticos. Las expectativas del cliente son altas y con el crecimiento de e-Commerce, clientes y
gobiernos cuentan con servicios postales para la entrega de bienes comprados on-line.
Para afrontar estos retos y manejar la creciente competición en el mercado, los operadores
buscan soporte en la tecnología de información para racionalizar las operaciones, mejorar el
servicio al cliente, desarrollar productos o servicios nuevos o mejorar la calidad de los existentes.
Las operadoras postales están aplicando nuevas tecnologías para modernizar y acelerar los
procesos de la entrega a través de la automatización de la clasificación de cartas, el on-line
servicio al cliente, utilización de código de barras, seguimiento de cartas, y transporte. También
están utilizando nuevas tecnologías de información para introducir nuevos productos y servicios
de valor añadido, tradicionalmente no considerados como parte de su negocio principal como,
por ejemplo, el correo híbrido que mezcla la rapidez de las comunicaciones electrónicas con la
fiabilidad del correo tradicional.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 27
Otro reto importante que la industria tiene que afrontar es la transición del fuerte enfoque
interno de las operaciones y logística hacia un modelo de negocio enfocado al cliente. Para
influir en la información del cliente y obtener una visión de la base de clientes, las
organizaciones postales están implantando soluciones específicas que aportan la gestión de la
relación con el cliente en todos sus procesos de negocios.
Según las últimas tendencias, parece que las áreas principales para inversiones en IT en el
sector postal serán:
# E-Business
# Gestión de la Relación con el Cliente (CRM, Customer Relationship Management)
# Operaciones y Logística
# Aplicaciones para la Gestión de los Recursos de la Empresa (ERM)
E-business
Con el creciente número de transacciones de e-Commerce, hay una necesidad en el
mercado de empresas que puedan proveer servicios de e-Cumplimiento (e-Fulfillment, servicio
completo de terceros para la distribución de bienes, desde el pedido hasta la entrega) de alta
calidad, para dar soporte a los vendedores on-line. Para poder expandir los servicios e incluir e-
Fulfillment, las operadoras postales tienen que entender las necesidades de los clientes pero
también tener una red logística optimizada para poder ofrecer servicios de e-Commerce
rentables.
Otra área donde las operadoras postales están desarrollando cada vez más servicios on-line
para terceros es la de gestión y pago electrónico de facturas (electronic bill presentment and
payment, EBPP). Las operadoras recogen de una manera centralizada las facturas de varios
clientes en una página Web. Los beneficios para el remitente de las facturas incluyen la
reducción de costes de distribución y la mejora en la gestión de la relación con el cliente a través
de comunicación dirigida.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 28
Gestión de la Relación con el Cliente (CRM)
Los proveedores de servicios postales trabajan con una cada vez más fuerte competencia y
es imprescindible aumentar el enfoque al cliente para ofrecer servicios de alta calidad y una
gama de productos innovadores basados en tecnología como Internet.
Todas las operadoras postales en Europa han entendido la importancia de establecer su
presencia en la Red y cada vez más clientes eligen Internet como el medio de interacción
preferido. En marzo del 2002, Correos anunció que su página Web recibe medio millón de
visitas cada día. Según Correos, los factores claves para el éxito de su página Web son los
servicios interactivos y la fiabilidad de una amplia gama de productos nuevos, como, por
ejemplo, el seguimiento de cartas y paquetes.
Tanto clientes particulares como clientes de empresas son los activos más importantes para
las operadoras y un servicio al cliente eficiente es la clave del éxito en el mercado. En toda la
industria postal se implantan soluciones de CRM para mejorar el servicio al cliente con un coste
cada vez menor.
Un ejemplo de esta tendencia es que las operadoras ofrecen oficinas electrónicas para
poder atender al cliente 24 horas al día, 365 días al año a través Internet. También ofrecen
centros de atención al cliente que están integrados con las operaciones del back-office. Así,
pueden obtener una visión completa de cada cliente.
Operaciones y logística
Las operadoras postales en Europa están invirtiendo en instalaciones de última tecnología
para optimizar el proceso de matasellado y clasificado de cartas y su entrega.
Se están implantando sistemas de información para la gestión de transportes con el fin de
mejorar el servicio de entrega a través de un aumento de la rapidez, precisión de la información y
una reducción de costes. Las siguientes aplicaciones dan soporte a la optimización de las
operaciones:
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 29
• Identificación de paquetes
• Seguimiento de paquetes
• Prueba de entrega
• Seguimiento a través Internet
• Información en tiempo real
Gestión de los Recursos de la Empresa
En un intento de optimizar el flujo de información a través la organización, las operadoras
postales europeas están adoptando soluciones integradas, para la gestión de los recursos de la
empresa (ERM, Enterprise Resource Management), que comunican sistemas de información que
antes estaban separados. Así se hace más fácil el manejo de los recursos humanos, materiales y
financieros.
Las principales ventajas al implantar ERM son:
• Ahorro de costes por aumento de productividad en las funciones del back-office.
• Disminución del tiempo de toma de decisiones
• Aumento del nivel del servicio
Globalización
Como se ha mencionado anteriormente, el objetivo de la nueva directiva de la UE es abrir
totalmente el mercado de correo internacional en diez de los quince países miembros. Para
afrontar esta liberalización y el aumento de la competencia entre países, muchas operadoras
postales han aumentado sus esfuerzos para desarrollar actividades internacionales, por ejemplo a
través de adquisiciones o alianzas. Los cuatro operadores más grandes en Europa están
encabezando este desarrollo internacional, véase figura 2.4.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 30
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
70,0%
TPG Deutsche Post Groupe LaPoste
Consignia
Porcentaje de los beneficios generados en el extranjero
Aunque la tendencia ahora es de crecimiento a través de ingresos generados en el
extranjero, la industria postal todavía es un negocio principalmente doméstico, salvo quizás para
TPG y Deutsche Post. Debido al monopolio existente en la mayoría de países europeos, los
ingresos del extranjero vienen principalmente de paquetes. Con la liberalización del mercado en
2006 y 2009 eso va a cambiar.
Figura 2.4: Benificios generados en el extranjero de los cuatro operadores másgrandes en Europa
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 31
Requisitos del Cliente
Al hablar de los requisitos del cliente es importante distinguir entre empresas y
particulares.
Empresas
Las empresas exigen no solamente un servicio rápido y fiable sino también soluciones
con valor añadido para su cadena de aprovisionamiento. Estos clientes ven la operadora como un
business partner que entiende su negocio y que puede ayudarles a tener éxito en su mercado.
Un ejemplo de dichas soluciones en el mercado de logística es el third party logistic
provider (3PL). Estos proveedores ofrecen varios servicios para la cadena de aprovisionamiento
como, por ejemplo, cumplimiento de pedidos, transporte, gestión de almacenes, gestión de stock
y sistema de información para la logística. Se prevé un crecimiento fuerte para este tipo de
empresas.
Particulares
Los clientes particulares también exigen soluciones con valor añadido. Debido a los costes
decrecientes de información, el cliente ahora tiene un poder que jamás antes tuvo en la relación
con la operadora postal. Muchos operadores tienen que replantarse los objetivos tradicionales
que incluyeron solamente velocidad, fiabilidad y coste. Hoy en día hay que enfocar, además de
los objetivos tradicionales, requisitos como el ahorro de tiempo del cliente, la necesidad de
información del cliente y la posibilidad de poder elegir un servicio personalizado por parte del
cliente.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 32
2.1.2.4 Estrategias de las Operadoras Postales
Desde 1997, año en que se publicó la primera Directiva europea sobre los servicios
postales, las operadoras postales europeas se embarcaron en la búsqueda de soluciones para
compensar la probable pérdida de ingresos derivada de la apertura a la competencia. Aunque el
esfuerzo se ha materializado en todos los ámbitos, merecen atención las distintas estrategias en
cada uno de los mercados.
Cartas
La correspondencia tradicional ha sido testigo del lanzamiento de servicios integrales
para las empresas que remiten correo masivo. Las novedades en estos servicios han ido
encaminadas a reforzar las relaciones con los grandes clientes, tratando de frenar la sustitución
electrónica y creando barreras de entrada de cara a una mayor apertura del mercado.
Por otra parte, ante estas expectativas de mayor liberalización, varias empresas postales
han tomado posiciones en mercados extranjeros, como por ejemplo TPG, que compró la alemana
EP Europost, y Deutsche Post, que invertirá 1.000 millones de euros en los próximos años para
entrar en mercados de correspondencia europeos.
Aún mayores han sido los movimientos observados en el marketing directo, dado que se
encuentra liberalizado en diversos países europeos y la sustitución electrónica no supone una
gran amenaza. De nuevo hay que mencionar a TPG y Deutsche Post con adquisiciones fuera de
sus fronteras. El primero se mostró interesado en los mercados del Centro y Este de Europa,
mientras que el correo alemán se introdujo en el lucrativo mercado holandés.
Paquetería
En lo que se refiere al negocio de paquetería y carta exprés, la actividad compradora de
los grandes grupos europeos se ha retraído a lo largo de los últimos años, quedando lejos de la de
años anteriores. La preocupación fundamental de los operadores presentes en el sector, ha sido la
consolidación de sus redes, completando la integración de adquisiciones anteriores.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 33
En el caso español hay que destacar la entrada de Correos en este negocio con su filial
Chronoexprés, que se hizo con la paquetera Servipack, para colocarse en el tercer puesto del
ranking nacional por volumen negocio.
Oficinas
En la red de oficinas, los últimos años han conllevado novedades interesantes. Al margen
del tradicional negocio bancario, donde muchos correos han buscado acuerdos con entidades
financieras para ampliar la oferta de productos, se ha impuesto la introducción de nuevos
servicios en las sucursales para tratar de aprovechar la gran capilaridad existente.
Los ejemplos son variopintos, como el de Canada Post que ha convertido las oficinas en
tiendas de regalos o el de Córrelos de Brasil que cobra facturas de empresas eléctricas. A esto se
añade en otros casos la venta de móviles, viajes y un largo etcétera.
Otra tendencia reseñable ha sido la progresiva prestación de servicios postales en tiendas de
distinto tipo, con el consiguiente ahorro de costes.
Logística
El negocio de la logística parece ser un área de diversificación en el cual solamente
holandeses y alemanes se han posicionado con determinación, aunque siguiendo estrategias
diferentes. TPG, a través de su división TNT Logistics, ha sido el más activo, adquiriendo
empresas logísticas en Holanda, Italia, Francia, y países escandinavos, en áreas de negocio tales
como la logística textil, la automoción, y el frío.
En cuanto a Deutsche Post, ha protagonizado también diversas compras a través de su
filial Danzas en los países nórdicos y Francia, entre otros.
Consultoría
Para concluir el repaso a los negocios que desempeñan los diferentes correos del mundo, resta
por comentar las tentativas realizadas en consultoría.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 34
El mercado objetivo del negocio de consultoría parece estar conformado por los operadores
de países en vías de desarrollo o con grandes problemas gestión, oportunidad que están
aprovechando empresas como TPG o New Zealand Post.
Nuevas Tecnologías
En el ámbito de las nuevas tecnologías, las expectativas creadas años atrás con el boom
de Internet han resultado defraudadas y muchas empresas han ido saliendo del sector. Casos
destacados son los de Deutsche Post, que ha vendido su portal eVita y está buscando comprador
para su filial de firma electrónica Signtrust, el de Posten de Suecia, que ha reducido su
participación en el concurrido portal sueco Torget a sólo el 15%, y el de UPS, que ha liquidado
su servicio de documentos electrónicos por Internet, tras un par de años de actividad, por su
escasa demanda.
No obstante, no se puede afirmar que las perspectivas sean negativas para todos. Así,
Post Denmark ha entrado de lleno en el e-Goverment.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 35
2.1.2.5 Correos y Telégrafos
La misión de Correos y Telégrafos Sociedad Anónima Estatal (en adelante Correos) se
define de la siguiente forma: �Correos se posiciona como un operador regional enfocado a los
servicios postales y otros servicios de valor añadido, con un desarrollo en el comercio
electrónico en coherencia con sus actividades principales, mediante el uso eficiente de sus
recursos, la aplicación de tecnologías avanzadas y la potenciación de sus capacidades específicas
y de innovación, con la finalidad de proporcionar máxima satisfacción a sus clientes y al
conjunto de la sociedad, dotando de un desarrollo profesional adecuado al conjunto de sus
empleados.�
La entidad ha existido de varias formas durante más de 300 años en España, adaptándose a
las necesidades de la sociedad. En los últimos años, los cambios han adquirido un ritmo de
vértigo. En 1992, Correos deja de ser una Dirección General para transformarse en Organismo
Autónomo de carácter comercial y cinco años después en Entidad Pública Empresarial. En junio
de 2001 estrena una nueva forma de gestión bajo un nuevo régimen jurídico: el de Sociedad
Anónima Estatal.
Correos en cifras
Correos es la primera empresa del país desde el punto de vista de red capilar con
presencia en más de diez mil puntos de atención y también es una de las primeras empresas del
país desde el punto de vista de plantilla y de empleo directo. La empresa da empleo a más de
sesenta mil personas y realiza más de cien mil contratos temporales anualmente.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 36
Correos en cifras
Envíos Postales 2002 5324 millones
Línea básica 5.296 millones
Línea urgente 28 millones Puntos de Atención 10.101 Centros de tratamiento 54 Centros de admisión masiva 52 Vehículos 9.500 Buzones 38.000 Empleados 2002
Funcionarios 41.200
Laborales 21.900 Venta 2002 1.673 millones de Euros Beneficios 2002 82,7 millones de Euros
El precio de enviar una carta ordinaria en España es muy bajo en comparación con los
otros países europeos. Por tan sólo 0,27 Euros, cualquier persona puede poner en funcionamiento
el mayor sistema logístico en el país. El precio medio europeo es casi el doble como muestra la
siguiente tabla:
Precio de la carta ordinaria en UE
Alemania 0,55 � Austria 0,51 � Bélgica 0,49 � Dinamarca 0,57 � España 0,27 � Finlandia 0,65 � Francia 0,46 � Grecia 0,41 � Holanda 0,39 � Irlanda 0,48 � Italia 0,62 � Luxemburgo 0,60 � Portugal 0,30 � Reino Unido 0,39 � Suecia 0,60 � Media 0,48 �
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 37
Uno de los retos principales durante los últimos años ha sido la eliminación del déficit
crónico de la sociedad. Eso se ha conseguido por primera vez en el año 2000, véase figura 2.5:
-20
0
20
40
60
80
100
Millones de euros
1999 2000 2001 2002
Resultado antes de impuestos
Organización
Correos está estructurado por áreas funcionales en un organigrama muy tradicional, véase
figura 2.6. La organización consiste de tres divisiones básicas con autonomía de gestión:
División de Correos, División de Oficinas y División de Exprés. Estas divisiones configuran el
territorio español en zonas que cuentan con un responsable máximo para el territorio que
abarcan.
Para la gestión de la empresa existen dos órganos superiores de dirección: El Consejo de
Administración que se compone de 17 consejeros y una Comisión Ejecutiva, y el Presidente que
actualmente es Sr. D. Víctor Calvo-Sotelo Ibáñez-Martín.
Figura 2.5: Evolución de los resultados
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 38
Consejo de Administración
Presidente
Direcciones Corporativas
Unidades apoyo superior dirección
Unidades de desarrollo
División de Correo División de Oficinas División de Exprés
Estructura territorial
Estructura territorial
Las tareas principales del Presidente son la coordinación de las divisiones, la supervisión y el
desarrollo de la estrategia empresarial. Para llevarlas a cabo cuenta con cuatro unidades de
apoyo:
• General
• Jurídica
• Auditoria
• Comunicación
Figura 2.6: Organización de Correos
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 39
Además de las unidades de apoyo, existe como función Staff las Direcciones Corporativas
que son:
• Dirección Económico Financiera
• Dirección de Recursos Humanos
• Dirección de Tecnología y Sistemas
• Dirección de Estrategia y Desarrollo Corporativo
• Dirección Comercial y de Marketing
Las unidades de desarrollo también es una función Staff en el organigrama de Correos, y
contiene las siguientes unidades:
• Servicios Financieros
• Filatelia
• E-Business
Análisis de la situación
A continuación se presenta una evaluación de la situación actual de Correos a través de un
análisis DAFO (Debilidades, Amenazas, Fortalezas y Oportunidades). Éste pretende dar una
imagen de los retos que afronta Correos en un mercado cada vez más abierto para la
competencia, pero también las posibilidades que tiene la empresa de mantener su liderazgo en
este entorno cambiante.
Fortalezas Oportunidades
• Amplia red de distribución • Convertirse en el primer suministrador
de servicio integrado de correspondencia, paquetería y logística
• Amplia red de oficinas • Fuerte crecimiento del mercado de paquetería
• Amplia gama de servicios y posición de liderazgo
• Red de oficinas adaptable a la comercialización de otros productos y servicios
• Gran conocimiento de la marca Correos • Desarrollo de e-Business
• Monopolio para muchos productos • Diversificación en nuevas actividades
empresariales asociadas a las capacidades y recursos de Correos
• Patrimonio inmobiliario relevante, con ubicación privilegiada
• Expansión de la red de distribución mediante acuerdos con otros operadores públicos o privados
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 40
• Identificación corporativa del equipo de dirección y del conjunto de los segmentos de la plantilla
• Evolución de la forma jurídica
• Solvencia económica
• Desarrollo de un plan de sistemas que posibilite la adecuación de los mismos y la infraestructura tecnológica a las necesidades de las actividades actuales y futuras de Correos
• Capacidad de recogida y distribución de 60.000 buzones y 8453 vehículos
• Automatización de los procesos de clasificación
Debilidades Amenazas • Deficiente optimización de los
distintos procesos tanto de la operativa postal como la gestión interna
• Progresiva aparición de nuevos competidores de dimensión nacional e internacional
• Dependencia excesiva de los productos postales tradicionales
• Creciente nivel de exigencia por parte de los clientes
• Sistemas de información con notorias debilidades
• Mayor liberalización de las actividades postales y tendencia hacia la reducción de los servicios reservados a los operadores públicos
• Escaso grado de automatización de las actividades de clasificación
• Desaparición de las barreras entre la paquetería industrial y comercial
• Insuficiente orientación al cliente en el conjunto de la organización
• Prácticas fraudulentas de competidores sobrepasando los límites del ámbito reservado
• Escasa presencia internacional de sus actividades
• Efecto sustitución por el avance de las nuevas tecnologías
• Estructura organizativa funcional tradicional, que limita la coordinación operativa y la agilidad de respuesta ante el entorno
El apartado de amenazas corresponde al discurso que ofreció Sr. D. Benjamín Calzón,
Subdirector de Organización de la Dirección de Estrategia y Desarrollo en Correos, en el �Foro
Postal Europa-América� celebrado en Madrid en el 2002 sobre el tema �La experiencia española
en la adaptación al cambio del sector postal�. En el discurso destacó los siguientes retos
principales para Correos:
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 41
• La progresiva liberalización que podemos contemplar desde dos puntos de vista: por un
lado, como un conjunto de nuevas oportunidades para los operadores entrantes y, desde
otro, los cambios que van a tener que experimentar los operadores que venían gozando de
posiciones de monopolio.
• El rápido progreso tecnológico va a facilitar a los operadores diseñar nuevos productos o
desarrollar procesos de forma más eficiente y, a los clientes, exigir nuevos productos de
mayor valor añadido.
• El cambio de las expectativas de los clientes: el aumento de la necesidad de concentrarse
en el núcleo del negocio en las empresas, tiene como efecto la subcontratación creciente
de actividades, principalmente en el ámbito logístico. Esto, obviamente, se transforma en
un abanico de nuevas oportunidades.
• La globalización; donde la tendencia general del crecimiento del comercio internacional
lleva a las empresas, y a los clientes, a que cada vez precisen más de servicios
internacionales. Y aquí destacan los significativos movimientos estratégicos de distintos
operadores para ofrecer cada vez servicios más globales, mucho más allá de las fronteras
tradicionales.
2.1.2.6 Gestión de la logística
Hay varias maneras de afrontar los retos que se ha propuesto Correos. La respuesta exacta
consiste en numerosas acciones para mantener la posición de liderazgo en el mercado, pero los
objetivos generales de todas estas acciones son:
• Crecimiento de las ventas, a menudo a través adquisiciones y fusiones.
• Desarrollo de nuevos negocios, por ejemplo basados en Internet.
• Reducción de los costes operacionales mientras se mejora el nivel de servicio exigido por
el cliente.
En el tercer punto, reducción de costes operacionales, el enfoque suele ser la disminución de
costes de explotación, donde Correos gasta el mayor porcentaje de su presupuesto operacional.
Una gran parte de estos costes de explotación corresponde a las actividades de �Gestión y
Programación de la red� y �Logística y Transporte�, que constituyen el �Core Business� de su
cadena de valor (value chain), véase figura 2.7.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 42
Marketing y Ventas
Planificación del Servicio Postal
Administración, servicios jurídicos y FinanzasGestión RR.HH.
Infraestructura logísticaServicios de Informática
Logística y Transporte
Servicio atención al
cliente
Gestión y programación
de la Red
Auditoria y Control
CO
RE
B
US
INE
SS
PR
OC
ES
OS
DE
S
OP
OR
TE
Todas las técnicas para reducir los costes en estos campos tienen como fin la obtención
de una visión y control global de la cadena de valor e incluyen, en primer lugar, la Planificación
del Servicio Postal, actividad que corresponde a la alta dirección. Para gestionar y programar la
red se utilizan técnicas de gestión de la demanda y gestión de los recursos necesarios, tanto en
los centros de distribución como en la propia distribución, desde el remitente hasta el destinatario
(End-to-End).
Sobre todas esas funciones hay que realizar un seguimiento del rendimiento, también
End-to-End, para obtener datos fiables y así poder analizar el rendimiento total de la cadena
logística, tanto en costes como en calidad, desde el punto de vista del cliente, véase figura 2.8.
Figura 2.7: La cadena de valor de Correos y Telégrafos
Figura 2.8: El seguimiento de la calidad desde el punto de vista del cliente.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 43
Gestión de la demanda
Para optimizar la utilización de los recursos, primero es imprescindible tener datos fiables
de la demanda prevista. Con técnicas clásicas de previsión de demanda, que están basadas en
datos históricos, e incluyendo escenarios futuros previstos, se puede determinar con buena
precisión la demanda futura y su estacionalidad.
Gestión de los recursos
La planificación de recursos se descompone en dos partes:
• Gestión de los centros de distribución
• Gestión de la distribución
A nivel de gestión de los centros de distribución, hay que prever el volumen de cartas y la
hora de la llegada de estas cartas con ayuda de datos históricos y previsión de escenarios
especiales, el número de empleados necesarios en cada momento y sus skills, como la asignación
de máquinas y otros parámetros.
Un ejemplo de la complejidad de la gestión de los centros de distribución es el nuevo centro
de tratamiento automatizado en Vallecas, Madrid. En este centro se reciben y clasifican más de
6.000.000 cartas diariamente que llegan y salen de Madrid, lo que significa el 38% del correo
gestionado por la empresa. El centro cuenta con ocho líneas de clasificación automática, cada
una con una capacidad de 40.000 cartas por hora. Cada máquina funciona con un software
específico para Correos y que es susceptible de actualización conforme al crecimiento
urbanístico de las poblaciones y cualquier otra variación. Los nuevos equipos tecnológicos
disponen de una sala de vídeo codificación, que permite trabajar aquella correspondencia
rechazada por el sistema automático. La gestión de la distribución utiliza soluciones semejantes
para la previsión de demanda y la planificación de recursos para optimizar las flotas internas y
externas. La optimización incluye todos los flujos: remitente a centro de distribución A, centro A
a centro B y centro B al destino final.
El seguimiento del rendimiento End-to-End mide cómo la Planificación del Servicio Postal
junto a la gestión de la red y la logística funcionan en su totalidad desde el punto de vista del
cliente.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 44
2.1.3 Adquisición de conocimiento
Para llevar a cabo la medición de la calidad de las cartas test se requiere un panel de
empresas y particulares distribuidas entre las 52 provincias españolas, que pueden actuar tanto de
emisores como de destinatarios de cartas test. Toda esta información relevante para el estudio se
almacena en una base de datos histórica de gran tamaño.
Etapas de una carta test
Las etapas por las que pasa una carta test son: producción, impresión y manipulado, envío
al remitente, llegada al destinatario, y por ultimo, llegada al Centro de recogida de datos donde
se introducen los datos de la carta test en el sistema. A continuación se detallan cada una de estas
etapas, describiendo los flujos de información más relevantes:
1.1 Producción semanal de cartas test
Cada semana se determina el flujo de correo a generar, tanto para la línea básica como
para la urgente. Para cada carta se especifica:
• Información relativa al remitente y al destinatario
• Formato del sobre
• Peso de la carta
• Método de franqueo
• Método de inducción
• Fecha prevista de inducción
• Línea a la que pertenece la carta: ordinaria o urgente
• Dirección postal escrita a mano o a maquina
1.2 Impresión y manipulado de cartas test
Se produce la carta físicamente atendiendo a las características descritas anteriormente.,
tal y como se muestra en la figura 2.9.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 45
1.3 Envío de fajos de cartas a los remitentes
Las cartas se agrupan en fajos y se envían a los distintos remitentes. Las cartas se
empaquetan en lotes para el emisor y se etiqueta con una identificación que indica los
documentos del lote y las instrucciones de envío.
Todos los lotes de un emisor determinado se agrupan. Cada uno de estos lotes tiene un
identificador que lo vincula con el emisor.
1.4 El remitente recibe el/los fajos
1.5 El remitente induce las cartas en la fecha prevista (lo ideal) y rellena el cuestionario
En el cuestionario a rellenar por el remitente se especifica:
• Fecha y hora de inducción real (si no coincide con la fecha prevista de inducción)
• Lugar de inducción (si no coincide con el lugar previsto de inducción)
• Ultima hora de recogida (solo para buzón)
1.6 El destinatario recibe la carta y rellena el cuestionario
En el cuestionario a rellenar por el destinatario se especifica:
• Fecha de recepción
• Calidad del paquete recibido
1 Impresión de cartas test
2 Ensobrado
3 Los sobres son agrupados
4 Las agrupaciones se ponen en lotes
5 La producción se deposita en el correo
Figura 2.9: Impresión y manipulado de cartas test
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 46
1.7 El remitente y el destinatario envían sus cuestionarios al Centro de Recogida de
Datos
En el Centro de Recogida de Datos se introducen los datos de los cuestionarios en la base
de datos.
1.8 Integración de datos del Centro de Recogida de Datos con el almacén de datos de
IBM.
Cada semana se envían los datos recibidos en el Centro de Recogida de Datos y se hace la
integración y actualización del almacén de datos de IBM.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 47
2.2 Definición de requisitos
Se desea diseñar un Sistema Basado en Conocimiento, capaz de realizar una recuperación
y asimilación de información y descubrimientos en una base de datos con gran volumen de
información relativa al plazo de entrega y la calidad de recepción de cartas distribuidas por toda
la geografía española, con una profundidad histórica que data desde el año 2000. En concreto, se
trata de un problema de KDD (Knowledge Discovery in Databases) donde se aplicarán
algoritmos de Data Mining para clasificación, segmentación (clustering), reglas de asociación,
regresión y patrones de comportamiento.
Requisitos del usuario:
Se desea desarrollar algoritmos de clasificación y clustering para predecir el plazo de
entrega y la calidad de recepción y para identificar relaciones entre atributos que influyan en la
entrega. Se pretende poder construir un árbol de decisión y poder identificar las rutas óptimas y
las tardías, así como poder predecir el plazo de entrega y el estado de recepción de una carta a
partir de los datos históricos de los que se disponen.
Requisitos del experto:
Para realizar las tareas de clasificación se utilizarán algoritmos de la construcción de
árboles de decisión. En concreto: ID3.
Para el análisis de clustering y para la búsqueda de patrones se utilizará la técnica de
Repertory Grid (emparrillados).
Se realizará un nuevo diseño de la base de datos donde se almacenarán los datos
significativos de las cartas test, para un posterior análisis. El gestor de base de datos será MS
SQL Server 2000. Para el desarrollo de los algoritmos y para la interfaz del programa se utilizará
como lenguaje de programación Visual Basic 6.
La aplicación deberá ser capaz de trabajar con distintos orígenes de datos (ficheros planos,
Excel,...) y distintos gestores (SLQ Server, DB2, Oracle,...), para conseguir que la herramienta de
minería sea lo más portable posible.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 48
La herramienta deberá ser flexible para poder añadir nuevos algoritmos no contemplados
inicialmente. Entre posibles algoritmos a incluir destacan: Naive Bayes, One Rule, C5.0, A
priori, reglas de asociación y análisis de correlación entre dos variables.
La aplicación deberá ser capaz de obtener resultados fiables y capaz de trabajar con un
gran volumen de datos. Los resultados se mostrarán gráficamente y existirá la posibilidad de
guardar los resultados obtenidos.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 49
2.3 Alcance del proyecto
El alcance del proyecto es enorme. Mide la calidad en plazo de los envíos postales entre
todas las provincias del país, entre todas las capitales de provincia, y entre una muestra de
poblaciones de cada provincia que responden a categorías postales diferentes. ¡Son casi 13.000
flujos a medir!
Cada semana se asigna el volumen de correo a enviar para cubrir unos requerimientos
mínimos impuestos por Correos, llegando a enviarse anualmente cerca de 130.000 cartas para la
línea básica y 25.000 para la línea urgente. El estudio mide la calidad en plazo de la carta
ordinaria (envíos de carácter personal que no superen los 2 Kg.), tanto la línea básica como
urgente, para flujos de correo local, provincial y nacional. Para cada uno de estos flujos se
distingue el método de franqueo (sello, máquina de franquear o franqueo pagado), método de
inducción (buzón, oficina de correos o centro de admisión masiva), el tipo de carta (definido
según parámetros como tamaño, peso, dirección postal, lugar de recogida,...), dirección (escrita a
mano o a maquina), tipo de panelista (empresa o particular), día de la semana en que fue
depositada, etc.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 50
2.4 Objetivos del proyecto El objetivo del proyecto es diseñar una aplicación que utilice algoritmos de Data Mining
para:
- Identificar patrones y reglas a partir de casos históricos y cartas test
# Determinar causas del retraso de una carta
# Identificar patrones de comportamiento entre las distintas comunidades
autónomas
# Encontrar posibles relaciones entre atributos
# Determinar causas del estado de recepción de una carta
- Predecir información futura a partir de información histórica.
# Predecir el plazo de entrega y la calidad de recepción de una carta
- Clasificar automáticamente nuevos registros que se presenten:
# Obtener los mejores separadores que determinan un atributo de clase.
# Clasificar el tipo de retraso en la recepción de una carta
# Tipo de provincias según flujo de correo entrante o saliente.
- Extraer información táctica y estratégica almacenada en la base de datos y
facilitar la toma de decisiones basadas en información de experiencias pasadas.
# Comparación del rendimiento en diferentes rutas de correos, flujos,
periodos, etc.
# Valoración de los efectos (acciones de recuperación) en rutas en las que la
demora en la recepción de envíos está por debajo de los estándares.
# Identificar rutas optimas y tardías
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 51
2.5 Análisis de viabilidad
El estudio de viabilidad servirá para asegurarnos de una forma objetiva de que la tarea
que vamos a emprender es factible.
Hay muchos tipos de estudios de viabilidad. Usaré el test de Slagel para realizar el análisis.
Este test consta de tres etapas:
- Definición de las características
- Asignación de los pesos
- Evaluación de cada aplicación candidata
Definición de las características
Se consideran cuatro dimensiones:
- Plausibilidad
- Justificación
- Adecuación
- Éxito
Test de Slagel
CAT. IDEN. PESO (P) VALOR (V) DENOMINACIÓN DE LA CARACTERISTICA TIPO
EX P1 10 10
Existen expertos. Comentario: Los expertos existentes en el proyectoprovienen de IBM y de Correos. Los expertos deCorreos ayudarán en el uso del conocimientoobtenido y para contrastar resultados. El experto deIBM ayudará en las soluciones tecnológicas delsistema de medición de calidad.
E
EX P2 10 9
El experto asignado es genuino. Comentario: Los expertos son de reconocido prestigio. Los expertos de Correos son el Director deEstrategia y Desarrollo, y los responsables dedepartamento de la línea ordinaria y urgente. Entrelos expertos de IBM destaca Enrique Montero,gerente de Consultoría.
E
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 52
EX P3 8 8
El experto es cooperativo. Comentario: tanto Enrique como los responsables dedepartamento de Correos se muestran entusiastascon el proyecto, aportando sus ideas y enfoques paraabordar el proyecto de una manera satisfactoria.
D
EX P4 7 6
El experto es capaz de articular sus métodos pero no categoriza. Comentario: los métodos usados para la mediciónestán regulados según los estándares de la normaeuropea.
D
TA P5 10 9
Existen suficientes casos de prueba; normales,típicos, ejemplares, correosos,... Comentario: es necesario utilizar una muestra significativa como casos de prueba para verificar quelos resultados obtenidos son coherentes, y sobre todo,útiles.
E
TA P6 10 8
La tarea está bien estructura y se entiende. Comentario: en Data Mining existen varias métodos de abordar una tarea. Es fundamental entender latarea a desarrollar para poder valorar los distintosmétodos y elegir el más apropiado. Ej.: para realizar tareas de clasificación se pueden utilizar métodos deárboles de decisión, mapas de Kohonen,...
D
TA P7 10 8
Sólo requiere habilidad cognoscitiva. Comentario: se requiere poder interpretar losresultados obtenidos después de aplicar laherramienta de Data Mining a los datos.
D
TA P8 9 8
No precisan resultados verdaderamentecomprometidos con el proyecto. Comentario: los resultados obtenidos servirán paramejorar la calidad de los servicios postales y teneruna visión más detallada para cada una de las rutasde correo.
D
TA P9 9 7
La tarea no requiere sentido común. Comentario: aunque los datos con los que se trabajan son obtenidos del día a día, la aplicación ensi no se basa en el razonamiento sobre lo cotidiano.
D
DU P10 7 8
Los directivos están verdaderamente comprometidoscon el proyecto. Comentario: los resultados obtenidos con laherramienta serán de gran ayuda, facilitando la toma de decisiones a los directivos de Correos.
D
EX J1 10 7
El experto no está disponible. Comentario: los expertos de Correos se encuentranubicados en otro edificio y es preciso concertar unacita con ellos previamente. Esto no es un inconveniente, ya que las reuniones con Correos sonaproximadamente una vez al mes para tratar sobre elestado actual del proyecto y los nuevos avancesrealizados. Por otra parte, los expertos de IBM estántotalmente disponibles.
E
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 53
EX J2 10 6
Hay escasez de experiencia humana. Comentario: depende del uso que se haga de laaplicación. Si se quiere distribuir la herramienta pordistintas zonas para analizar los resultados demedición de la calidad, puede ser conveniente que laexperiencia sobre el servicio postal de una zona sea compartida entre las demás zonas para poder teneruna visión global.
D
TA J3 8 4
Existe necesidad de experiencia simultanea enmuchos lugares. Comentario: depende del uso que se haga de laaplicación. Si se quiere distribuir la herramienta por distintas zonas para analizar los resultados demedición de la calidad, puede ser conveniente que laexperiencia sobre el servicio postal de una zona seacompartida entre las demás zonas para poder teneruna visión global.
D
TA J4 10 7
Necesidad de experiencia en entornos hostiles,penosos y/o poco gratificantes. Comentario: al principio se empieza el proyecto conilusión pero cuando todavía no se ve bien elresultado final, es muy frecuente desmoralizarse.Además, realizar análisis de datos es tedioso y puede resultar poco gratificante. Se invierte mucho tiempohasta obtener el resultado deseado. Por tanto, serequiere experiencia en estos temas.
E
TA J5 8 8
No existen soluciones alternativas admisibles Comentario: en Data Mining existen varias métodos de abordar una tarea. Ej.: para realizar tareas de clasificación se pueden utilizar métodos de árbolesmediante técnicas de ID3, CART, C4.5 ,... Es precisoentender el problema a tratar para seleccionar elmétodo adecuado. Una solución alternativa puede ser posible, pero al tratarse de algoritmos ad-hoc, hechos a medida, se dificulta el aprovecharalgoritmos ya existentes.
E
DU J6 7 10
Se espera una alta tasa de recuperación de lainversión. Comentario: una vez implantada la herramienta de Minería se obtendrían resultados muy útiles para lasempresas postales. Se podrían detectar aquellas rutasen las que existen problemas de distribución,manipulación... pudiendo emprender acciones demejora focalizadas. Esto ayudaría a mejorar los servicios y se obtendrían grandes ingresos, lo quepermitiría recuperar rápidamente la inversión.
D
DU J7 8 9
Resuelve una tarea útil y necesaria. Comentario: esta aplicación sería útil para empresasde mensajera, marketing directo,... Permite obtenerconocimiento sobre las rutas óptimas a seguir para entregar el paquete, identificar clientes potencialespara realizar una marketing especifico...
E
EX A1 5 5
La experiencia del experto está poco organizada. Comentario: los expertos de Correos tratan deorganizan sus conocimientos sobre pliegos y documentos donde se especifica un modeloestadístico que recoge sus experiencias. Estedocumento contiene información sobre horarios derecogida en buzón, horario comercial en oficinas,...
D
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 54
TA A2 6 8
Tiene valor práctico. Comentario: la herramienta es capaz de obtenerresultados útiles que se pueden aplicar a corto plazo. D
TA A3 7 7
Es más táctica que estratégica. Comentario: la herramienta ayuda a la toma dedecisiones estratégicas, aunque también describeinformación operacional y táctica, del día a día.
D
TA A4 7 8
Sirve a necesidades a largo plazo. Comentario: se dispone de una base deconocimientos desde el año 2000. Después delanálisis de los resultados obtenidos, se plantean lasmejoras a realizar en los servicios postales, la mayoría de ellas, a medio-largo plazo.
E
TA A5 5 9
La tarea, que no es demasiado fácil, pero que es deconocimiento intensivo, tanto propio del dominio,como de manipulación de la información. Comentario: se requiere una gran labor de preparación de datos (limpieza, detección de valoresfaltantes, anómalos,...) y transformación para poderaplicar la herramienta de Minería y obtenerresultados con un alto nivel de exactitud.
D
TA A6 6 3
Es de tamaño manejable, y/o es posible un enfoque gradual y/o, una descomposición en subtareasindependientes. Comentario: se maneja una gran cantidad deinformación: se dispone de información de cartas testdesde el año 2000, almacenada en una base de datoscon miles de registros. Es necesario una agrupación y descomposición de los datos para poder operar conellos.
D
EX A7 7 7
La transferencia de experiencia entre humanos esfactible. Comentario: la experiencia obtenida puede serfácilmente transferida, ya que toda persona estáfamiliarizada con la entrega y/o recepción de cartas.
E
TA A8 6 6
Estaba identificada como un problema en el área y losefectos de la introducción de un SE puedenplanificarse. Comentario: podrían aplicarse multitud de métodospara extraer conocimiento de la BBDD (SQL,OLAP,...). No obstante, lo más apropiado es realizar un sistema experto para la Minería de Datos, ya que al disponer de multitud de métodos de extracción deconocimiento, se facilita el desarrollo de laaplicación y se garantiza la fiabilidad delconocimiento extraído.
D
TA A9 9 10
No requiere respuestas en tiempo real "inmediato". Comentario: al ser un proyecto de Minería de Datosque se basa en un histórico almacenado en unaBBDD, la extracción del conocimiento se hará unavez al principio y después, puede que con una periodicidad a determinar, pero en ningún momentoserá necesario dar una respuesta inmediata alusuario.
E
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 55
TA A10 9 8
La tarea no requiere investigación básica y usa, sialguna, poca generación y entendimiento del lenguajenatural. Comentario: la tarea no requiere ni generación, ni ningún entendimiento del lenguaje natural, ya queúnicamente va a operar con una BBDD. En cuanto ala investigación, la principal documentaciónnecesaria es la propia BBDD y los algoritmos deminería para poder realizar la extracción de información útil.
E
TA A11 5 2
El experto usa básicamente razonamiento simbólicoque implica factores subjetivos. Comentario: el razonamiento va a ser siempreobjetivo, no cabe subjetividad ninguna. Los datos sonlos que están recogidos en la BBDD, y la forma de interpretarlos está claramente definida.
D
TA A12 5 10
Es esencialmente de tipo heurístico. Comentario: este sistema experto hará uso de unhistórico de que dispone para extraer conocimientomediante métodos heurísticos.
D
EX E1 8 9
No se sienten amenazados por el proyecto, soncapaces de sentirse intelectualmente unidos alproyecto. Comentario: este proyecto pretende ser una ayuda,pero en ningún momento se enfrentará con losintereses de ninguna otra persona. Es unaherramienta que le será útil para obtener conclusiones y facilitar la toma de decisiones aempresas dedicadas al servicio postal o lamensajería.
D
EX E2 6 2
Tienen un brillante historial en la realización de estatarea. Comentario: esta tarea no se ha llevado a cabo antes, o al menos no a gran escala. Se ha podido consultaren un momento puntual la BBDD, pero nunca se haextraído conocimiento de forma masiva.
D
EX E3 5 5
Hay acuerdos en lo que constituye una buenasolución a la tarea. Comentario: se cuenta con todo el apoyo del cliente para llegar a la solución de las tareas y requisitosespecificados.
D
EX E4 5 8
La única justificación para dar un paso en la soluciónes la calidad de la solución final. Comentario: los expertos de Correos podráncontrastar los resultados obtenidos, los cuales serán de gran utilidad para mejorar la calidad de losservicios postales.
D
EX E5 6 7
No hay un plazo de finalización estricto, ni ningúnotro proyecto depende de esta tarea. Comentario: en este proyecto, no se dispone deninguna fecha de finalización estricta. No obstante, influye la finalización de la beca en IBM de Alfredo,pero obviamente no es un requisito del proyecto.
D
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 56
TA E6 7 7
No está influenciada por vaivenes políticos. Comentario: al ser Correos una empresa pública, existe un trasfondo político por recortes depresupuestos, reasignación de puestos, etc.
E
TA E7 8 1
Existen ya SS.EE. que resuelvan esa o parecidastareas. Comentario: no se dispone de ninguna otraaplicación con este mismo fin.
D
TA E8 8 4
Hay cambios mínimos en los procedimientos habituales. Comentario: los cambios aún se desconocen.Precisamente lo que se busca en este proyecto esextraer conclusiones del análisis de los datos. Noobstante, no es probable que sean grandes cambios.
D
TA E9 5 8
Las soluciones son explicables o interactivas. Comentario: las soluciones se obtendrán de analizarel sistema y sus motivos serán fácilmenteidentificables. Adicionalmente, se mostraránresultados gráficamente para la mejor comprensiónde los resultados obtenidos.
D
TA E10 7 7
La tarea es de I+D de carácter práctico, pero noambas cosas simultáneamente. Comentario: esta aplicación tiene tanto una parte deinvestigación, como una de desarrollo. La parte deinvestigación, que requiere un aprendizaje de lasherramientas de Ingeniería del Conocimiento a utilizar en un Data Mining (redes, algoritmos genéticos, clustering, lógica borrosa,...), y una partede desarrollo de la aplicación para realizar dichainvestigación.
E
DU E11 6 9
Están mentalizados y tienen expectativas realistas tanto en el alcance como en las limitaciones. Comentario: la aplicación valorará objetivamente lacalidad en el plazo de entrega del correo postal. Nova a mejorar el sistema directamente, pero serácapaz de proporciona la información necesaria para mejorar el sistema.
D
DU E12 7 10
No rechazan de plano esta tecnología. Comentario: el experto apuesta fuertemente porutilizar la tecnología de Data Mining para resolver este tipo de problema.
E
DU E13 6 7
El sistema interactúa inteligente y amistosamente con el usuario. Comentario: el sistema interactuará con el usuario:se visualizarán los resultados obtenidos, sepropondrán mejoras en la calidad del servicio, �
D
DU E14 9 6
El sistema es capaz de explicar al usuario surazonamiento. Comentario: el sistema expondrá los resultados al usuario, con una breve explicación sobre los cálculosrealizados para explicar el razonamiento del sistema.
D
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 57
DU E15 8 10
La inserción del sistema se efectúa sin traumas; esdecir, apenas se interfiere en la rutina cotidiana de la empresa. Comentario: Esta aplicación no tiene porquéinterferir en absoluto en la rutina de la empresa. Esindependientemente de todos los demás procesos. Siacaso a largo plazo, una vez que se hayan tomado lasdecisiones, puede modificar en algo la rutina de la empresa.
D
DU E16 6 7
Están comprometidos durante toda la duración delproyecto, incluso después de su implantación. Comentario: El cliente está comprometido durantetoda la duración del proyecto. Después de suimplantación, con las conclusiones extraídas, es posible que varíen sus prioridades.
D
DU E17 8 7
Se efectúa una adecuada transferencia tecnológica. Comentario: Los resultados y conclusiones obtenidasdel sistema experto se publicarán, de manera que elconocimiento obtenido tras analizar los datos esté disponible.
E
VC1 = 71,597
VC2 = 60,696
VC3 = 39,681
VC4 = 39,585
= 52,89
Si todos los valores asignados fueran 10, el total sería: 76,213
Por tanto, el Total Normalizado del Test de Slagel es: 69,397
Es decir, el proyecto es viable.
∑=
4
1 4i
VCi
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 58
2.6 Metodología
La metodología a utilizar consta de cuatro fases:
1. Identificación de las tareas
2. Desarrollo de los prototipos
3. Construcción y ejecución del sistema
4. Actuar para conseguir el mantenimiento
1. Identificación de las tareas
El sistema experto a desarrollar será capaz de:
- Clasificar automáticamente nuevos registros que se presenten en el modelo mediante
técnicas de aprendizaje automático por inducción (árboles de decisión ID3)
- Identificar patrones y reglas a partir de históricos mediante técnicas de distancia y
similitud (Repertory Grid, Mapas de Kohonen o K-means)
- Predecir el plazo de entrega de una carta test
- Análisis de correlación entre el estado de recepción de una carta test y la distancia
recorrida
- Identificar rutas con plazos de entrega distintos a la ida y a la vuelta
- Analizar el comportamiento de los datos a través del tiempo (análisis de producciones).
2. Desarrollo de los prototipos
El prototipo desarrollado es capaz de ejecutar algoritmos de clasificación ID3 y utilizar
Repertory Grid sobre una fuente de datos externa y preparada para minar. El prototipo es
capaz de visualizar los resultados obtenidos.
Se pretende que la aplicación final sea flexible para poder ser capaz de ejecutar más
algoritmos: CART, k-means, Naive Bayes, 1Rule y Reglas de Asociación, entre otros, tal
como se muestra en la figura 2.10.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 59
3. Construcción y ejecución del sistema
Tras la ejecución del sistema se mostrarán los resultados obtenidos. En el caso de
clasificación automática el sistema mostrará el árbol de decisión (ver figura 2.11) con los
separadores elegidos, los nodos resultantes y la información asociada a cada nodo (entropía,
clase, nivel,�)
Figura 2.10: Prototipos de la aplicación
Figura 2.11: Prototipo de árbol ID3
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 60
En la tarea de reconocimiento de patrones los resultados obtenidos se mostrarán gráficamente
en forma de dendrograma (ver figura 2.12)
4. Actuar para conseguir el mantenimiento
Cada cierto tiempo se mantendrá revisiones para supervisar el funcionamiento del sistema,
encontrar fallos no aparecidos con anterioridad y realizar posibles mejoras.
Figura 2.12: Prototipo de dendrograma
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 61
2.6.1 Ciclo de vida del proyecto
El ciclo de vida de un proyecto de Minería de Datos consta de seis fases:
- Comprensión del negocio
- Comprensión de los datos
- Preparación de los datos
- Construcción del modelo
- Interpretación y evaluación
- Despliegue
La secuencia de las fases no son estrictas.
Un proyecto de Data Mining continúa después de que una solución haya sido desplegada.
El conocimiento obtenido durante el proceso puede ser utilizado como dato de entrada para
obtener otro conocimiento más profundo del negocio. Los procesos de Data Mining siguientes se
beneficiarán de los resultados obtenidos anteriormente. El ciclo de vida de un proyecto de Data
Mining se resume en la figura 2.13:
Figura 2.13: Ciclo de vida de un proyecto de Data Mining
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 62
3. INTRODUCCIÓN A LA MINERIA DE DATOS El aumento del volumen y variedad de información que se encuentra informatizada en
bases de datos digitales y otras fuentes ha crecido espectacularmente en las últimas décadas.
Gran parte de esta información es histórica, es decir, representa transacciones o situaciones que
se han producido. Aparte de su función de "memoria de la organización", la información
histórica es útil para explicar el pasado, entender el presente y predecir la información futura. La
mayoría de las decisiones de empresas, organizaciones e instituciones se basan también en
información sobre experiencias pasadas extraídas de fuentes muy diversas. Además, ya que los
datos pueden proceder de fuentes diversas y pertenecer a diferentes dominios, parece clara la
inminente necesidad de analizar los mismos para la obtención de información útil para la
organización.
El área de la extracción (semi-)automática de conocimiento de bases de datos ha adquirido
recientemente una importancia científica y económica inusual. En muchas situaciones, el método
tradicional de convertir los datos en conocimiento consiste en un análisis e interpretación
realizada de forma manual. El especialista en la materia, analiza los datos y elabora un informe o
hipótesis que refleja las tendencias o pautas de los mismos. Esta forma de actuar es lenta, cara y
altamente subjetiva. De hecho, el análisis manual es impracticable en dominios donde el
volumen de los datos crece exponencialmente: la enorme abundancia de datos desborda la
capacidad humana de comprenderlos sin la ayuda de herramientas potentes. Consecuentemente,
muchas decisiones importantes se realizan, no sobre la base de la gran cantidad de datos
disponibles, sino siguiendo la propia intuición del usuario al no disponer de las herramientas
necesarias. Éste es el principal cometido de la Minería de Datos: resolver problemas analizando
los datos presentes en las bases de datos.
3. INTRODUCCIÓN A LA MINERIA DE DATOS
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 63
3.1 El concepto de Minería de Datos y KDD
La Minería de Datos se define como el proceso de extraer conocimiento útil y
comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en
distintos formatos. Es decir, la tarea fundamental de la Minería de Datos es encontrar modelos
inteligibles a partir de los datos. Para que este proceso sea efectivo debería ser automático o
semi-automático (asistido) y el uso de los patrones descubiertos debería ayudar a tomar
decisiones más seguras que reporten, por tanto, algún beneficio a la organización.
Por lo tanto, los retos de la Minería de Datos son: por un lado, trabajar con grandes
volúmenes de datos, procedentes mayoritariamente de sistemas de información, con los
problemas que ello conlleva (ruido, datos ausentes, intratabilidad, volatilidad de los datos...), y
por el otro usar técnicas adecuadas para analizar los mismos y extraer conocimiento novedoso y
útil. En muchos casos la utilidad del conocimiento minado está íntimamente relacionada con la
comprensibilidad del modelo inferido. No debemos olvidar que, generalmente, el usuario final
no tiene por qué ser un experto en las técnicas de Minería de Datos, ni tampoco puede perder
mucho tiempo interpretando los resultados. Por ello, en muchas aplicaciones es importante hacer
que la información descubierta sea más comprensible por los humanos (por ejemplo, usando
representaciones gráficas, convirtiendo los patrones a lenguaje natural o utilizando técnicas de
visualización de los jatos).
Sin embargo, la idea de Data Mining no es nueva. Ya desde los años sesenta los
estadísticos manejaban términos como data fishing, Data Mining o data archaeology con la idea
de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de
los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro,
entre otros, empezaron a consolidar los términos de Data Mining y KDD. De una manera
simplista pero ambiciosa, se puede decir que el objetivo de la Minería de Datos es convertir
datos en conocimiento.
La Minería de Datos es una etapa dentro del proceso de Descubrimiento de Conocimiento
en Bases de datos, Knowledge Discovery in Databases, KDD. KDD se define como "el proceso
no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia,
comprensibles a partir de los datos".
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 64
Las propiedades deseables que el conocimiento extraído debe tener son:
- válido: hace referencia a que los patrones deben seguir siendo precisos para datos nuevos
(con un cierto grado de certidumbre), y no sólo para aquellos que han sido usados en su
obtención.
- novedoso: que aporte algo desconocido tanto para el sistema y preferiblemente para el
usuario.
- potencialmente útil: la información debe conducir a acciones que reporten algún tipo de
beneficio para el usuario.
- comprensible: la extracción de patrones no comprensibles dificulta o imposibilita su
interpretación, revisión, validación y uso en la toma de decisiones. Desde el punto de
vista de su utilidad, una información incomprensible no proporciona conocimiento.
El KDD es un proceso complejo que incluye no sólo la obtención de los modelos o
patrones (el objetivo de la Minería de Datos), sino también la evaluación y posible interpretación
de los mismos, así como las fases iniciales de integración, recopilación y preparación de datos.
Los sistemas de KDD permiten la selección, limpieza, transformación y proyección de los
datos; analizar los datos para extraer patrones y modelos adecuados; evaluar e interpretar los
patrones para convertirlos en conocimiento; consolidar el conocimiento resolviendo posibles
conflictos Con conocimiento previamente extraído; y hacer el conocimiento disponible para su
uso.
Esta definición del proceso clarifica la relación entre el KDD y la Minería de Datos: el
KDD es el proceso global de descubrir conocimiento útil desde las bases de datos mientras que la
Minería de Datos se refiere a la aplicación de los métodos de aprendizaje y estadísticos para la
obtención de patrones y modelos. Al ser la fase de generación de modelos, comúnmente se
asimila KDD con Minería de Datos.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 65
3.2 Tipos de modelos
La Minería de Datos tiene como objetivo analizar los datos para extraer conocimiento. Este
conocimiento puede ser en forma de relaciones, patrones o reglas inferidos de los datos y
(previamente) desconocidos, o bien en forma de una descripción más concisa (es decir, un
resumen de los mismos). Estas relaciones o resúmenes constituyen el modelo de los datos
analizados.
Existen muchas formas diferentes de representar los modelos y cada una de ellas determina
el tipo de técnica que puede usarse para inferirlos. En la práctica, los modelos pueden ser de dos
tipos: predictivos y descriptivos.
Los modelos predictivos pretenden estimar valores futuros o desconocidos de variables
de interés, que denominamos variables objetivo o dependientes, usando otras variables o campos
de la base de datos, a las que nos referiremos como variables independientes o predictivas. Por
ejemplo, un modelo predictivo sería aquel que permite estimar la demanda de un nuevo producto
en función del gasto en publicidad.
Los modelos descriptivos identifican patrones que explican o resumen los datos, es decir,
sirven para explorar las propiedades de los datos examinados, no para predecir nuevos datos. Por
ejemplo, una agencia de viaje desea identificar grupos de personas con unos mismos gustos, con
el objeto de organizar diferentes ofertas para cada grupo y poder así remitirles esta información;
para ello analiza los viajes que han realizado sus clientes e infiere un modelo descriptivo que
caracteriza estos grupos.
Los modelos descriptivos más usuales junto con sus algoritmos son:
- Agrupamiento
o Mapas de Kohonen
o K-means
o C-means
o Fuzzy c-means
o ...
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 66
- Reglas de asociación
o A priori
o CN2 rules
- Correlaciones
o Regresión lineal
o Análisis factorial
o Análisis de componentes principales
Los modelos predictivos más usuales junto con sus algoritmos son:
- Clasificación
o Árboles decisión ID3
o Árboles decisión CART
o Árboles decisión C4.5
o Naive Bayes
- Regresión
o Redes Neuronales (RNA)
o Algoritmos genéticos y evolutivos
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 67
3.3 Tareas de la Minería de Datos
Algunas tareas de Minería de Datos que producen modelos predictivos son:
- la clasificación
- la regresión
y las que dan lugar a modelos descriptivos son:
- el agrupamiento o clustering
- las reglas de asociación
- las reglas de asociación secuenciales
- el análisis correlacional.
Cada tarea puede ser realizada usando distintas técnicas. Por ejemplo, los modelos
inferidos por los árboles de decisión y las redes neuronales pueden inferir modelos predictivos.
Igualmente, para una misma técnica se han desarrollado diferentes algoritmos que difieren en la
forma y criterios concretos con los que se construye el modelo.
A continuación describo brevemente cada una de estas tareas:
3.3.1 Clasificación
La clasificación es quizá la tarea más utilizada. En ella, cada instancia (o registro de la base
de datos) pertenece a una clase, la cual se indica mediante el valor de un atributo que llamamos
la clase de la instancia. Este atributo puede tomar diferentes valores discretos, cada uno de los
cuales corresponde a una clase. El resto de los atributos de la instancia (los relevantes a la clase)
se utilizan para predecir la clase. El objetivo es predecir la clase de nuevas instancias de las que
se desconoce la clase. Más concretamente, el objetivo del algoritmo es maximizar la razón de
precisión de la clasificación de las nuevas instancias, la cual se calcula como el cociente entre las
predicciones correctas y el número total de predicciones (correctas e incorrectas).
Existen variantes de la tarea de la clasificación, como son el aprendizaje de "rankings", el
aprendizaje de preferencias, el aprendizaje de estimadores de probabilidad, etc.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 68
3.3.2 Regresión
La regresión es también una tarea predictiva que consiste en aprender una función real que
asigna a cada instancia un valor real. Ésta es la principal diferencia respecto a la clasificación; el
valor a predecir es numérico. El objetivo en este caso es minimizar el error (generalmente el
error cuadrático medio) entre el valor predicho y el valor real.
3.3.3 Agrupamiento o clustering
El clustering es la tarea descriptiva por excelencia y consiste en obtener grupos "naturales"
a partir de los datos. Hablamos de grupos y no de clases, porque, a diferencia de la clasificación,
en lugar de analizar datos etiquetados con una clase, los analiza para generar esta etiqueta. Los
datos son agrupados basándose en el principio de maximizar la similitud entre los elementos de
un grupo minimizando la similitud entre los distintos grupos. Es decir, se forman grupos tales
que los objetos de un mismo grupo son muy similares entre sí y, al mismo tiempo, son muy
diferentes a los objetos de otro grupo. Al agrupamiento también se le suele llamar segmentación,
ya que parte o segmenta los datos en grupos que pueden ser o no disjuntos. El agrupamiento está
muy relacionado con la sumarización, que algunos autores consideran una tarea en sí misma, en
la que cada grupo formado se considera como un resumen de los elementos que lo forman para
así describir de una manera concisa los datos.
3.3.4 Correlaciones
Las correlaciones son una tarea descriptiva que se usa para examinar el grado de similitud
de los valores de dos variables numéricas. Una fórmula estándar para medir la correlación lineal
es el coeficiente de correlación r, el cual es un valor real comprendido entre -1 y 1. Si r es 1
(respectivamente, -1) las variables están perfectamente correlacionadas (perfectamente
correlacionadas negativamente), mientras que si es 0 no hay correlación. Esto quiere decir que
cuando r es positivo, las variables tienen un comportamiento similar (ambas crecen o decrecen al
mismo tiempo) y cuando r es negativo si una variable crece la otra decrece. El análisis de
correlaciones, sobre todo las negativas, puede ser muy útil para establecer reglas de ítems
correlacionados.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 69
3.3.5 Reglas de asociación
Las reglas de asociación son también una tarea descriptiva, muy similar a las correlaciones,
que tiene como objetivo identificar relaciones no explícitas entre atributos categóricos. Pueden
ser de muchas formas, aunque la formulación más común es del estilo " si el atributo X toma el
valor d entonces el atributo y toma el valor b. Las reglas de asociación no implican una relación
causa-efecto, es decir, puede no existir una causa para que los datos estén asociados. Este tipo de
tarea se utiliza frecuentemente en el análisis de la cesta de la compra, para identificar productos
que son frecuentemente comprados juntos, información esta que puede usarse para ajustar los
inventarios, para la organización física del almacén o en campañas publicitarias. Las reglas se
evalúan usando dos parámetros: precisión y soporte (cobertura)
Reglas de asociación secuenciales
Un caso especial de reglas de asociación, que recibe el nombre de reglas de asociación
secuenciales, se usa para determinar patrones secuenciales en los datos. Estos patrones se basan
en secuencias temporales de acciones y difieren de las reglas de asociación en que las relaciones
entre los datos se basan en el tiempo.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 70
3.4 Técnicas de Minería de Datos
Existen diversas técnicas para abordar una tarea de Minería de Datos, siendo las más
utilizadas:
- técnicas de inferencia estadística
- árboles de decisión
- redes neuronales
- inducción de reglas
- aprendizaje basado en instancias
- algoritmos genéticos
- aprendizaje bayesiano
- programación lógica inductiva
- métodos basados en núcleos
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 71
3.5 Relación de la Minería de Datos con otras tecnologías de
bases de datos
3.5.1 SQL y OLTP Hasta no hace mucho, el análisis de los datos de una base de datos se realizaba mediante
consultas efectuadas con lenguajes generalistas de consulta, como el SQL, y se producía sobre la
base de datos operacional, es decir, junto al procesamiento transaccional en línea (On-Line
Transaction Processing, OLTP) de las aplicaciones de gestión. No obstante, esta manera de
actuar sólo permitía generar información resumida de una manera previamente establecida
(generación de informes), poco flexible y, sobre todo, poco escalable a grandes volúmenes de
datos.
El procesamiento transaccional en tiempo real (OLTP) constituye el trabajo primario en un
sistema de información. Este trabajo consiste en realizar transacciones, es decir, actualizaciones
y consultas a la base de datos con un objetivo operacional: hacer funcionar las aplicaciones de la
organización, proporcionar información sobre el estado del sistema de información y permitir
actualizarlo conforme va variando la realidad del contexto de la organización. Muestras de este
tipo de trabajo transaccional son, por ejemplo, en el caso de una empresa, la inserción de un
nuevo cliente, el cambio de sueldo de un empleado, la tramitación de un pedido, el
almacenamiento de una venta, la impresión de una factura, la baja un producto, etc. Es el trabajo
diario y para el que inicialmente se ha diseñado la base de datos.
Las herramientas de consulta y las herramientas de Data Mining son complementarias. Una
herramienta de Data Mining no reemplaza una herramienta de consulta, pero da al usuario un
montón de posibilidades adicionales. Los algoritmos de Data Mining pueden encontrar mucha
información oculta de forma óptima, que no pueden lograrse de forma sencilla usando
herramientas de consulta a bases de datos utilizando SQL. Data Mining utiliza queries con SQL
y almacena los resultados intermedios. El conocimiento oculto en bases de datos es mucho más
difícil de encontrar usando SQL. Se podría intentar adivinar algún criterio que relacione los datos
de una base de datos de gran tamaño y realizar consultas a dicha base de datos para ver si el
criterio funciona o no, en un proceso de prueba y error.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 72
Se podría desarrollar de forma gradual intuiciones sobre cuales son los atributos mas
importantes que clasifican los datos, pero procediendo de este modo, podría llevar días o incluso
meses encontrar una segmentación optima para una gran base de datos, mientras que un
algoritmo de aprendizaje automático como redes neuronales o algoritmos genéticos podrían
encontrar la respuesta automáticamente en un periodo de tiempo mucho mas corto, a veces en
minutos o un par de horas. Una vez que la herramienta de Data Mining ha encontrado una
segmentación, se suelen utilizar queries para consultar y analizar los perfiles encontrados.
Si realmente se conoce la información que se desea buscar de la base de datos, se utiliza
SQL; pero si solo se conoce vagamente lo que se está buscando, es preferible usar Data Mining.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 73
3.5.2 DataWarehouse y OLAP Recientemente ha surgido una nueva arquitectura conocida como almacén de datos (data
warehouse). Se trata de un repositorio de fuentes heterogéneas de datos, integrados y
organizados bajo un esquema unificado para facilitar su análisis y dar soporte a la toma de
decisiones.
Los almacenes de datos se utilizan para poder agregar y cruzar eficientemente la
información de maneras sofisticadas. Por ello, los datos se modelan con una estructura de base
de datos multidimensional, donde cada dimensión corresponde a un atributo o conjunto de
atributos en el esquema en torno a unos "hechos" que almacenan el valor de alguna medida
agregada, como por ejemplo la cantidad vendida de un producto en un día concreto en una
tienda. Esta visión multidimensional hace a los almacenes de datos adecuados para el
procesamiento analítico en línea (on-line analytical processing, OLAP), es decir, técnicas de
análisis como pueden ser el resumen, la consolidación o la agregación, así como la posibilidad de
ver la información desde distintas perspectivas.
Las operaciones OLAP permiten un análisis multidimensional de los datos, que es superior
al SQL para computar resúmenes y desgloses en muchas dimensiones, pudiendo utilizar
conocimiento previo sobre el dominio de los datos para permitir su presentación a diferentes
niveles de abstracción, acomodando así diferentes puntos de vista del usuario.
El usuario de una herramienta OLAP utiliza la herramienta para obtener información
agregada a partir de información detallada, combinando la información de manera flexible. Esto
permite obtener informes y vistas sofisticadas en tiempo real. Además, las herramientas OLAP
pueden utilizarse para comprobar rápidamente patrones y pautas hipotéticas sugeridas por el
usuario con el objetivo de verificarlas o rechazarlas. Se trata, por lo tanto, de un proceso
esencialmente deductivo. Por el contrario, la Minería de Datos, más que verificar patrones
hipotéticos, usa los datos para encontrar estos patrones. Por lo tanto, es un proceso inductivo.
Ambos tipos de herramientas se complementan: podemos usar OLAP al principio del proceso de
KDD para explorar los datos (por ejemplo, para centrar nuestra atención en las variables
importantes, identificar excepciones o encontrar interacciones), ya que cuanto más
comprendamos los datos más efectivo será el proceso de descubrir conocimiento.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 74
Sin embargo, a pesar de que las herramientas OLAP soportan cierto análisis descriptivo y
de sumarización que permite transformar los datos en otros datos agregados o cruzados de
manera sofisticada, no generan reglas, patrones, pautas, es decir, conocimiento que pueda ser
aplicado a otros datos. Sin embargo, en muchos contextos, como los negocios, la medicina o la
ciencia, los datos por sí solos tienen un valor relativo. Lo que de verdad es interesante es el
conocimiento que puede inferirse a partir de los datos y, más aún, la capacidad de poder usar este
conocimiento.
Existen otras herramientas analíticas que han sido empleadas para analizar los datos y que
tienen su origen en la estadística, algo lógico teniendo en cuenta que la materia prima de esta
disciplina son precisamente los datos. Aunque algunos paquetes estadísticos son capaces de
inferir patrones a partir de los datos (utilizando modelización estadística paramétrica o no
paramétrica), el problema es que resultan especialmente crípticos para los no estadísticos,
generalmente no funcionan bien para la talla de las bases de datos actuales (cientos de tablas,
millones de registros, talla de varios gigabytes y una alta dimensionalidad) y algunos tipos de
datos frecuentes en ellos (atributos nominales con muchos valores, datos textuales, multimedia,
etc.), y no se integran bien con los sistemas de información.
Todos estos problemas y limitaciones de las aproximaciones clásicas han hecho surgir la
necesidad de una nueva generación de herramientas y técnicas para soportar la extracción de
conocimiento útil desde la información disponible, y que se engloban bajo la denominación de
Minería de Datos. La Minería de Datos se distingue de las aproximaciones anteriores porque no
obtiene información extensional (datos) sino intensional (conocimiento) y, además, el
conocimiento no es, generalmente, una parametrización de ningún modelo preestablecido o
intuido por el usuario, sino que es un modelo novedoso y original, extraído completamente por la
herramienta. El resultado de la Minería de Datos son conjuntos de reglas, ecuaciones, árboles de
decisión, redes neuronales, grafos probabilísticos...
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 75
3.6 Relación de la Minería de Datos con otras disciplinas La Minería de Datos se crea por la aparición de nuevas necesidades y, especialmente, por
el reconocimiento de un nuevo potencial: el valor, hasta ahora generalmente infrautilizado, de la
gran cantidad de datos almacenados informáticamente en los sistemas de información de
instituciones, empresas, gobiernos y particulares. Los datos pasan de ser un "producto" (el
resultado histórico de los sistemas de información) a ser una "materia prima" que hay que
explotar para obtener el verdadero "producto elaborado", el conocimiento; un conocimiento que
ha de ser especialmente valioso para la ayuda en la toma de decisiones sobre el ámbito en el que
se han recopilado o extraído los datos. Es cierto que la estadística es la primera ciencia que
considera los datos como su materia prima, pero las nuevas necesidades y, en particular, las
nuevas características de los datos (en volumen y tipología) hacen que las disciplinas que
integran lo que se conoce como "Minería de Datos" sean numerosas y heterogéneas.
La Minería de Datos es un campo multidisciplinar que se ha desarrollado en paralelo o
como prolongación de otras tecnologías. Por ello, la investigación y los avances en la Minería de
Datos se nutren de los que se producen en estas áreas relacionadas.
Podemos destacar como disciplinas más influyentes las siguientes:
- bases de datos: conceptos como los almacenes de datos y el procesamiento analítico en
línea (OLAP) tienen una gran relación con la Minería de Datos, aunque en este último
caso no se trata de obtener informes avanzados a base de agregar los datos de cierta
manera compleja pero predefinida (como incluyen muchas herramientas de business
intelligence, presentes en sistemas de gestión de bases de datos comerciales), sino de
extraer conocimiento novedoso y comprensible. Las técnicas de indización y de acceso
eficiente a los datos son muy relevantes para el diseño de algoritmos eficientes de
Minería de Datos.
- recuperación de información (information retrieval, IR): consiste en obtener información
desde datos textuales, por lo que su desarrollo histórico se ha basado en el uso efectivo de
bibliotecas (recientemente digitales) y en la búsqueda por Internet. Una tarea típica es
encontrar documentos a partir de palabras claves, lo cual puede verse como un proceso de
clasificación de los documentos en función de estas palabras clave. Para ello se usan
medidas de similitud entre los documentos y la consulta.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 76
- estadística: esta disciplina ha proporcionado muchos de los conceptos, algoritmos y
técnicas que se utilizan en Minería de Datos, como por ejemplo, la media, la varianza, las
distribuciones, el análisis univariante y multivariante, la regresión lineal y no lineal, la
teoría del muestreo, la validación cruzada, la modelización paramétrica y no paramétrica,
las técnicas bayesianas, y un largo etcétera. De hecho, algunos paquetes de análisis
estadístico se comercializan como herramientas de Minería de Datos.
- aprendizaje automático: ésta es el área de la inteligencia artificial que se ocupa de
desarrollar algoritmos (y programas) capaces de aprender, y constituye, junto con la
estadística, el corazón del análisis inteligente de los datos. Los principios seguidos en el
aprendizaje automático y en la Minería de Datos son los mismos: la máquina aprende un
modelo a partir de ejemplos y lo usa para resolver el problema.
- sistemas para la toma de decisión: son herramientas y sistemas informatizados que
facilitan a los directivos la resolución de problemas y la toma de decisiones. El objetivo
es proporcionar la información necesaria para realizar decisiones efectivas en el ámbito
empresarial o en tareas de diagnóstico (por ejemplo en medicina). Herramientas como el
análisis ROC o los mismos árboles de decisión provienen de esta área.
- visualización de datos: el uso de técnicas de visualización permite al usuario descubrir,
intuir o entender patrones que serían más difíciles de "ver" a partir de descripciones
matemáticas o textuales de los resultados. Existen técnicas de visualización, como, por
ejemplo:
o las gráficas: diagramas de barras, gráficas de dispersión, histogramas, etc.
o las icónicas: basadas en figuras, colores, etc.
o las basadas en píxeles: cada dato se representa como un único píxel
o las jerárquicas: dividiendo el área de representación en regiones dependiendo de
los datos
- computación paralela y distribuida: actualmente, muchos sistemas de bases de datos
comerciales incluyen tecnologías de procesamiento paralelo, distribuido o de
computación en grid. En estos sistemas el coste computacional de las tareas más
complejas de Minería de Datos se reparte entre diferentes procesadores o computadores.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 77
Su éxito se debe en parte a la explosión de los almacenes de datos (su adaptación
distribuida) y de la Minería de Datos, en los que las prestaciones de los algoritmos de
consulta son críticas. Una de las principales ventajas del procesamiento paralelo es
precisamente la escalabilidad de los algoritmos, lo que lo hace idóneo para estas
aplicaciones.
- reconocimiento de patrones (pattern recognition)
- otras disciplinas: dependiendo del tipo de datos a ser minados o del tipo de aplicación, la
Minería de Datos usa también técnicas de otras disciplinas como el lenguaje natural, el
análisis de imágenes, el procesamiento de señales, los gráficos por computadora, etc.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 78
3.7 Áreas de Aplicación
Los sistemas de Data Mining se implantan en diferentes áreas de negocio utilizan para la
ayuda a la toma de decisiones. A continuación se muestran algunas de ellas, especificando los
problemas tipo a resolver mediante Data Mining:
Comercio/Marketing:
- Ofrecer productos y servicios que se anticipen a las necesidades de los clientes
- Entender y predecir el comportamiento individual de cada cliente
- Identificar patrones de compra de los clientes.
- Buscar asociaciones entre clientes y características demográficas.
- Predecir respuesta a campañas de mailing.
- Análisis de cestas de la compra.
Finanzas / Banca:
- Detectar patrones de uso fraudulento de tarjetas de crédito.
- Identificar clientes leales.
- Predecir clientes con probabilidad de cambiar su afiliación.
- Determinar gasto en tarjeta de crédito por grupos.
- Encontrar correlaciones entre indicadores financieros.
- Identificar reglas de mercado de valores a partir de históricos.
Seguros y Salud Privada:
- Análisis de procedimientos médicos solicitados conjuntamente.
- Predecir qué clientes compran nuevas pólizas.
- Identificar patrones de comportamiento para clientes con riesgo.
- Identificar comportamiento fraudulento.
Transportes:
- Determinar la planificación de la distribución entre tiendas.
- Analizar patrones de carga.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 79
Diseño y Gestión de Bases de Datos.
- Reverse Engineering (dada una base de datos, desnormalizarla para que luego el sistema
la normalice).
- Mejora de Calidad de Datos.
- Mejora de Consultas (si se descubren dependencias funcionales nuevas u otras
condiciones evitables).
Investigación científica
- En áreas de medicina, astronomía, meteorología, psicología, ...
Medicina:
- Identificación de terapias médicas satisfactorias para diferentes enfermedades.
- Asociación de síntomas y clasificación diferencial de patologías.
- Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de riesgo/salud en
distintas patologías.
- Segmentación de pacientes para una atención más inteligente según su grupo.
- Predicciones temporales de los centros asistenciales para el mejor uso de recursos,
consultas, salas y habitaciones.
- Estudios epidemiológicos, análisis de rendimientos de campañas de información,
prevención, sustitución de fármacos, etc.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 80
4.EL PROCESO DE EXTRACCIÓN DE CONOCIMIENTO El proceso de descubrimiento de conocimiento en bases de datos (Knowledge Discovery
from Databases, KDD) consta de una secuencia iterativa de etapas o fases, como se describe en
la figura 4.1:
1. Integración y recopilación
2. Preparación de Datos
3. Minería de Datos
4. Evaluación
5. Difusión y Uso de Modelos
Integración y recopilación
El primer paso en el proceso de extracción de conocimiento a partir de datos es
precisamente reconocer y reunir los datos con los que se va a trabajar, es decir, determinar las
fuentes de información (internas o externas) que pueden ser útiles y dónde conseguirlas.
Preparación de Datos
La calidad del conocimiento descubierto no sólo depende del algoritmo de minería
utilizado, sino también de la calidad de los datos minados. Por ello, después de recopilación, el
siguiente paso en el proceso de KDD es seleccionar y preparar el subconjunto de datos que se va
a minar, los cuales constituyen lo que se conoce como vista minable. En la mayoría de bases de
datos existe mucha información que es incorrecta o inconsistente. Estos problemas se acentúan
4. EL PROCESO DE EXTRACCIÓN DE CONOCIMIENTO
Figura 4.1: Fases del proceso de KDD
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 81
cuando realizamos la integración de distintas fuentes.
En esta fase se debe eliminar el mayor número posible de datos erróneos o inconsistentes
(limpieza), irrelevantes (criba) o faltantes, y presentar los datos de la manera más apropiada para
la Minería de Datos (Ej.: discretizaciones, cálculos).
La transformación es una tarea necesaria para la preparación de los datos. Mediante la
transformación se puede producir atributos derivados a los ya existentes que aporten mayor
información, pueden producirse registros nuevos completos o valores transformados de atributos
existentes. Los atributos derivados son nuevos atributos construidos a partir de uno o más
atributos existentes en el mismo registro. Por ejemplo: area = longitud * altura. Además se
pueden agregar atributos calculados como diferencias entre valores previos, promedio de ellos,
diferencias de diferencias o promedios de diferencias y tantos otros como se puedan imaginar.
Además de los atributos derivados pueden aparecer nuevos generarse nuevos registros, que
describen la creación completa de nuevos registros. Por ejemplo: crear registros para clientes que
no realizaron ninguna compra durante el año pasado. No habría ninguna razón para almacenar
dichos registros en nuestra fuente de entrada, pero por motivos de modelización puede tener
sentido representar explícitamente el hecho de que algunos clientes no han realizado ninguna
compra.
La cantidad atributos a incluir es una cuestión fundamental. Si se agregan demasiados
atributos estos pueden provocar ruido en el algoritmo de clasificación confundiéndolo, en
cambio muy pocos atributos no proporcionarían información suficiente para una correcta
clasificación.
Minería de Datos
La fase de Minería de Datos es la más característica del KDD y, por esta razón, muchas
veces se utiliza esta fase para nombrar todo el proceso. El objetivo de esta fase es producir nuevo
conocimiento que pueda utilizar el usuario. Esto se realiza construyendo un modelo basado en
los datos recopilados para este efecto
Evaluación
Tras la ejecución de modelos de minería se evalúan los patrones y se interpretan los
resultados obtenidos mediante un conjunto de entrenamiento.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 82
Difusión y Uso de Modelos
Tras evaluar los modelos de minería, si los resultados son correctos se evalúan sobre el
total de la población.
Además de las fases descritas, frecuentemente se incluye una fase previa de análisis de las
necesidades de la organización y definición del problema, en la que se establecen los objetivos
de Minería de Datos.
El KDD es un proceso iterativo e interactivo. Es iterativo ya que la salida de alguna de las
fases puede hacer volver a pasos anteriores y porque a menudo son necesarias varias iteraciones
para extraer conocimiento de alta calidad. Es interactivo porque el usuario, o más generalmente
un experto en el dominio del problema, debe ayudar en la preparación de los datos, validación
del conocimiento extraído, etc.
A continuación, se muestra gráficamente los esfuerzos asociados a las fases del proceso
KDD:
Data Mining es una de las etapas del proceso de KDD.
Figura 4.2: Esfuerzos asociados a las fases del proceso de KDD
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 83
4.1. FASE DE INTEGRACIÓN Y RECOPILACIÓN DE DATOS
El primer paso en el proceso de extracción de conocimiento a partir de datos es
precisamente reconocer y reunir los datos con los que se va a trabajar, es decir, determinar las
fuentes de información que pueden ser útiles y dónde conseguirlas.
El problema de reunir un conjunto de datos que posibilite la extracción de conocimiento
requiere decidir, entre otros aspectos, qué fuentes, internas y externas, se van a obtener los datos,
cómo se van a organizar, cómo se van a mantener con el tiempo y, finalmente, de qué forma se
van a poder extraer parcial o totalmente, en detalle o agregados, con distintas "vistas minables" a
las que podamos aplicar las herramientas concretas de Minería de Datos.
Los datos necesarios para poder llevar a cabo un proceso de KDD pertenecen a distintos
departamentos de una misma entidad (por una parte el Centro de Recogida de Datos y por otra el
almacén de datos de IBM). Además de la información relativa a cartas test, algunos datos
necesarios para el análisis nunca han sido recolectados en el ámbito de la organización por no ser
necesarios para sus aplicaciones. Por esto, se han adquirido datos externos desde bases de datos
públicas para los datos demográficos, para calcular las distancias entre las distintas provincias
españolas.
Cada fuente de datos usa diferentes formatos de registro, diferentes grados de agregación
de los datos, diferentes claves primarias, diferentes tipos de error, etc. Lo primero, por lo tanto,
es integrar todos estos datos. La idea de la integración de múltiples bases de datos ha dado lugar
a la tecnología de almacenes de datos (data warehousing). Este término, tan popular
actualmente, hace referencia a la tendencia actual en las empresas e instituciones de coleccionar
datos de las bases de datos transaccionales y otras fuentes diversas para hacerlos accesibles para
el análisis y la toma de decisiones.
Un almacén de datos es muy aconsejable para la Minería de Datos si se va a trabajar con
grandes volúmenes de datos, que varían con el tiempo y donde se desea realizar tareas de
minerías de datos variadas, abiertas y cambiantes, aunque el hecho de tener un almacén de datos
no es imprescindible.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 84
En algunos casos, en especial cuando el volumen no es muy grande, se puede trabajar con
los datos originales o en formatos heterogéneos (archivos de texto, hojas de cálculo...).
Con el uso de Data Warehouses se pretende proporcionar metodologías y tecnología para
recopilar e integrar los datos históricos de una organización, cuyo fin es el análisis, la obtención
de resúmenes e informes complejos y la extracción de conocimiento. Esta tecnología está
diseñada especialmente para organizar grandes volúmenes de datos de procedencia generalmente
estructurada (bases de datos relacionales, por ejemplo), aunque el concepto general es útil para la
organización de pequeños conjuntos de datos en aplicaciones de Minería de Datos más modestas.
Para el desarrollo de este proyecto se han integrado los datos procedentes del Centro de
Recogida de Datos, del almacén de datos de IBM y la información demográfica en distintas
tablas gestionadas bajo un sistema gestor de bases de datos, en concreto, SQL SERVER 2000.
Una vez que la carta test es depositada por el emisor y recibida por el destinatario, éste la
devuelve al Centro de Recogida de Datos, donde se registra en formato electrónico los datos
pertenecientes a la carta.
Figura 4.3: Fuentes de entrada del DW
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 85
Por otro lado, Correos establece los estándares de calidad según la política interna, los
diferentes flujos de correo a cubrir y el volumen de producción de carta test que debe haber en
circulación mensualmente.
Tanto los datos provenientes de Correos como los del participante se registran en una base
de datos transaccional, que va a ser la fuente principal que alimente al DataWarehouse. Además
de estos datos, el DataWarehouse se alimenta de datos demográficos (zonas geográficas de
España y distancias kilométricas entre las distintas comunidades autónomas).
Para alimentar el DataWarehouse es preciso lanzar procesos ETL, encargados de la
extracción, transformación y carga de los datos.
Por tanto, el proceso de integración y recopilación de datos quedaría resumido en la
siguiente imagen:
Figura 4.4: Flujos de información en el Centro de Recogida de Datos
Figura 4.5: Datos provenientes de Correos
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 86
Figura 4.6: Identificación de fuentes de datos (internas y eternas)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 87
4.1.1 Identificación de fuentes internas
El Centro de Recogida de Datos contiene la información sobre las últimas cartas
recibidas. Aquí es donde se envían rellenados los cuestionarios de los remitentes y los
destinatarios, y donde se graban en formato electrónico los datos de cada carta.
Una o dos veces por semana, se envían los datos del Centro de recogida al almacén de
datos de IBM. Este almacén contiene toda la información de las cartas test. Es una base de datos
de gran tamaño, pues contiene información histórica de cartas test desde el año 2000.
Esquema de almacenamiento en el Centro de Recogida de Datos
En el Centro de Recogida de Datos contiene información sobre las cartas test enviadas a
los remitentes y devueltas por los destinatarios. Además de datos sobre cartas test, el centro
dispone de información sobre los panelistas que participan en la medición de la calidad.
Las cartas test enviadas a los remitentes y posteriormente devueltas por los destinatarios al
Centro de Recogida de Datos, se registran en una base de datos transaccional con tablas para
gestionar los panelistas y las cartas test. Varias veces por semana se exportan las cartas
registradas al almacén de IBM, por lo que la estructura de estas tablas es la misma que en el
almacén de datos en IBM.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 88
Esquema de almacenamiento en el almacén de datos de IBM
El almacén de datos de IBM contiene, además de las tablas existentes en el Centro de
Recogida de Datos, información de control del sistema, reglas de cálculo para estimar la calidad
en plazo, los diferentes vínculos entre ciudades origen y destino, log del sistema, información
geográfica, fiestas nacionales y locales...
Para la creación del nuevo esquema de almacenamiento que integre los datos útiles para
una posterior explotación en busca de conocimiento provenientes del centro de recogida de
Datos y del almacén de IBM, describiré brevemente las tablas más importantes utilizadas y los
atributos significativos que posee información útil para un posterior análisis mediante Minería de
Datos:
• Address
Esta tabla contiene información sobre la dirección del
participante: tipo de dirección, ID del participante, nombre de la
compañía, dirección postal, teléfono, ciudad, distrito, código postal
y email.
Los datos más significativos a incluir en la vista minable son:
- Mail_addres_l1: contiene información sobre la localidad y
provincia del participante.
El participante puede tener más de una dirección postal (lugar
de vacaciones, trabajo,...) pero para el estudio sólo interesa tener la
dirección del domicilio, que es donde se enviarán las cartas test.
• Addressing method
Contiene información sobre la forma en que está escrita la
dirección postal (a mano o a máquina).
Datos a incluir en la vista minable:
- method_desc: mano o máquina.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 89
Method_key method_id method_desc96 H Mano 97 M Máquina
• Area
Contiene información sobre las ciudades y provincias.
Datos a incluir en la vista minable:
- area_desc: contiene el nombre de las provincias españolas.
• Area level
Contiene información sobre las ciudades agrupadas por
provincia y zona.
• Bundle
Contiene información del fajo: ID fajo, semana de producción,
ID del dropper, método de inducción, fecha de inducción
planeada, fecha de inducción real, hora de inducción, ultima
hora de recogida en buzón, peso del fajo,...
Un fajo es un conjunto de cartas test enviadas a un mismo
remitente, para que las distribuya entre diversos destinatarios.
Las cartas incluidas en un fajo, no tienen por qué tener las
mismas características físicas (peso, tamaño,...) y pueden
pertenecer a distintos productos (línea básica o urgente).
Datos a incluir en la vista minable:
- bundle id: identificador del fajo.
- prod_week_key: semana de producción
- dropper_id: identificador del remitente
area_level_key area_level_id area_level_desc area_group_key 4 ProvN Province National 1 5 Prov Province 2 8 City City 2
10 ZoneN Zone National 1 11 Zone Zone 2 13 CTRY Country 3
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 90
- reported_indu_date: fecha de inducción del fajo
- indu_time: hora de inducción
- last_pickup_time: ultima hora de recogida en buzón
• Drop role category
Contiene información del remitente.
Datos a incluir en la vista minable:
- drop_role_category_id: indica si el remitente es particular o
empresa.
drop_role_category_iddrop_category_desc drop_role_category_key P Private 137 B Business 138
• Dropper Contiene información sobre el remitente: ID de remitente,
ID de participante, estado del remitente (activo, inactivo
temporalmente o de baja), tipo de dirección, forma de pago (en
caso de que el participante sea una empresa y franqueé él mismo
las cartas tests. Este importe hay que devolverlo), fechas
restringidas que el remitente ha especificado en las que no puede
inducir cartas, lugar de inducción...
Datos a incluir en la vista minable:
- indu_week_pattern_id: días en los que puede inducir las
cartas test (lunes a viernes o lunes a sábado).
• Franking_method
Contiene información sobre el método de franqueo.
Datos a incluir en la vista minable:
- franking_method_id: ST (sello), MT (máquina de franquear), PP
(franqueo pagado).
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 91
Franking_method_keyfranking_method_id franked_by_dropper
82 ST N 83 MT Y 84 PP Y
• Induction_method
Contiene información sobre el método de inducción.
Datos a incluir en la vista minable:
- induction_method_key: PO (oficina de correos), CA (centro
admisión masiva) o MB (buzón).
induction_method_key indu_method_id indu_desc
90 MB Buzón 91 PO Oficina de Correos 92 CA Centro Adm. Masiva
Es la tabla que posee la información más útil de las cartas test.
Contiene información sobre la carta test: ID de la carta, código postal
del remitente, set de producción (Local, Provincial, Nacional), ID del
remitente, ID del destinatario, método de inducción, fecha de
inducción, formato de la carta, ID del fajo, código de cancelación,
fecha prevista de depósito, fecha de matasello, fecha de franqueo,
fecha de recepción, hora de recepción, estado de recepción e ID del
transpondedor.
Datos a incluir en la vista minable:
- mail_id: identificador de la carta
- receiver_id: identificador del destinatario
- stamp cancel date: fecha de matasello
- meter date: fecha de franqueo
- received date: fecha de recepción
- damage_id: estado de recepción de la carta test
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 92
• Mail format
Contiene información sobre el formato de la carta test.
Datos a incluir en la vista minable:
- format_desc: normalizado, C5, A4.
Format_key Format_id Format_desc 93 Nor Normalizado 94 C5 C5 95 A4 A4
• Mail type
Contiene información sobre el tipo de carta test: ID del
tipo de carta, método de franqueo, tipo de producto, tipo de
dirección, formato de la carta, tamaño de la carta, peso y
estándar del servicio.
Datos a incluir en la vista minable:
- weight_key: peso de la carta.
- service_key: estándar del servicio.
• Participant
Un participante puede ser remitente y/o destinatario a la vez. La tabla Participant
contiene información sobre el participante: nombre, datos bancarios, país e idioma (entre
otros).
Datos a incluir en la vista minable:
- role: indica si el participante es remitente, destinatario o ambos a la vez.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 93
• Product
Contiene información sobre la línea a la que pertenece la carta test
(ordinaria o urgente).
Datos a incluir en la vista minable:
- product_id. : O, U.
product_key product_id product_desc
81 O Carta ordinaria 154 U Carta urgente
• Rec_role_category
Contiene información sobre el destinatario, especificando si
es particular o empresa.
Datos a incluir en la vista minable:
- rec_role_category_id: particular o empresa.
rec_role_category_key rec_role_category_id rec_category_desc
139 P Private 140 B Business
• Zip_range_ext
Contiene información sobre los códigos postales, provincias, ciudades y zonas de la
geografía española.
Datos a incluir en el nuevo diseño:
- zip_range_key: contiene el código postal
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 94
- provn_key: contiene el nombre de la provincia al que pertenece el código postal.
- city_key: contiene el nombre de la ciudad al que pertenece el código postal.
- zone_key: contiene el nombre de la zona al que pertenece el código postal.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 95
4.1.2 Identificación de fuentes externas Sólo conociendo el contexto de cada organización o de cada problema en particular se
puede determinar qué fuentes externas van a ser necesarias. Además, este proceso es
generalmente iterativo. A medida que se va profundizando en un estudio, se pueden ir
determinando datos externos que podrían ayudar y se pueden ir añadiendo a nuestro "repositorio
de datos". Por tanto, la tarea de mantener un "repositorio" o un "almacén" con toda la
información necesaria cobra mayor relevancia y complejidad.
Aparte de la información interna de la organización, los almacenes de datos pueden
recoger información externa:
# Demografías (censo), páginas amarillas, gráficos web, información de otras
organizaciones...
# Datos compartidos en una industria o área de negocio, organizaciones y
colegios profesionales, catálogos, etc.
# Datos resumidos de áreas geográficas, distribución de la competencia,
evolución de la economía, información de calendarios y climatologías,...
# Bases de datos externas compradas a otras compañias.
En el proyecto se ha utilizado una base de datos de Datos demográficos contiene
información sobre las distancias (en kilómetros) de las 52 provincias españolas a cualquier otra
provincia española.
Existen varias formas de mezclar las distintas bases de datos para crear el repositorio. Una
posibilidad es simplemente hacer una copia de las bases de datos integrantes (probablemente
eliminando inconsistencias y redundancias). Obviamente, esta aproximación limita las ventajas
para acceder a bases de datos heterogéneas. Por ello, se ha optado a construir el almacén de datos
vía un proceso de integración y almacenamiento en un nuevo esquema integrado.
Figura 4.7: Identificación de fuentes externas
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 96
4.1.3 Diseño del nuevo esquema de almacenamiento integrado Selección de variables significativas
Datos de la carta test
# Identificador de carta
# Línea (ordinaria / urgente)
# Formato de la carta (normalizado/ C5 / A4)
# Peso (0-20gr / 20-50 gr / 50-100 gr)
# Dirección postal (escrita a mano / a máquina)
# Método de franqueo (sello / máquina de franquear / franqueo pagado)
# Estándar de servicio
# Semana de producción
# Fecha de matasello
# Fecha de franqueo
# Fecha de recepción
# Estado de recepción (buena / aceptable / mala o abierta / rota)
Datos del fajo
# Identificador de fajo
# Método de inducción (buzón / oficina / centro de admisión masiva)
# Fecha de inducción
# Hora de inducción
# Ultima hora de recogida en buzón
Datos del remitente
# Identificador de remitente
# Ciudad origen
# Provincia origen
# Zona origen
# Código postal
# Categoría del remitente (particular / empresa)
# Días de inducción del remitente (Lunes � Viernes / Lunes �Sábado)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 97
Datos del destinatario
# Identificador de destinatario
# Ciudad destino
# Provincia destino
# Zona destino
# Código postal
# Categoría del destinatario (particular / empresa)
El diseño del DataWarehouse ha sido estructurado en las siguientes áreas:
# Fuentes origen de datos
Contiene información sobre las tablas/vistas necesarias para el aprovisionamiento
del DataMart.
# Fuentes preparadas para minar
Contiene información sobre las tablas/vistas donde se realizará la búsqueda de
conocimiento mediante técnicas de Data Mining. Los datos que se almacenan en
estas tablas deberán haber sido previamente limpiados, transformados y codificados
para poder ejecutar los algoritmos de minería.
# Modelos de Minería
Contiene información sobre las tablas/vistas que utiliza cada uno de los modelos de
minería implementados por la herramienta desarrollada.
# Resultados Minería
Contiene información sobre las tablas donde se almacenan los resultados de aplicar
un modelo de minería.
A continuación se describe el diseño lógico y físico del DW realizado con la herramienta
ERwin.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 98
Diseño lógico de DataWarehouse a construir
# Fuentes origen de datos
CorreoValidoIDcarta
ciudad_origenciudad_destinoprovincia_origenprovincia_destinozona_origenzona_destinoIDfajoIDremitenteIDdestinatariolineametodo_induccionfecha_induccionfecha_recepciondias_antelacionestandar_serviciodias_entregaCP_origenCP_destinocategoria_remitentecategoria_destinatarioformatopesodireccionmetodo_franqueosemana_produccionhora_induccionultima_hora_recogidaestadofecha_matasellofecha_franqueocomunidad_origencomunidad_destino
ProvinciasId
ProvinciaComunidadAutonoma
ProvinciasProvinciaComunidadAutonoma
Kms
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 99
# Fuentes preparadas para minar
T_DMM_RegresionLineal
POrigen: VARCHAR(50)PDestino: VARCHAR(50)Dias: INTEGERKms: INTEGER
ConjuntoEntrenamiento
ciudad_destino: VARCHAR(255)provincia_origen: VARCHAR(255)provincia_destino: VARCHAR(255)zona_origen: VARCHAR(255)zona_destino: VARCHAR(255)IDfajo: DOUBLE PRECISIONIDcarta: DOUBLE PRECISIONIDremitente: INTEGERIDdestinatario: INTEGERlinea: VARCHAR(255)metodo_induccion: VARCHAR(255)fecha_induccion: VARCHAR(255)fecha_recepcion: VARCHAR(255)dias_antelacion: SMALLINTestandar_servicio: SMALLINTdias_entrega: SMALLINTCP_origen: SMALLINTCP_destino: SMALLINTcategoria_remitente: VARCHAR(255)categoria_destinatario: VARCHAR(255formato: VARCHAR(255)peso: VARCHAR(255)direccion: VARCHAR(255)metodo_franqueo: VARCHAR(255)semana_produccion: VARCHAR(255)hora_induccion: VARCHAR(255)ultima_hora_recogida: VARCHAR(255estado: VARCHAR(255)fecha_matasello: VARCHAR(255)fecha_franqueo: VARCHAR(255)comunidad_origen: VARCHAR(255)comunidad_destino: VARCHAR(255)ciudad_origen: VARCHAR(255)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 100
# Resultados de minería T_Score_CorrelacionLinealID_Modelo
Variable_AVariable_BABR
FactoresCertezaID_Modelo
POrigenPDestinoFlujoLineaFormatoPesoMetodo_InduccionCantidadTiempo
T_Score_Arbol_ID3ID_Modelo
ABNum_ElementosEntropia
T_Score_ClusteringID_Modelo
Cluster_IDElementoNum_Elementos
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 101
Diseño físico de DataWarehouse a construir # Fuentes origen de datos
Contiene información sobre las tablas/vistas necesarias para el aprovisionamiento
del DataMart.
CorreoValidoIDcarta: DOUBLE PRECISION
ciudad_origen: VARCHAR(255)ciudad_destino: VARCHAR(255)provincia_origen: VARCHAR(255)provincia_destino: VARCHAR(255)zona_origen: VARCHAR(255)zona_destino: VARCHAR(255)IDfajo: DOUBLE PRECISIONIDremitente: INTEGERIDdestinatario: INTEGERlinea: CHAR(18)metodo_induccion: CHAR(18)fecha_induccion: CHAR(18)fecha_recepcion: TIMEdias_antelacion: SMALLINTestandar_servicio: SMALLINTdias_entrega: SMALLINTCP_origen: SMALLINTCP_destino: SMALLINTcategoria_remitente: CHAR(18)categoria_destinatario: CHAR(18)formato: CHAR(18)peso: CHAR(18)direccion: CHAR(18)metodo_franqueo: CHAR(18)semana_produccion: INTEGERhora_induccion: TIMEultima_hora_recogida: TIMEestado: CHAR(18)fecha_matasello: DATEfecha_franqueo: DATEcomunidad_origen: VARCHAR(50)comunidad_destino: VARCHAR(50)
ProvinciasId: INTEGER
Provincia: VARCHAR(50)ComunidadAutonoma: VARCHAR(50)
KmsProvincia_Origen: VARCHAR(50)Provincia_Destino: VARCHAR(50)
Kms: INTEGER
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 102
# Fuentes preparadas para minar
Contiene información sobre las tablas/vistas donde se realizará la búsqueda de
conocimiento mediante técnicas de Data Mining. Los datos que se almacenan en
estas tablas deberán haber sido previamente limpiados, transformados y
codificados para poder ejecutar los algoritmos de minería.
T_DMM_RegresionLineal
POrigen: VARCHAR(50)PDestino: VARCHAR(50)Dias: INTEGERKms: INTEGER
ConjuntoEntrenamientoIDcarta: DOUBLE PRECISION
ciudad_origen: VARCHAR(255)ciudad_destino: VARCHAR(255)provincia_origen: VARCHAR(255)provincia_destino: VARCHAR(255)zona_origen: VARCHAR(255)zona_destino: VARCHAR(255)IDfajo: DOUBLE PRECISIONIDremitente: INTEGERIDdestinatario: INTEGERlinea: CHAR(18)metodo_induccion: CHAR(18)fecha_induccion: CHAR(18)fecha_recepcion: TIMEdias_antelacion: SMALLINTestandar_servicio: SMALLINTdias_entrega: SMALLINTCP_origen: SMALLINTCP_destino: SMALLINTcategoria_remitente: CHAR(18)categoria_destinatario: CHAR(18)formato: CHAR(18)peso: CHAR(18)direccion: CHAR(18)metodo_franqueo: CHAR(18)semana_produccion: INTEGERhora_induccion: TIMEultima_hora_recogida: TIMEestado: CHAR(18)fecha_matasello: DATEfecha_franqueo: DATEcomunidad_origen: VARCHAR(50)comunidad_destino: VARCHAR(50)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 103
# Resultados Minería
Contiene información sobre las tablas donde se almacenan los resultados de aplicar
un modelo de minería.
T_Score_CorrelacionLinealID_Modelo: VARCHAR(20)
Variable_A: VARCHAR(20)Variable_B: VARCHAR(20)A: VARCHAR(50)B: VARCHAR(50)R: INTEGER
T_Score_PrediccionID_Modelo: CHAR(18)
POrigen: VARCHAR(50)PDestino: VARCHAR(50)Flujo: VARCHAR(50)Linea: VARCHAR(50)Formato: VARCHAR(50)Peso: VARCHAR(50)Metodo_Induccion: VARCHAR(50)Cantidad: INTEGERTiempo: VARCHAR(50)
T_Score_ArbolID_Modelo: VARCHAR(20)
Atributo: VARCHAR(20)Valor: VARCHAR(50)Num_Elementos: INTEGEREntropia: INTEGER
T_Score_AjusteCurvaID_Modelo: VARCHAR(20)
Atributo: VARCHAR(20)Valor: VARCHAR(50)Mes: INTEGER
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 104
A continuación, especifico los atributos a incluir en el nuevo esquema y el nuevo nombre que
se les ha asignado para una mejor comprensión de los datos:
Tabla CorreoValido
Nombre Antiguo Nombre nuevo Clave Tipo de datos Longitud city_key ciudad_origen Varchar 50 city_key ciudad_destino Varchar 50 provn_key provincia_origen Varchar 50 provn_key provincia_destino Varchar 50 zone_key zona_origen Char 10 zone_key zona_destino Char 10 bundle_id IDfajo BigInt 8 mail_id IDcarta ! BigInt 8 dropper_id IDremitente BigInt 8 receiver_id IDdestinatario BigInt 8 product_id linea Char 10 induction_method_key metodo_induccion Char 10 reported_indu_date fecha_induccion Char 10 received_date fecha_recepcion Char 10
dias_antelación Int 4 service_key estandar_servicio Int 4
dias_entrega Int 4 zip_range_key CP_origen Int 4 zip_range_key CP_destino Int 4 drop_role_category_key categoría_remitente Char 10 rec_role_category_key categoría_destinatario Char 10 format_desc Formato Char 11 weight_key peso Char 10 method_desc direccion Char 10 franking_method_id metodo_franqueo Char 10 prod_week_key semana_produccion Char 10 indu_time hora_induccion Char 10 last_pickup_time ultima_hora_recogida Char 10 damage_id estado Char 10 stamp_cancel_date fecha_matasello Char 10 meter_date fecha_franqueo Char 10
comunidad_origen Varchar 50 comunidad_destino Varchar 50
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 105
A continuación se detalla un diccionario de conceptos relativo a los atributos más
significantes para el estudio de las cartas test, así como los diferentes objetos que son la fuente de
información y unos posibles valores que pueden tener los atributos seleccionados:
OBJETO ATRIBUTO VALOR
CARTA IDfajo IDcarta línea formato peso direccion dias_entrega dias_antelacion estado
12 dígitos. Ej.: 716444501469 12 dígitos. Ej.: 723903101139 {O,U} {Normalizado, A4,C5} {0-20, 20-50, 50-100} gr. {Mano, Máquina} [0,30] [-30,3] {B, A, M}
REMITENTE ciudad_origen provincia_origen comunidad_origen zona_origen IDremitente método_induccion fecha_induccion hora_induccion CP_origen categoría_remitente
Ej: Getafe Ej.: Madrid Ej.: Madrid Zona 1 - 9 7 dígitos. Ej.:7150855 {MB, PO, CA} 01/01/2000 � 31/12/2004 00:00 � 23:59 5 dígitos. Ej.: 28039 {P, B}
DESTINATARIO ciudad_destino provincia_ destino comunidad_destino zona_ destino IDdestinatario fecha_recepcion CP_destino categoría_destinatario
Ej.: Illescas Ej.: Toledo Ej.: Castilla La Mancha Zona 1 - 9 7 dígitos. Ej.:7241481 01/01/2000 � 31/12/2004 5 dígitos. Ej.: 45002 {P, B}
CORREOS
estandar_servicio método_franqueo fecha_matasello fecha_franqueo ultima_hora_recogida
{1,2,3} {ST, MT, PP} 01/01/2000 � 31/12/2004 01/01/2000 � 31/12/2004 11:00 � 22:00
IBM semana_produccion 200001 � 200053 200011 � 200153 200021 � 200253 200031 � 200353
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 106
4.2 PREPARACIÓN DE DATOS La calidad del conocimiento descubierto no sólo depende del algoritmo de minería
utilizado, sino también de la calidad de los datos minados. Por ello, después de recopilación, el
siguiente paso en el proceso de KDD es seleccionar y preparar el subconjunto de datos que se va
a minar, los cuales constituyen lo que se conoce como vista minable. Este paso es necesario ya
que algunos datos coleccionados en la etapa anterior son irrelevantes o innecesarios para la tarea
de minería que se desea realizar.
En la mayoría de bases de datos existe mucha información que es incorrecta respecto al
dominio de la realidad que se desea cubrir y un número menor, pero a veces también relevante,
de datos inconsistentes. Estos problemas se acentúan cuando realizamos la integración de
distintas fuentes. No obstante, mientras los datos erróneos crecen de manera lineal respecto al
tamaño de los datos recopilados, los datos inconsistentes se multiplican; varias fuentes diferentes
pueden afirmar cosas distintas sobre el mismo objeto.
La integración también produce una disparidad de formatos, nombres, rangos, etc., que
podría no existir, o en menor medida, en las fuentes originales. Esto dificulta en gran medida los
procesos de análisis y extracción de conocimiento. Estos procesos reciben nombres bastante
variados: preparación de datos, data cooking, preprocesamiento, etc. Conjuntamente, la
preparación de datos tiene como objetivo la eliminación del mayor número posible de datos
erróneos o inconsistentes (limpieza) e irrelevantes (criba), y trata de presentar los datos de la
manera más apropiada para la Minería de Datos.
En esta fase se transforman todos los datos a un formato común, frecuentemente mediante
un almacén de datos que consiga unificar de manera operativa toda la información recogida,
detectando y resolviendo las inconsistencias. Este almacén de datos facilita enormemente la
"navegación" y visualización previa de sus datos, para discernir qué aspectos puede interesar que
sean estudiados.
Dado que los datos provienen de diferentes fuentes, pueden contener valores erróneos o
faltantes. Estas situaciones se tratan en la fase de selección, limpieza y transformación, en la que
se eliminan o corrigen los datos incorrectos y se decide la estrategia a seguir con los datos
incompletos.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 107
Además, se proyectan los datos para considerar únicamente aquellas variables o atributos
que van a ser relevantes, con el objetivo de hacer más fácil la tarea propia de minería y para que
los resultados de la misma sean más útiles. La selección incluye tanto una criba o fusión
horizontal (filas / registros) como vertical (columna atributos). Las dos primeras fases del KDD
se suelen englobar bajo el nombre de "preparación datos".
El éxito de un proceso de Minería de Datos depende, no sólo de tener todos los datos
necesarios (una buena recopilación), sino de que éstos estén íntegros, completos y consistentes
(una buena limpieza e integración).
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 108
4.2.1 Limpieza de datos
Una vez integrados los datos, se debe realizar una estricta, completa y documentada
depuración de datos. La limpieza de datos puede, en muchos casos, detectar y solucionar
problemas de datos no resueltos durante la integración.
En el proceso de cleaning (limpieza de datos) se detectan las cartas que incluyen algún tipo
de inconsistencia.
4.2.1.1 Detección de valores erróneos
Para identificar cualquier error o dato cuestionable, se han establecido unas ciertas reglas
para validar los datos:
1. Cartas de Maquina de Franquear no franqueadas el mismo día de su inducción.
Según Correos, todas las cartas de maquina de franquear, se franquean el mismo día que se
inducen. Puede ocurrir que cuando se induzca la carta, la oficina esté cerrada por la fecha de
deposito deberá ser el siguiente día laborable de la oficina de correos.
Regla 1: Meter_date � Reported_date <> 0 AND Meter_date � Actual_date <> 0
2. Cartas de sello no mataselladas en los próximos 4 días después de su inducción
Según Correos, se considera una carta errónea aquellas que:
1. Han sido mataselladas antes de ser inducidas (matasello negativo).
2. Han sido mataselladas 5 o más días después de ser inducidas.
Regla 2: franking_method_id = �ST� AND
[(stamp-actual) < 0 AND (reported-actual) <> (stamp-actual] OR
[(stamp-actual) >= 5 AND (reported-actual) <> (stamp-actual)]
3. Cartas urgentes depositadas en buzón
Se considera una carta no válida aquella carta urgente que haya sido inducida en Buzón.
Una carta urgente debe ser depositada en una Oficina de Correos.
Regla 3: product_id = �U� AND (indu_method_id) = �MB
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 109
4. Cartas recibidas en un día de no entrega
Hay que detectar todas las cartas que han sido recibidas en días en los que no hay reparto
de correo (festivos locales, festivos nacionales, fines de semana, etc.). Se permite la recepción de
cartas en sábados, excepto del 15 de Julio al 15 de Septiembre, ya que en estas fechas no hay
servicio de entrega.
5. Cartas de sello con fecha de franqueo
Las cartas de sello deberán tener únicamente fecha de matasello.
6. Cartas de maquina de franquear con fecha de matasello
Las cartas de máquina de franquear deberán tener únicamente fecha de franqueo.
7. Cartas de franqueo pagado con fecha de matasello o fecha de franqueo
Las cartas de franqueo pagado no deberán tener fecha de matasello ni fecha de franqueo.
8. Cartas inducidas en un día de no recogida.
Hay que comprobar todas las cartas inducidas en días de no recogida (festivos locales,
festivos nacionales, domingos, etc.). Las cartas inducidas en buzón son válidas sea cual sea el día
de inducción (puede inducirse en buzón cualquier día y a cualquier hora).
9. Cartas que llegan con un retraso mayor a 30 días.
Detecta todas aquéllas cartas que han tardado más de 30 días en llegar a su destino. Estas
cartas se consideraran anómalas y no serán objetos de estudio.
10. Horas de inducción extrañas
Es preciso detectar aquellas cartas que han sido inducidas en horas extremas del día.
- Las cartas de Buzón pueden inducirse a cualquier hora del día.
- Las cartas de Oficina de Correos pueden inducirse a cualquier hora del día, sólo si son de
Sello (ya que se inducen en el Buzón de la Oficina). Las demás cartas deberán ser
depositadas dentro del horario comercial de la Oficina. Se supone que el horario de una
Oficina de Correos es de 9:00 a 19:00.
- Las cartas depositas en un Centro de Admisión Masiva deberán ser depositadas dentro del
horario comercial del Centro. Se supone que este horario es de 9:00 a 18:00.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 110
Regla 10:[(indu_method_id) = �PO� AND (franking_method_id) <> �ST� AND
(indu_time < 08:30h OR indu_time > 19:00h)] OR
(indu_method_id)=�CA� AND (indu_time < 09:00h OR indu_time > 18:00h)
11. Cartas con plazo de entrega menor a 0 días
Hay que comprobar todas las cartas cuyo plazo de entrega es:
• menor que 0, independientemente del flujo (local, provincial y nacional)
• igual que 0, cuyo flujo sea distinto de local.
Esto suele detectarse cuando el participante desconoce la fecha exacta de recepción.
Se trata de cartas cuya fecha de depósito es igual o superior a la de recepción. Por tanto,
estas cartas no deben ser válidas.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 111
4.2.1.2 Detección de valores anómalos
La presencia de valores que no se ajustan al comportamiento general de los datos (outliers)
afecta a la calidad de los datos. Estos datos anómalos pueden representar errores en los datos o
pueden ser valores correctos que son simplemente diferentes a los demás. Algunos algoritmos de
Minería de Datos ignoran estos datos, otros los descartan considerándolos ruido o excepciones,
pero otros son muy sensibles y el resultado se ve claramente perjudicado por ello. Sin embargo,
no siempre es conveniente eliminarlos, ya que, en algunas aplicaciones, como la detección de
compras fraudulentas efectuadas con tarjetas de crédito o la predicción de inundaciones, los
eventos raros pueden ser más interesantes que los regulares (por ejemplo, compras por un
importe mucho más elevado que el de las compras efectuadas habitualmente con la tarjeta, o días
en los que la cantidad de lluvia recogida es muy superior a la media).
Acciones ante datos anómalos (outliers):
# ignorar: algunos algoritmos son robustos a datos anómalos (p.ej. árboles)
# filtrar (eliminar o reemplazar) la columna: solución extrema, pero a veces existe otra
columna dependiente con datos de mayor calidad. Preferible a eliminar la columna es
reemplazarla por una columna discreta diciendo si el valor era normal outlier (por encima
o por debajo).
# filtrar la fila: claramente sesga los datos, porque muchas veces las causas de un dato
erróneo están relacionadas con casos o tipos especiales.
# reemplazar el valor: por el valor �nulo� si el algoritmo lo trata bien o por máximos o
mínimos, dependiendo por donde es el outlier, o por medias. A veces se puede predecir a
partir de otros datos, utilizando cualquier técnica de ML.
# discretizar: transformar un valor continuo en uno discreto (p.ej. muy alto, alto, medio,
bajo, muy bajo) hace que los outliers caigan en �muy alto� o �muy bajo� sin mayores
problemas.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 112
4.2.1.3 Detección de valores faltantes
La presencia de datos faltantes o perdidos (missing values) puede ser también un problema
pernicioso que puede conducir a resultados poco precisos. No obstante, es necesario reflexionar
primero sobre el significado de los valores faltantes antes de tomar ninguna decisión sobre cómo
tratarlos ya que éstos pueden deberse a causas muy diversas, como a un mal funcionamiento del
dispositivo que hizo la lectura del valor, a cambios efectuados en los procedimientos usados
durante la colección de los datos o al hecho de que los datos se recopilen desde fuentes diversas.
Acciones ante datos faltantes (missing values):
# ignorar: algunos algoritmos son robustos a datos faltantes (p.ej. árboles).
# filtrar (eliminar o reemplazar) la columna: solución extrema, pero a veces existe otra
columna dependiente con datos de mayor calidad. Preferible a eliminar la columna, es
reemplazarla por una columna booleana diciendo si el valor existía o no.
# filtrar la fila: claramente sesga los datos, porque muchas veces las causas de un dato
faltante están relacionadas con casos o tipos especiales.
# reemplazar el valor: por medias. A veces se puede predecir a partir de otros datos,
utilizando cualquier técnica de ML.
# segmentar: se segmentan las tuplas por los valores que tienen disponibles. Se obtienen
modelos diferentes para cada segmento y luego se combinan.
# modificar la política de calidad de datos y esperar hasta que los datos faltantes estén
disponibles.
A veces es importante examinar las razones tras datos faltantes y actuar en consecuencia:
# algunos valores faltantes expresan características relevantes: p.ej. la falta de teléfono
puede representar en muchos casos un deseo de que no se moleste a la persona en
cuestión, o un cambio de domicilio reciente.
# valores no existentes: muchos valores faltantes existen en la realidad, pero otros no. P.ej.
el cliente que se acaba de dar de alta no tiene consumo medio de los últimos 12 meses.
# datos incompletos: si los datos vienen de fuentes diferentes, al combinarlos se suele hacer
la unión y no la intersección de campos, con lo que muchos datos faltantes representan
que esas tuplas vienen de una/s fuente/s diferente/s al resto.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 113
Los valores faltantes que se presentan en la base de datos son:
- Estado de la carta. Se considerará que el estado de la carta es buena por defecto. Por
tanto, en los casos en que el destinatario no haya especificado el estado de la carta, se
supondrá que el estado de recepción de la carta es bueno.
- Ultima hora de recogida en buzón. Esta información no es obligatoria, y si no se
especifica, la ultima hora de recogida será las 17:00.
- Distancia en kilómetros. No se dispone de información sobre distancias con origen o
destino fuera de la Península, como son las Islas Baleares, Islas Canarias, Ceuta y
Melilla.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 114
4.2.2 Transformación de atributos
Un aspecto muy importante a la hora de realizar los procesos de integración, limpieza,
selección y transformación es que se debe conocer el dominio de donde provienen los datos. Por
ejemplo, un histograma puede ayudar a detectar los datos anómalos más flagrantes pero no podrá
ayudarnos para determinar otros casos que sólo pueden detectarse con seguridad si conocemos el
dominio de los datos. En otros casos, conocer el dominio es imprescindible, como por ejemplo
para la redefinición de atributos (mediante creación o separación).
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 115
4.2.3 Discretización y numeración
El tipo de los datos puede modificarse para facilitar el uso de técnicas que requieren tipos
de datos específicos. Así, algunos atributos se pueden numerizar, lo que reduce el espacio y
permite usar técnicas numéricas.
El proceso inverso consiste en discretizar los atributos continuos, es decir, transformar
valores numéricos en atributos discretos o nominales. Los atributos discretizados pueden tratarse
como atributos categóricos con un número más pequeño de valores. La idea básica es partir los
valores de un atributo continuo en una pequeña lista de intervalos, tal que cada intervalo es visto
como un valor discreto del atributo.
Los datos pueden ser de distinto tipo:
- numéricos (sean enteros o reales, abiertos o cerrados por un intervalo, circulares)
- nominales sin orden (incluyendo valores lógicos o booleanos, con valores prefijados o
abiertos)
- nominales con orden u ordinales (del estilo { bajo, mediano, alto}).
Existen numerosas nomenclaturas alternativas, como pueden ser continuos y discretos,
cuantitativos y cualitativos/categóricos, que no son exactamente equivalentes a la terminología
de datos numéricos y nominales
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 116
4.2.4 Selección de datos
No es sólo suficiente con tener una buena calidad de datos, sino además poder
proporcionar a los métodos de Minería de Datos el subconjunto de datos más adecuado para
resolver el problema. Para ello es necesario seleccionar los datos apropiados.
La selección de atributos relevantes es uno de los preprocesamientos más importantes, ya
que es crucial que los atributos utilizados sean relevantes para la tarea de Minería de Datos.
Idealmente, uno podría usar todas las variables y dejar que la herramienta de Minería de
Datos fuera probando hasta elegir las mejores variables predictoras. Obviamente, esta forma de
trabajar no funciona bien, entre otras cosas porque el tiempo requerido para construir un modelo
crece con el número de variables. Aunque en principio algunos algoritmos de Minería de Datos
automáticamente ignoran las variables irrelevantes, en la práctica nuestro conocimiento sobre el
dominio del problema puede permitirnos hacer correctamente muchas de esas selecciones.
Como en el caso de las variables, también podríamos construir el modelo usando todos los
datos. Pero si tenemos muchos, tardaríamos mucho tiempo y probablemente también
necesitaríamos una máquina más potente. Consecuentemente, una buena idea es usar una
muestra (sample) a partir de algunos datos (o filas). La selección de la muestra debe ser hecha
cuidadosamente para asegurar que es verdaderamente aleatoria.
Otra tarea de preparación de los datos es la construcción de atributos, la cual consiste en
construir automáticamente nuevos atributos aplicando alguna operación o función a los atributos
originales con objeto de que estos nuevos atributos hagan más fácil el proceso de minería. La
motivación principal para esta tarea es fuerte cuando los atributos originales no tienen mucho
poder predictivo por sí solos o los patrones dependen de variaciones lineales de las variables
originales.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 117
4.3 MINERÍA DE DATOS
La fase de Minería de Datos es la más característica del KDD y, por esta razón, muchas
veces se utiliza esta fase para nombrar todo el proceso. El objetivo de esta fase es producir nuevo
conocimiento que pueda utilizar el usuario. Esto se realiza construyendo un modelo basado en
los datos recopilados para este efecto. El modelo es una descripción de los patrones y relaciones
entre los datos que pueden usarse para hacer predicciones, para entender mejor los datos o para
explicar situaciones pasadas. Para ello es necesario tomar una serie de decisiones antes de
empezar el proceso:
- Determinar qué tipo de tarea de minería es el más apropiado (clasificación, clustering...)
- Elegir el tipo de modelo. Por ejemplo, para una tarea de clasificación podríamos usar un
árbol de decisión, porque queremos obtener un modelo en forma de reglas.
- Elegir el algoritmo de minería que resuelva la tarea y obtenga el tipo de modelo que
estamos buscando. Esta elección es pertinente porque existen muchos métodos para
construir los modelos. Por ejemplo, para crear árboles de decisión para clasificación
podríamos usar CART o C5.0, entre otros.
Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo
una visualización gráfica de los mismos para tener una primera aproximación. Según los
objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos
desarrollados en diferentes áreas de la Inteligencia Artificial.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 118
4.3.1 Tareas de Minería de Datos realizadas
Una tarea de Minería de Datos es un tipo de problema de Minería de Datos que se pretende
resolver. Mediante técnicas o métodos de minería se pueden resolver las tareas planteadas.
Cada tarea puede ser realizada usando distintas técnicas. Los modelos inferidos por los
árboles de decisión pueden inferir modelos predictivos. Para una misma técnica se han
desarrollado diferentes algoritmos que difieren en la forma y criterios concretos con lo que se
construye el modelo.
Dentro de los modelos predictivos, las tareas más importantes de Data Mining son:
- Clasificación
- Categorización
- Regresión
- Priorización
Dentro de los modelos descriptivos, las tareas más importantes de Data Mining son:
- Clustering (agrupamiento, segmentación)
- Correlaciones y factorizaciones
- Reglas de asociación
- Dependencias funcionales
- Detección de valores e instancias anómalas
De entre todas estas tareas, el proyecto se centra fundamentalmente en las dos tareas de
minería utilizadas por excelencia: clasificación y clustering. Además se han desarrollado otras
tareas muy utilizadas en Data Mining: predicción, análisis de correlación y patrones de
comportamiento (ver figura 4.8):
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 119
Figura 4.8: Tareas de Data Mining utilizadas
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 120
4.3.1.1 Clasificación
La clasificación se refiere a seleccionar una respuesta a partir de un conjunto fijado
previamente de alternativas en base a la información que se da como entrada. Es decir, se
relacionará una situación única con un grupo mayor de casos similares. Para ello, se deberá
definir un conjunto de entrenamiento o casos de prueba, y una vez contrastados los resultados
obtenidos, se llevará a cabo las tareas de clasificación con la totalidad de los ejemplos
disponibles.
El enfoque algorítmico de Clasificación es generalmente utilizado en problemas de
detección de transacciones fraudulentas, riesgo en la entrega de créditos, predicción de
probabilidad de almacenamiento e identificación de procedimientos médicos.
Básicamente, la clasificación emplea un conjunto de datos (�conjunto de entrenamiento�)
para desarrollar un modelo y utilizarlo como un clasificador para una población mayor de
registros, arrojando la descripción de las características de los registros a cada clase. El objetivo
de esta operación es utilizar el contenido de la base de datos, datos históricos, y así generar
automáticamente un modelo que podrá predecir un comportamiento futuro. Los métodos para
poder realizar lo anterior pueden ser del tipo neuronal o simbólico. Los métodos neuronales, tales
como el algoritmo backpropagation (algoritmo analizado en capítulo siguiente), representan el
modelo final como una arquitectura de nodos y uniones según valores determinados. Los
métodos simbólicos crean modelos que pueden ser representados como árboles de decisión,
gráficos difusos o reglas del tipo �if..then�. El enfoque algorítmico de clasificación predice el
estado de las clases, a través de resultados categóricos.
Para identificar conceptos (atributo de clase) a partir de las características de un conjunto
de ejemplos que los representan se ha de calcular la entropía en cada nodo. El árbol se genera
dividiendo sucesivamente el conjunto de aprendizaje en subconjuntos de ejemplos cada vez más
pequeños hasta conseguir conjuntos suficientemente puros. Es una partición recursiva en zonas
homogéneas o puras a las que se les asocia una clase. Recibe como entrada un conjunto de
ejemplos y a partir de ellos desarrolla un árbol de decisión de arriba a abajo guiado por la
información de los ejemplos. Recibe como entrada un conjunto de ejemplos y a partir de ellos
desarrolla un árbol de decisión de arriba a abajo guiado por la información de los ejemplos.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 121
El proceso de clasificación es realizado automáticamente a partir del conjunto de
entrenamiento, que es una muestra de la base de datos que será minada, los registros para esta
aplicación pertenecen a un pequeño conjunto de clases que ya han sido predefinidas por el
experto. Junto con esta clasificación, se entregan patrones que esencialmente representan una
generalización sobre los registros, y servirán para distinguir las clases.
Posteriormente el algoritmo clasificador utiliza esta pre-clasificación para determinar el
conjunto de parámetros requerido para realizar la discriminación y llegar al modelo.
Una vez que esto se ha llevado a cabo, es necesario verificar la calidad del modelo a través
del conjunto de validación. Cuando ya se ha logrado obtener un clasificador efectivo, este se
utiliza de un modo predictivo para clasificar nuevos registros dentro de las mismas clases
predefinidas. Por ejemplo, un clasificador capaz de identificar riesgos en los préstamos podrían
ser utilizados para ayudar en la decisión de donde otorgar un préstamo. Una vez que ya se ha
logrado un modelo este puede ser utilizado para predecir las clases de un nuevo conjuntos de
registros no clasificados.
Objetivos:
# Mediante la construcción de árboles de decisión, se pretende poder identificar los
atributos que clasifican el estado de recepción de una carta.
# Obtener los mejores separadores que determinan un atributo de clase
# Clasificar el tipo de retraso en la recepción de una carta
# Tipo de provincias según flujo de correo entrante o saliente
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 122
4.3.1.2 Predicción
Lo que distingue a la regresión de la clasificación, es el tipo de salida que estas funciones
predicen. Tal como se ha mencionado la clasificación predice estado de clases, mientras que el
enfoque algorítmico de regresión predice un valor específico, por ejemplo el modelo predictivo
para una regresión podría generar la siguiente sentencia:
El ingreso económico de la alumna Alejandra Oñate será de $255
La regresión es utilizada en casos donde la salida predictiva puede tomar posibles valores
ilimitados (variables continuas).
Existen conversiones muy pequeñas que transforman un problema de clasificación en uno
de regresión y viceversa. Mediante el siguiente ejemplo se explica este tipo de conversión: Se
intenta predecir la probabilidad de que una persona responda positiva o negativamente a un
programa de difusión de carrera, se puede generar un puntaje que fluctúe entre el rango de 0 y 1,
los valores cercanos a cero son interpretados como muy probable que no responda, y los valores
cercanos a 1 muy probable que responda. Aquellas personas con valores superiores a 0.5, se
consideran como probables a responder. Como puede apreciarse, el problema de clasificación se
ha convertido en uno de regresión. En un caso contrario, donde se intenta predecir la
probabilidad de que un alumno que trabaja, este en las siguientes cuatro categorías de sueldo: no
lucrativo (ingreso menor a $0), bajo (ingreso entre $0 y $1000), medio (ingreso entre $1000 y
$5000) y alto (ingreso mayor a $5000), es posible tornar un problema de regresión (cantidad de
ingreso) en un problema de clasificación (clase de ingreso).
En general, un problema de regresión se convierte en uno de clasificación convirtiendo la
variable continua, en una categoría discreta, y un problema de clasificación convertirse en uno de
regresión prediciendo el puntaje o probabilidad de cada categoría y asignando un rango de
puntajes para cada una de ellas.
Objetivo:
# Predecir el plazo de entrega de la calidad de recepción de una carta
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 123
4.3.1.3 Análisis de correlación
Mediante un análisis de correlación se pretende estudiar si existe relación entre el estado de
recepción y la distancia.
Análisis de correlación entre el estado de recepción de una carta test y la distancia
recorrida
Puede ser interesante analizar los datos en busca de una posible relación entre el estado de
recepción de las cartas test (buena, rota, abierta�) y la distancia recorrida. En particular,
estudiaré si existe una relación entre una carta recibida en malas condiciones. Esto puede ser
debido a que haya recorrido una gran distancia y se haya deteriorado en el recorrido.
Objetivos:
# Demostrar si existe una relación lineal entre dos variables numéricas (ej: el estado
de recepción de una carta test y la distancia recorrida)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 124
4.3.1.4 Reglas de asociación
Este tipo de enfoque algorítmico es utilizado comúnmente en problemas del tipo �Análisis
de Canasta de Mercado� (Market-Basket Analysis), con el fin de obtener las tendencias de
compra de los clientes.
La idea básica de la asociación, es encontrar en los datos reglas que identifican a los
patrones de comportamiento, si se obtiene una comprensión de estos patrones, se puede lograr
una visión realmente enriquecedora de los datos.
La expresión de una regla de asociación, tiene dos componentes; uno es el componente del
lado izquierdo, a veces llamado antecedente, y el otro, un componente del lado derecho llamado
consecuente.
Una regla tiene dos tipos de mediciones, la confianza y soporte. el soporte mide la
frecuencia en que los ítems aparecen juntos, como el porcentaje total de transacciones. La
confianza mide cuan dependiente es un ítem de otro. Una confianza del 100% es improbable, el
analista debe poner mucho cuidado en estos resultados, ya que podrían estar tomándose
situaciones en que se están analizando sólo datos de un periodo específico del tiempo. Otra
precaución a tomar, es vigilar aquellas reglas que tienen un valor excesivamente alto o muy bajo,
para mejores resultados es bueno considerar a estos valores como anomalías estadísticas.
Una vez que los datos han sido minados y se ha detectado, examinado y valorado la
asociación, los usuarios pueden tomar las decisiones sobre la base de las prácticas comunes que
se han encontrado, a los grupos y servicios que tienen alguna preferencia y a la relación existente
entre ellos.
Parece interesante analizar las producciones de cartas test según la estacionalidad mensual
en la que nos encontremos. Se pueden encontrar relaciones temporales curiosas, como por
ejemplo, descubrir que durante los meses de verano el flujo de correo ha disminuido debido a las
vacaciones de los participantes, o por el contrario, ver que la cantidad de correo ha aumentado
durante fechas cercanas a la Navidad.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 125
También puede ser interesante encontrar rutas en las que el plazo medio de entrega sea
diferente para cartas con la misma ruta, en las que se intercambien el origen y el destino. Por
ejemplo, podemos descubrir que una carta básica enviada desde Lugo a Toledo tarda de media 2
días, mientras que de Toledo a Lugo tarda 5 días.
Objetivos:
# Identificar los atributos que repercuten de forma más directa sobre el estado en que
llega la carta y el plazo de entrega.
# Identificar rutas con plazos de entrega distintos a la ida y a la vuelta
# Comparación del rendimiento en diferentes rutas de correos, flujos, periodos, etc.
# Valoración de los efectos (acciones de recuperación) en rutas en las que la demora
en la recepción de envíos está por debajo de los estándares.
# Identificar rutas optimas y tardías
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 126
4.3.1.5 Segmentación
Este enfoque algorítmico nace debido a que actualmente las bases de datos crecen día a día
de manera considerable y son pobladas con diversos tipos de datos que hacen necesaria una
�partición� de ellos en colecciones de datos relacionados, para así obtener mayor comprensión de
la información que almacenan, o un resumen de cada conjunto de datos, para hacerlos más útiles
o bien, para ejecutar una técnica de minería de datos.
Agrupamiento o �clustering�, como también se le conoce, agrupa registros que tienen un
gran número de atributos, en un conjunto de grupos o �segmentos� relativamente pequeños,
dicho de otra manera, se segmenta la base de datos en subconjuntos, o sea grupos, donde cada
uno de ellos comparte un número de característica similares. Este proceso de asignación es
ejecutado automáticamente por los algoritmos de agrupamiento que identifican las características
distintivas de un conjunto de datos y entonces particiona en ndimensiones definido por los
atributos.
Este enfoque algorítmico se aplica en problemas de marketing, encontrando grupos con
afinidades en sus gustos, igualmente es utilizado en problemas de �cuidado de la salud�,
encontrando pacientes que padecen de los mismos malestares.
Cuando se aplica este enfoque algorítmico no se conocen las clases ni tampoco el experto
debiera conocerlas, ya que la meta del grupo es producir una segmentación razonable del
conjunto de los registros de entrada de acuerdo a algún criterio, este criterio se define por una
herramienta de agrupamiento. De esta forma, las diferentes funciones de agrupamiento pueden
producir diferentes segmentaciones de un conjunto de registros, produciendo descripciones
implícitas y explícitas. Por ejemplo, la herramienta podría definir grupos según �año de ingreso a
la Universidad�, quedando los alumnos agrupados dependiendo de esta característica.
Los resultados del agrupamiento son utilizados de dos maneras. Una de ellas es para
resumir los contenidos de grandes base de datos, considerando las características de cada grupo
creado, en vez de utilizar aquellas de los registros de la base de datos. Una segunda utilización es
tomar estos resultados como entrada a otros métodos.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 127
Agrupamiento es generalmente utilizado en los primeros pasos del análisis del Data
Mining, identificando grupos relacionados que pueden ser utilizados como punto de partida
para próximas exploraciones.
Las tareas de segmentación consisten en seleccionar una hipótesis en base a unos datos
medidos y su información corolaria. A partir de los datos observables se infieren descripciones
de situaciones a partir de datos observables. Mediante clustering se analizan los datos para
determinar su significado. Para la construcción de clusters se ha utilizado algoritmo basado en
distancia para encontrar grupos homogéneos de elementos: se construye una matriz de
proximidad, y se van agrupando los elementos con mayor similitud.
Se pretende descubrir patrones de comportamiento entre los distintos atributos que
componen una carta test e incluso agrupar en clusters comunidades autónomas con
comportamientos similares.
Objetivos:
# Identificar comunidades autónomas con patrones de comportamiento similares.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 128
4.3.2 Técnicas de Minería de Datos utilizadas
4.3.2.1 Árboles de decisión
Los árboles de decisión son una técnica de aprendizaje automático por inducción que
permiten identificar conceptos (clases de objetos) a partir de las características de un conjunto
de ejemplos que los representan.
La información extraída de los mismos queda organizada jerárquicamente organizada
jerárquicamente en forma de árbol. Es un proceso de generalización a partir de casos
particulares. Se representan por un gráfico dirigido que consta de nodos y arcos. Los nodos
corresponden a una pregunta o a un test que se hace a los ejemplos.
La construcción de un árbol de decisión requiere:
1. Un conjunto de ejemplos representativos de lo que se desea aprender (Conjunto de
entrenamiento Conjunto de entrenamiento)
2. Una representación simbólica representación simbólica del conocimiento (Ejemplos y
definición de sus características) a través de atributos y sus valores
3. Un algoritmo de aprendizaje (clasificación)
4. Un esquema de valoración
Un árbol de decisión tiene un nodo raíz, nodos intermedios y hojas. Cualquier nodo
intermedio puede ser un nodo raíz de un subárbol. Esto conduce a una definición recursiva de
árbol de decisión. Cada nodo intermedio y el raíz tienen asociados separadores que formulan una
pregunta o realizan un test acerca de la existencia o no de una característica en cada caso
ejemplo. Esto permite clasificar los ejemplos y determinar cuáles serían los nodos sucesores.
Para la selección de los rasgos separadores, el rasgo a seleccionar debe de cumplir el
objetivo de que su posición en algún punto del árbol genere un subárbol tan simple como sea
posible y dé una concreta clasificación. Cuando se construye un árbol de decisión, es necesario
tener un medio para determinar los atributos importantes requeridos para la clasificación y el
orden de uso de esos atributos importantes. Es necesario un criterio de selección criterio de
selección de separadores. Cada criterio de selección será un test restringido a una función de
solamente uno de los atributos solamente uno de los atributos.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 129
Una hoja en el árbol corresponde a un conjunto de ejemplos que representan una sola clase.
La clase se asigna por criterio de a la que pertenezcan la mayoría de los ejemplos en la
subdivisión en cuestión. Las hojas del árbol de decisión representan los conceptos extraídos de
manera automática.
Una vez construido un árbol de decisión, un nuevo ejemplo desconocido será representante
de la clase en donde caiga recorriendo el árbol desarrollado desde la raíz a las hojas.
Para la construcción de árboles de decisión se ha escogido el algoritmo ID3.
ID3
Es un método de construcción de árboles de decisión cuyas siglas significan Interactive
Dichotomizer 3, diseñado por Quinlan en 1986. Utiliza la estrategia �divide y vencerás� y va
construyendo el árbol de arriba abajo.
Recibe como entrada un conjunto de ejemplos y a partir de ellos desarrolla un árbol de
decisión de arriba a abajo guiado por la información de los ejemplos. Es un enfoque inductivo o
"dirigido por datos�, donde el orden de presentación de los ejemplos no es importante.
La estructura básica del algoritmo ID3 es iterativa. El árbol se genera dividiendo
sucesivamente el conjunto de aprendizaje en subconjuntos de ejemplos cada vez más pequeños
hasta conseguir conjuntos suficientemente puros. Es una partición recursiva del espacio de
entradas en zonas homogéneas o puras a las que se les asocia una clase.
Un conjunto es bastante puro conjunto cuando casi todos sus ejemplos pertenecen a una
sola clase.
Un separador es un sólo atributo. Esto hace al árbol que tenga significado físico y es más
sencillo interpretar. Se usan dos tipos de separadores:
- Simbólico: el separador será una pregunta tipo: ¿cuál es el valor del atributo X?
- Ordenado: ¿es el valor del atributo menor que un umbral determinado?
En ambos casos, puede haber más de dos nodos hijos.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 130
Para seleccionar el mejor separador hay que utilizar una medida para distinguir entre
posibles candidatos. La medida que se utiliza se basa en la entropía o cantidad de información
definida en la teoría de la información.
La entropía de un nodo N se calcula como:
siendo Nclases el número de clases diferentes en el nodo y p(N,Ci) la proporción de
ejemplos en el nodo pertenecientes a la clase Ci.
La selección del mejor separador se realiza eligiendo el que produce una disminución
mayor en la impureza del nodo analizado.
siendo:
· DI(N,S): el decremento de impureza del nodo N producido al aplicar el separador S
· I(N): impureza del nodo
· Nhijos: número de hijos generados al aplicar S
· p(Nhi): proporción de ejemplos del nodo N que quedan en el nodo hijo i
Se pueden usar varios criterios para decidir si el aumento de la capacidad de clasificación
del árbol el expandir un nodo es suficientemente significativo como para compensar el
incremento de complejidad del árbol. Normalmente se compara la impureza del nodo en estudio
con un valor mínimo Hmin. Si la impureza del árbol es menor, el nodo no se expande.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 131
4.3.2.2 Predicción mediante Factores de Certeza
El conocimiento humano está lleno de incertidumbre. Los esquemas de representación del
conocimiento no contemplan la incertidumbre inherente a la experiencia humana.
Estos esquemas han de ser complementados con sistemas de representación de la
incertidumbre. El conocimiento queda representado por:
- un esquema de representación
- un método de representación de la incertidumbre
Hay incertidumbre debido a muchas causas:
- Insuficiente experiencia
- Inadecuada representación del conocimiento
- Información poco fiable
- No completitud
- Inexactitud inherente al lenguaje
Los factores de certeza se basan en el juicio juicio que tiene un experto sobre el número de
ocurrencias de ciertas situaciones o relaciones cuyo conocimiento se desea incluir en una
base de conocimientos.
Estas medidas de confianza o factores de certeza son evaluaciones o apreciaciones
personales de los expertos que añaden al enunciado de su conocimiento.
Ej.: Si se da A entonces se dará C casi con toda seguridad
Se expresan mediante un número o �factor de certeza�.
Los factores de certeza no se rigen por probabilidad. No se obtienen de poblaciones
muestrales, sino de experiencia. En probabilidad la suma de la probabilidad de que se dé
un hecho y su contrario es 1. Un experto puede sentir que algo es cierto de forma
importante, pero puede no saber cuanto de importante es lo contrario.
El factor de certeza es un valor en el intervalo [-1,1]. (1 indica completa confianza, -1
completa no creencia).
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 132
Sean dos reglas R1 y R2 que alcanzan la misma conclusión h, a partir de dos evidencias e1
y e2 diferentes:
R1 : Si e1 entonces h, CF(h, e1)
R2 : Si e2 entonces h, CF(h, e2)
El factor de certeza de h se calculará como:
a) CF(h, e1)+CF(h, e2)(1-CF(h, e1)), si CF(h, e1)>0 y CF(h, e2)>0
b) CF(h, e1)+CF(h, e2)(1+CF(h, e1)), si CF(h, e1)<0 y CF(h, e2)<0
c) [CF(h, e1)+CF(h, e2)]/(1-min(|CF(h, e1)|, |CF(h, e2) |), en cualquier otro caso
Un factor de certeza se puede asociar no sólo a una regla, sino que también se puede
asociar a una condición de una regla. Sea:
R1 : Si e1, CF(e1) Entonces h, CFR(h, e1)
CFR(h, e1) es el factor de certeza de la regla R1
CF(e1) es el factor de certeza de e1
la certeza de �h� con la evidencia �e1� se calcula:
CF(h, e1)= CF(e1) * CFR(h, e1)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 133
4.3.2.3 Regresión lineal
La regresión es la teoría que trata de encontrar una función matemática que ajuste de la
mejor manera posible los valores de la variable bidimensional. Mediante regresión lineal se trata
de obtener una recta que ajuste la nube de puntos.
La ecuación de la recta, que permitirá pronosticar los valores de Y conocidos los de X, será
por tanto de la forma:
Y = a + b X
Como es lógico, para una observación concreta (xi, yi) habrá una diferencia entre el valor
pronosticado a través de la recta para el valor xi, llamándose y*i, y el valor cierto real, yi, y se
produce por tanto un error que será la diferencia entre ambos valores, al que se denomina
residuo.
La suma de todos los residuos es cero, pero el dato con el que se trabaja es con la suma
de los errores al cuadrado que interesa que sea mínima. Impuesta esta condición, se obtienen los
valores de a y b de la recta de regresión (de Y sobre X) que sería:
y � y = sxy / s2x (x � x)
Cálculos realizados A = (Σ(Y) · Σ(X2)) - (Σ(X) · Σ(X·Y)) / (N · Σ(X2)) - (Σ(X)2)
B = N · Σ(X·Y) - (Σ(X) · Σ(Y)) / N · Σ(X2)-(Σ(Y)2) N = Count(X)
R = N · Σ(X·Y) -(Σ(X) · Σ(Y)) / SQUARET(N · Σ(X2) - (Σ(X))2) · (N · Σ(Y2) - (Σ(Y))2)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 134
4.3.2.4 Ajuste de curva univariable
El Ajuste de curva univariable descubre una función matemática que describe exactamente
la distribución de los datos a través del tiempo. Pueden seleccionarse los siguientes tipos de
curvas:
# Mejor ajuste
# Exponencial
# Hipérbola
# Lineal
# Potencia
# Racional
# Recíproca
Tratamiento de valores omitidos: los valores omitidos no están permitidos en los datos
de series temporales.
A continuación se presenta una descripción de las columnas de la Tabla de ajuste:
1. La primera columna muestra los números de las observaciones en las que se basan
los diagramas.
2. La segunda columna muestra para qué periodo estacional se han observado los
valores.
3. La tercera columna muestra los valores observados.
4. La cuarta columna muestra los valores ajustados.
5. La quinta columna muestra los valores residuales, que son las diferencias entre los
valores observados y los ajustados.
El ajuste de curva univariable se basa en la secuenciación. Este tipo de enfoque algorítmico
es muy similar a la asociación, pero la diferencia radica en la inclusión del tiempo de análisis,
agregando comparaciones de tiempo entre las transacciones. En este enfoque se intenta encontrar
patrones entre eventos que ocurren en un periodo de tiempo, por ejemplo incluyendo: �dentro de
los seis meses�, �próxima vez� o un conjunto de rangos como: �próximo día�, �próxima
semana�, �próximo mes�, �próximo año�...
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 135
La secuenciación requiere un identificador (por ejemplo: rut), que relacione las
transacciones que han ocurrido en tiempos diferentes, tomando las combinaciones en pares de
todas las transacciones que tienen este mismo identificador y computando el tiempo de
diferencia entre estos pares, el algoritmo identifica el ordenamiento entre ellos.
Debido a que el tiempo es un valor continuo (no categórico), se les debe agrupar en valores
categóricos basado en un conjunto de valores de tiempo definido por el usuario.
Este tipo de enfoque algorítmico es usado para identificar cursos de comportamiento
rutinarios o excepcionales, identificando sucesiones comunes o no comunes de procedimientos
múltiples a través del tiempo.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 136
4.3.2.5 Repertory Grid
Para la construcción de clusters se han utilizado algoritmos basados en distancia, en
particular, Emparrillados (Repertory Grid).
Emparrillados (Repertory Grid)
La malla de repertorios o "repertory grid" o "emparrillado" es una representación de la
visión de un experto sobre un problema particular basada en la �Personal Construct Theory�.
Según la Personal Construct Theory, desarrollado por Nelly en 1955, cada persona tiene su
propio modelo personal del mundo que le rodea. Cada persona clasifica y jerarquiza su mundo,
desarrollando una serie de teorías sobre él. Basándose en estas teorías es posible anticiparse a la
reacción que puede tener una persona frente a una serie de estímulos del mundo.
Un emparrillado consta de construcciones (constructs) y de elementos. (Equivalentes a
atributos y sus ejemplos). Una construcción es una característica bipolar o dicotómica que tiene
cada elemento en algún grado. Sirve para distinguir unos elementos de otros o verificar su
similitud.
Un elemento es una entidad abstracta o concreta. Es un caso importante desde la
perspectiva del experto. El proceso de Adquisición del Conocimiento consiste en solicitar del
experto todos los elementos y construcciones relativas al dominio de conocimiento a explorar.
Las construcciones contemplan la asignación de valores graduales discretos entre sus polos. La
escala puede ser simbólica o numérica y no puede variar el número de escalones (1 a 3 ó 1 a 5)
en toda la malla aunque los nombres utilizados para cada símbolo sean diferentes.
Con los elementos y las construcciones se construye una red donde las construcciones se
ponen en filas y los elementos en columnas.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 137
El análisis de la malla mediante clusters o grupos consiste en encontrar grupos
homogéneos de elementos o de construcciones. Para hacer este análisis se ha de definir una
medida de similitud como una función que asocia un valor numérico a cualquier par
de vectores para ver su similitud o semejanza. Con la función de similitud se construye una
matriz de proximidad que es cuadrada y donde cada elemento de ella mide la similitud entre el
elemento fila y columna que se presenta. La matriz de proximidad es la entrada al análisis de
clusters.
Hay varias técnicas de análisis de clusters, una de ellas es el clustering jerárquico.
Un cluster es una subdivisión de un conjunto de objetos E en varios subconjuntos, Ei, que
cubren E, de forma que:
Una definición de función de similitud utilizada es: dados los vectores u y w definidos
como u = (x1, x2,... xn) y w= (y1, y2,... yn), se define d(u,w) como la distancia entre los vectores
u y w, donde d puede ser típicamente:
D(u,v) = Σ | xi � yi | ó D(u,v) = Σ | xi � yi|2
Pasos para la construcción de la malla:
1. Se construye una matriz de proximidad que es un emparrillado reducido
2. Se transforma a porcentaje mediante:
siendo n = nº de construcciones
D= diferencia máxima posible para una construcción
3. Cogemos el mínimo de la similitud para el nuevo objeto con el resto:
4. Continuamos desarrollando la malla
5. Se obtiene el dendrograma de clustering jerárquico para visualizar los resultados
obtenidos.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 138
Comparación de construcciones
Es algo más compleja que la de elementos, ya que hay que comparar las construcciones y
también las construcciones inversas u opuestas.
Si comparamos características físicas de personas, por ejemplo a través de las
construcciones �bajo/alto� y �mucho peso/poco peso�, podría no haber similitud entre ellas. Pero
si invertimos una construcción, quizás sí haya una mayor semejanza.
Una construcción invertida X� se obtiene de la construcción original X sustituyendo los
valores en X por sus opuestos en la escala de valoración.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 139
4.3.3 Implementación de los algoritmos
4.3.3.1 Algoritmo ID3
El modelo dinámico de proceso y control para la construcción de árboles de decisión
mediante ID3 se podría resumir en el siguiente gráfico:
CLASIFICACIÓN AUTOMÁTICA
1. Seleccionar atributo a clasificar (clase) 2. Calcular nº elementos de cada clase 3. Calcular entropía en nodo raíz 4. Elegir mejor separador 5. ¿Continuar dividiendo el árbol?
Cálculos realizados I(N) = - Σ p(N,Ci)log2 [p(N,Ci )] ∆I(N,S) = I(N) - Σp(Nhi) I(Nhi)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 140
A continuación se muestra la lógica del funcionamiento del algoritmo ID3 utilizado:
Elegir mejor Separador
Aplicar Separador.
Quedan Separadores?
Calcular mejor Separador para
este nivel
Nivel=0
Nivel++
Aplicar mejor Separador
SI
NO FIN
Figura 4.9: Lógica del algoritmo ID3
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 141
4.3.3.2 Cálculo de Factores de Certeza
Uno de los principales objetivos de este proyecto es la predicción, en base a unos
parámetros, del estado y del plazo de entrega en que puede llegar una carta desde un origen X a
un destino Y. Para ello, el primer paso sería identificar de entre todos los posibles parámetros de
que se dispone en la Base de Datos, aquellos que puedan repercutir de forma más directa sobre el
estado en que llega la carta (bueno, malo o regular) y sobre el plazo de entrega (temprano, a
tiempo o tarde).
Los factores que más directamente podrían repercutir serían los siguientes:
- Flujo: Dependiendo del origen y del destino, el flujo se consideraría local si ambas
ciudades de origen son las mismas, provincial si las ciudades son distintas pero coinciden
en la Comunidad Autónoma, y nacional en otro caso
- Línea: Las cartas pueden haber sido enviadas por correo ordinario o por correo urgente.
Este factor repercute directamente en el tiempo de entrega, ya que si es correo urgente la
entrega debe realizarse en el mismo día, vaya donde vaya la carta. En cambio, si es
correo ordinario, depende: Si es de flujo local, también debe tardar un día. Si el flujo es
provincial, 2 días. Y si se trata de flujo nacional, puede tardar hasta 3 días
- Formato: El formato de la carta puede ser en A4, C5 o Normalizado. Depende del
tamaño del sobre.
- Peso de la carta: Se agrupan por rangos, que pueden ser 50-100 gr, 20-50 gr, o 0-20 gr.
- Método de inducción: Es la forma en que depositó la carta para su envío. Puede ser el
típico buzón, la oficina de correos directamente o los centros de admisión masiva.
Para realizar el cálculo de las reglas de asociación, en este caso, al disponerse de una Base de
Datos con toda la información necesaria, no se precisa de la valoración del experto. Es más, en
principio los resultados que se obtengan deberían ser más fiables, ya que no están sujetos a la
subjetividad del experto.
El cálculo de los Factores de Certeza se va a realizar en varias etapas. Será preciso descargar
datos en tablas temporales sobre las que hacer cálculos adicionales, ya que no se pueden calcular
de golpe todos ellos.
Los pasos que se han seguido para el cálculo de los factores de certeza son los que siguen:
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 142
1. Creación de 3 tablas, una para cada tipo de flujo, con todos los campos de entrada que
hemos seleccionado y que se han expuesto más arriba (línea, formato, peso de la carta y
método de inducción) y con los factores que deseamos predecir (tiempo de entrega y
estado en que llega)
Para este cálculo es preciso realizar varias consultas:
SELECT provincia_origen, provincia_destino, COUNT(*) AS [NºCartas],
MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM dbo.CorreoValido WHERE (linea = 'O') GROUP BY provincia_origen, provincia_destino
select PM.*, km from DataWarehouse.dbo.Kms, DataWarehouse.dbo.PlazoMedio as PM where (IDorigen=(select ID from DataWarehouse.dbo.provincias where
provincia=provincia_origen)) and (IDdestino=(select ID from DataWarehouse.dbo.provincias where
provincia=provincia_destino)) order by plazo_medio DESC, provincia_origen, provincia_destino
obteniendo resultados del tipo:
Provincia origen Provincia destino Nº cartas Máximo Mínimo Media Kms Ceuta Ávila 1 8 8 8 NULLSevilla Melilla 1 8 8 8 NULLGuadalajara Soria 2 14 1 7 173 Huelva Tarragona 1 7 7 7 1029Valladolid Almería 1 7 7 7 756
Para obtener esta información agrupada por comunidades hay que realizar los siguientes
cambios en la consulta:
SELECT comunidad_origen, comunidad_destino, COUNT(*) AS [NºCartas], MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio
FROM DataWarehouse.dbo.CorreoValido WHERE (linea = 'O') GROUP BY comunidad_origen, comunidad_destino ORDER BY 1,2
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 143
obteniendo resultados del tipo: Comunidad Origen Comunidad Destino Nº cartas Máximo Mínimo Plazo
medio ANDALUCIA ANDALUCIA 23858 29 -3 2 ANDALUCIA ARAGON 169 8 0 2 ANDALUCIA ASTURIAS 81 8 0 2 ANDALUCIA BALEARES 103 8 1 3 ANDALUCIA CANARIAS 118 10 1 3
Para predecir el plazo de entrega de una carta test para la línea urgente, es preciso
recopilar esta información a partir de históricos. Para cada provincia, además del plazo medio de
entrega, puede ser interesante tener información sobre el numero de cartas enviadas, el plazo
máximo y mínimo en que la carta ha tardado en ser entregada, así como las distancia (en
kilómetros) entre la ciudad de origen y destino.
Para este cálculo es preciso realizar varias consultas:
SELECT provincia_origen, provincia_destino, COUNT(*) AS [NºCartas],
MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM dbo.CorreoValido WHERE (linea = 'U') GROUP BY provincia_origen, provincia_destino
select PM.*, km from DataWarehouse.dbo.Kms, DataWarehouse.dbo.PlazoMedioU as PM where (IDorigen=(select ID from DataWarehouse.dbo.provincias where
provincia=provincia_origen)) and (IDdestino=(select ID from DataWarehouse.dbo.provincias where
provincia=provincia_destino)) order by plazo_medio DESC, provincia_origen, provincia_destino
obteniendo resultados del tipo:
Provincia origen Provincia destino Nº cartas Máximo Mínimo Media Kms Castellón Álava 3 24 1 8 574Almería Huelva 2 11 1 6 516Málaga Vizcaya 6 25 1 5 939Cáceres Jaén 1 4 4 4 423Castellón Badajoz 2 7 1 4 805
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 144
Para obtener esta información agrupada por comunidades hay que realizar los siguientes
cambios en la consulta:
SELECT comunidad_origen, comunidad_destino, COUNT(*) AS [NºCartas],
MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM DataWarehouse.dbo.CorreoValido WHERE (linea = 'U') GROUP BY comunidad_origen, comunidad_destino order by 1,2
obteniendo resultados del tipo:
Comunidad Origen Comunidad Destino Nº cartas Máximo Mínimo Plazo medio
ANDALUCIA ANDALUCIA 1180 12 -3 1 ANDALUCIA ARAGON 55 4 0 1 ANDALUCIA ASTURIAS 45 3 0 1 ANDALUCIA BALEARES 18 3 1 1 ANDALUCIA CANARIAS 136 23 1 1
2. Agrupación de los datos obtenidos en las tablas anteriores.
3. Al disponer ya de todos los datos correctamente agrupados, se ha procedido al cálculo de
los factores de certeza con ayuda del Excel. Para ver cómo se ha procedido a su cálculo,
lo veremos en un ejemplo:
Flujo Línea Formato Peso Método Inducción Número de ocurrencias Tiempo EstadoLlegada
LOCAL O A4 50-100 gr CA 176 A tiempo A LOCAL O A4 50-100 gr CA 1505 A tiempo B LOCAL O A4 50-100 gr CA 59 A tiempo M LOCAL O A4 50-100 gr CA 136 Tarde A LOCAL O A4 50-100 gr CA 870 Tarde B LOCAL O A4 50-100 gr CA 43 Tarde M LOCAL O A4 50-100 gr CA 16 Temprano A LOCAL O A4 50-100 gr CA 112 Temprano B LOCAL O A4 50-100 gr CA 7 Temprano M
En la tabla anterior hemos seleccionado aquellas ocurrencias que tengan los mismos
parámetros de entrada, es decir, el flujo, la línea, el formato, el peso y el método de inducción.
Vemos que en total hay 2924 registros. Sin embargo, de todos ellos, sólo hay 1505 que llegaron a
tiempo y con buen estado de llegada. Por tanto, para calcular el Factor de Certeza de que una
carta reúna esas condiciones, lo haríamos:
1505 / 2924 = 0.51
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 145
4. Por último, sólo falta realizar el programa en el que el usuario introducirá los parámetros
de entrada que se han establecido y el programa le hará una predicción. A continuación,
se presenta un pantallazo de dicho programa:
Figura 4.10: Interfaz para calcular la predicción
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 146
4.3.3.3 Cálculo del coeficiente de correlación lineal
Para analizar si existe una correlación entre el estado de recepción de una carta test y la
distancia recorrida, es preciso realizar varias consultas previamente. A continuación se muestra
la relación entre las tablas CorreoValido, Provincias (Origen y Destino) y Kms
- seleccionar los provincias origen y destino, número de cartas enviadas, plazo máximo de
entrega, plazo mínimo de entrega, media de entrega.
SELECT provincia_origen, provincia_destino, COUNT(*) AS [NºCartas],
MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM dbo.CorreoValido WHERE (estado = 'M') GROUP BY provincia_origen, provincia_destino
- seleccionar los provincias origen y destino y la distancia en kilómetros entre ellas:
select PM.*, km from DataWarehouse.dbo.Kms, DataWarehouse.dbo.PlazoMedioMalas as PM where (IDorigen=(select ID from DataWarehouse.dbo.provincias where
provincia=provincia_origen)) and (IDdestino=(select ID from DataWarehouse.dbo.provincias where
provincia=provincia_destino)) order by plazo_medio DESC, provincia_origen, provincia_destino
Figura 4.11: Relación entre tablas CorreoValido, Provincias y Kms
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 147
obteniendo resultados del tipo:
Provincia origen
Provincia destino Nº cartas Máximo Mínimo Media Kms
Álava Vizcaya 1 15 15 15 66 Murcia Madrid 2 23 2 12 401Sevilla Zaragoza 1 8 8 8 863León Orense 1 7 7 7 271Huelva Huelva 2 6 6 6 0
Para obtener esta información agrupada por comunidades hay que realizar los siguientes
cambios en la consulta:
SELECT comunidad_origen, comunidad_destino, COUNT(*) AS [NºCartas],
MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM DataWarehouse.dbo.CorreoValido WHERE (estado = 'M') GROUP BY comunidad_origen, comunidad_destino order by 1,2
obteniendo resultados del tipo:
Comunidad Origen Comunidad Destino Nº cartas Máximo Mínimo Plazo medio
ANDALUCIA ANDALUCIA 132 6 0 1 ANDALUCIA ARAGON 3 8 4 5 ANDALUCIA ASTURIAS 1 1 1 1 ANDALUCIA CANARIAS 4 10 2 4 ANDALUCIA CASTILLA LA MANCHA 3 6 1 2
Los resultados finales se almacenan en la tabla RegresionLineal donde se podrán consultar
los valores calculados.
SELECT POrigen, PDestino, Kms, ROUND(AVG(Dias),0) AS
PlazoMedioEntrega FROM RegresionLineal GROUP BY POrigen, PDestino, Kms;
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 148
4.3.3.4 Tabla de Ajuste Para la realización del ajuste de curva univariable se ha utilizado Excel para realizar el
análisis para cada uno de los flujos de correo (local, provincial y nacional).
Cada una de los hojas de Excel consta de las siguientes columnas:
Provincia Tipo (ST, MT, PP) % de cumplimiento de la semana1 % de cumplimiento de la semana2 % de cumplimiento de la semana... % de cumplimiento de la semana53 volumen esperado en la semana1 volumen esperado en la semana2 volumen esperado en la semana.. volumen esperado en la semana153 volumen producido en la semana1 volumen producido en la semana2 volumen producido en la semana... volumen producido en la semana53 volumen acumulado en la semana1 volumen acumulado en la semana2 volumen acumulado en la semana... volumen acumulado en la semana53
Con toda esta información obtenida a través de consultas al DW, se puede dibujar gráficamente
la evolución para cada una de las provincias según el método de franqueo seleccionado a lo largo
de las 53 semanas del año.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 149
4.3.3.5 Clustering jerárquico Se pretende descubrir patrones de comportamiento entre los distintos atributos que
componen una carta test e incluso agrupar en clusters comunidades autónomas con
comportamientos similares.
El modelo dinámico de proceso y control para la construcción de clusters mediante
clustering jerárquico se podría resumir en el siguiente gráfico:
En primer lugar, es preciso calcular los ratios del correo saliente por comunidad según el
estado de recepción de las cartas test.
Para ello, hay que calcular el número de cartas enviadas desde cada comunidad autónoma,
y a continuación distinguir entre esas cartas, las que han sido entregadas en buen estado, estado
aceptable o en mal estado.
Para obtener esta información hay que realizar la siguiente consulta:
SELECT comunidad_origen,COUNT(*) AS [BN] FROM DataWarehouse.dbo.CorreoValido where ((ESTADO IS NULL) OR ESTADO='B') GROUP BY comunidad_origen ORDER BY 1; SELECT comunidad_origen,COUNT(*) AS [A] FROM DataWarehouse.dbo.CorreoValido where (ESTADO='A') GROUP BY comunidad_origen ORDER BY 1; SELECT comunidad_origen,COUNT(*) AS [M] FROM DataWarehouse.dbo.CorreoValido
EMPARRILLADOS
1. Calcular distancias entre elementos 2. Construir matriz de proximidad 3. Transformar a porcentajes 4. Seleccionar elementos con mayor similitud 5. Continuar desarrollando la malla
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 150
where (ESTADO='M') GROUP BY comunidad_origen ORDER BY 1; SELECT comunidad_origen,COUNT(*) AS [NºCartas] FROM DataWarehouse.dbo.CorreoValido GROUP BY comunidad_origen ORDER BY 1,2;
Por ultimo, se calcularán los ratios o porcentajes, para comparar unas comunidades
autónomas con otras, obteniendo como resultado:
COMUNIDAD BN A M total BN/total A/total M/total
ANDALUCIA 34111 887 189 35187 96,94% 2,52% 0,54%ARAGON 7731 100 35 7866 98,28% 1,27% 0,44%ASTURIAS 7197 118 35 7350 97,92% 1,61% 0,48%BALEARES 4721 94 18 4833 97,68% 1,94% 0,37%CANARIAS 5942 653 50 6645 89,42% 9,83% 0,75%CANTABRIA 3346 65 17 3428 97,61% 1,90% 0,50%CASTILLA LA MANCHA 7415 196 32 7643 97,02% 2,56% 0,42%CASTILLA LEÓN 16550 294 72 16916 97,84% 1,74% 0,43%CATALUÑA 66474 1454 341 68269 97,37% 2,13% 0,50%CEUTA 358 10 4 372 96,24% 2,69% 1,08%COMUNIDAD VALENCIANA 38978 1038 150 40166 97,04% 2,58% 0,37%EXTREMADURA 4454 50 14 4518 98,58% 1,11% 0,31%GALICIA 13750 916 86 14752 93,21% 6,21% 0,58%LA RIOJA 1998 31 4 2033 98,28% 1,52% 0,20%MADRID 169658 4150 832 174640 97,15% 2,38% 0,48%MELILLA 230 55 3 288 79,86% 19,10% 1,04%MURCIA 4797 93 8 4898 97,94% 1,90% 0,16%NAVARRA 5364 67 11 5442 98,57% 1,23% 0,20%PAIS VASCO 20878 351 67 21296 98,04% 1,65% 0,31%
Con estos datos calculados y mediante consultas a la base de datos, para el análisis de
similitud entre las distintas comunidades autónomas, se han distribuido en forma de malla el
número de cartas producidas por cada comunidad atendiendo a diferentes características de la
carta test:
# Línea: ordinaria, urgente
# Formato de la carta: A4, C5, normalizado
# Peso: 0-20gr, 20-50 gr, 50-100 gr
# Método de franqueo: sello, máquina de franquear, franqueo pagado
# Método de inducción: buzón, oficina de correos, centro de admisión masiva
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 151
# Dirección postal: escrita a mano, a máquina
# Estado de recepción: buena, aceptable, mala o abierta, rota
# Participante: particular, empresa
Estos datos se encuentran en valores absolutos. La última columna muestra el total de
cartas producidas para cada comunidad autónoma. A partir del número total de cartas por
comunidad se pueden transformar en valores porcentuales.
Tras obtener los datos agrupados por comunidades autónomas en forma de porcentaje, es
preciso discretizarlos en una escala de valores enteros (en este caso, se ha optado por coger una
escala de 1 a 5).
Proceso de Discretización
El proceso se discretización se realiza para cada una de las variables que intervienen en la
malla. Los valores expresados en forma porcentual se discretizan en una escala de 1 a 5, donde el
1 representa la menor similitud y 5 la mayor.
Figura 4.11: Malla inicial
Figura 4.12: Mallaron valores procentuales
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 152
La construcción de histogramas de frecuencias facilitará la asignación de valores discretos.
Línea Ordinaria
Valor continuo
Valor discreto
Nº elementos
[0.95 � 1] 5 2 [0.93 � 0.95) 4 4 [0.91 � 0.93) 3 5 [0.89 � 0.91) 2 5
[0 � 0.89) 1 3
AT RI BUT O O
02
46
O
Línea Urgente
Valor continuo
Valor discreto
Nº elementos
[0.1 � 1] 5 4 [0.09 � 0.1) 4 4 [0.07 � 0.09) 3 5 [0.05 � 0.07) 2 4
[0 � 0.05) 1 2
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
U
Formato A4
Valor continuo
Valor discreto
Nº elementos
[0.06 � 1] 5 1 [0.05 � 0.06) 4 5 [0.04 � 0.05) 3 5 [0.03 � 0.04) 2 4
[0 � 0.03) 1 4
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
A4
Formato C5
Valor continuo
Valor discreto
Nº elementos
[0.14 � 1] 5 3 [0.10 � 0.14) 4 6 [0.08 � 0.10) 3 5 [0.06 � 0.08) 2 3
[0 � 0.06) 1 2
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
C5
Formato Normalizado
Valor continuo
Valor discreto
Nº elementos
[0.90 � 1] 5 3 [0.87 � 0.90) 4 4 [0.85 � 0.87) 3 5 [0.81 � 0.85) 2 5
[0 � 0.81) 1 2
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
NORM
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 153
Peso 0-20 gr Valor
continuo Valor
discreto Nº
elementos [0.90 � 1] 5 3
[0.88 � 0.90) 4 4 [0.85 � 0.88) 3 5 [0.82 � 0.85) 2 4
[0 � 0.82) 1 3
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
0-20
Peso 20-50 gr
Valor continuo
Valor discreto
Nº elementos
[0.15 � 1] 5 2 [0.12 � 0.15) 4 3 [0.09 � 0.12) 3 4 [0.08 � 0.09) 2 5
[0 � 0.08) 1 5
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
20-50
Peso 50-100 gr
Valor continuo
Valor discreto
Nº elementos
[0.07 � 1] 5 1 [0.05 � 0.07) 4 5 [0.04 � 0.05) 3 5 [0.03 � 0.04) 2 4
[0 � 0.03) 1 4
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
50-100
Sello Valor
continuo Valor
discreto Nº
elementos [0.99 � 1] 5 3
[0.08 � 0.99) 4 3 [0.06 � 0.08) 3 6 [0.04 � 0.06) 2 3
[0 � 0.04) 1 4
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
ST
Máquina de franquear Valor
continuo Valor
discreto Nº
elementos [0.60 � 1] 5 2
[0.50 � 0.60) 4 3 [0.30 � 0.50) 3 4 [0.10 � 0.30) 2 5
[0 � 0.10) 1 5
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
MT
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 154
Franqueo Pagado
Valor continuo Valor discreto
Nº elementos
[0.20 � 1) 4 2 [0.07 � 0.20) 3 4 [0.001 � 0.06) 2 4
0 1 9
01
23
45
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
PP
Buzón
Valor continuo
Valor discreto
Nº elementos
[0.20 � 1) 5 2 [0.4 � 0.55) 4 7 [0.3 � 0.4) 3 5 [0.2 � 0.3) 2 4 [0 � 0.2) 1 1
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
MB
Oficina Postal
Valor continuo
Valor discreto
Nº elementos
[0.6� 1) 5 2 [0.5 � 0.6) 4 4 [0.3 � 0.5) 3 5 [0.2 � 0.3) 2 4 [0 � 0.2) 1 4
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
PO
Centro de Admisión Masiva Valor
continuo Valor
discreto Nº
elementos [0.6� 1) 5 1
[0.4 � 0.6) 4 4 [0.2 � 0.4) 3 3
[0.003 � 0.2) 2 3 0 1 8
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
PO
Mano
Valor continuo
Valor discreto
Nº elementos
[0.27� 1) 5 5 [0.20 � 0.27) 4 2 [0.15 � 0.20) 3 5 [0.10 � 0.15) 2 5
[0 � 0.10) 1 2
0123456
GAL
ICIA
MEL
ILLA
CAS
TILL
A LA
CAT
ALU
ÑA
CAS
TILL
A LE
ÓN
CO
MU
NID
AD
NAV
ARR
A
LA R
IOJA
MU
RC
IA
MAD
RID
CA
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 155
Máquina
Valor continuo
Valor discreto
Nº elementos
[0.90� 1) 5 2 [0.85 � 0.90) 4 5 [0.80 � 0.85) 3 5 [0.75 � 0.80) 2 1
[0 � 0.75) 1 6
0123456
Com
unid
ad
ARAG
ON
AND
ALU
CIA
ASTU
RIA
S
CAN
ARIA
S
EXTR
EMAD
UR
A
CEU
TA
BALE
ARES
PAIS
VAS
CO
CAN
TAB
RIA
Serie1
Estado Buena
Valor continuo
Valor discreto
Nº elementos
[0.98� 1) 5 5 [0.97 � 0.98) 4 9 [0.90 � 0.97) 3 3 [0.80 � 0.90) 2 1
[0 � 0.80) 1 1
0123456
Com
unid
ad
ARAG
ON
CEU
TA
PAIS
VAS
CO
CAN
TAB
RIA
CAS
TILL
A LE
ÓN
MAD
RID
BALE
ARES
CAN
ARIA
S
MEL
ILLA
Serie1
Estado Aceptable
Valor continuo Valor discreto
Nº elementos
[0.05� 1) 5 3 [0.025 � 0.05) 4 4 [0.20 � 0.025) 3 2 [0.15 � 0.20) 2 7
[0 � 0.15) 1 3
0123456
LA R
IOJA
EXTR
EMAD
UR
A
AND
ALU
CIA
CO
MU
NID
AD
ASTU
RIA
S
PAIS
VAS
CO
CAN
TAB
RIA
CAT
ALU
ÑA
NAV
ARR
A
GAL
ICIA
A
Estado Mala
Valor continuo Valor discreto
Nº elementos
[0.007� 1) 5 2 [0.005 � 0.007) 4 3 [0.004 � 0.005) 3 7 [0.003 � 0.004) 2 4
[0 � 0.003) 1 3
0123456
CAN
ARIA
S
MEL
ILLA
CO
MU
NID
AD
CAS
TILL
A LE
ÓN
CAT
ALU
ÑA
CAN
TAB
RIA
AND
ALU
CIA
MU
RC
IA
ARAG
ON
PAIS
VAS
CO
M
Particular
Valor continuo
Valor discreto
Nº elementos
[0.60 � 1) 5 2 [0.40 � 0.60 4 3 [0.30 � 0.40) 3 3 [0.20 � 0.30) 2 6
[0 � 0.20) 1 5
0123456
LA R
IOJA
PAIS
VAS
CO
EXTR
EMAD
UR
A
CAN
TAB
RIA
ARAG
ON
NAV
ARR
A
ASTU
RIA
S
CAS
TILL
A LE
ÓN
MAD
RID
CAN
ARIA
S
P
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 156
Empresa
Valor continuo
Valor discreto
Nº elementos
[0.85 � 1) 5 2 [0.75 � 0.85 4 4 [0.70 � 0.75) 3 5 [0.50 � 0.70) 2 4
[0 � 0.50) 1 4
0123456
CAN
ARIA
S
MAD
RID
CAS
TILL
A LE
ÓN
ASTU
RIA
S
NAV
ARR
A
ARAG
ON
CAN
TAB
RIA
EXTR
EMAD
UR
A
PAIS
VAS
CO
LA R
IOJA
B
Proc
eso
de D
ata
Min
ing
en S
istem
a de
Med
ició
n de
Cal
idad
en
Plaz
o de
l Cor
reo
Nac
iona
l
Alfr
edo
Car
rera
s Góm
ez
Pá
gina
157
Com
unid
ad A
utón
oma
O
U
A4
C5
NO
RM
0-20
20
-50
50-1
00
ST
MT
PP
MB
PO
C
A
Man
oM
áqui
naB
A
M
P
B
AN
DA
LUC
IA
2 4
4 3
3 3
2 4
1 5
2 2
2 4
2 4
4 4
2 2
4 A
RA
GO
N
4 2
3 1
5 5
1 3
2 3
3 2
1 4
1 5
5 1
1 2
3 A
STU
RIA
S 3
3 4
3 3
3 2
4 1
4 3
2 2
4 2
4 4
3 3
2 3
BA
LEA
RES
1
5 1
4 3
3 3
1 4
2 1
4 4
1 4
1 4
4 3
3 2
CA
NA
RIA
S 1
5 2
2 4
4 1
2 5
1 1
5 1
1 3
3 3
4 5
1 5
CA
NTA
BR
IA
2 4
1 4
2 2
4 1
4 2
2 3
5 2
5 1
4 2
3 3
2 C
AST
ILLA
LA
MA
NC
HA
4
2 3
5 2
1 4
3 3
2 1
4 3
1 5
1 4
2 2
2 3
CA
STIL
LA L
EÓ
N
4 2
5 5
1 1
5 5
2 4
1 3
5 2
3 3
4 2
3 1
4 C
ATA
LUÑ
A
3 3
2 2
4 4
1 2
3 1
4 3
3 3
4 2
4 2
3 4
1 C
EUTA
5
1 3
5 1
1 5
3 3
3 1
4 3
1 3
3 5
2 1
1 4
CO
MU
NID
AD
VA
LEN
CIA
NA
4
2 3
4 2
2 3
3 2
3 2
3 3
3 3
3 3
4 4
2 3
EXTR
EMA
DU
RA
2
4 4
4 2
2 4
4 3
3 2
3 3
2 3
3 3
5 4
4 2
GA
LIC
IA
3 3
1 4
4 4
3 1
4 1
1 4
4 1
5 1
5 1
2 5
1 LA
RIO
JA
1 5
2 1
5 5
1 2
5 1
1 5
1 1
2 4
1 5
5 5
1 M
AD
RID
3
3 4
2 4
4 1
4 1
5 3
1 1
5 1
5 4
3 3
1 4
MEL
ILLA
5
1 2
4 2
2 3
2 3
2 1
4 4
1 5
1 2
5 4
3 2
MU
RC
IA
2 4
4 3
3 3
2 4
1 4
3 2
2 4
2 4
5 2
2 1
5 N
AV
AR
RA
2
5 3
3 3
3 2
3 3
2 4
4 2
3 2
4 5
1 3
2 3
PAIS
VA
SCO
3
3 1
3 5
5 2
1 5
1 1
4 4
1 5
1 4
2 1
4 1
Lín
ea d
e la
car
ta: O
rdin
aria
, Urg
ente
Fo
rmat
o: A
4, C
5, N
orm
aliz
ado
Peso
: 0-2
0 gr
, 20-
50 g
r, 50
-100
gr
Mét
odo
de fr
anqu
eo: S
ello
, Máq
uina
de
franq
uear
, Fra
nque
o pa
gado
M
étod
o de
indu
cció
n: B
uzón
, Ofic
ina
de C
orre
os, C
entro
de
Adm
isió
n M
asiv
a D
irec
ción
pos
tal:
A m
ano,
A m
áqui
na
Est
ado
de r
ecep
ción
: Bue
na, A
cept
able
, Mal
a T
ipo
de p
artic
ipan
te: P
rivad
o, E
mpr
esa
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 158
A partir de esta tabla discretizada, se construye la matriz de proximidad:
D 4 N 19
siendo D la diferencia máxima posible para una construcción, y N el número de
construcciones. Construyo la malla anterior a forma porcentual aplicando la siguiente formula:
A continuación, se elige el elemento con mayor similitud
Elementos E1 y E3 son 91% similares y se pueden considerar un nuevo objeto (E1,E3)
91% similar.
Figura 4.13: Matriz de proximidad (iteración 0)
Figura 4.14: Matriz de proximidad (iteración 1)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 159
Elementos (E1,E3) y E17 son 89% similares y se pueden considerar un nuevo objeto
[(E1,E3),E17] 89% similar
Elementos E13 y E19 son 88% similares y se pueden considerar un nuevo objeto
(E13,E19) 89% similar
Elementos E4 y E6 son 84% similares y se pueden considerar un nuevo objeto (E4,E6)
84% similar
Figura 4.15: Matriz de proximidad (iteración 2)
Figura 4.16: Matriz de proximidad (iteración 3)
Figura 4.17: Matriz de proximidad (iteración 4)
Figura 4.18: Matriz de proximidad (iteración 5)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 160
Elementos E7 y E10 son 83% similares y se pueden considerar un nuevo objeto (E7,E10) 83% similar
Elementos E11 y E12 son 83% similares y se pueden considerar un nuevo objeto
(E11,E12) 83% similar
Elementos E15 y [(E1,E3),E17] son 79% similares y se pueden considerar un nuevo objeto
{[(E1,E3),E17] ,E15} 79% similar
Elementos E5 y E14 son 79% similares y se pueden considerar un nuevo objeto (E5,E14)
79% similar
Figura 4.19: Matriz de proximidad (iteración 6)
Figura 4.20: Matriz de proximidad (iteración 7)
Figura 4.21: Matriz de proximidad (iteración 8)
Figura 4.22: Matriz de proximidad (iteración 9)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 161
Elementos E16 y (E4,E6) son 74% similares y se pueden considerar un nuevo objeto
[(E4,E6),E16] 74% similar
Elementos E8 y (E7,E10) son 74% similares y se pueden considerar un nuevo objeto
[(E7,E10),E8] 74% similar
Elementos E9 y (E13,E19) son 74% similares y se pueden considerar un nuevo objeto
[(E13,E19),E9] 74% similar
Elementos E2 y E18 son 70% similares y se pueden considerar un nuevo objeto (E2,E18)
70% similar
Figura 4.23: Matriz de proximidad (iteración 10)
Figura 4.24: Matriz de proximidad (iteración 11)
Figura 4.25: Matriz de proximidad (iteración 12)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 162
Elementos [(E4,E6),E16] y (E11,E12) son 64% similares y se pueden considerar un nuevo objeto {[(E4,E6),E16],(E11,E12)} 64% similar
Elementos {[(E1,E3),E17] ,E15} y (E2,E18) son 63% similares y se pueden considerar un
nuevo objeto {[(E1,E3),E17] ,E15},(E2,E18) 63% similar
Elementos [(E13,E19),E9] y (E5,E14) son 54% similares y se pueden considerar un nuevo
objeto {[(E13,E19),E9],(E5,E14)} 54% similar
Figura 4.26: Matriz de proximidad (iteración 13)
Figura 4.27: Matriz de proximidad (iteración 14)
Figura 4.28: Matriz de proximidad (iteración 15)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 163
Elementos [(E7,E10),E8] y {[(E4,E6),E16],(E11,E12)} son 51% similares y se pueden
considerar un nuevo objeto[(E7,E10),E8],{[(E4,E6),E16],(E11,E12)} 51% similar
Elementos {[(E4,E6),E16],(E11,E12)} y [(E7,E10),E8][E13,E19] y son 43% similares y se
pueden considerar un nuevo objeto {[(E4,E6),E16],(E11,E12)} [(E7,E10),E8][E13,E19] 43% similar.
Finalmente, los dos últimos clusters tendrían un 38% de similitud. A partir de las mallas construidas, los resultados obtenidos se pueden visualizar en un
dendrograma:
Figura 4.29: Matriz de proximidad (iteración 16)
Figura 4.30: Matriz de proximidad (iteración 17)
Figura 4.31: Matriz de proximidad (iteración 18)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 164
Figura 4.32:Dendrograma resultante
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 165
4.3.3.6 Otros cálculos realizados Identificar rutas con plazos de entrega distintos a la ida y a la vuelta
Puede ser interesante encontrar rutas en las que el plazo medio de entrega sea diferente
para cartas con la misma ruta, en las que se intercambien el origen y el destino. Por ejemplo,
podemos descubrir que una carta básica enviada desde Lugo a Toledo tarda de media 2 días,
mientras que de Toledo a Lugo tarda 5 días.
Para obtener esta información hay que realizar la siguiente consulta:
select PM1.provincia_origen, PM1.provincia_destino, PM1.plazo_medio as PlazoMedioIDA, PM2.plazo_medio as PlazoMedioVUELTA, PM1.plazo_medio-PM2.plazo_medio as Diferencia
from datawarehouse.dbo.plazomedio as PM1,datawarehouse.dbo.plazomedio as PM2
where (PM1.provincia_origen=PM2.provincia_destino AND PM1.provincia_destino=PM2.provincia_origen AND PM1.plazo_medio>PM2.plazo_medio)
order by 5 DESC,1,2 obteniendo resultados del tipo:
Provincia Origen Provincia Destino PlazoMedioIDA PlazoMedioDESTINO DiferenciaGuadalajara Soria 7 1 6
Sevilla Melilla 8 2 6 Badajoz Lérida 6 1 5
Cantabria Baleares 7 2 5 Huelva Tarragona 7 2 5
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 166
4.4 EVALUACIÓN Y PRUEBAS En esta fase se evalúan los patrones y se analizan por los expertos, y si es necesario vuelve
a las fases anteriores para una nueva iteración. Esto incluye resolver posibles conflictos con el
conocimiento que se disponía anteriormente.
Para la evaluación de los modelos de Minería de Datos es preciso conocer los conceptos de
confianza, soporte y excepciones.
La confianza mide cuan dependiente es un ítem de otro o dicho de otra forma, es el
porcentaje especifico de ocurrencia y se expresa como un porcentaje.
Otro punto a considerar es el número de filas que �soporta� un patrón. El soporte mide la
frecuencia en que los ítems aparecen juntos.
Las excepciones se definen como un patrón débil que existe junto con las filas de patrones
más poderosos.
La evaluación de la herramienta de Data Mining se ha elaborado mediante el
establecimiento de un conjunto de entrenamiento. La generación de un conjunto de
entrenamiento es un método de aprendizaje automático inductivo que pretende extraer
conocimiento a partir de un conjunto de ejemplos. Ese conjunto de ejemplos se llama conjunto
de entrenamiento. Son ejemplos de decisiones tomadas por un experto que describen por tanto la
decisión tomada.
En nuestro caso el conocimiento está recogido en una Base de Datos. Podríamos generar
registros similares a los de la Base de Datos, pero perderíamos fiabilidad. Pretendemos obtener
un conjunto significativo de todas las decisiones tomadas por el experto. Y para ello, ¿qué mejor
forma de hacerlo que obtenerlos directamente a partir de la Base de Datos?
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 167
Bastaría simplemente con registrar en forma de tabla un conjunto de registros extraídos
aleatóriamente de la Base de Datos. Cuánto más grande sea el conjunto de entrenamiento, más
fiable y aproximado a la Base de Conocimiento de que disponemos será.
El número de registros que se van a generar será a selección del usuario. De ese modo, el
usuario de la aplicación, en el momento que lo necesite, podrá generar un conjunto de
entrenamiento tan grande como le sea necesario. No obstante, al ser una Base de Datos muy
grande y seleccionar los registros aleatóriamente, requerirá un tiempo directamente proporcional
al número de registros que haya elegido.
El usuario puede establecer el conjunto de entrenamiento desde la aplicación desarrollada:
Los métodos de aprendizaje permiten construir modelos o hipótesis a partir de un conjunto
de datos, o evidencia. En la mayoría de los casos es necesario evaluar la calidad de las hipótesis
de la manera más exacta posible. Por lo tanto, la etapa de evaluación de modelos es crucial para
la aplicación real de las técnicas de minaría de datos. Sin embargo establecer medidas justas y
exhaustivas no es tarea sencilla. Una primera aproximación nos llevaría a utilizar el propio
conjunto de entrenamiento como referencia para evaluar la calidad de un modelo. Sin embargo,
Figura 4.33: Interfaz para establecer conjunto de entrenamiento
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 168
esta aproximación es del todo equivocada, ya que premia los modelos que se ajustan más al
conjunto de entrenamiento, por lo que favorecen los modelos que sobreajustan el conjunto de
datos de entrenamiento y no generalizan para otros datos.
Consecuentemente, una mejor opción es evaluar los modelos sobre un conjunto de datos
diferente al conjunto de entrenamiento. En las siguientes secciones abordamos diferentes
técnicas de evaluación basadas en esta partición de los datos de una evidencia en dos partes, una
para el aprendizaje (entrenamiento), y otra para la evaluación (test).
Otra aproximación, más realista por lo general, es la evaluación basada en costes. En este
tipo de evaluación se avalúa el coste de los errores cometidos por un modelo. En este contexto,
el mejor modelo es el modelo que comete errores con menor coste asociado, no el modelo que
cometa menor número de errores.
Por otra parte, los modelos de regresión no pueden evaluarse comparando si la clase
predicha es igual, o no, a la clase real, ya que la clase es de tipo numérico. En estos casos, se
utiliza la distancia entre ambos valores, ya sea real o cuadrática. El mejor modelo es, entonces, el
modelo que minimice la distancia media entre ambos valores de los puntos utilizados para la
evaluación.
La evaluación de los modelos descriptivos es bastante complicada. Esto se debe
fundamentalmente a la ausencia de una clase donde medir el grado de acierto de un modelo. Es
por ello que las medidas de evaluación de modelos descriptivos se basan en conceptos tales
como la complejidad del modelo y de los datos a partir del modelo, o bien, en agrupamiento, el
nivel de compactación de los diferentes grupos.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 169
4.4.1 Evaluación del algoritmo de Clasificación
Árboles de decisión ID3: Este algoritmo lo ejecutaremos sobre un conjunto de prueba, ya que
de otro modo nos saldría un árbol enorme que nos saturaría la memoria del PC. En este caso, el
conjunto de entrenamiento generado consta de 500 registros seleccionados aleatóriamente, y
generamos el árbol ID3 cogiendo como criterio de clasificación el atributo �estado�. Como
posibles separadores seleccionaremos el peso, el formato y la línea (ordinaria/urgente). Dado que
no hemos seleccionado demasiados separadores, y que el árbol no es excesivamente grande, el
sistema tarda poco en representárnoslo gráficamente. Una vez representado, podemos pedirle que
nos muestre los datos correspondientes a las entropías y a los mejores separadores.
Los mejores separadores seleccionados, son, por este orden:
- Formato
- Línea
- Peso
Se han seleccionado estos separadores para no tener más de 3 valores discretos, lo que agiliza la
ejecución del programa. Además, son los factores que más probablemente puedan repercutir
sobre el estado de llegada de la carta. Si entráramos a analizar otros factores, como la
Comunidad Origen, tendríamos 52 valores posibles para este atributo, por lo que un nodo
dividido mediante este separador pasaría a tener 52 nodos hijos, lo que ralentizaría mucho la
ejecución.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 170
Las entropías calculadas por el programa son las que pueden verse a continuación:
Como podemos ver, hay algunos nodos del árbol que quedan perfectamente clasificados.
NOTA: Este algoritmo ha sido probado sobre otra BBDD (setas.mdb) para clasificar el tipo de
seta venenosa o comestible a partir de características de localización (árbol o pradera), altura,
color,... , cuyos resultados se han calculado manualmente y los resultados obtenidos han
coincidido con los que visualiza la herramienta.
Figura 4.34:Resultados de los cálculos de entropía para cada nodo
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 171
4.4.2 Evaluación del algoritmo de Predicción
Predecir plazo de entrega y estado de recepción:
Este algoritmo parte de unos factores de certeza calculados previamente sobre la totalidad de los
datos. Los valores predichos serán mucho más fiables si para su cálculo se ha cogido la totalidad
de los datos que si sólo se han cogido unos pocos. Por tanto, al ejecutar esta parte de la
aplicación, el usuario introduce unas variables de entrada que en este caso serían:
- Provincia Origen
- Provincia Destino
- Línea
- Formato
- Peso
- Método de inducción
Y la aplicación le calcularía el plazo de entrega estimado así como el estado de recepción. Por
ejemplo, si seleccionamos una carta que va de Madrid a Barcelona (Flujo Nacional) por línea
ordinaria, con formato A4, peso entre 50 y 100 gr y la enviamos desde un buzón, el programa
estima con un 58 % de probabilidad que la carta llegará temprano y en buen estado.
Las conclusiones más importantes que se han extraído del cálculo de estos factores de certeza
son:
- Cuando se envía una carta por correo ordinario a nivel nacional, es muy probable que
llegue antes de tiempo y en buen estado
- A nivel local, el correo ordinario es bastante probable que se retrase, aunque llegaría en
buen estado
- A nivel provincial, el correo ordinario llegaría con mayor probabilidad, a tiempo y en
buen estado.
El formato de la carta y el peso de la carta afectan aproximadamente por igual en la calidad del
servicio, ya que por lo general, una carta grande pesa más.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 172
4.4.3 Evaluación del algoritmo de Clustering
Clustering jerárquico: En este caso se va a probar sobre la totalidad de los datos, puesto que
sería imposible extraer conclusiones si lo calculáramos únicamente para un conjunto de
entrenamiento. En la aplicación se parte de la totalidad de los datos y se van agrupando las
comunidades según el parecido que tengan en cada una de sus variables. Después de realizar las
agrupaciones, la aplicación nos muestra el dendrograma.
En esta pantalla se puede ver la matriz completa, todavía sin normalizar.
Por último, después de varias iteraciones que se van viendo por pantalla, vemos el dendrograma:
Figura 4.35: Interfaz de la aplicación con la malla inicial
Figura 4.36: Interfaz de la aplicación con el dendrograma generado
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 173
En este dendrograma podemos apreciar gráficamente las comunidades autónomas que más se
parecen. De entre las comunidades que más se parecen cabe destacar:
- Andalucía y Asturias, junto con Murcia, son las que más se parecen entre sí.
- País Vasco y Galicia, junto con Cataluña también se parecen mucho. Esto es notable ya
que son las únicas comunidades que tengan otra lengua oficial reconocida aparte del
castellano
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 174
5. INTERPRETACIÓN DE RESULTADOS OBTENIDOS
5.1 Interpretación del árbol de decisión ID3
En la figura 5.1 se muestra un ejemplo del árbol resultante para el atributo de clase �estado�
y las columnas dependientes �peso�, �linea�, y �formato�.
Se desea predecir el estado de llegada de una carta. Para ello, los mejores separadores son: · Formato · Línea · Peso
5. INTERPRETACIÓN DE RESULTADOS OBTENIDOS
Figura 5.1: Árbol generado con atributo de clase �estado� y columnas dependientes �peso�, �linea�, y �formato�
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 175
Figura 5.2: Separadores seleccionados para clasificar el estado de recepción
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 176
5.2 Estimación de probabilidad Ejemplos de estimaciones para cartas ordinarias, tamaño A4, peso entre 50-100 gr e inducidas en
un centro de inducción masiva
TIPO DE FLUJO ESTADO DE RECEPCIÓN
PLAZO ENTREGA PROBABILIDAD
Nacional Temprano Bueno 0.62
Provincial Temprano Bueno 0.48
Local A tiempo Bueno 0.51
Análisis del flujo local:
Una carta con origen y destino la misma localidad llegará al día siguiente de la fecha de depósito
con un 65% de probabilidad, en un 25% pasados dos días y más de dos días con un 10% de
probabilidad.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 177
Análisis del flujo provincial:
Una carta con origen y destino la misma provincia llegará al segundo dia de la fecha de
depósito con un 64% de probabilidad, al día siguiente de la fecha de depósito con un 15%
de probabilidad y más de dos días con un 21% de probabilidad.
Análisis del flujo nacional:
Una carta con origen y destino la distintas provincias llegará al día siguiente de la fecha de
depósito con un 8% de probabilidad, en un 21% pasados dos días y más de dos días con un 71%
de probabilidad.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 178
5.3 Análisis del coeficiente de correlación lineal Puede ser interesante analizar los datos en busca de una posible relación entre el estado de
recepción de las cartas test y la distancia recorrida.
Para ello utilizaremos el análisis de regresión lineal entre dos variables numéricas (plazo
medio y kilómetros). Mediante el análisis de regresión lineal se puede ver si una determinada
variable o columna depende directamente de otra variable.
Haremos un estudio de estas variables para distintos grupos de datos de entrada:
- Plazo medio de cartas recibidas en mal estado
- Plazo medio de cartas ordinarias
- Plazo medio de cartas urgentes
En los tres datos de entrada, se dispone de información sobre:
- provincia origen
- provincia destino
- número de cartas enviadas desde la provincia origen a la de destino
- número total de cartas enviadas desde la provincia origen a la de destino
- kilómetros de distancia entre la provincia origen y la de destino
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 179
- Plazo medio de cartas recibidas en mal estado
- La distancia recorrida apenas influye en el deterioro de una carta (r=0.15)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 180
Plazo medio de cartas ordinarias
- En el correo ordinario, influye relativamente la distancia recorrida en el plazo de entrega (r=0.42)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 181
Plazo medio de cartas urgentes
- En el correo urgente, no influye la distancia recorrida en el plazo de entrega (r=0.29)
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 182
5.4 Análisis de curvas univariables Tras realizar el ajuste de curva univariable, las gráficas obtenidas se pueden clasificar en cuatro
tipos.
Tipo 1:
Mediante esta gráfica se identifican comunidades que se comportan de forma distinta en verano
que en invierno. Se ven influenciadas por el periodo vacacional (en verano disminuye y en
invierno aumenta.
Tipo 2:
Mediante esta gráfica se identifican comunidades que se comportan de forma escalonada (dentro
del mismo mes hay semanas que se producen más cartas que otras).
Tipo 3:
Mediante esta gráfica se identifican comunidades que se comportan de forma constante en el
tiempo.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 183
Tipo 4:
Mediante esta gráfica se identifican comunidades con escaso volumen de producción (Ej.:
Ceuta).
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 184
5.5 Análisis de los clusters generados
Tras aplicar el algoritmo de clustering jerárquico se puede observar en el dendrograma que
existen tres grupos bien diferenciados.
Cluster1: Madrid, Andalucía, Asturias, Murcia, Aragón
Cluster2: País Vasco, Galicia, Cataluña, La Rioja, Canarias
Cluster 3: Cantabria, Baleares, Melilla, Extremadura, Comunidad valenciana, Ceuta,
Castilla La Mancha, Castilla y León
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 185
Las comunidades autónomas más parecidas son:
- Andalucía y Asturias, junto con Murcia
- País Vasco y Galicia
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 186
6. CONCLUSIONES
Un Sistema Data Mining nos permite analizar factores de influencia en determinados
procesos, predecir o estimar variables o comportamientos futuros, segmentar o agrupar ítems
similares, además de obtener secuencias de eventos que provocan comportamientos específicos.
La minería de datos es una herramienta que permite convertir los datos recogidos durante
el funcionamiento normal de nuestro negocio en información valiosa. No es una tecnología que
suplante a otras, sino que es complementaria y, en muchos casos, se aprovecha de lo que otros
mecanismos, como la estadística, puedan aportarle.
La llegada del Data Mining se considera como la última etapa de la introducción de
métodos cuantitativos, científicos en el mundo del comercio, industria y negocios. Desde ahora,
todos los no-estadísticos -es decir el 99,5% de nosotros - pueden construir modelos exactos de
algunas de sus actividades, para estudiarlas mejor, comprenderlas y mejorarlas.
Beneficios
- Extraer información táctica y estratégica almacenada en sus Data Warehouse
- La búsqueda de patrones la realiza en forma automatizada, por medio de herramientas
que ejecutan el descubrimiento, generando modelos mediante la aplicación de diferentes
técnicas
- No requiere de personal experto en ciencias estadísticas o altamente entrenado en estas
ciencias, por el contrario, es suficiente un especialista en análisis de datos y un experto en
las áreas de la organización, que tengan conocimientos básicos en áreas estadísticas que
les permita entender y aplicar los resultados.
6. CONCLUSIONES
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 187
Problemas
- La falta, por parte de las organizaciones, de un repositorio histórico, especialmente un
Data Warehouse (o Data Marts), además de no contar con bases de datos bien definidas,
con datos íntegros, consistentes, es decir, con datos en condiciones para la aplicación del
Data Mining.
- En otras palabras, la falta de una cultura informática y una visión corporativa, juegan un
papel negativo al momento de aplicar el proceso de Data Mining. En organizaciones con
estas características, el proceso puede requerir más tiempo, pero con una adecuada
reestructuración de las bases de datos, creación de buenos repositorios y una serie de
medidas, se pueden obtener buenos resultados pero con un gasto mayor de tiempo.
Conclusiones obtenidas tras el análisis de curva univariable:
Muchas veces la intuición humana asociada al profundo conocimiento del dominio del
problema produce resultados asombrosos, pero cuando se pregunta a la persona que realizo la
predicción en que se baso, ésta muchas veces no sabe que decir, otras da fundamentos demasiado
ambiguos, superficiales y contradictorios en base a los cuales parece imposible realizar un
algoritmo. Sin embargo hay formas de modelado en utilizando Fuzzy Logic que podrían
incorporar esta experiencia a la predicción.
# Durante el verano se produce un descenso en el correo producido. Esto debe ser debido a
que en el periodo vacacional se envían/reciben menor cantidad de cartas.(vacaciones de
la empresa)
# Durante el invierno se produce un aumento en el correo producido. Este puede ser debido
a que en la época de navidad se incremente el número de cartas (felicitaciones navideñas)
Conclusiones obtenidas tras analizar el árbol ID3 generado:
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 188
# Para clasificar el estado de recepción según línea, formato y método de inducción los
separadores/atributos que influyen en que una carta llegue en buen o mal estado son el
método de inducción, formato y línea, en este orden.
Conclusiones obtenidas tras las regla de asociación:
� Correo ordinario a nivel nacional
$ Llegará temprano y en buen estado
� Correo ordinario local
$ Llegará tarde pero en buen estado
� Correo ordinario provincial
$ Llegará a tiempo y en buen estado.
� El formato y el peso afectan por igual en la calidad del servicio
Conclusiones obtenidas tras analizar el clustering jerárquico:
# Se han identificado tres grupos con patrones de comportamiento similares en lo referente
a al tratamiento de cartas producidas:
1. norte España y Canarias
2. interior y costa mediterránea
3. resto
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 189
7. BIBLIOGRAFÍA
• [Adriaans, 96] Adriaans, P. W.; Zantige, D.: �Data Mining�. Addison-Wesley, 1996.
• [Berger, 04] Berger, C., �Oracle Data Mining�, Oracle Corporation, U.S.A., Septiembre
2004.
• [Berry, 96] Berry, M. J. A.; Linoff, G.: �Data Mining Techniques�. Wiley Computer
Publishing. New York, 1996.
• [Fayyad, 96a] Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P.; �The KDD Process for
Extracting Useful Knowledge from Volumes of Data�. Communications of the ACM,
November 1996.
• [Fayyad, 96b] Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P.; Uthurusame, R. (Eds):
�Advances in Knowledge Discovery and Data Mining�. AAAI/MIT Press, Cambridge
MA, 1996.
• [Glymour, 96] Glymour C., D. Madigan, D. Pregibon y P. Smyth, �Statistical Inference
and Data Mining�, Communication of the ACM, Noviembre 1996.
• [Han ] Han, J. y M. Kamber, �Data Mining: Concepts and Techniques�.
• [Llovet, 00] Llovet, Juan, �Statgraphics plus 4�, Anaya.
• [Orallo ] Orallo, J., M.Ramirez, C. Ferri, �Introducción a la Minería de Datos�, Prentice
Hall.
• Principles of Data Mining. Prentice Hall.
• Visual Data Mining: Techniques and Tools for Data Visualitation and Mining
• The Handbook of Data Mining. Lawrence Erlbaum Associates, Publishers.
• MIT Press - Principles of Data Mining
• �Strategic Perspectives on the Postal Market 2002-2004� International Post Corporation,
Enero 2002
• �Quality-of-Service Measurement and Performance Monitoring� IBM Postal Solutions,
Marzo 2004
• �Logistics Management� IBM Postal Solutions, Septiembre 2004
• �The Postal Industry 2010� Posteurop.org
7. BIBLIOGRAFÍA
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 190
• �Plan Estratégico 2001-2003� Correos 2000
• �POST-EXPO 2002 Quality of Service Monitoring� Bjarne Sorensen
• �Un Punto de Encuentro para el Mundo Postal� Documentación del Foro Postal Europa-
América de 2002 en Madrid
Internet # Knoledge Discovery Network of Excellence, www.kdnet.org
# Laboratorio de Inteligencia Artificial del MIT, www.ai.mit.edu
# Web de Correos y Telégrafos, www.correos.es
# Association of European Public Postal Operators, www.posteurop.org
# Visual Basic Data Mining .NET, www.visual-basic-data-mining.net
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 191
El Proyecto consta de las siguientes etapas con su duración estimada:
1. Fase de Análisis 88 días Comprensión del negocio 46 días Identificación del problema 17 días Estudiar posibles soluciones con Data Mining 30 días Definición de requisitos y alcance de la aplicación 15 días Análisis de viabilidad 6 días 2. Fase de Recopilación de datos 45 días Determinar fuentes de información 20 días Comprensión de los datos 40 días Datos recopilados 0 días 3. Fase de Preparación de los datos 73 días Limpieza de datos (cleaning) 28 días · Valores anómalos 18 días · Valores faltantes 10 días Selección de atributos 15 días Transformación 25 días Codificación 5 días Datos preparados para minar 0 días 4. Fase de Construcción del modelo de Minería de Datos 74 días Creación de la vista minable 10 días Seleccionar método de Minería de Datos 10 días Desarrollar de algoritmos de Data Mining 64 días · Análisis 7 días · Diseño 10 días · Construcción 40 días · Pruebas 7 días 5. Fase de Evaluación, interpretación y validación 34 días Identificación y caracterización del conjunto de entrenamiento 10 días Cálculo de incertidumbre 7 días Pruebas de validación 10 días Utilización de la herramienta de Data Mining desarrollada 7 días 6. Fase de Difusión y uso del nuevo conocimiento 16 días Generación de informes 11 días Visualización del conocimiento obtenido 11 días Dendrogramas 16 días Resultados según ubicación geográfica 16 días
8. PLANIFICACIÓN TEMPORAL
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 192
7.Interfaz de la aplicación 33 días Módulo de registro e importación de datos 11 días Módulo de preparación de datos 16 días Módulo de creación de la vista minable 11 días Módulo para la búsqueda de patrones de la vista minable 11 días Módulo para la visualización de resultados 11 días 8. Elaboración de manuales de la aplicación 5 días 9. Documentación del Proyecto 200 días
Total duración estimada del PFC: 242 días
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 193
A continuación se muestra el diagrama de Gantt correspondiente:
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 194
A) FASE INICIAL 75.200,00 � Personal de Gestión 68.400,00 �
2 coordinadores 12 meses (2.000�*2*12) 48.000,00 � 1 grabador 12 meses ( 1.700 �*12) 20.400,00 � Suplemento de personal (1.000� * 12) 12.000,00 �
Gastos de teléfono de Gestión de Red 4.800,00 �
Estimación de una media mes de 400 � 4.800,00 �
Selección de voluntarios 2.000,00 �Panelistas (remitentes y destinatarios) tanto empresas como
particulares 2.000,00 �
B) FASE DESARROLLO 10.000,00 �Recopilación de Datos 2.000,00 � Limpieza de Datos 1.000,00 � Desarrollo de Algoritmos de Minería 6.000,00 � Evaluación, Interpretacion y Validación 1.000,00 �
C) FASE OPERATIVA 13.850,00 � PRODUCCIÓN 11.550,00 � Paquete remitente 11.060,00 �- Cartas test
- Normalizado 1.000,00 � - C5 300,00 � - A4 500,00 �
- Sobres de envío (53 semanas) 2.000,00 � - Sobre de retorno (53 semanas) 2.000,00 � - Etiquetas 200,00 � - Papel + fotocopia de las etiquetas 50,00 � - Impresión de hoja resumen y de ficha envío fajos 600,00 � - Impresión de formulario de recepción 3.000,00 � - Producción de papel (hoja resumen+ficha envío fajos+formulario) 1.000,00 � - Producción de papel de relleno
- Hasta 20 gr. (0) 10,00 � - De 20 a 50 (3 hojas) 100,00 � - De 50 a 100 (8 hojas) 300,00 �
Paquete destinatario 490,00 �- Sobre de envío 100,00 � - Sobre de retorno (53 semanas) 300,00 �
9. PRESUPUESTO
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 195
- Etiquetas para sobres de envío (adhesivos) 10,00 � - Etiquetas para sobres de envío (fotocopias) 20,00 � - Manipulado (casado, ensobrado de 7 elem. y sobres de retorno y pegado de sellos) 60,00 � MANIPULADO PAQUETE DEL REMITENTE 1.900,00 � - Rellenos de los envíos 300,00 � - Paquetes de los remitentes 1.000,00 � - Pegado de sellos 600,00 � MOTIVACIÓN RED 100,00 � - Comunicación de vacaciones (verano y navidades) 100,00 �
RECOPILACIÓN DE LOS DATOS 300,00 � Total - Almacenaje fisico de carta 300,00 � TOTAL SIN IVA 89.050,00 � TOTAL CON IVA 103.298,00 �
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 196
8. ANEXOS
Reglas de Predicción (FCs)
10. ANEXOS
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 197
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 198
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 199
Glosario de términos Algoritmos genéticos: Técnicas de optimización que usan procesos tales como
combinación genética, mutación y selección natural en un diseño basado en los conceptos de
evolución natural.
Análisis de series de tiempo (time-series): Análisis de una secuencia de medidas hechas a
intervalos específicos. El tiempo es usualmente la dimensión dominante de los datos.
Análisis prospectivo de datos: Análisis de datos que predice futuras tendencias,
comportamientos o eventos basado en datos históricos.
Análisis exploratorio de datos: Uso de técnicas estadísticas tanto gráficas como
descriptivas para aprender acerca de la estructura de un conjunto de datos.
Análisis retrospectivo de datos: Análisis de datos que provee una visión de las
tendencias, comportamientos o eventos basado en datos históricos.
Árbol de decisión: Estructura en forma de árbol que representa un conjunto de decisiones.
Estas decisiones generan reglas para la clasificación de un conjunto de datos. Ver CART y
CHAID.
Base de datos relacional: Es una base de datos donde éstos se almacenan en tablas
conectadas o "relacionadas" entre sí. Una tabla puede contener direcciones y otra, la facturación.
No es como un fichero plano, donde cada registro es un cliente, sino que cada variable está en
una tabla propia.
Base de datos multidimensional: Base de datos diseñada para procesamiento analítico on-
line (OLAP). Estructurada como un hipercubo con un eje por dimensión.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 200
Borrosificar: Convertir en flexible o capaz de manipular la imprecisión del lenguaje
humano.
Bundle: Fajo. A continuación se muestra la relación entre un paquete, formado por
muchos fajos, cada uno de los cuales puede estar formado por una o más cartas.
CART Árboles de clasificación y regresión: Una técnica de árbol de decisión usada para
la clasificación de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un
nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado.
Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparación de datos que
CHAID .
CHAID Detección de interacción automática de Chi cuadrado: Una técnica de árbol de
decisión usada para la clasificación de un conjunto da datos. Provee un conjunto de reglas que se
pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán
un cierto resultado. Segmenta un conjunto de datos utilizando tests de chi cuadrado para crear
múltiples divisiones. Antecede, y requiere más preparación de datos, que CART.
Clasificación: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes
de tal manera que cada miembro de un grupo esté lo "más cercano" posible a otro, y grupos
diferentes estén lo "más lejos" posible uno del otro, donde la distancia está medida con respecto a
variable(s) específica(s) las cuales se están tratando de predecir. Por ejemplo, un problema típico
de clasificación es el de dividir una base de datos de compañías en grupos que son lo más
homogéneos posibles con respecto a variables como "posibilidades de crédito" con valores tales
como "Bueno" y "Malo".
Cluster: Clasificación, grupo.
FAJOPAQUETE CARTAFAJOPAQUETE CARTACARTA
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 201
Cluster: nº max de cartas en un fajo
Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos
mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano"
posible a otro, y grupos diferentes estén lo "más lejos" posible uno del otro, donde la distancia
está medida con respecto a todas las variables disponibles.
Computadoras con multiprocesadores: Una computadora que incluye múltiples
procesadores conectados por una red. Ver procesamiento paralelo.
Correo producido: correo cancelado + correo válido
Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean
consistentes y correctamente registrados.
Data Mart: Subconjunto de Data Warehouse, normalmente para un departamento
concreto.
Data Mining: La extracción de información predecible escondida en grandes bases de
datos.
Data Warehouse: Sistema para el almacenamiento y distribución de cantidades masivas
de datos
Datos anormales: Datos que resultan de errores (por ej.: errores en el tipeado durante la
carga) o que representan eventos inusuales.
Dimensión: En una base de datos relacional o plana, cada campo en un registro representa
una dimensión. En una base de datos multidimensional, una dimensión es un conjunto de
entidades similares; por ej.: una base de datos multidimensional de ventas podría incluir las
dimensiones Producto, Tiempo y Ciudad.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 202
Estacionalidad: Distribución de producción (%) por línea de producto y mes.
Función de Agregación: Función que permite unir los valores de varias variables de el
mismo tipo en un único valor.
Knowledge Discovery in Databases (KDD): proceso de descubrimiento automático de
patrones previamente desconocidos, reglas y otros contenidos regulares que se encuentren
presentes implícitamente en grandes volúmenes de datos.
Metadatos: Diccionario de definiciones de los datos almacenados. Es como una biblioteca
que recoge cómo, dónde y qué datos se han incorporado en el Data Warehouse.
Modelo analítico: Una estructura y proceso para analizar un conjunto de datos. Por
ejemplo, un árbol de decisión es un modelo para la clasificación de un conjunto de datos
Modelo lineal: Un modelo analítico que asume relaciones lineales entre una variable
seleccionada (dependiente) y sus predictores (variables independientes).
Modelo no lineal: Un modelo analítico que no asume una relación lineal en los
coeficientes de las variables que son estudiadas.
Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas
en un conjunto de datos.
Navegación de datos: Proceso de visualizar diferentes dimensiones, "fetas" y niveles de
una base de datos multidimensional. Ver OLAP.
ODBC: Open Database Connectivity. Permite el acceso desde aplicaciones Microsoft a
diferentes gestores de bases de datos como, por ejemplo, Oracle.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 203
OLAP: Procesamiento analítico on-line (On Line Analitic prossesing). Se refiere a
aplicaciones de bases de datos orientadas a array que permite a los usuarios ver, navegar,
manipular y analizar bases de datos multidimensionales.
Outlier: Un item de datos cuyo valor cae fuera de los límites que encierran a la mayoría
del resto de los valores correspondientes de la muestra. Puede indicar datos anormales. Deberían
ser examinados detenidamente; pueden dar importante información.
Patrón del Dropper: días que tiene marcados como posibles para inducir correo.
Procesamiento paralelo: Uso coordinado de múltiples procesadores para realizar tareas
computacionales. El procesamiento paralelo puede ocurrir en una computadora con múltiples
procesadores o en una red de estaciones de trabajo o PCs.
RAID: Formación redundante de discos baratos (Redundant Array of inexpensive disks).
Tecnología para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de
alto rendimiento.
Regresión lineal: Técnica estadística utilizada para encontrar la mejor relación lineal que
encaja entre una variable seleccionada (dependiente) y sus predicados (variables independientes).
Selección: Operación consistente en seleccionar de una base de datos a individuos que
respondan a las características de una acción concreta. Incluso si, después de la selección,
quedasen pocos destinatarios de la oferta, el índice de respuesta será muy superior al de una
oferta tradicional.
Sistema Experto: El que es capaz de razonar siguiendo un proceso semejante al que
emplea un especialista humano en la materia a la que concierne el problema a tratar cuando lleva
a cabo su resolución. Dicho sistema, que actúa simultáneamente como sistemas de ejecución y de
transmisión de conocimientos, está constituido por tres partes principales: la base de
conocimientos, de la que forman parte las informaciones específicas, correspondientes al campo
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 204
en cuestión. La memoria de trabajo o base de hechos, que contiene los datos concernientes al
problema que se desea tratar y en la que la memorización de todos los resultados intermedios
permite, además de la explicación del origen de las informaciones deducidas, la descripción del
comportamiento del propio sistema. El motor de inferencia, es un programa que con los
conocimientos y heurísticos (mecanismos específicos del proceso de descubrimiento) contenidos
en la base de conocimientos resuelve el problema concreto, especificado gracias a los datos
contenidos en la memoria de trabajo.
Software: Los sistemas de tratamiento de datos informáticos se componen, además de sus
interconexiones, de dos partes principales: el hardware o equipo físico y el software o equipo
lógico. Este último compuesto por todos los programas que existen para el mencionado sistema.
Structured Query Language (SQL): Lenguaje estructurado de consultas. Este lenguaje es
un conjunto de instrucciones que permite realizar diversas operaciones sobre los datos
almacenados en una Base de Datos Relacional. Estas bases de datos son aquellas que se
caracterizan porque la información está contenida en estructuras, llamadas tablas, donde los
datos están dispuestos en filas y columnas y donde existen relaciones entre las distintas tablas de
una misma base de datos.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 205
Manual de usuario A continuación se describe el manual de usuario de la Herramienta de Data Mining.
La finalidad de esta herramienta es poder realizar un análisis inteligente de los datos,
identificar patrones novedosos y potencialmente útiles a partir de una origen de datos, ya sea en
local o mediante una fuente de datos ODBC. Esta herramienta utiliza las siguientes técnicas de
Minería de Datos: segmentación, árboles de decisión, reglas de asociación, regresión lineal y
ajuste de curva univariable.
Al abrir la aplicación, nos encontramos con una pantalla de bienvenida.
Si le damos a siguiente, nos da la opción de utilizar un modelo que ya hayamos creado
previamente, o de crear uno nuevo.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 206
Cree un nuevo modelo e indique el tipo de modelo y la tarea de minería que desea realizar. Una
vez creado un modelo, puede ejecutarlo y guardar los resultados.
En caso de que le demos a crear un nuevo modelo, el sistema nos pedirá que introduzcamos los
datos del mismo, es decir, el nombre, la fecha y una descripción (opcional).
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 207
Luego, deberemos seleccionar el origen de los datos. Navegaremos en busca del fichero mdb que
contenga la BBDD y la seleccionaremos.
Ya tenemos el modelo creado. Ahora ya pasaríamos a seleccionar el algoritmo que quisiéramos
aplicar.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 208
Nos encontramos con algoritmos de diversos tipos, que son: Clustering
� Clustering jerárquico: Si seleccionamos este algoritmo, tenemos la opción de
ejecutarlo sobre la totalidad de los datos. El sistema irá iterando paso a paso hasta
generar el dendrograma que representa aquellas provincias que más se parecen
entre sí.
Y por último mostrará el resultado en forma de dendrograma.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 209
Al pulsar en �Estadísticas� mostrará los detalles de los clusters generados, junto con su
localización geográfica.
Clasificación
� Árboles ID3: Primero deberemos seleccionar el origen de los datos, que en
nuestro caso sería Microsoft Jet 4.0 para un archivo mdb, y luego elegiríamos la
ubicación del mismo.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 210
A continuación, el sistema nos pide que seleccionemos la tabla que queramos
clasificar.
Una vez seleccionada, deberemos seleccionar el atributo por el que queramos
clasificar los datos, y finalmente todos los posibles separadores. Con todo ello, el
sistema calculará el árbol ID3, que nos mostrará gráficamente.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 211
También tenemos la opción de ver las entropías si pulsamos en �Detalles�.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 212
Predicción
� Estimación de probabilidad: Esto, que no es un algoritmo propiamente dicho,
nos permite predecir, en base a unas variables de entrada, el estado y el plazo de
entrega de una carta. Los datos que deberemos introducir son la provincia de
origen y de destino, el tipo de línea (ordinaria o urgente), el formato de la carta, su
peso, y el método de inducción por el que vayamos a mandar la carta.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 213
Al pulsar en �Estadísticas� nos mostrará gráficamente la predicción para cada uno de los
flujos de correo (local, provincial o nacional), siendo D la fecha de depósito.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 214
Correlación
� Regresión lineal de 2 variables: Este algoritmo nos permite calcular si existe
alguna relación entre 2 variables existentes. Se basa en fórmulas matemáticas, y el
funcionamiento es muy sencillo: Sólo debemos seleccionar la tabla origen, y las 2
variables cuya relación queramos comprobar. Con esto el sistema nos devolverá
un coeficiente de regresión en caso de que todo vaya bien o un código de error en
caso de que no se haya podido calcular el coeficiente de regresión.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 215
Al dar a �Estadísticas� se puede visualizar los resultados gráficamente, mostrando la
relacion lineal existente entre las 2 variables.
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 216
Patrones de comportamiento
- Ajuste de curva univariable: Mediante esta curva podemos determinar si existe alguna
relación entre el plazo de entrega de las cartas y el tiempo. Si hacemos doble clic sobre la
imagen, el sistema nos dará la opción de seleccionar por varios criterios.
Al dar en �Estadísticas� podemos ver las distintas gráficas obtenidas:
Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional
Alfredo Carreras Gómez Página 217
Finalmente, al pulsar en �Autor� aparece una descripción con el nombre, fecha de
presentación del proyecto y correo electrónico del autor.