proceso de data mining en sistema de medición de calidad ... · pdf fileproceso de data...

Proceso de Data Mining en Sistema de Medición de Calidad en Plazo del Correo Nacional

Alfredo Carreras Gómez Página I

PROYECTO FIN DE CARRERA

Proceso de Data Mining en sistema de medición de calidad en plazo del

correo nacional

DIRECTOR: JOSÉ ÁNGEL OLIVAS VARELA

AUTOR: ALFREDO CARRERAS GÓMEZ

UNIVERSIDAD PONTIFICIA COMILLAS

ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA (ICAI) INGENIERO EN INFORMÁTCA


Alfredo Carreras Gómez Página II

Agradecimientos

Tras estas líneas comienza el final de mi vida universitaria. Ha sido un camino largo y

duro, y, sin embargo, lleno de buenos momentos que sin duda alguna han marcado mi carácter

personal y mi perfil profesional.

Quisiera agradecer en especial a mi familia el apoyo y cariño prestado durante todo este

tiempo, y a mi novia por la paciencia y comprensión que ha demostrado.

Igualmente, me gustaría agradecer a todos los profesores, en especial a aquellos que

decidieron andar conmigo todo o parte de este camino, sus aportaciones durante el tiempo que ha

durado esta experiencia han sido fundamentales.

Por último, me gustaría mencionar a todos los excepcionales compañeros y amigos que he

podido conocer durante estos años de carrera. En todo momento he podido contar con vosotros.


Alfredo Carreras Gómez Página III

Al utilizar los servicios postales que Correos y Telégrafos ofrece en este país y en el

extranjero, siempre me había preguntado si la felicitación navideña para los abuelos llegaría a

tiempo o si el regalo para mi hermano llegaría en la fecha exacta de su cumpleaños, o unos días

antes o después.

Se dispone de información obtenida tras la medición de calidad en plazo del correo

nacional mediante cartas test desde el año 2000 distribuidas entre las 52 provincias españolas

por empresas y particulares. En total, cerca de unas 650.000 cartas ordinarias y unas 50.000

cartas urgentes.

Para llevar a cabo la medición de la calidad End-to-End (medida en días de entrega entre la

fecha de deposición de un envió y la fecha de recepción) se requiere un panel de empresas y

particulares distribuidas entre las 52 provincias españolas, que pueden actuar tanto de emisores

como de destinatarios de cartas test.

Cada semana se asigna el volumen de correo a enviar para cubrir unos requerimientos

mínimos impuestos por Correos, llegando a enviarse anualmente cerca de 130.000 cartas para la

línea básica y 25.000 para la línea urgente. El estudio mide la calidad en plazo de la carta

ordinaria (envíos de carácter personal que no superen los 2 Kg), tanto la línea básica como

urgente, para flujos de correo local, provincial y nacional. Para cada uno de estos flujos se

distingue el método de franqueo (sello, máquina de franquear o franqueo pagado), método de

inducción (buzón, oficina de correos o centro de admisión masiva), el tipo de carta (definido

según parámetros como tamaño, peso, dirección postal, lugar de recogida,...), dirección (escrita a

mano o a maquina), tipo de panelista (empresa o particular), día de la semana en que fue

depositada, etc.

Toda esta información relevante para el estudio se almacena en una base de datos histórica

de gran tamaño. La base de datos contiene millones de registros, cada registro a su vez tiene

cientos o miles de campos. Bajo estas condiciones, es casi imposible obtener información de

interés con una simple exploración de datos.

RESUMEN


Alfredo Carreras Gómez Página IV

Para obtener conocimiento mediante reconocimiento de patrones, predicciones basadas en

datos históricos, clasificación automática, clustering� es necesario diseñar una herramienta de

Data Mining que realice este tipo de análisis de forma automatizada, a gran velocidad y con

altos niveles de exactitud.

La base de datos contiene millones de registros, cada registro a su vez tiene cientos o

miles de campos. Bajo estas condiciones, es casi imposible obtener información de interés con

una simple exploración de datos. Para obtener conocimiento mediante reconocimiento de

patrones, predicciones basadas en datos históricos, clasificación automática, clustering� es

necesario diseñar una herramienta de Data Mining que realice este tipo de análisis de forma

automatizada, a gran velocidad y con altos niveles de exactitud.

La Minería de Datos es una etapa dentro del proceso de Descubrimiento de Conocimiento

en Bases de datos, Knowledge Discovery in Databases, KDD. KDD se define como "el proceso

no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia,

comprensibles a partir de los datos". En este proyecto de KDD se han aplicado todas las etapas

de las que consta un proceso de descubrimiento de conocimiento en bases de datos:


Alfredo Carreras Gómez Página V

1. Integración y recopilación

Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas.

2. Preparación de Datos

Seleccionar y preparar el subconjunto de datos que se va a minar, mediante la detección de

valores anómalos, faltantes o erróneos y la transformación de atributos, discretización y

numeración.

3. Minería de Datos

Dentro de la etapa propia de Minería de Datos se han identificado tareas y técnicas para la

búsqueda de información oculta, novedosa y potencialmente útil, destacando:

- Clasificación (árboles de decisión ID3)

- Predicción (mediante reglas y factores de certeza. 319 reglas)

- Segmentación (clústering jerárquico)

- Análisis de correlación (coeficiente de correlación lineal)

Reglas de asociación (ajuste de curva univariable).

4. Evaluación

En esta fase se evalúan los patrones y se analizan por los expertos, y si es necesario vuelve

a las fases anteriores para una nueva iteración. Esto incluye resolver posibles conflictos con el

conocimiento que se disponía anteriormente.

5. Difusión y Uso de Modelos

La herramienta de Data Mining desarrollada es capaz de determinar las causas del retraso

de una carta, estimar la predicción del plazo y estado de recepción para cualquier origen y

destino nacional, identificar comunidades autónomas con similares patrones de comportamiento,

analizar como se distribuyen los datos a través del tiempo e incluso identificar las rutas óptimas y

las más tardías, para posteriormente poder realizar acciones correctoras en rutas en las que la

demora en la recepción de envíos está por debajo de los estándares. Esto redundará en una

mejora de la calidad del plazo de entrega del correo nacional.

Gracias a esta herramienta, el año que viene mis abuelos recibirán antes la felicitación de

Navidad.


Alfredo Carreras Gómez Página VI

After using postal services offered by Correos y Telégrafos in our country and abroad, I

have always wonder if my grandfather´s Christmas card will be arrive on time, or if my brother´s

birthday gift Hill arrive in his day of birth, maybe later or sooner.

There is a lot of information taken after measuring quality in the arrival time of the

nacional postal service through test letters since year 2000, allocated for all 52 provinces by

business and particular participants. Totally, near 650.000 ordinary letters and 50.000 urgent

letters.

The database has million of registers, rows, columns, � With this amount of data, is

almost impossible to get useful information with a simple data exploration. To get rich

knowledge using pattern recognition, automatic classification, clustering,� we need to develop

a Data Mining tool to make this kind of analysis correctly, fast and with high level of accuracy.

We deals with a KDD Project (Knowledge Discovery from Databases) where all steps of

the KDD process has been done. The steps applied to get the usefull Knowledge are:

1. Integration and recopilation

2. Data preparation

3. Data Mining

4. Evaluation

5. Deployment and Models using

ABSTRACT

Integration and recopilation

Data selection, cleansing and transformation

Data Mining Interpretation and evaluation

Diferent sources of data

Data Minable view Pattern Knowledge


Alfredo Carreras Gómez Página VII

In the Data Mining stage, it has been identified tasks and technologies to

informationretrival, new and useful knowlege, such as:

- Classification (ID3 decission trees)

- Prediction (319 rules)

- Clustering (hierarchical clustering)

- Correlative analysis (linear regresion)

- Associaiton rules (one-variable adjustment curve)

The Data Mining tool developed is able to determine the causes of a setter delay, to predict

when the letter will arrive and the estate of reception for any national origin or destination, to

identify autonomous regions with similar pattern behaviour, to analize data distribuion over the

time and even to identify the bests routes and those where it takes so much times, afterwards to

be able to begin new actions to improve that routes.

Thanks to the development of this tool, the next year my grandfathers will receive earlier

the Christmas card.


Alfredo Carreras Gómez Página VIII

1. INTRODUCCIÓN...................................................................................................... 1

2. DEFINICIÓN DEL PROYECTO ............................................................................. 4

2.1 Análisis de las necesidades de la organización y definición del problema.............. 4

2.1.1 Antecedentes ................................................................................................... 4

2.1.2 El sector postal .............................................................................................. 20

2.1.2.1 Introducción............................................................................................ 20

2.1.2.2 El Sector Postal en la UE ........................................................................ 21

2.1.2.3 Tendencias en el sector postal europeo.................................................... 23

2.1.2.4 Estrategias de las Operadoras Postales .................................................... 32

2.1.2.5 Correos y Telégrafos ............................................................................... 35

2.1.2.6 Gestión de la logística ............................................................................. 41

2.1.3 Adquisición de conocimiento......................................................................... 44

2.2 Definición de requisitos ...................................................................................... 47

2.3 Alcance del proyecto........................................................................................... 49

2.4 Objetivos del proyecto ........................................................................................ 50

2.5 Análisis de viabilidad.......................................................................................... 51

2.6 Metodología........................................................................................................ 58

2.6.1 Ciclo de vida del proyecto.............................................................................. 61

3. INTRODUCCIÓN A LA MINERIA DE DATOS................................................... 62

3.1 El concepto de Minería de Datos y KDD............................................................. 63

3.2 Tipos de modelos ................................................................................................ 65

3.3 Tareas de la Minería de Datos ............................................................................. 67

3.3.1 Clasificación.................................................................................................. 67

3.3.2 Regresión....................................................................................................... 68

3.3.3 Agrupamiento o clustering ............................................................................. 68

3.3.4 Correlaciones................................................................................................. 68

3.3.5 Reglas de asociación...................................................................................... 69

3.4 Técnicas de Minería de Datos ............................................................................. 70

INDICE


Alfredo Carreras Gómez Página IX

3.5 Relación de la Minería de Datos con otras tecnologías de bases de datos............. 71

3.5.1 SQL y OLTP ................................................................................................. 71

3.5.2 DataWarehouse y OLAP................................................................................ 73

3.6 Relación de la Minería de Datos con otras disciplinas ......................................... 75

3.7 Áreas de Aplicación............................................................................................ 78

4.EL PROCESO DE EXTRACCIÓN DE CONOCIMIENTO .................................. 80

4.1. FASE DE INTEGRACIÓN Y RECOPILACIÓN DE DATOS........................... 83

4.1.1 Identificación de fuentes internas ................................................................... 87

4.1.2 Identificación de fuentes externas .................................................................. 95

4.1.3 Diseño del nuevo esquema de almacenamiento integrado............................... 96

4.2 PREPARACIÓN DE DATOS........................................................................... 106

4.2.1 Limpieza de datos........................................................................................ 108

4.2.1.1 Detección de valores erróneos............................................................... 108

4.2.1.2 Detección de valores anómalos ............................................................. 111

4.2.1.3 Detección de valores faltantes ............................................................... 112

4.2.2 Transformación de atributos......................................................................... 114

4.2.3 Discretización y numeración........................................................................ 115

4.2.4 Selección de datos ....................................................................................... 116

4.3 MINERÍA DE DATOS..................................................................................... 117

4.3.1 Tareas de Minería de Datos realizadas ......................................................... 118

4.3.1.1 Clasificación ......................................................................................... 120

4.3.1.2 Predicción............................................................................................. 122

4.3.1.3 Análisis de correlación.......................................................................... 123

4.3.1.4 Reglas de asociación ............................................................................. 124

4.3.1.5 Segmentación........................................................................................ 126

4.3.2 Técnicas de Minería de Datos utilizadas....................................................... 128

4.3.2.1 Árboles de decisión............................................................................... 128

4.3.2.2 Predicción mediante Factores de Certeza............................................... 131

4.3.2.3 Regresión lineal .................................................................................... 133

4.3.2.4 Ajuste de curva univariable ................................................................... 134

4.3.2.5 Repertory Grid ...................................................................................... 136


Alfredo Carreras Gómez Página X

4.3.3 Implementación de los algoritmos............................................................ 139

4.3.3.1 Algoritmo ID3 ...................................................................................... 139

4.3.3.2 Cálculo de Factores de Certeza.............................................................. 141

4.3.3.3 Cálculo del coeficiente de correlación lineal.......................................... 146

4.3.3.4 Tabla de Ajuste ..................................................................................... 148

4.3.3.5 Clustering jerárquico............................................................................. 149

4.3.3.6 Otros cálculos realizados....................................................................... 165

4.4 EVALUACIÓN Y PRUEBAS .......................................................................... 166

4.4.1 Evaluación del algoritmo de Clasificación................................................ 169

4.4.2 Evaluación del algoritmo de Predicción ................................................... 171

4.4.3 Evaluación del algoritmo de Clustering.................................................... 172

5. INTERPRETACIÓN DE RESULTADOS OBTENIDOS .................................... 174

5.1 Interpretación del árbol de decisión ID3............................................................ 174

5.2 Estimación de probabilidad ............................................................................... 176

5.3 Análisis del coeficiente de correlación lineal..................................................... 178

5.4 Análisis de curvas univariables ......................................................................... 182

5.5 Análisis de los clusters generados ..................................................................... 184

6. CONCLUSIONES.................................................................................................. 186

7. BIBLIOGRAFÍA.................................................................................................... 189

8. ANEXOS................................................................................................................. 196

Reglas de Predicción (FCs) ..................................................................................... 196

Glosario de términos............................................................................................... 199

Manual de usuario .................................................................................................. 205


Alfredo Carreras Gómez Página 1

1. INTRODUCCIÓN

El presente Proyecto Fin de Carrera describe el proceso completo de KDD (Knowledge

Discovery in Databases) para obtener conocimiento e información oculta sobre los datos

obtenidos tras la medición de calidad en plazo del correo nacional mediante cartas test, que se

está llevando a cabo en IBM Business Consulting Services para Correos y Telégrafos desde

septiembre del año 2000.

Al utilizar los servicios postales que Correos y Telégrafos (a partir de ahora CyT) ofrece en

este país y en el extranjero, siempre me había preguntado si la felicitación navideña para los

abuelos llegaría a tiempo o si el regalo para mi hermano llegaría en la fecha exacta de su

cumpleaños, o unos días antes o después. Tras desarrollar una herramienta como proyecto de fin

de carrera, que utiliza las técnicas y algoritmos más utilizados de Data Mining, ya no nos lo

preguntamos más. Lo sabemos.

El Cliente

Correos y Telégrafos S.A. es el líder indiscutible del mercado postal en España. Tiene una

cuota de mercado del 90% en el transporte de documentos y mercancías de carácter no urgente.

Gestiona más de 5.000 millones de envíos postales al año. Dispone de más de 65.000 empleados

y 10.000 puntos de atención al público.

El Proyecto

Conocer datos globales respectivos a la calidad en plazo de los envíos postales requiere

crear un diseño estadístico muy complicado, encontrar una muestra adecuada con un

performance que raye la perfección, y muchísimo esfuerzo por parte de un equipo combinado de

personas pertenecientes a IBM Business Consulting Services, y a la empresa de recogida de

datos.

La variable a medir es el número de días de entrega de las cartas y el sistema de medición

es end-to-end. Para ello es necesario una persona o empresa (panelistas) en un extremo que envíe

la carta (remitente) y otra, en el otro extremo, que la reciba (destinatario). Existen casi 900

personas enviando y recibiendo cartas desde hace más de un año.

1. INTRODUCCIÓN



Ya se han enviado más de 450.000 cartas. En total han participado más de 1.600 personas o

empresas (entre ellas Telefónica, El Corte Inglés, Iberdrola, La Caixa....).

Grabación de datos

Una vez que el destinatario recibe las cartas, las devuelve al centro de recogida de datos y

allí son grabados los datos por expertos.

Control de la red de panelistas

La calidad de la información referente a las cartas test depende en gran parte de la

actuación de los 900 panelistas. Por ello, es necesario mantener un control exhaustivo, constante

e individualizado de su comportamiento.

Medición de la calidad

Para llevar a cabo la medición de la calidad End-to-End (medida en días de entrega entre

la fecha de deposición de un envió y la fecha de recepción) se requiere un panel de empresas y

particulares distribuidas entre las 52 provincias españolas, que pueden actuar tanto de emisores

como de destinatarios de cartas test.

Junto con el plazo de entrega se almacena más información relativa a la carta tests: estado

de recepción (buena, aceptable o mala), línea (ordinario, urgente), método inducción o de

depósito (buzón, oficina de correos o centro de admisión masiva), método de franqueo (sello,

maquina de franquear o franqueo pagado),formato (normalizado, A4, C5), peso, dirección postal

(escrita a maquina, mano), participante (empresa, particular),...

Toda esta información relevante para el estudio se almacena en una base de datos

histórica de gran tamaño. La base de datos contiene millones de registros, cada registro a su vez

tiene cientos o miles de campos. Bajo estas condiciones, es casi imposible obtener información

de interés con una simple exploración de datos. Para obtener conocimiento mediante

reconocimiento de patrones, predicciones basadas en datos históricos, clasificación automática,

clustering� es necesario diseñar una herramienta de Data Mining que realice este tipo de

análisis de forma automatizada, a gran velocidad y con altos niveles de exactitud.



Los resultados

El cliente ha emprendido acciones correctoras en las zonas en las que se ha identificado un

nivel de calidad inferior a la media. Esto redundará en una mejora de la calidad del plazo de

entrega del correo nacional. Se beneficiarán todas las personas que utilizan los servicios postales

que ofrece nuestro cliente (¿quién de vosotros no lo hace?). El año que viene, mis abuelos

recibirán antes la felicitación de Navidad gracias a esta herramienta.



2. DEFINICIÓN DEL PROYECTO

2.1 Análisis de las necesidades de la organización y definición del

problema 2.1.1 Antecedentes Según el estándar de la Unión Europea sobre Servicios Postales EN 13850:2002 toda

empresa estatal dedicada al servicio postal debe tener una empresa ajena al servicio que realice

una medición de los tiempos de tránsito desde todas y cada una de las provincias españolas. IBM

ha venido realizando este proyecto desde el año 2000.

En el proyecto de medición se define como variable básica a analizar el plazo en días que

media entre la fecha de depósito de un envío (carta test) realizado por un usuario del servicio y la

fecha de recepción de dicho envío por parte del destinatario; en la terminología habitual esta

duración es denominada End-to-End.

Se dispone de información de cartas test distribuidas por todo el territorio nacional desde el

año 2000. Los datos generales del Sistema de Medición de la Calidad son:

- Cobertura geográfica. El sistema controla el rendimiento del correo enviado desde

todas y cada una de las provincias españolas (52).

- Flujos a medir. Los flujos objeto de la medición han sido los flujos locales,

provinciales y nacionales:

Tipo de flujo

Local Origen y destino en la misma ciudad

Provincial Origen y destino en la misma provincia

Nacional Origen en una provincia y destino en otra del territorio nacional

El número de localidades considerado en función del tipo de flujo ha sido el siguiente:

2. DEFINICIÓN DEL PROYECTO



Local Provincial y Nacional

Capitales de provincia 52 52

Localidades Importantes 50 50

Oficinas técnicas - 85

- Los resultados siguen la regla CEN Standard, es decir, se basan en una regla de

cálculo que considera únicamente los 5 días laborables. Excluye sábados, domingos

y días festivos en entrega y en admisión.

Datos generales del proyecto

Productos a medir Carta básica y Carta urgente Número de provincias 52 (origen-destino)

Métodos de franqueo Sello, Máquina de franquear y Franqueo pagado

Lugares de deposito Buzón, Oficina de Correos y Centro de admisión masiva

Tipo de escritura A mano y A máquina Días de depósito De lunes a sábado Tipo de remitentes Particulares y Empresas Tipo de destinatarios Particulares y Empresas Panelistas Más de 1.000 (40% particulares, 60% empresas) Tipos de flujos Local, Provincial y Nacional Formatos de las cartas normalizado/ C5 / A4 Pesos de las cartas 0-20gr / 20-50 gr. / 50-100 gr. Estado de recepción buena / aceptable / mala o abierta / rota

Características de las líneas Línea Básica Línea Urgente

Formatos de cartas Normalizado, C5, A4 Normalizado Tipos de cartas 11 8 Localidades 186 51

El ámbito geográfico abarca los tránsitos de correo enviado desde todas y cada una de las

provincias españolas, es decir, un total de 52.



A los efectos de la medición y seguimiento de la calidad, la variable a medir se define

como los días de entrega medida de �extremo a extremo�, expresada como un factor de tiempo, y

definida como el período transcurrido entre el depósito de los objetos postales en cualquier punto

de la red postal (buzón, oficina postal o centro de admisión masiva) y la distribución de los

objetos a sus destinatarios en el punto de entrega.

La medición se hace sobre la carta ordinaria (envíos de carácter personal que no superan

los 2 kilos), tanto de la línea básica, como de la línea urgente.

Estándares de calidad

Se han acordado los estándares de calidad a aplicar en el proyecto y en la actualidad dichos

estándares de calidad son para línea básica:

Flujo Línea básica

Local D + 1 Provincial D + 2 Nacional D + 3

Y para la línea urgente los estándares de calidad son:

Flujo Línea urgente

Local D + 1 Provincial D + 1 Nacional D + 1

siendo D el día en el que el remitente envía la carta. Esto quiere decir que, para una carta

básica enviada desde Getafe a Madrid (flujo local) se espera que sea recibida en el día siguiente

al que se depositó.

D + 1 significa, por lo tanto, que la carta debe llegar a su destino en un día, D + 2 en dos

días y D + 3 en tres días.

Flujos de correo

De acuerdo con los requerimientos descritos en la norma EN 13850:2002, el sistema

controla el rendimiento del correo enviado desde todas y cada una de las provincias españolas.

Los flujos que deben ser controlados con relación a cada provincia pueden categorizarse

entre los siguientes tipos que se describen abajo:



Flujo Descripción

Local Los que tienen como destino y origen la misma ciudad o pueblo.

Provincial Los que tienen origen y destino en la misma provincia.

Nacional Los que tienen origen en una provincia y destino en otra del territorio nacional.

El sistema implantado mide, a través de todas las etapas del proceso postal los tiempos de

tránsito del correo enviado desde todas y cada una de las provincias españolas.



Los tipos de poblaciones son los siguientes:

Tipo de población Línea Básica

Línea Urgente Descripción

Capitales de provincia 52 40 Capitales de provincia

Localidades importantes 50 11 Administraciones postales

Oficinas Técnicas (O.T.) 84 --- Selección de O.T. distribuidas por toda la geografía española

Para calcular la distribución de flujos de correo se genera una matriz de flujos actualizada

con el fin de asemejar el estudio lo más posible a la realidad.

A nivel nacional, el porcentaje para el correo nacido es:

Flujo correo nacido Carta Básica Carta Urgente

Local 20,0% 20,0% Provincial 23,0% 8,0% Nacional 57,0% 72,0%

Los requerimientos planteados por Correos, establecen que los porcentajes

correspondientes a la distribución del correo nacional intrazonal e interzonal deben ser:

Flujo nacional Carta Básica Carta Urgente Intrazonal 49,0% 40,0% Interzonal 51,0% 60,0%

Distribución semanal de flujos de correo

El estudio se realizará continuamente a lo largo del año. El porcentaje del correo inducido

en el sistema cada semana será el mismo todas las semanas del año, siguiendo la siguiente

proporción:

Días de la semana Carta Básica Carta Urgente Lunes 19% 19% Martes 19% 19% Miércoles 19% 19% Jueves 19% 19% Viernes 19% 19% Sábados 5% 5%



Distribución mensual de flujos de correo

Mes Línea Básica Línea Urgente Enero 8,2% 9,4% Febrero 7,8% 8,3% Marzo 8,6% 7,9% Abril 8,8% 9,3% Mayo 8,7% 9,0% Junio 8,3% 9,0% Julio 8,3% 8,4% Agosto 6,5% 4,6% Septiembre 7,6% 7,5% Octubre 8,5% 9,3% Noviembre 8,4% 8,5% Diciembre 10,3% 8,8%

Reglas de cálculo de cartas test a producir

Para estimar el número de envíos a producir, hay que considerar los siguientes factores:

• Requerimientos de precisión

Es la precisión estadística requerida que define el rango en el que debe situarse

el resultado, es decir, aquella cuyo error no sea superior al definido.

• Proporción de cumplimiento (on time proportion)

Es el porcentaje de correo que se espera que cumpla el servicio estándar de

acuerdo con el sistema. Es un factor clave para estimar el volumen de correo así como

de la exactitud o precisión de los resultados.

• El efecto del modelo (design effect)

Es una medida que afecta a la precisión de los correos. El modelo estadístico se

construye de tal forma que trata de minimizar el efecto del modelo para el plan de

producción.

• Estándar del servicio (Service Standard)

Indica el número de días que se ha fijado como objetivo para cada panelista.



• Cluster

Indica el número máximo de cartas para cada flujo que se puede incluir en cada

fajo de cartas que induce cada día un panelista. Es un parámetro estadístico que

consigue que un modelo estadístico pueda asemejarse a la realidad.

• La ratio de validez (valid rate)

Es una medida que proporciona el porcentaje esperado del correo producido

que, después de un proceso de depuración, se considera como correo válido. El

objetivo del ratio de validez es del 80%, una cifra aceptable en el cálculo de los

volúmenes de correo que se requiere.

La siguiente fórmula se usa para calcular el número de cartas a producir para medir la

calidad del servicio, con los requerimientos estadísticos que se pide en el Pliego de Condiciones

Técnicas. La fórmula corresponde a la metodología del CEN sobre el asunto.

( ) ( ) ( ) ( )[ ]hhB

1b 2hbhhA

1a 1hahhh2h

h p�1p�rdp�1p�rcp�1p�nn1p�V hh −⋅+−+−⋅= ∑∑ ==

donde

∑ ∑= == h hB

1b

B

1'b hab'abha nnc

∑ ∑= == h hA

1b

A

1'b hab'abhb nnd

Hay que hacer notar que, la fórmula tiene en cuenta un efecto eventual del diseño

relacionado con los envíos de prueba recibidos por el mismo receptor el mismo día y con los

envíos enviados por el mismo emisor el mismo día.



Anotaciones: Símbolo Descripción

H es una categoría geográfica (h=1,�,10) Wh es el peso de la categoría h

h

^P

es la proporción de los envíos que llegan a tiempo en la categoría h

Ah es el número de puntos de introducción en la categoría h, enviando una o más cartas durante el periodo

Bh es el número de puntos de recepción o receptores en la categoría h, recibiendo una o más cartas durante el periodo

r1h es el coeficiente de correlación entre las variables de indicador a tiempo para cartas enviadas desde el mismo punto de introducción a diferentes receptores dentro de la categoría h

r2h es el coeficiente de correlación entre las variables indicador para cartas enviadas desde diferentes puntos de introducción a los mismos receptores dentro de la categoría h

Nabh es el número de cartas de prueba enviadas desde un punto de introducción a un punto de recepción b durante el periodo en la categoría h

Nh es el número total de cartas de prueba enviadas en la categoría h durante el periodo

Para valorar los resultados obtenidos tras aplicar la regla de cálculo, se definen los

siguientes términos:

• Volumen de correo producido: Es el número de cartas test que se generan para el

estudio.

• Volumen de correo válido: Es el número de cartas test que son incluidas como válidas

en los informes entregados.

• Ratio de validez: Indica el porcentaje de correo válido.

El volumen principal se distribuye de acuerdo con el flujo real de correo y los

requerimientos geográficos descritos arriba.

Los criterios por los que se considera que una carta test no es válida para el estudio son los

siguientes:

• Plazo de entrega superior a 30 días.

• Cartas recibidas en días que no hay reparto.

• Cartas depositadas en días que no hay recogida (a excepción de las depositadas en

buzón).



• Método de inducción no coherente con el método de franqueo.

• Cartas con el plazo de entrega negativo.

Los resultados de la fórmula dan lugar al siguiente número de cartas de correo a enviar

anualmente:

Resultados de producción Año 2000 Línea Básica

Periodo de producción Semanalmente Cartas producidas ? Cartas válidas 9.257

Resultados de producción Año 2001

Línea Básica Línea Urgente Periodo de producción Semanalmente SemanalmenteCartas producidas ? x Cartas válidas 100.836 x


Línea Básica Línea Urgente Periodo de producción Semanalmente SemanalmenteCartas producidas 109.945 x Cartas válidas 87.999 x


Línea Básica Línea Urgente Periodo de producción Semanalmente SemanalmenteCartas producidas 129.109 25.601 Cartas válidas 99.363 19.225


Línea Básica Línea Urgente Periodo de producción Semanalmente SemanalmenteCartas producidas 126.517 25.000 Cartas válidas 113.443 23.219

Resultados globales de producción (desde año 2000 hasta 2004) Línea Básica Línea Urgente

Cartas válidas teóricas 410.898 42.444 Cartas válidas reales (en BD) 390.546 35.996



Panel de distribución (remitentes y destinatarios)

Para asegurar que el sistema de control de la calidad del servicio de Correos refleje con

exactitud el ámbito real la red de remitentes y destinatarios tiene que ser distribuida por las 52

provincias. El correo utilizado para su seguimiento refleja la proporción real existente entre

remitentes, particulares y empresas. De igual modo se operará con los destinatarios cumpliendo

los siguientes porcentajes tanto para línea básica como la línea urgente:

• Remitentes

Empresas: 60%

Particulares: 40%

• Destinatarios

Empresas: 40%

Particulares: 60%

El número total de panelistas es más de 1000 en cada momento.

Se han establecido procedimientos estrictos de control para asegurar que los paneles de

emisores y receptores sean desconocidos para la red logística de Correos y por tanto

independientes en sus actuaciones.

La metodología para recopilar información de paneles y gestionarla para su utilización en

el proyecto implica que los emisores y receptores devuelven la información de las cartas test

recibidas, donde se graban los datos, y cómo se procesan en nuestro sistema.



Los requerimientos de trabajo para la red de emisores son los siguientes:

• Un emisor no debe introducir dos o más cartas el mismo día para el mismo receptor;

• Un emisor no debe introducir dos o más cartas el mismo día para los receptores que

tienen sus direcciones en la misma categoría geográfica;

• Un emisor introduce cartas cada dos días. Es decir o los lunes, miércoles y viernes o bien

los martes, jueves y sábado;

• Se reemplaza un 25% de los emisores con carácter anual.

Para cumplir con los requerimientos descritos arriba, teniendo en cuenta el volumen total

de correo y su distribución geográfica, el número de emisores necesario es de 419 distribuidos en

todas y cada una de las provincias.

Línea básica + urgente Número de emisores 419

Los requerimientos para la red de receptores son los siguientes:

• Cada receptor debe recibir no más de una carta cada dos días;

• Se reemplaza un 25% anual de los receptores.

Basándose en los requerimientos expuestos arriba, el volumen total de correo y en el

documento de licitación, y teniendo en cuenta la distribución geográfica asumida de los envíos,

el número de receptores necesarios es de 641, extendidos a lo largo de todas las provincias

españolas.

Línea básica + urgente Número de receptores 641

Inducción del sistema

Los panelistas introducen el correo objeto de estudio en la red de Correos antes de la hora

límite de recogida o admisión fijada, a través de las siguientes vías de acceso:

• Buzón: depósito con sello o estampilla.

• Oficina postal: buzón propio de la oficina, admisión en ventanilla. Depósito con sello,

estampilla o máquina de franquear.



• Centros de admisión masiva: sólo las provincias o unidades más representativas que

Correos fije. Depósito con máquina de franquear o franqueo pagado.

Todas las capitales de Provincias, así como aproximadamente otras 28 localidades de

España tendrán representados los dos (o tres en caso de tener centro de admisión masiva)

métodos de inducción.

Relación entre el método de inducción y el método de franqueo

El método de franqueo y el método de inducción están relacionados en la siguiente manera:

• Buzón: depósito con sello o estampilla.

• Oficina postal: buzón propio de la oficina, admisión en ventanilla. Depósito con sello,

estampilla o máquina de franquear.

• Centros de admisión masiva: sólo en las provincias o unidades más representativas.

Depósito con máquina de franquear o franqueo pagado.

Método de franqueo Método de inducción Todas las capitales de provincia tienen representados los dos (o tres en caso de tener

Centro de admisión masiva).

Política de logística en Correos y Telégrafos

A continuación se especifican los días en los que hay inducción y días en los que hay

reparto. Además, se muestran los horarios límite de depósito para los diferentes lugares de

Inducción.

Sello

Máquina de franquear

Franqueo pagado

Buzón

Oficina Postal

Centros de admisión masiva



Días de inducción y días de reparto Línea Básica

Inducción Reparto

Lunes-Viernes Sí Sí

Sábados Sí Sí

Domingos No No

Fiestas No No

Días de inducción y días de reparto Línea Urgente

Inducción Reparto

Lunes-Viernes Sí Sí

Sábados Sí Sí

Domingos No No

Fiestas No No

Reglas de cálculo del plazo de entrega

Los días de entrega para todas las cartas, se calculan como la diferencia entre la fecha de

inducción según el remitente y la fecha de recepción según el destinatario teniendo en cuenta las

siguientes reglas:

SÁBADO

14,00 Horas

13,00 Horas

13,00 Horas

BUZONESBuzón Calle 13,00 Horas

( Calle ) Buzón Calle 12,00 Horas

SIN SERVICIO

SIN SERVICIO

Oficinas Técnicas

ADMISIÓN MASIVA

Oficinas Técnicas y Sucursales Admisión Mañana

Depósito en Centros de Admisión Masiva

Recogida a Domicilio

17,00 Horas

17,00 HorasOFICINAS

(Ventanilla y Buzón Oficina)

Capitales de Provincia y Administraciones

15,00 Horas

15,00 Horas

14,00 Horas

17,00 Horas

13,00 Horas

HORARIOS LÍMITES DE DEPÓSITO LUNES - VIERNES

Oficinas Principales de Capitales de Provincia y Administraciones

Surcursales Urbanas Admisión Mañana y Tarde



• Todos los días en que no hay entrega (incluyendo festivos nacionales) que preceden

inmediatamente al día de recepción siempre se deducen. Esto supone, por ejemplo, que

los domingos se descuentan las entregas del lunes.

• La inducción en el sistema en cualquier día de no recogida se consideran como

introducida el primer día siguiente de recogida al de la introducción.

• Se han contrastado con Correos las fechas en las que hay o no reparto los sábados.

• El cálculo del número de días de entrega para los resultados oficiales se basa en una regla

de cálculo de una semana de 5 días, que se definen como sigue:

! Se excluyen sábados, domingos y días festivos.

! Todos los días que no hay entrega entre la introducción y el día de recepción se

deducen.

! La introducción en días en que no hay recogida se consideran como introducción

el día siguiente.

Siendo D el día de depósito de la carta test, en la siguiente tabla se muestra la fecha que Correos

especifica para su recepción. A continuación se muestra como influye el cálculo del plazo de

entrega si la fecha de depósito es festiva, después de un fin de semana, fiesta entre semana...

Lune

s

Mar

tes

Mié

rcol

es

Juev

es

Vie

rnes

Sába

do

Dom

ingo

Lune

s

Mar

tes

Mié

rcol

es

Juev

es

D D+1 D+2 D+3 D+4 D+5 D+5 D+6 D+7 D+8

D D+1 D+2 D+3 D+4 D+4 D+5 D+6 D+7

D D+1 D+2 D+3 D+3 D+4 D+5 D+6

D D+1 D+2 D+2 D+3 D+4 D+5

D D+1 D+1 D+2 D+3 D+4

D D+0 D+1 D+2 D+3

D D+0 D+1 D+2 D+3



Ejemplo 1 � Ninguna fiesta

Jueves Viernes Sábado Domingo Lunes Martes Miércoles Jueves Viernes

Inducción Inducción NInducción NInducción Inducción Inducción Inducción Inducción Inducción

Distribución Distribución NDistribución NDistribución Distribución Distribución Distribución Distribución Distribución

D D+1 D+2 (D+2) D+2 D+3 D+4 D+5 D+6

D D+1 (D+1) D+1 D+2 D+3 D+4 D+5

D-2 D-1 D+0 D+1 D+2 D+3 D+4

D-1 D+0 D+1 D+2 D+3 D+4

D D+1 D+2 D+3 D+4

D D+1 D+2 D+3

D D+1 D+2

Ejemplo 2 - Fiesta después del fin de semana en ciudad de origen

Jueves Viernes Sábado Domingo Lunes Fiesta Martes Miércoles Jueves Viernes

Inducción Inducción NInducción NInducción NInducción Inducción Inducción Inducción Inducción

Distribución Distribución NDistribución NDistribución Distribución Distribución Distribución Distribución Distribución

D D+1 D+2 (D+2) D+2 D+3 D+4 D+5 D+6

D D+1 (D+1) D+1 D+2 D+3 D+4 D+5

D-3 D-2 D-1 D+0 D+1 D+2 D+3

D-2 D-1 D+0 D+1 D+2 D+3

D-1 D+0 D+1 D+2 D+3

D D+1 D+2 D+3

D D+1 D+2

Ejemplo 3 - Fiestas durante la semana tanto en ciudad de origen como en ciudad de

destino (Fiesta Nacional) Jueves Viernes Sábado Domingo Lunes Martes

Fiesta Miércoles

Fiesta Jueves Viernes

Inducción Inducción Ninducción NInducción Inducción NInducción NInducción Inducción Inducción

Distribución Distribución NDistribución NDistribución Distribución NDistribución NDistribución Distribución Distribución

D D+1 D+2 (D+2) D+2 (D+3) (D+3) D+3 D+4

D D+1 (D+1) D+1 (D+2) (D+2) D+2 D+3

D-2 D-1 D+0 (D+1) (D+1) D+1 D+2

D-1 D+0 (D+1) (D+1) D+1 D+2

D (D+1) (D+1) D+1 D+2

D-2 D-1 D+0 D+1

D-1 D+0 D+1



Ejemplo 4 - Fiesta en fin de semana y antes del fin de semana en ciudad de destino

Jueves Viernes Sábado Domingo Lunes Martes Miércoles Jueves Viernes Fiesta

Sábado Fiesta

Domingo Fiesta

Inducción Inducción Ninducción NInducción Inducción Inducción Inducción Inducción Inducción NInducción NInducción

Distribución

Distribución

Ndistribución

Ndistribución

Distribución

Distribución

Distribución

Distribución

NDistribución

NDistribución

NDistribución

D D+1 D+2 (D+2) D+2 D+3 D+4 D+5 (D+6) (D+6) (D+6)

D D+1 (D+1) D+1 D+2 D+3 D+4 (D+5) (D+5) (D+5)

D-2 D-1 D+0 D+1 D+2 D+3 (D+4) (D+4) (D+4)

D-1 D+0 D+1 D+2 D+3 (D+4) (D+4) (D+4)

D D+1 D+2 D+3 (D+4) (D+4) (D+4)

D D+1 D+2 (D+3) (D+3) (D+3)

D D+1 (D+2) (D+2) (D+2)



2.1.2 El sector postal

2.1.2.1 Introducción

A partir de los años noventa, las operadoras postales han afrontado un cambio muy

importante debido a la liberalización y privatización del sector que ha conllevado competencia

en un sector tradicionalmente protegido.

En los últimos años, el cambio del sector incluso ha aumentado. El mundo electrónico ha

perdido un poco de su brillo porque los participantes en el mercado dudan del potencial retorno

financiero de e-Commerce, pero a la vez el sector teme perder negocio en el futuro si no

invierten en esta área.

Además de los cambios regulatorios del sector y las nuevas tecnologías que pueden

sustituir sus servicios, la industria ahora tiene que vender servicios a clientes cada vez más

exigentes e informados. Como la base de clientes se concentra en pocos, pero muy importantes

mientras algunos productos con margen alto están amenazados por la sustitución de productos

electrónicos, las operadoras postales intentan aumentar la rentabilidad en los sectores que crecen,

paquetes y servicios de logística. En el negocio tradicional de cartas, la búsqueda del aumento de

la rentabilidad suele significar recorte de costes fijos en las operaciones a través de la

automatización de procesos y reducción de personal.

En el mercado internacional, donde las operadoras postales han notado el impacto de la

competencia más tiempo, la batalla se vuelve cada vez más intensa. Las empresas en el sector

buscan diversificación para completar sus mercados tradicionales y disminuir así la dependencia

de un solo país.



2.1.2.2 El Sector Postal en la UE

En la UE se estima que los servicios postales manejan cerca de 135.000 millones de

objetos postales cada año, generando una venta de un total de 80.000 millones de euros o

aproximadamente un 1,4% del PIB (Producto Interior Bruto) de la UE.

Dos tercios de esta venta está generada por servicios de cartas y un tercio por paquetes y

servicios exprés. La tendencia de crecimiento es de entre el cero y el cinco por ciento anual para

el mercado de cartas y entre el tres y el diez por ciento anual para paquetes y servicios exprés.

El servicio postal es un sector que abarca tanto el monopolio (cartas) como un mercado de

competencia (paquetes, servicio exprés). Las empresas públicas en el sector normalmente

abarcan los tres tipos de productos (cartas, paquetes y servicio exprés) mientras las empresas

privadas, salvo algunas excepciones, abarcan solamente paquetes y servicio exprés.

El sector emplea en la UE un total de 1.7 millones de trabajadores. A continuación se

detallan las diferentes Operadoras Postales públicas europeas, así como un mapa con la

ubicación geográfica con las mismas, véase figura 2.1.

Operadoras Postales públicas en UE-15 Alemania Deutsche Post Holanda TPG Post Austria Österreichische Post Irlanda An Post Bélgica De Post/La Poste Italia Poste Italiane Dinamarca Post Luxemburgo Postes España Correos Portugal CTT Correios Finlandia Posti Reino Unido Royal Mail Francia La Poste Suecia Posten Grecia Hellenic Post



Figura 2.1: Las Operadoras Postales en UE-15



2.1.2.3 Tendencias en el sector postal europeo

Después de mucho tiempo bajo la protección gubernamental, la industria postal está

cambiando radicalmente. Cambios políticos, más competición sobre las fronteras, comunicación

electrónica, comercio electrónico y tecnología están cambiando el sector rápidamente, véase

figura 2.2.

En muchos países europeos el servicio postal tradicionalmente ha estado bajo el control

estatal combinado con las telecomunicaciones. Como consecuencia, los cambios en el mercado

de telecomunicaciones normalmente han implicado cambios paralelos en el sector postal.

Empujadas por las tendencias de privatización, encabezada por Inglaterra, los gobiernos

europeos están manejando cómo deben cambiar la propiedad del sector postal, mientras la

política de UE está favoreciendo a los países miembros la introducción progresiva de la

liberalización del sector postal.

Sector Postal Tecnología de Información

Requisitos del Cliente

Globalizacón

Liberalización

Figura 2.2: Tendencias en el sector postal



Algunos países, como Suecia y Finlandia, ya han abierto todo el mercado de servicios

postales a competición mientras otros países favorecen una liberalización más gradual.

El desarrollo tecnológico también ha acelerado la reestructuración del sector tanto en el

ámbito de la automatización, para reducir costes de operación, como la amenaza de sustitución

electrónica.

Los servicios postales están sujetos cada vez más a una competición con otros servicios de

comunicación como, por ejemplo, correo electrónico y redes de datos, especialmente en el

segmento business-to-business.

La competición global y la presión de precios resultante, también están acelerando la

velocidad de los cambios en el sector postal. En las áreas de servicios que ya están abiertas a la

libre competición, nuevos entrantes están introduciendo otras maneras de cumplir los cada vez

más exigentes requisitos de los clientes.

Mientras la entrega se ha vuelto más compleja y los clientes cada vez exigen mejores

servicios, las operadoras postales están en un proceso de desarrollo desde monopolios enfocados

a operaciones, a un negocio enfocado al cliente.

Empujado por la necesidad de aumentar beneficios y controlar costes, a la vez que atraer y

mantener clientes, las operadoras postales han tenido que ampliar sus catálogos de servicios con

servicios innovadores, suministrados con un alto nivel de rendimiento.

Liberalización

A excepción de Suecia, donde se abrió el sector a la competencia libre en 1993, los

mercados postales están actualmente trabajando hacia los objetivos de liberalización fijados por

directivas de la UE. Aunque nuevos entrantes han aparecido en el mercado de los servicios

postales en la mayoría de los países europeos, los operadores tradicionales todavía tienen una

cuota de mercado muy elevado. Incluso en el totalmente liberalizado mercado sueco, la

operadora sueca (Posten) tiene una cuota de mercado de cartas de un 94%.



En una directiva aprobada por la Comisión Europea en 2002, se fijan objetivos para

mejorar los servicios postales y reducir precios a través de la apertura de los mercados europeos

a mayor competencia.

La directiva propone que el mercado de todo el correo doméstico que pese más de 100

gramos o cuyo precio sea más de tres veces el precio de una carta ordinaria, estará abierto para la

libre competencia en el 2003 y el peso será reducido a 50 gramos y el coste a dos veces y medio

del precio en el 2006, véase figura 2.3. Este objetivo significa en la práctica que el 13 % del

mercado postal está abierto a libre competencia desde el 2003 y aproximadamente el 23 % del

mercado a partir del 2006.

Otro objetivo de la directiva es abrir totalmente el mercado de correo internacional en diez

de los quince países miembros, dejando los países con una gran proporción de correo

internacional (España, Grecia, Irlanda, Luxemburgo y Portugal) con algunas restricciones.

En 2006 se van a fijar nuevas metas para 2009 en función de los resultados obtenidos hasta

entonces. Si los resultados son satisfactorios, el objetivo con total seguridad será la plena

liberalización en el 2009.

Este camino hacia la extinción del monopolio en Europa ha tenido su propia idiosincrasia

en cada uno de los Estados miembros, si bien son dos los polos en cuya órbita se inscriben las

distintas actuaciones de cada uno de los gobiernos:

Figura 2.3: El calendario de la liberalización en Europa



1. Actitud proactiva hacia la liberalización, con pasos decididos hacia la competencia e

incluso, en algún caso, a una velocidad mayor que la marcada por la directiva.

2. Precaución en las decisiones adoptadas, anteponiendo la seguridad en la prestación del

Servicio Postal Universal a la competencia en el mercado interno.

Reino Unido y Alemania son modelos del primer grupo, con actuaciones que han

perjudicado en ciertos aspectos a Royal Mail y Deutsche Post.

En cuanto al segundo grupo, quizás Francia y España puedan considerarse buenos

ejemplos de esta línea de actuación.

En España, ante esta moderación reguladora, han sido muchos los competidores que han

visto en ella actitudes favorecedoras hacía Correos, habiendo interpuesto demandas ante los

organismos garantes de la competencia.

Tecnología de la Información

La industria postal en todo el mundo tiene que afrontar nuevos retos operacionales y

logísticos. Las expectativas del cliente son altas y con el crecimiento de e-Commerce, clientes y

gobiernos cuentan con servicios postales para la entrega de bienes comprados on-line.

Para afrontar estos retos y manejar la creciente competición en el mercado, los operadores

buscan soporte en la tecnología de información para racionalizar las operaciones, mejorar el

servicio al cliente, desarrollar productos o servicios nuevos o mejorar la calidad de los existentes.

Las operadoras postales están aplicando nuevas tecnologías para modernizar y acelerar los

procesos de la entrega a través de la automatización de la clasificación de cartas, el on-line

servicio al cliente, utilización de código de barras, seguimiento de cartas, y transporte. También

están utilizando nuevas tecnologías de información para introducir nuevos productos y servicios

de valor añadido, tradicionalmente no considerados como parte de su negocio principal como,

por ejemplo, el correo híbrido que mezcla la rapidez de las comunicaciones electrónicas con la

fiabilidad del correo tradicional.



Otro reto importante que la industria tiene que afrontar es la transición del fuerte enfoque

interno de las operaciones y logística hacia un modelo de negocio enfocado al cliente. Para

influir en la información del cliente y obtener una visión de la base de clientes, las

organizaciones postales están implantando soluciones específicas que aportan la gestión de la

relación con el cliente en todos sus procesos de negocios.

Según las últimas tendencias, parece que las áreas principales para inversiones en IT en el

sector postal serán:

# E-Business

# Gestión de la Relación con el Cliente (CRM, Customer Relationship Management)

# Operaciones y Logística

# Aplicaciones para la Gestión de los Recursos de la Empresa (ERM)

E-business

Con el creciente número de transacciones de e-Commerce, hay una necesidad en el

mercado de empresas que puedan proveer servicios de e-Cumplimiento (e-Fulfillment, servicio

completo de terceros para la distribución de bienes, desde el pedido hasta la entrega) de alta

calidad, para dar soporte a los vendedores on-line. Para poder expandir los servicios e incluir e-

Fulfillment, las operadoras postales tienen que entender las necesidades de los clientes pero

también tener una red logística optimizada para poder ofrecer servicios de e-Commerce

rentables.

Otra área donde las operadoras postales están desarrollando cada vez más servicios on-line

para terceros es la de gestión y pago electrónico de facturas (electronic bill presentment and

payment, EBPP). Las operadoras recogen de una manera centralizada las facturas de varios

clientes en una página Web. Los beneficios para el remitente de las facturas incluyen la

reducción de costes de distribución y la mejora en la gestión de la relación con el cliente a través

de comunicación dirigida.



Gestión de la Relación con el Cliente (CRM)

Los proveedores de servicios postales trabajan con una cada vez más fuerte competencia y

es imprescindible aumentar el enfoque al cliente para ofrecer servicios de alta calidad y una

gama de productos innovadores basados en tecnología como Internet.

Todas las operadoras postales en Europa han entendido la importancia de establecer su

presencia en la Red y cada vez más clientes eligen Internet como el medio de interacción

preferido. En marzo del 2002, Correos anunció que su página Web recibe medio millón de

visitas cada día. Según Correos, los factores claves para el éxito de su página Web son los

servicios interactivos y la fiabilidad de una amplia gama de productos nuevos, como, por

ejemplo, el seguimiento de cartas y paquetes.

Tanto clientes particulares como clientes de empresas son los activos más importantes para

las operadoras y un servicio al cliente eficiente es la clave del éxito en el mercado. En toda la

industria postal se implantan soluciones de CRM para mejorar el servicio al cliente con un coste

cada vez menor.

Un ejemplo de esta tendencia es que las operadoras ofrecen oficinas electrónicas para

poder atender al cliente 24 horas al día, 365 días al año a través Internet. También ofrecen

centros de atención al cliente que están integrados con las operaciones del back-office. Así,

pueden obtener una visión completa de cada cliente.

Operaciones y logística

Las operadoras postales en Europa están invirtiendo en instalaciones de última tecnología

para optimizar el proceso de matasellado y clasificado de cartas y su entrega.

Se están implantando sistemas de información para la gestión de transportes con el fin de

mejorar el servicio de entrega a través de un aumento de la rapidez, precisión de la información y

una reducción de costes. Las siguientes aplicaciones dan soporte a la optimización de las

operaciones:



• Identificación de paquetes

• Seguimiento de paquetes

• Prueba de entrega

• Seguimiento a través Internet

• Información en tiempo real

Gestión de los Recursos de la Empresa

En un intento de optimizar el flujo de información a través la organización, las operadoras

postales europeas están adoptando soluciones integradas, para la gestión de los recursos de la

empresa (ERM, Enterprise Resource Management), que comunican sistemas de información que

antes estaban separados. Así se hace más fácil el manejo de los recursos humanos, materiales y

financieros.

Las principales ventajas al implantar ERM son:

• Ahorro de costes por aumento de productividad en las funciones del back-office.

• Disminución del tiempo de toma de decisiones

• Aumento del nivel del servicio

Globalización

Como se ha mencionado anteriormente, el objetivo de la nueva directiva de la UE es abrir

totalmente el mercado de correo internacional en diez de los quince países miembros. Para

afrontar esta liberalización y el aumento de la competencia entre países, muchas operadoras

postales han aumentado sus esfuerzos para desarrollar actividades internacionales, por ejemplo a

través de adquisiciones o alianzas. Los cuatro operadores más grandes en Europa están

encabezando este desarrollo internacional, véase figura 2.4.



0,0%

10,0%

20,0%

30,0%

40,0%

50,0%

60,0%

70,0%

TPG Deutsche Post Groupe LaPoste

Consignia

Porcentaje de los beneficios generados en el extranjero

Aunque la tendencia ahora es de crecimiento a través de ingresos generados en el

extranjero, la industria postal todavía es un negocio principalmente doméstico, salvo quizás para

TPG y Deutsche Post. Debido al monopolio existente en la mayoría de países europeos, los

ingresos del extranjero vienen principalmente de paquetes. Con la liberalización del mercado en

2006 y 2009 eso va a cambiar.

Figura 2.4: Benificios generados en el extranjero de los cuatro operadores másgrandes en Europa



Requisitos del Cliente

Al hablar de los requisitos del cliente es importante distinguir entre empresas y

particulares.

Empresas

Las empresas exigen no solamente un servicio rápido y fiable sino también soluciones

con valor añadido para su cadena de aprovisionamiento. Estos clientes ven la operadora como un

business partner que entiende su negocio y que puede ayudarles a tener éxito en su mercado.

Un ejemplo de dichas soluciones en el mercado de logística es el third party logistic

provider (3PL). Estos proveedores ofrecen varios servicios para la cadena de aprovisionamiento

como, por ejemplo, cumplimiento de pedidos, transporte, gestión de almacenes, gestión de stock

y sistema de información para la logística. Se prevé un crecimiento fuerte para este tipo de

empresas.

Particulares

Los clientes particulares también exigen soluciones con valor añadido. Debido a los costes

decrecientes de información, el cliente ahora tiene un poder que jamás antes tuvo en la relación

con la operadora postal. Muchos operadores tienen que replantarse los objetivos tradicionales

que incluyeron solamente velocidad, fiabilidad y coste. Hoy en día hay que enfocar, además de

los objetivos tradicionales, requisitos como el ahorro de tiempo del cliente, la necesidad de

información del cliente y la posibilidad de poder elegir un servicio personalizado por parte del

cliente.



2.1.2.4 Estrategias de las Operadoras Postales

Desde 1997, año en que se publicó la primera Directiva europea sobre los servicios

postales, las operadoras postales europeas se embarcaron en la búsqueda de soluciones para

compensar la probable pérdida de ingresos derivada de la apertura a la competencia. Aunque el

esfuerzo se ha materializado en todos los ámbitos, merecen atención las distintas estrategias en

cada uno de los mercados.

Cartas

La correspondencia tradicional ha sido testigo del lanzamiento de servicios integrales

para las empresas que remiten correo masivo. Las novedades en estos servicios han ido

encaminadas a reforzar las relaciones con los grandes clientes, tratando de frenar la sustitución

electrónica y creando barreras de entrada de cara a una mayor apertura del mercado.

Por otra parte, ante estas expectativas de mayor liberalización, varias empresas postales

han tomado posiciones en mercados extranjeros, como por ejemplo TPG, que compró la alemana

EP Europost, y Deutsche Post, que invertirá 1.000 millones de euros en los próximos años para

entrar en mercados de correspondencia europeos.

Aún mayores han sido los movimientos observados en el marketing directo, dado que se

encuentra liberalizado en diversos países europeos y la sustitución electrónica no supone una

gran amenaza. De nuevo hay que mencionar a TPG y Deutsche Post con adquisiciones fuera de

sus fronteras. El primero se mostró interesado en los mercados del Centro y Este de Europa,

mientras que el correo alemán se introdujo en el lucrativo mercado holandés.

Paquetería

En lo que se refiere al negocio de paquetería y carta exprés, la actividad compradora de

los grandes grupos europeos se ha retraído a lo largo de los últimos años, quedando lejos de la de

años anteriores. La preocupación fundamental de los operadores presentes en el sector, ha sido la

consolidación de sus redes, completando la integración de adquisiciones anteriores.



En el caso español hay que destacar la entrada de Correos en este negocio con su filial

Chronoexprés, que se hizo con la paquetera Servipack, para colocarse en el tercer puesto del

ranking nacional por volumen negocio.

Oficinas

En la red de oficinas, los últimos años han conllevado novedades interesantes. Al margen

del tradicional negocio bancario, donde muchos correos han buscado acuerdos con entidades

financieras para ampliar la oferta de productos, se ha impuesto la introducción de nuevos

servicios en las sucursales para tratar de aprovechar la gran capilaridad existente.

Los ejemplos son variopintos, como el de Canada Post que ha convertido las oficinas en

tiendas de regalos o el de Córrelos de Brasil que cobra facturas de empresas eléctricas. A esto se

añade en otros casos la venta de móviles, viajes y un largo etcétera.

Otra tendencia reseñable ha sido la progresiva prestación de servicios postales en tiendas de

distinto tipo, con el consiguiente ahorro de costes.

Logística

El negocio de la logística parece ser un área de diversificación en el cual solamente

holandeses y alemanes se han posicionado con determinación, aunque siguiendo estrategias

diferentes. TPG, a través de su división TNT Logistics, ha sido el más activo, adquiriendo

empresas logísticas en Holanda, Italia, Francia, y países escandinavos, en áreas de negocio tales

como la logística textil, la automoción, y el frío.

En cuanto a Deutsche Post, ha protagonizado también diversas compras a través de su

filial Danzas en los países nórdicos y Francia, entre otros.

Consultoría

Para concluir el repaso a los negocios que desempeñan los diferentes correos del mundo, resta

por comentar las tentativas realizadas en consultoría.



El mercado objetivo del negocio de consultoría parece estar conformado por los operadores

de países en vías de desarrollo o con grandes problemas gestión, oportunidad que están

aprovechando empresas como TPG o New Zealand Post.

Nuevas Tecnologías

En el ámbito de las nuevas tecnologías, las expectativas creadas años atrás con el boom

de Internet han resultado defraudadas y muchas empresas han ido saliendo del sector. Casos

destacados son los de Deutsche Post, que ha vendido su portal eVita y está buscando comprador

para su filial de firma electrónica Signtrust, el de Posten de Suecia, que ha reducido su

participación en el concurrido portal sueco Torget a sólo el 15%, y el de UPS, que ha liquidado

su servicio de documentos electrónicos por Internet, tras un par de años de actividad, por su

escasa demanda.

No obstante, no se puede afirmar que las perspectivas sean negativas para todos. Así,

Post Denmark ha entrado de lleno en el e-Goverment.



2.1.2.5 Correos y Telégrafos

La misión de Correos y Telégrafos Sociedad Anónima Estatal (en adelante Correos) se

define de la siguiente forma: �Correos se posiciona como un operador regional enfocado a los

servicios postales y otros servicios de valor añadido, con un desarrollo en el comercio

electrónico en coherencia con sus actividades principales, mediante el uso eficiente de sus

recursos, la aplicación de tecnologías avanzadas y la potenciación de sus capacidades específicas

y de innovación, con la finalidad de proporcionar máxima satisfacción a sus clientes y al

conjunto de la sociedad, dotando de un desarrollo profesional adecuado al conjunto de sus

empleados.�

La entidad ha existido de varias formas durante más de 300 años en España, adaptándose a

las necesidades de la sociedad. En los últimos años, los cambios han adquirido un ritmo de

vértigo. En 1992, Correos deja de ser una Dirección General para transformarse en Organismo

Autónomo de carácter comercial y cinco años después en Entidad Pública Empresarial. En junio

de 2001 estrena una nueva forma de gestión bajo un nuevo régimen jurídico: el de Sociedad

Anónima Estatal.

Correos en cifras

Correos es la primera empresa del país desde el punto de vista de red capilar con

presencia en más de diez mil puntos de atención y también es una de las primeras empresas del

país desde el punto de vista de plantilla y de empleo directo. La empresa da empleo a más de

sesenta mil personas y realiza más de cien mil contratos temporales anualmente.



Correos en cifras

Envíos Postales 2002 5324 millones

Línea básica 5.296 millones

Línea urgente 28 millones Puntos de Atención 10.101 Centros de tratamiento 54 Centros de admisión masiva 52 Vehículos 9.500 Buzones 38.000 Empleados 2002

Funcionarios 41.200

Laborales 21.900 Venta 2002 1.673 millones de Euros Beneficios 2002 82,7 millones de Euros

El precio de enviar una carta ordinaria en España es muy bajo en comparación con los

otros países europeos. Por tan sólo 0,27 Euros, cualquier persona puede poner en funcionamiento

el mayor sistema logístico en el país. El precio medio europeo es casi el doble como muestra la

siguiente tabla:

Precio de la carta ordinaria en UE

Alemania 0,55 � Austria 0,51 � Bélgica 0,49 � Dinamarca 0,57 � España 0,27 � Finlandia 0,65 � Francia 0,46 � Grecia 0,41 � Holanda 0,39 � Irlanda 0,48 � Italia 0,62 � Luxemburgo 0,60 � Portugal 0,30 � Reino Unido 0,39 � Suecia 0,60 � Media 0,48 �



Uno de los retos principales durante los últimos años ha sido la eliminación del déficit

crónico de la sociedad. Eso se ha conseguido por primera vez en el año 2000, véase figura 2.5:

-20

0

20

40

60

80

100

Millones de euros

1999 2000 2001 2002

Resultado antes de impuestos

Organización

Correos está estructurado por áreas funcionales en un organigrama muy tradicional, véase

figura 2.6. La organización consiste de tres divisiones básicas con autonomía de gestión:

División de Correos, División de Oficinas y División de Exprés. Estas divisiones configuran el

territorio español en zonas que cuentan con un responsable máximo para el territorio que

abarcan.

Para la gestión de la empresa existen dos órganos superiores de dirección: El Consejo de

Administración que se compone de 17 consejeros y una Comisión Ejecutiva, y el Presidente que

actualmente es Sr. D. Víctor Calvo-Sotelo Ibáñez-Martín.

Figura 2.5: Evolución de los resultados



Consejo de Administración

Presidente

Direcciones Corporativas

Unidades apoyo superior dirección

Unidades de desarrollo

División de Correo División de Oficinas División de Exprés

Estructura territorial

Estructura territorial

Las tareas principales del Presidente son la coordinación de las divisiones, la supervisión y el

desarrollo de la estrategia empresarial. Para llevarlas a cabo cuenta con cuatro unidades de

apoyo:

• General

• Jurídica

• Auditoria

• Comunicación

Figura 2.6: Organización de Correos



Además de las unidades de apoyo, existe como función Staff las Direcciones Corporativas

que son:

• Dirección Económico Financiera

• Dirección de Recursos Humanos

• Dirección de Tecnología y Sistemas

• Dirección de Estrategia y Desarrollo Corporativo

• Dirección Comercial y de Marketing

Las unidades de desarrollo también es una función Staff en el organigrama de Correos, y

contiene las siguientes unidades:

• Servicios Financieros

• Filatelia

• E-Business

Análisis de la situación

A continuación se presenta una evaluación de la situación actual de Correos a través de un

análisis DAFO (Debilidades, Amenazas, Fortalezas y Oportunidades). Éste pretende dar una

imagen de los retos que afronta Correos en un mercado cada vez más abierto para la

competencia, pero también las posibilidades que tiene la empresa de mantener su liderazgo en

este entorno cambiante.

Fortalezas Oportunidades

• Amplia red de distribución • Convertirse en el primer suministrador

de servicio integrado de correspondencia, paquetería y logística

• Amplia red de oficinas • Fuerte crecimiento del mercado de paquetería

• Amplia gama de servicios y posición de liderazgo

• Red de oficinas adaptable a la comercialización de otros productos y servicios

• Gran conocimiento de la marca Correos • Desarrollo de e-Business

• Monopolio para muchos productos • Diversificación en nuevas actividades

empresariales asociadas a las capacidades y recursos de Correos

• Patrimonio inmobiliario relevante, con ubicación privilegiada

• Expansión de la red de distribución mediante acuerdos con otros operadores públicos o privados



• Identificación corporativa del equipo de dirección y del conjunto de los segmentos de la plantilla

• Evolución de la forma jurídica

• Solvencia económica

• Desarrollo de un plan de sistemas que posibilite la adecuación de los mismos y la infraestructura tecnológica a las necesidades de las actividades actuales y futuras de Correos

• Capacidad de recogida y distribución de 60.000 buzones y 8453 vehículos

• Automatización de los procesos de clasificación

Debilidades Amenazas • Deficiente optimización de los

distintos procesos tanto de la operativa postal como la gestión interna

• Progresiva aparición de nuevos competidores de dimensión nacional e internacional

• Dependencia excesiva de los productos postales tradicionales

• Creciente nivel de exigencia por parte de los clientes

• Sistemas de información con notorias debilidades

• Mayor liberalización de las actividades postales y tendencia hacia la reducción de los servicios reservados a los operadores públicos

• Escaso grado de automatización de las actividades de clasificación

• Desaparición de las barreras entre la paquetería industrial y comercial

• Insuficiente orientación al cliente en el conjunto de la organización

• Prácticas fraudulentas de competidores sobrepasando los límites del ámbito reservado

• Escasa presencia internacional de sus actividades

• Efecto sustitución por el avance de las nuevas tecnologías

• Estructura organizativa funcional tradicional, que limita la coordinación operativa y la agilidad de respuesta ante el entorno

El apartado de amenazas corresponde al discurso que ofreció Sr. D. Benjamín Calzón,

Subdirector de Organización de la Dirección de Estrategia y Desarrollo en Correos, en el �Foro

Postal Europa-América� celebrado en Madrid en el 2002 sobre el tema �La experiencia española

en la adaptación al cambio del sector postal�. En el discurso destacó los siguientes retos

principales para Correos:



• La progresiva liberalización que podemos contemplar desde dos puntos de vista: por un

lado, como un conjunto de nuevas oportunidades para los operadores entrantes y, desde

otro, los cambios que van a tener que experimentar los operadores que venían gozando de

posiciones de monopolio.

• El rápido progreso tecnológico va a facilitar a los operadores diseñar nuevos productos o

desarrollar procesos de forma más eficiente y, a los clientes, exigir nuevos productos de

mayor valor añadido.

• El cambio de las expectativas de los clientes: el aumento de la necesidad de concentrarse

en el núcleo del negocio en las empresas, tiene como efecto la subcontratación creciente

de actividades, principalmente en el ámbito logístico. Esto, obviamente, se transforma en

un abanico de nuevas oportunidades.

• La globalización; donde la tendencia general del crecimiento del comercio internacional

lleva a las empresas, y a los clientes, a que cada vez precisen más de servicios

internacionales. Y aquí destacan los significativos movimientos estratégicos de distintos

operadores para ofrecer cada vez servicios más globales, mucho más allá de las fronteras

tradicionales.

2.1.2.6 Gestión de la logística

Hay varias maneras de afrontar los retos que se ha propuesto Correos. La respuesta exacta

consiste en numerosas acciones para mantener la posición de liderazgo en el mercado, pero los

objetivos generales de todas estas acciones son:

• Crecimiento de las ventas, a menudo a través adquisiciones y fusiones.

• Desarrollo de nuevos negocios, por ejemplo basados en Internet.

• Reducción de los costes operacionales mientras se mejora el nivel de servicio exigido por

el cliente.

En el tercer punto, reducción de costes operacionales, el enfoque suele ser la disminución de

costes de explotación, donde Correos gasta el mayor porcentaje de su presupuesto operacional.

Una gran parte de estos costes de explotación corresponde a las actividades de �Gestión y

Programación de la red� y �Logística y Transporte�, que constituyen el �Core Business� de su

cadena de valor (value chain), véase figura 2.7.



Marketing y Ventas

Planificación del Servicio Postal

Administración, servicios jurídicos y FinanzasGestión RR.HH.

Infraestructura logísticaServicios de Informática

Logística y Transporte

Servicio atención al

cliente

Gestión y programación

de la Red

Auditoria y Control

CO

RE

B

US

INE

SS

PR

OC

ES

OS

DE

S

OP

OR

TE

Todas las técnicas para reducir los costes en estos campos tienen como fin la obtención

de una visión y control global de la cadena de valor e incluyen, en primer lugar, la Planificación

del Servicio Postal, actividad que corresponde a la alta dirección. Para gestionar y programar la

red se utilizan técnicas de gestión de la demanda y gestión de los recursos necesarios, tanto en

los centros de distribución como en la propia distribución, desde el remitente hasta el destinatario

(End-to-End).

Sobre todas esas funciones hay que realizar un seguimiento del rendimiento, también

End-to-End, para obtener datos fiables y así poder analizar el rendimiento total de la cadena

logística, tanto en costes como en calidad, desde el punto de vista del cliente, véase figura 2.8.

Figura 2.7: La cadena de valor de Correos y Telégrafos

Figura 2.8: El seguimiento de la calidad desde el punto de vista del cliente.



Gestión de la demanda

Para optimizar la utilización de los recursos, primero es imprescindible tener datos fiables

de la demanda prevista. Con técnicas clásicas de previsión de demanda, que están basadas en

datos históricos, e incluyendo escenarios futuros previstos, se puede determinar con buena

precisión la demanda futura y su estacionalidad.

Gestión de los recursos

La planificación de recursos se descompone en dos partes:

• Gestión de los centros de distribución

• Gestión de la distribución

A nivel de gestión de los centros de distribución, hay que prever el volumen de cartas y la

hora de la llegada de estas cartas con ayuda de datos históricos y previsión de escenarios

especiales, el número de empleados necesarios en cada momento y sus skills, como la asignación

de máquinas y otros parámetros.

Un ejemplo de la complejidad de la gestión de los centros de distribución es el nuevo centro

de tratamiento automatizado en Vallecas, Madrid. En este centro se reciben y clasifican más de

6.000.000 cartas diariamente que llegan y salen de Madrid, lo que significa el 38% del correo

gestionado por la empresa. El centro cuenta con ocho líneas de clasificación automática, cada

una con una capacidad de 40.000 cartas por hora. Cada máquina funciona con un software

específico para Correos y que es susceptible de actualización conforme al crecimiento

urbanístico de las poblaciones y cualquier otra variación. Los nuevos equipos tecnológicos

disponen de una sala de vídeo codificación, que permite trabajar aquella correspondencia

rechazada por el sistema automático. La gestión de la distribución utiliza soluciones semejantes

para la previsión de demanda y la planificación de recursos para optimizar las flotas internas y

externas. La optimización incluye todos los flujos: remitente a centro de distribución A, centro A

a centro B y centro B al destino final.

El seguimiento del rendimiento End-to-End mide cómo la Planificación del Servicio Postal

junto a la gestión de la red y la logística funcionan en su totalidad desde el punto de vista del

cliente.



2.1.3 Adquisición de conocimiento

Para llevar a cabo la medición de la calidad de las cartas test se requiere un panel de

empresas y particulares distribuidas entre las 52 provincias españolas, que pueden actuar tanto de

emisores como de destinatarios de cartas test. Toda esta información relevante para el estudio se

almacena en una base de datos histórica de gran tamaño.

Etapas de una carta test

Las etapas por las que pasa una carta test son: producción, impresión y manipulado, envío

al remitente, llegada al destinatario, y por ultimo, llegada al Centro de recogida de datos donde

se introducen los datos de la carta test en el sistema. A continuación se detallan cada una de estas

etapas, describiendo los flujos de información más relevantes:

1.1 Producción semanal de cartas test

Cada semana se determina el flujo de correo a generar, tanto para la línea básica como

para la urgente. Para cada carta se especifica:

• Información relativa al remitente y al destinatario

• Formato del sobre

• Peso de la carta

• Método de franqueo

• Método de inducción

• Fecha prevista de inducción

• Línea a la que pertenece la carta: ordinaria o urgente

• Dirección postal escrita a mano o a maquina

1.2 Impresión y manipulado de cartas test

Se produce la carta físicamente atendiendo a las características descritas anteriormente.,

tal y como se muestra en la figura 2.9.



1.3 Envío de fajos de cartas a los remitentes

Las cartas se agrupan en fajos y se envían a los distintos remitentes. Las cartas se

empaquetan en lotes para el emisor y se etiqueta con una identificación que indica los

documentos del lote y las instrucciones de envío.

Todos los lotes de un emisor determinado se agrupan. Cada uno de estos lotes tiene un

identificador que lo vincula con el emisor.

1.4 El remitente recibe el/los fajos

1.5 El remitente induce las cartas en la fecha prevista (lo ideal) y rellena el cuestionario

En el cuestionario a rellenar por el remitente se especifica:

• Fecha y hora de inducción real (si no coincide con la fecha prevista de inducción)

• Lugar de inducción (si no coincide con el lugar previsto de inducción)

• Ultima hora de recogida (solo para buzón)

1.6 El destinatario recibe la carta y rellena el cuestionario

En el cuestionario a rellenar por el destinatario se especifica:

• Fecha de recepción

• Calidad del paquete recibido

1 Impresión de cartas test

2 Ensobrado

3 Los sobres son agrupados

4 Las agrupaciones se ponen en lotes

5 La producción se deposita en el correo

Figura 2.9: Impresión y manipulado de cartas test



1.7 El remitente y el destinatario envían sus cuestionarios al Centro de Recogida de

Datos

En el Centro de Recogida de Datos se introducen los datos de los cuestionarios en la base

de datos.

1.8 Integración de datos del Centro de Recogida de Datos con el almacén de datos de

IBM.

Cada semana se envían los datos recibidos en el Centro de Recogida de Datos y se hace la

integración y actualización del almacén de datos de IBM.



2.2 Definición de requisitos

Se desea diseñar un Sistema Basado en Conocimiento, capaz de realizar una recuperación

y asimilación de información y descubrimientos en una base de datos con gran volumen de

información relativa al plazo de entrega y la calidad de recepción de cartas distribuidas por toda

la geografía española, con una profundidad histórica que data desde el año 2000. En concreto, se

trata de un problema de KDD (Knowledge Discovery in Databases) donde se aplicarán

algoritmos de Data Mining para clasificación, segmentación (clustering), reglas de asociación,

regresión y patrones de comportamiento.

Requisitos del usuario:

Se desea desarrollar algoritmos de clasificación y clustering para predecir el plazo de

entrega y la calidad de recepción y para identificar relaciones entre atributos que influyan en la

entrega. Se pretende poder construir un árbol de decisión y poder identificar las rutas óptimas y

las tardías, así como poder predecir el plazo de entrega y el estado de recepción de una carta a

partir de los datos históricos de los que se disponen.

Requisitos del experto:

Para realizar las tareas de clasificación se utilizarán algoritmos de la construcción de

árboles de decisión. En concreto: ID3.

Para el análisis de clustering y para la búsqueda de patrones se utilizará la técnica de

Repertory Grid (emparrillados).

Se realizará un nuevo diseño de la base de datos donde se almacenarán los datos

significativos de las cartas test, para un posterior análisis. El gestor de base de datos será MS

SQL Server 2000. Para el desarrollo de los algoritmos y para la interfaz del programa se utilizará

como lenguaje de programación Visual Basic 6.

La aplicación deberá ser capaz de trabajar con distintos orígenes de datos (ficheros planos,

Excel,...) y distintos gestores (SLQ Server, DB2, Oracle,...), para conseguir que la herramienta de

minería sea lo más portable posible.



La herramienta deberá ser flexible para poder añadir nuevos algoritmos no contemplados

inicialmente. Entre posibles algoritmos a incluir destacan: Naive Bayes, One Rule, C5.0, A

priori, reglas de asociación y análisis de correlación entre dos variables.

La aplicación deberá ser capaz de obtener resultados fiables y capaz de trabajar con un

gran volumen de datos. Los resultados se mostrarán gráficamente y existirá la posibilidad de

guardar los resultados obtenidos.



2.3 Alcance del proyecto

El alcance del proyecto es enorme. Mide la calidad en plazo de los envíos postales entre

todas las provincias del país, entre todas las capitales de provincia, y entre una muestra de

poblaciones de cada provincia que responden a categorías postales diferentes. ¡Son casi 13.000

flujos a medir!

Cada semana se asigna el volumen de correo a enviar para cubrir unos requerimientos

mínimos impuestos por Correos, llegando a enviarse anualmente cerca de 130.000 cartas para la

línea básica y 25.000 para la línea urgente. El estudio mide la calidad en plazo de la carta

ordinaria (envíos de carácter personal que no superen los 2 Kg.), tanto la línea básica como

urgente, para flujos de correo local, provincial y nacional. Para cada uno de estos flujos se

distingue el método de franqueo (sello, máquina de franquear o franqueo pagado), método de

inducción (buzón, oficina de correos o centro de admisión masiva), el tipo de carta (definido

según parámetros como tamaño, peso, dirección postal, lugar de recogida,...), dirección (escrita a

mano o a maquina), tipo de panelista (empresa o particular), día de la semana en que fue

depositada, etc.



2.4 Objetivos del proyecto El objetivo del proyecto es diseñar una aplicación que utilice algoritmos de Data Mining

para:

- Identificar patrones y reglas a partir de casos históricos y cartas test

# Determinar causas del retraso de una carta

# Identificar patrones de comportamiento entre las distintas comunidades

autónomas

# Encontrar posibles relaciones entre atributos

# Determinar causas del estado de recepción de una carta

- Predecir información futura a partir de información histórica.

# Predecir el plazo de entrega y la calidad de recepción de una carta

- Clasificar automáticamente nuevos registros que se presenten:

# Obtener los mejores separadores que determinan un atributo de clase.

# Clasificar el tipo de retraso en la recepción de una carta

# Tipo de provincias según flujo de correo entrante o saliente.

- Extraer información táctica y estratégica almacenada en la base de datos y

facilitar la toma de decisiones basadas en información de experiencias pasadas.

# Comparación del rendimiento en diferentes rutas de correos, flujos,

periodos, etc.

# Valoración de los efectos (acciones de recuperación) en rutas en las que la

demora en la recepción de envíos está por debajo de los estándares.

# Identificar rutas optimas y tardías



2.5 Análisis de viabilidad

El estudio de viabilidad servirá para asegurarnos de una forma objetiva de que la tarea

que vamos a emprender es factible.

Hay muchos tipos de estudios de viabilidad. Usaré el test de Slagel para realizar el análisis.

Este test consta de tres etapas:

- Definición de las características

- Asignación de los pesos

- Evaluación de cada aplicación candidata

Definición de las características

Se consideran cuatro dimensiones:

- Plausibilidad

- Justificación

- Adecuación

- Éxito

Test de Slagel

CAT. IDEN. PESO (P) VALOR (V) DENOMINACIÓN DE LA CARACTERISTICA TIPO

EX P1 10 10

Existen expertos. Comentario: Los expertos existentes en el proyectoprovienen de IBM y de Correos. Los expertos deCorreos ayudarán en el uso del conocimientoobtenido y para contrastar resultados. El experto deIBM ayudará en las soluciones tecnológicas delsistema de medición de calidad.

E

EX P2 10 9

El experto asignado es genuino. Comentario: Los expertos son de reconocido prestigio. Los expertos de Correos son el Director deEstrategia y Desarrollo, y los responsables dedepartamento de la línea ordinaria y urgente. Entrelos expertos de IBM destaca Enrique Montero,gerente de Consultoría.

E



EX P3 8 8

El experto es cooperativo. Comentario: tanto Enrique como los responsables dedepartamento de Correos se muestran entusiastascon el proyecto, aportando sus ideas y enfoques paraabordar el proyecto de una manera satisfactoria.

D

EX P4 7 6

El experto es capaz de articular sus métodos pero no categoriza. Comentario: los métodos usados para la mediciónestán regulados según los estándares de la normaeuropea.

D

TA P5 10 9

Existen suficientes casos de prueba; normales,típicos, ejemplares, correosos,... Comentario: es necesario utilizar una muestra significativa como casos de prueba para verificar quelos resultados obtenidos son coherentes, y sobre todo,útiles.

E

TA P6 10 8

La tarea está bien estructura y se entiende. Comentario: en Data Mining existen varias métodos de abordar una tarea. Es fundamental entender latarea a desarrollar para poder valorar los distintosmétodos y elegir el más apropiado. Ej.: para realizar tareas de clasificación se pueden utilizar métodos deárboles de decisión, mapas de Kohonen,...

D

TA P7 10 8

Sólo requiere habilidad cognoscitiva. Comentario: se requiere poder interpretar losresultados obtenidos después de aplicar laherramienta de Data Mining a los datos.

D

TA P8 9 8

No precisan resultados verdaderamentecomprometidos con el proyecto. Comentario: los resultados obtenidos servirán paramejorar la calidad de los servicios postales y teneruna visión más detallada para cada una de las rutasde correo.

D

TA P9 9 7

La tarea no requiere sentido común. Comentario: aunque los datos con los que se trabajan son obtenidos del día a día, la aplicación ensi no se basa en el razonamiento sobre lo cotidiano.

D

DU P10 7 8

Los directivos están verdaderamente comprometidoscon el proyecto. Comentario: los resultados obtenidos con laherramienta serán de gran ayuda, facilitando la toma de decisiones a los directivos de Correos.

D

EX J1 10 7

El experto no está disponible. Comentario: los expertos de Correos se encuentranubicados en otro edificio y es preciso concertar unacita con ellos previamente. Esto no es un inconveniente, ya que las reuniones con Correos sonaproximadamente una vez al mes para tratar sobre elestado actual del proyecto y los nuevos avancesrealizados. Por otra parte, los expertos de IBM estántotalmente disponibles.

E



EX J2 10 6

Hay escasez de experiencia humana. Comentario: depende del uso que se haga de laaplicación. Si se quiere distribuir la herramienta pordistintas zonas para analizar los resultados demedición de la calidad, puede ser conveniente que laexperiencia sobre el servicio postal de una zona sea compartida entre las demás zonas para poder teneruna visión global.

D

TA J3 8 4

Existe necesidad de experiencia simultanea enmuchos lugares. Comentario: depende del uso que se haga de laaplicación. Si se quiere distribuir la herramienta por distintas zonas para analizar los resultados demedición de la calidad, puede ser conveniente que laexperiencia sobre el servicio postal de una zona seacompartida entre las demás zonas para poder teneruna visión global.

D

TA J4 10 7

Necesidad de experiencia en entornos hostiles,penosos y/o poco gratificantes. Comentario: al principio se empieza el proyecto conilusión pero cuando todavía no se ve bien elresultado final, es muy frecuente desmoralizarse.Además, realizar análisis de datos es tedioso y puede resultar poco gratificante. Se invierte mucho tiempohasta obtener el resultado deseado. Por tanto, serequiere experiencia en estos temas.

E

TA J5 8 8

No existen soluciones alternativas admisibles Comentario: en Data Mining existen varias métodos de abordar una tarea. Ej.: para realizar tareas de clasificación se pueden utilizar métodos de árbolesmediante técnicas de ID3, CART, C4.5 ,... Es precisoentender el problema a tratar para seleccionar elmétodo adecuado. Una solución alternativa puede ser posible, pero al tratarse de algoritmos ad-hoc, hechos a medida, se dificulta el aprovecharalgoritmos ya existentes.

E

DU J6 7 10

Se espera una alta tasa de recuperación de lainversión. Comentario: una vez implantada la herramienta de Minería se obtendrían resultados muy útiles para lasempresas postales. Se podrían detectar aquellas rutasen las que existen problemas de distribución,manipulación... pudiendo emprender acciones demejora focalizadas. Esto ayudaría a mejorar los servicios y se obtendrían grandes ingresos, lo quepermitiría recuperar rápidamente la inversión.

D

DU J7 8 9

Resuelve una tarea útil y necesaria. Comentario: esta aplicación sería útil para empresasde mensajera, marketing directo,... Permite obtenerconocimiento sobre las rutas óptimas a seguir para entregar el paquete, identificar clientes potencialespara realizar una marketing especifico...

E

EX A1 5 5

La experiencia del experto está poco organizada. Comentario: los expertos de Correos tratan deorganizan sus conocimientos sobre pliegos y documentos donde se especifica un modeloestadístico que recoge sus experiencias. Estedocumento contiene información sobre horarios derecogida en buzón, horario comercial en oficinas,...

D



TA A2 6 8

Tiene valor práctico. Comentario: la herramienta es capaz de obtenerresultados útiles que se pueden aplicar a corto plazo. D

TA A3 7 7

Es más táctica que estratégica. Comentario: la herramienta ayuda a la toma dedecisiones estratégicas, aunque también describeinformación operacional y táctica, del día a día.

D

TA A4 7 8

Sirve a necesidades a largo plazo. Comentario: se dispone de una base deconocimientos desde el año 2000. Después delanálisis de los resultados obtenidos, se plantean lasmejoras a realizar en los servicios postales, la mayoría de ellas, a medio-largo plazo.

E

TA A5 5 9

La tarea, que no es demasiado fácil, pero que es deconocimiento intensivo, tanto propio del dominio,como de manipulación de la información. Comentario: se requiere una gran labor de preparación de datos (limpieza, detección de valoresfaltantes, anómalos,...) y transformación para poderaplicar la herramienta de Minería y obtenerresultados con un alto nivel de exactitud.

D

TA A6 6 3

Es de tamaño manejable, y/o es posible un enfoque gradual y/o, una descomposición en subtareasindependientes. Comentario: se maneja una gran cantidad deinformación: se dispone de información de cartas testdesde el año 2000, almacenada en una base de datoscon miles de registros. Es necesario una agrupación y descomposición de los datos para poder operar conellos.

D

EX A7 7 7

La transferencia de experiencia entre humanos esfactible. Comentario: la experiencia obtenida puede serfácilmente transferida, ya que toda persona estáfamiliarizada con la entrega y/o recepción de cartas.

E

TA A8 6 6

Estaba identificada como un problema en el área y losefectos de la introducción de un SE puedenplanificarse. Comentario: podrían aplicarse multitud de métodospara extraer conocimiento de la BBDD (SQL,OLAP,...). No obstante, lo más apropiado es realizar un sistema experto para la Minería de Datos, ya que al disponer de multitud de métodos de extracción deconocimiento, se facilita el desarrollo de laaplicación y se garantiza la fiabilidad delconocimiento extraído.

D

TA A9 9 10

No requiere respuestas en tiempo real "inmediato". Comentario: al ser un proyecto de Minería de Datosque se basa en un histórico almacenado en unaBBDD, la extracción del conocimiento se hará unavez al principio y después, puede que con una periodicidad a determinar, pero en ningún momentoserá necesario dar una respuesta inmediata alusuario.

E



TA A10 9 8

La tarea no requiere investigación básica y usa, sialguna, poca generación y entendimiento del lenguajenatural. Comentario: la tarea no requiere ni generación, ni ningún entendimiento del lenguaje natural, ya queúnicamente va a operar con una BBDD. En cuanto ala investigación, la principal documentaciónnecesaria es la propia BBDD y los algoritmos deminería para poder realizar la extracción de información útil.

E

TA A11 5 2

El experto usa básicamente razonamiento simbólicoque implica factores subjetivos. Comentario: el razonamiento va a ser siempreobjetivo, no cabe subjetividad ninguna. Los datos sonlos que están recogidos en la BBDD, y la forma de interpretarlos está claramente definida.

D

TA A12 5 10

Es esencialmente de tipo heurístico. Comentario: este sistema experto hará uso de unhistórico de que dispone para extraer conocimientomediante métodos heurísticos.

D

EX E1 8 9

No se sienten amenazados por el proyecto, soncapaces de sentirse intelectualmente unidos alproyecto. Comentario: este proyecto pretende ser una ayuda,pero en ningún momento se enfrentará con losintereses de ninguna otra persona. Es unaherramienta que le será útil para obtener conclusiones y facilitar la toma de decisiones aempresas dedicadas al servicio postal o lamensajería.

D

EX E2 6 2

Tienen un brillante historial en la realización de estatarea. Comentario: esta tarea no se ha llevado a cabo antes, o al menos no a gran escala. Se ha podido consultaren un momento puntual la BBDD, pero nunca se haextraído conocimiento de forma masiva.

D

EX E3 5 5

Hay acuerdos en lo que constituye una buenasolución a la tarea. Comentario: se cuenta con todo el apoyo del cliente para llegar a la solución de las tareas y requisitosespecificados.

D

EX E4 5 8

La única justificación para dar un paso en la soluciónes la calidad de la solución final. Comentario: los expertos de Correos podráncontrastar los resultados obtenidos, los cuales serán de gran utilidad para mejorar la calidad de losservicios postales.

D

EX E5 6 7

No hay un plazo de finalización estricto, ni ningúnotro proyecto depende de esta tarea. Comentario: en este proyecto, no se dispone deninguna fecha de finalización estricta. No obstante, influye la finalización de la beca en IBM de Alfredo,pero obviamente no es un requisito del proyecto.

D



TA E6 7 7

No está influenciada por vaivenes políticos. Comentario: al ser Correos una empresa pública, existe un trasfondo político por recortes depresupuestos, reasignación de puestos, etc.

E

TA E7 8 1

Existen ya SS.EE. que resuelvan esa o parecidastareas. Comentario: no se dispone de ninguna otraaplicación con este mismo fin.

D

TA E8 8 4

Hay cambios mínimos en los procedimientos habituales. Comentario: los cambios aún se desconocen.Precisamente lo que se busca en este proyecto esextraer conclusiones del análisis de los datos. Noobstante, no es probable que sean grandes cambios.

D

TA E9 5 8

Las soluciones son explicables o interactivas. Comentario: las soluciones se obtendrán de analizarel sistema y sus motivos serán fácilmenteidentificables. Adicionalmente, se mostraránresultados gráficamente para la mejor comprensiónde los resultados obtenidos.

D

TA E10 7 7

La tarea es de I+D de carácter práctico, pero noambas cosas simultáneamente. Comentario: esta aplicación tiene tanto una parte deinvestigación, como una de desarrollo. La parte deinvestigación, que requiere un aprendizaje de lasherramientas de Ingeniería del Conocimiento a utilizar en un Data Mining (redes, algoritmos genéticos, clustering, lógica borrosa,...), y una partede desarrollo de la aplicación para realizar dichainvestigación.

E

DU E11 6 9

Están mentalizados y tienen expectativas realistas tanto en el alcance como en las limitaciones. Comentario: la aplicación valorará objetivamente lacalidad en el plazo de entrega del correo postal. Nova a mejorar el sistema directamente, pero serácapaz de proporciona la información necesaria para mejorar el sistema.

D

DU E12 7 10

No rechazan de plano esta tecnología. Comentario: el experto apuesta fuertemente porutilizar la tecnología de Data Mining para resolver este tipo de problema.

E

DU E13 6 7

El sistema interactúa inteligente y amistosamente con el usuario. Comentario: el sistema interactuará con el usuario:se visualizarán los resultados obtenidos, sepropondrán mejoras en la calidad del servicio, �

D

DU E14 9 6

El sistema es capaz de explicar al usuario surazonamiento. Comentario: el sistema expondrá los resultados al usuario, con una breve explicación sobre los cálculosrealizados para explicar el razonamiento del sistema.

D



DU E15 8 10

La inserción del sistema se efectúa sin traumas; esdecir, apenas se interfiere en la rutina cotidiana de la empresa. Comentario: Esta aplicación no tiene porquéinterferir en absoluto en la rutina de la empresa. Esindependientemente de todos los demás procesos. Siacaso a largo plazo, una vez que se hayan tomado lasdecisiones, puede modificar en algo la rutina de la empresa.

D

DU E16 6 7

Están comprometidos durante toda la duración delproyecto, incluso después de su implantación. Comentario: El cliente está comprometido durantetoda la duración del proyecto. Después de suimplantación, con las conclusiones extraídas, es posible que varíen sus prioridades.

D

DU E17 8 7

Se efectúa una adecuada transferencia tecnológica. Comentario: Los resultados y conclusiones obtenidasdel sistema experto se publicarán, de manera que elconocimiento obtenido tras analizar los datos esté disponible.

E

VC1 = 71,597

VC2 = 60,696

VC3 = 39,681

VC4 = 39,585

= 52,89

Si todos los valores asignados fueran 10, el total sería: 76,213

Por tanto, el Total Normalizado del Test de Slagel es: 69,397

Es decir, el proyecto es viable.

∑=

4

1 4i

VCi



2.6 Metodología

La metodología a utilizar consta de cuatro fases:

1. Identificación de las tareas

2. Desarrollo de los prototipos

3. Construcción y ejecución del sistema

4. Actuar para conseguir el mantenimiento

1. Identificación de las tareas

El sistema experto a desarrollar será capaz de:

- Clasificar automáticamente nuevos registros que se presenten en el modelo mediante

técnicas de aprendizaje automático por inducción (árboles de decisión ID3)

- Identificar patrones y reglas a partir de históricos mediante técnicas de distancia y

similitud (Repertory Grid, Mapas de Kohonen o K-means)

- Predecir el plazo de entrega de una carta test

- Análisis de correlación entre el estado de recepción de una carta test y la distancia

recorrida

- Identificar rutas con plazos de entrega distintos a la ida y a la vuelta

- Analizar el comportamiento de los datos a través del tiempo (análisis de producciones).

2. Desarrollo de los prototipos

El prototipo desarrollado es capaz de ejecutar algoritmos de clasificación ID3 y utilizar

Repertory Grid sobre una fuente de datos externa y preparada para minar. El prototipo es

capaz de visualizar los resultados obtenidos.

Se pretende que la aplicación final sea flexible para poder ser capaz de ejecutar más

algoritmos: CART, k-means, Naive Bayes, 1Rule y Reglas de Asociación, entre otros, tal

como se muestra en la figura 2.10.



3. Construcción y ejecución del sistema

Tras la ejecución del sistema se mostrarán los resultados obtenidos. En el caso de

clasificación automática el sistema mostrará el árbol de decisión (ver figura 2.11) con los

separadores elegidos, los nodos resultantes y la información asociada a cada nodo (entropía,

clase, nivel,�)

Figura 2.10: Prototipos de la aplicación

Figura 2.11: Prototipo de árbol ID3



En la tarea de reconocimiento de patrones los resultados obtenidos se mostrarán gráficamente

en forma de dendrograma (ver figura 2.12)

4. Actuar para conseguir el mantenimiento

Cada cierto tiempo se mantendrá revisiones para supervisar el funcionamiento del sistema,

encontrar fallos no aparecidos con anterioridad y realizar posibles mejoras.

Figura 2.12: Prototipo de dendrograma



2.6.1 Ciclo de vida del proyecto

El ciclo de vida de un proyecto de Minería de Datos consta de seis fases:

- Comprensión del negocio

- Comprensión de los datos

- Preparación de los datos

- Construcción del modelo

- Interpretación y evaluación

- Despliegue

La secuencia de las fases no son estrictas.

Un proyecto de Data Mining continúa después de que una solución haya sido desplegada.

El conocimiento obtenido durante el proceso puede ser utilizado como dato de entrada para

obtener otro conocimiento más profundo del negocio. Los procesos de Data Mining siguientes se

beneficiarán de los resultados obtenidos anteriormente. El ciclo de vida de un proyecto de Data

Mining se resume en la figura 2.13:

Figura 2.13: Ciclo de vida de un proyecto de Data Mining



3. INTRODUCCIÓN A LA MINERIA DE DATOS El aumento del volumen y variedad de información que se encuentra informatizada en

bases de datos digitales y otras fuentes ha crecido espectacularmente en las últimas décadas.

Gran parte de esta información es histórica, es decir, representa transacciones o situaciones que

se han producido. Aparte de su función de "memoria de la organización", la información

histórica es útil para explicar el pasado, entender el presente y predecir la información futura. La

mayoría de las decisiones de empresas, organizaciones e instituciones se basan también en

información sobre experiencias pasadas extraídas de fuentes muy diversas. Además, ya que los

datos pueden proceder de fuentes diversas y pertenecer a diferentes dominios, parece clara la

inminente necesidad de analizar los mismos para la obtención de información útil para la

organización.

El área de la extracción (semi-)automática de conocimiento de bases de datos ha adquirido

recientemente una importancia científica y económica inusual. En muchas situaciones, el método

tradicional de convertir los datos en conocimiento consiste en un análisis e interpretación

realizada de forma manual. El especialista en la materia, analiza los datos y elabora un informe o

hipótesis que refleja las tendencias o pautas de los mismos. Esta forma de actuar es lenta, cara y

altamente subjetiva. De hecho, el análisis manual es impracticable en dominios donde el

volumen de los datos crece exponencialmente: la enorme abundancia de datos desborda la

capacidad humana de comprenderlos sin la ayuda de herramientas potentes. Consecuentemente,

muchas decisiones importantes se realizan, no sobre la base de la gran cantidad de datos

disponibles, sino siguiendo la propia intuición del usuario al no disponer de las herramientas

necesarias. Éste es el principal cometido de la Minería de Datos: resolver problemas analizando

los datos presentes en las bases de datos.

3. INTRODUCCIÓN A LA MINERIA DE DATOS



3.1 El concepto de Minería de Datos y KDD

La Minería de Datos se define como el proceso de extraer conocimiento útil y

comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en

distintos formatos. Es decir, la tarea fundamental de la Minería de Datos es encontrar modelos

inteligibles a partir de los datos. Para que este proceso sea efectivo debería ser automático o

semi-automático (asistido) y el uso de los patrones descubiertos debería ayudar a tomar

decisiones más seguras que reporten, por tanto, algún beneficio a la organización.

Por lo tanto, los retos de la Minería de Datos son: por un lado, trabajar con grandes

volúmenes de datos, procedentes mayoritariamente de sistemas de información, con los

problemas que ello conlleva (ruido, datos ausentes, intratabilidad, volatilidad de los datos...), y

por el otro usar técnicas adecuadas para analizar los mismos y extraer conocimiento novedoso y

útil. En muchos casos la utilidad del conocimiento minado está íntimamente relacionada con la

comprensibilidad del modelo inferido. No debemos olvidar que, generalmente, el usuario final

no tiene por qué ser un experto en las técnicas de Minería de Datos, ni tampoco puede perder

mucho tiempo interpretando los resultados. Por ello, en muchas aplicaciones es importante hacer

que la información descubierta sea más comprensible por los humanos (por ejemplo, usando

representaciones gráficas, convirtiendo los patrones a lenguaje natural o utilizando técnicas de

visualización de los jatos).

Sin embargo, la idea de Data Mining no es nueva. Ya desde los años sesenta los

estadísticos manejaban términos como data fishing, Data Mining o data archaeology con la idea

de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de

los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro,

entre otros, empezaron a consolidar los términos de Data Mining y KDD. De una manera

simplista pero ambiciosa, se puede decir que el objetivo de la Minería de Datos es convertir

datos en conocimiento.

La Minería de Datos es una etapa dentro del proceso de Descubrimiento de Conocimiento

en Bases de datos, Knowledge Discovery in Databases, KDD. KDD se define como "el proceso

no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia,

comprensibles a partir de los datos".



Las propiedades deseables que el conocimiento extraído debe tener son:

- válido: hace referencia a que los patrones deben seguir siendo precisos para datos nuevos

(con un cierto grado de certidumbre), y no sólo para aquellos que han sido usados en su

obtención.

- novedoso: que aporte algo desconocido tanto para el sistema y preferiblemente para el

usuario.

- potencialmente útil: la información debe conducir a acciones que reporten algún tipo de

beneficio para el usuario.

- comprensible: la extracción de patrones no comprensibles dificulta o imposibilita su

interpretación, revisión, validación y uso en la toma de decisiones. Desde el punto de

vista de su utilidad, una información incomprensible no proporciona conocimiento.

El KDD es un proceso complejo que incluye no sólo la obtención de los modelos o

patrones (el objetivo de la Minería de Datos), sino también la evaluación y posible interpretación

de los mismos, así como las fases iniciales de integración, recopilación y preparación de datos.

Los sistemas de KDD permiten la selección, limpieza, transformación y proyección de los

datos; analizar los datos para extraer patrones y modelos adecuados; evaluar e interpretar los

patrones para convertirlos en conocimiento; consolidar el conocimiento resolviendo posibles

conflictos Con conocimiento previamente extraído; y hacer el conocimiento disponible para su

uso.

Esta definición del proceso clarifica la relación entre el KDD y la Minería de Datos: el

KDD es el proceso global de descubrir conocimiento útil desde las bases de datos mientras que la

Minería de Datos se refiere a la aplicación de los métodos de aprendizaje y estadísticos para la

obtención de patrones y modelos. Al ser la fase de generación de modelos, comúnmente se

asimila KDD con Minería de Datos.



3.2 Tipos de modelos

La Minería de Datos tiene como objetivo analizar los datos para extraer conocimiento. Este

conocimiento puede ser en forma de relaciones, patrones o reglas inferidos de los datos y

(previamente) desconocidos, o bien en forma de una descripción más concisa (es decir, un

resumen de los mismos). Estas relaciones o resúmenes constituyen el modelo de los datos

analizados.

Existen muchas formas diferentes de representar los modelos y cada una de ellas determina

el tipo de técnica que puede usarse para inferirlos. En la práctica, los modelos pueden ser de dos

tipos: predictivos y descriptivos.

Los modelos predictivos pretenden estimar valores futuros o desconocidos de variables

de interés, que denominamos variables objetivo o dependientes, usando otras variables o campos

de la base de datos, a las que nos referiremos como variables independientes o predictivas. Por

ejemplo, un modelo predictivo sería aquel que permite estimar la demanda de un nuevo producto

en función del gasto en publicidad.

Los modelos descriptivos identifican patrones que explican o resumen los datos, es decir,

sirven para explorar las propiedades de los datos examinados, no para predecir nuevos datos. Por

ejemplo, una agencia de viaje desea identificar grupos de personas con unos mismos gustos, con

el objeto de organizar diferentes ofertas para cada grupo y poder así remitirles esta información;

para ello analiza los viajes que han realizado sus clientes e infiere un modelo descriptivo que

caracteriza estos grupos.

Los modelos descriptivos más usuales junto con sus algoritmos son:

- Agrupamiento

o Mapas de Kohonen

o K-means

o C-means

o Fuzzy c-means

o ...



- Reglas de asociación

o A priori

o CN2 rules

- Correlaciones

o Regresión lineal

o Análisis factorial

o Análisis de componentes principales

Los modelos predictivos más usuales junto con sus algoritmos son:

- Clasificación

o Árboles decisión ID3

o Árboles decisión CART

o Árboles decisión C4.5

o Naive Bayes

- Regresión

o Redes Neuronales (RNA)

o Algoritmos genéticos y evolutivos



3.3 Tareas de la Minería de Datos

Algunas tareas de Minería de Datos que producen modelos predictivos son:

- la clasificación

- la regresión

y las que dan lugar a modelos descriptivos son:

- el agrupamiento o clustering

- las reglas de asociación

- las reglas de asociación secuenciales

- el análisis correlacional.

Cada tarea puede ser realizada usando distintas técnicas. Por ejemplo, los modelos

inferidos por los árboles de decisión y las redes neuronales pueden inferir modelos predictivos.

Igualmente, para una misma técnica se han desarrollado diferentes algoritmos que difieren en la

forma y criterios concretos con los que se construye el modelo.

A continuación describo brevemente cada una de estas tareas:

3.3.1 Clasificación

La clasificación es quizá la tarea más utilizada. En ella, cada instancia (o registro de la base

de datos) pertenece a una clase, la cual se indica mediante el valor de un atributo que llamamos

la clase de la instancia. Este atributo puede tomar diferentes valores discretos, cada uno de los

cuales corresponde a una clase. El resto de los atributos de la instancia (los relevantes a la clase)

se utilizan para predecir la clase. El objetivo es predecir la clase de nuevas instancias de las que

se desconoce la clase. Más concretamente, el objetivo del algoritmo es maximizar la razón de

precisión de la clasificación de las nuevas instancias, la cual se calcula como el cociente entre las

predicciones correctas y el número total de predicciones (correctas e incorrectas).

Existen variantes de la tarea de la clasificación, como son el aprendizaje de "rankings", el

aprendizaje de preferencias, el aprendizaje de estimadores de probabilidad, etc.



3.3.2 Regresión

La regresión es también una tarea predictiva que consiste en aprender una función real que

asigna a cada instancia un valor real. Ésta es la principal diferencia respecto a la clasificación; el

valor a predecir es numérico. El objetivo en este caso es minimizar el error (generalmente el

error cuadrático medio) entre el valor predicho y el valor real.

3.3.3 Agrupamiento o clustering

El clustering es la tarea descriptiva por excelencia y consiste en obtener grupos "naturales"

a partir de los datos. Hablamos de grupos y no de clases, porque, a diferencia de la clasificación,

en lugar de analizar datos etiquetados con una clase, los analiza para generar esta etiqueta. Los

datos son agrupados basándose en el principio de maximizar la similitud entre los elementos de

un grupo minimizando la similitud entre los distintos grupos. Es decir, se forman grupos tales

que los objetos de un mismo grupo son muy similares entre sí y, al mismo tiempo, son muy

diferentes a los objetos de otro grupo. Al agrupamiento también se le suele llamar segmentación,

ya que parte o segmenta los datos en grupos que pueden ser o no disjuntos. El agrupamiento está

muy relacionado con la sumarización, que algunos autores consideran una tarea en sí misma, en

la que cada grupo formado se considera como un resumen de los elementos que lo forman para

así describir de una manera concisa los datos.

3.3.4 Correlaciones

Las correlaciones son una tarea descriptiva que se usa para examinar el grado de similitud

de los valores de dos variables numéricas. Una fórmula estándar para medir la correlación lineal

es el coeficiente de correlación r, el cual es un valor real comprendido entre -1 y 1. Si r es 1

(respectivamente, -1) las variables están perfectamente correlacionadas (perfectamente

correlacionadas negativamente), mientras que si es 0 no hay correlación. Esto quiere decir que

cuando r es positivo, las variables tienen un comportamiento similar (ambas crecen o decrecen al

mismo tiempo) y cuando r es negativo si una variable crece la otra decrece. El análisis de

correlaciones, sobre todo las negativas, puede ser muy útil para establecer reglas de ítems

correlacionados.



3.3.5 Reglas de asociación

Las reglas de asociación son también una tarea descriptiva, muy similar a las correlaciones,

que tiene como objetivo identificar relaciones no explícitas entre atributos categóricos. Pueden

ser de muchas formas, aunque la formulación más común es del estilo " si el atributo X toma el

valor d entonces el atributo y toma el valor b. Las reglas de asociación no implican una relación

causa-efecto, es decir, puede no existir una causa para que los datos estén asociados. Este tipo de

tarea se utiliza frecuentemente en el análisis de la cesta de la compra, para identificar productos

que son frecuentemente comprados juntos, información esta que puede usarse para ajustar los

inventarios, para la organización física del almacén o en campañas publicitarias. Las reglas se

evalúan usando dos parámetros: precisión y soporte (cobertura)

Reglas de asociación secuenciales

Un caso especial de reglas de asociación, que recibe el nombre de reglas de asociación

secuenciales, se usa para determinar patrones secuenciales en los datos. Estos patrones se basan

en secuencias temporales de acciones y difieren de las reglas de asociación en que las relaciones

entre los datos se basan en el tiempo.



3.4 Técnicas de Minería de Datos

Existen diversas técnicas para abordar una tarea de Minería de Datos, siendo las más

utilizadas:

- técnicas de inferencia estadística

- árboles de decisión

- redes neuronales

- inducción de reglas

- aprendizaje basado en instancias

- algoritmos genéticos

- aprendizaje bayesiano

- programación lógica inductiva

- métodos basados en núcleos



3.5 Relación de la Minería de Datos con otras tecnologías de

bases de datos

3.5.1 SQL y OLTP Hasta no hace mucho, el análisis de los datos de una base de datos se realizaba mediante

consultas efectuadas con lenguajes generalistas de consulta, como el SQL, y se producía sobre la

base de datos operacional, es decir, junto al procesamiento transaccional en línea (On-Line

Transaction Processing, OLTP) de las aplicaciones de gestión. No obstante, esta manera de

actuar sólo permitía generar información resumida de una manera previamente establecida

(generación de informes), poco flexible y, sobre todo, poco escalable a grandes volúmenes de

datos.

El procesamiento transaccional en tiempo real (OLTP) constituye el trabajo primario en un

sistema de información. Este trabajo consiste en realizar transacciones, es decir, actualizaciones

y consultas a la base de datos con un objetivo operacional: hacer funcionar las aplicaciones de la

organización, proporcionar información sobre el estado del sistema de información y permitir

actualizarlo conforme va variando la realidad del contexto de la organización. Muestras de este

tipo de trabajo transaccional son, por ejemplo, en el caso de una empresa, la inserción de un

nuevo cliente, el cambio de sueldo de un empleado, la tramitación de un pedido, el

almacenamiento de una venta, la impresión de una factura, la baja un producto, etc. Es el trabajo

diario y para el que inicialmente se ha diseñado la base de datos.

Las herramientas de consulta y las herramientas de Data Mining son complementarias. Una

herramienta de Data Mining no reemplaza una herramienta de consulta, pero da al usuario un

montón de posibilidades adicionales. Los algoritmos de Data Mining pueden encontrar mucha

información oculta de forma óptima, que no pueden lograrse de forma sencilla usando

herramientas de consulta a bases de datos utilizando SQL. Data Mining utiliza queries con SQL

y almacena los resultados intermedios. El conocimiento oculto en bases de datos es mucho más

difícil de encontrar usando SQL. Se podría intentar adivinar algún criterio que relacione los datos

de una base de datos de gran tamaño y realizar consultas a dicha base de datos para ver si el

criterio funciona o no, en un proceso de prueba y error.



Se podría desarrollar de forma gradual intuiciones sobre cuales son los atributos mas

importantes que clasifican los datos, pero procediendo de este modo, podría llevar días o incluso

meses encontrar una segmentación optima para una gran base de datos, mientras que un

algoritmo de aprendizaje automático como redes neuronales o algoritmos genéticos podrían

encontrar la respuesta automáticamente en un periodo de tiempo mucho mas corto, a veces en

minutos o un par de horas. Una vez que la herramienta de Data Mining ha encontrado una

segmentación, se suelen utilizar queries para consultar y analizar los perfiles encontrados.

Si realmente se conoce la información que se desea buscar de la base de datos, se utiliza

SQL; pero si solo se conoce vagamente lo que se está buscando, es preferible usar Data Mining.



3.5.2 DataWarehouse y OLAP Recientemente ha surgido una nueva arquitectura conocida como almacén de datos (data

warehouse). Se trata de un repositorio de fuentes heterogéneas de datos, integrados y

organizados bajo un esquema unificado para facilitar su análisis y dar soporte a la toma de

decisiones.

Los almacenes de datos se utilizan para poder agregar y cruzar eficientemente la

información de maneras sofisticadas. Por ello, los datos se modelan con una estructura de base

de datos multidimensional, donde cada dimensión corresponde a un atributo o conjunto de

atributos en el esquema en torno a unos "hechos" que almacenan el valor de alguna medida

agregada, como por ejemplo la cantidad vendida de un producto en un día concreto en una

tienda. Esta visión multidimensional hace a los almacenes de datos adecuados para el

procesamiento analítico en línea (on-line analytical processing, OLAP), es decir, técnicas de

análisis como pueden ser el resumen, la consolidación o la agregación, así como la posibilidad de

ver la información desde distintas perspectivas.

Las operaciones OLAP permiten un análisis multidimensional de los datos, que es superior

al SQL para computar resúmenes y desgloses en muchas dimensiones, pudiendo utilizar

conocimiento previo sobre el dominio de los datos para permitir su presentación a diferentes

niveles de abstracción, acomodando así diferentes puntos de vista del usuario.

El usuario de una herramienta OLAP utiliza la herramienta para obtener información

agregada a partir de información detallada, combinando la información de manera flexible. Esto

permite obtener informes y vistas sofisticadas en tiempo real. Además, las herramientas OLAP

pueden utilizarse para comprobar rápidamente patrones y pautas hipotéticas sugeridas por el

usuario con el objetivo de verificarlas o rechazarlas. Se trata, por lo tanto, de un proceso

esencialmente deductivo. Por el contrario, la Minería de Datos, más que verificar patrones

hipotéticos, usa los datos para encontrar estos patrones. Por lo tanto, es un proceso inductivo.

Ambos tipos de herramientas se complementan: podemos usar OLAP al principio del proceso de

KDD para explorar los datos (por ejemplo, para centrar nuestra atención en las variables

importantes, identificar excepciones o encontrar interacciones), ya que cuanto más

comprendamos los datos más efectivo será el proceso de descubrir conocimiento.



Sin embargo, a pesar de que las herramientas OLAP soportan cierto análisis descriptivo y

de sumarización que permite transformar los datos en otros datos agregados o cruzados de

manera sofisticada, no generan reglas, patrones, pautas, es decir, conocimiento que pueda ser

aplicado a otros datos. Sin embargo, en muchos contextos, como los negocios, la medicina o la

ciencia, los datos por sí solos tienen un valor relativo. Lo que de verdad es interesante es el

conocimiento que puede inferirse a partir de los datos y, más aún, la capacidad de poder usar este

conocimiento.

Existen otras herramientas analíticas que han sido empleadas para analizar los datos y que

tienen su origen en la estadística, algo lógico teniendo en cuenta que la materia prima de esta

disciplina son precisamente los datos. Aunque algunos paquetes estadísticos son capaces de

inferir patrones a partir de los datos (utilizando modelización estadística paramétrica o no

paramétrica), el problema es que resultan especialmente crípticos para los no estadísticos,

generalmente no funcionan bien para la talla de las bases de datos actuales (cientos de tablas,

millones de registros, talla de varios gigabytes y una alta dimensionalidad) y algunos tipos de

datos frecuentes en ellos (atributos nominales con muchos valores, datos textuales, multimedia,

etc.), y no se integran bien con los sistemas de información.

Todos estos problemas y limitaciones de las aproximaciones clásicas han hecho surgir la

necesidad de una nueva generación de herramientas y técnicas para soportar la extracción de

conocimiento útil desde la información disponible, y que se engloban bajo la denominación de

Minería de Datos. La Minería de Datos se distingue de las aproximaciones anteriores porque no

obtiene información extensional (datos) sino intensional (conocimiento) y, además, el

conocimiento no es, generalmente, una parametrización de ningún modelo preestablecido o

intuido por el usuario, sino que es un modelo novedoso y original, extraído completamente por la

herramienta. El resultado de la Minería de Datos son conjuntos de reglas, ecuaciones, árboles de

decisión, redes neuronales, grafos probabilísticos...



3.6 Relación de la Minería de Datos con otras disciplinas La Minería de Datos se crea por la aparición de nuevas necesidades y, especialmente, por

el reconocimiento de un nuevo potencial: el valor, hasta ahora generalmente infrautilizado, de la

gran cantidad de datos almacenados informáticamente en los sistemas de información de

instituciones, empresas, gobiernos y particulares. Los datos pasan de ser un "producto" (el

resultado histórico de los sistemas de información) a ser una "materia prima" que hay que

explotar para obtener el verdadero "producto elaborado", el conocimiento; un conocimiento que

ha de ser especialmente valioso para la ayuda en la toma de decisiones sobre el ámbito en el que

se han recopilado o extraído los datos. Es cierto que la estadística es la primera ciencia que

considera los datos como su materia prima, pero las nuevas necesidades y, en particular, las

nuevas características de los datos (en volumen y tipología) hacen que las disciplinas que

integran lo que se conoce como "Minería de Datos" sean numerosas y heterogéneas.

La Minería de Datos es un campo multidisciplinar que se ha desarrollado en paralelo o

como prolongación de otras tecnologías. Por ello, la investigación y los avances en la Minería de

Datos se nutren de los que se producen en estas áreas relacionadas.

Podemos destacar como disciplinas más influyentes las siguientes:

- bases de datos: conceptos como los almacenes de datos y el procesamiento analítico en

línea (OLAP) tienen una gran relación con la Minería de Datos, aunque en este último

caso no se trata de obtener informes avanzados a base de agregar los datos de cierta

manera compleja pero predefinida (como incluyen muchas herramientas de business

intelligence, presentes en sistemas de gestión de bases de datos comerciales), sino de

extraer conocimiento novedoso y comprensible. Las técnicas de indización y de acceso

eficiente a los datos son muy relevantes para el diseño de algoritmos eficientes de

Minería de Datos.

- recuperación de información (information retrieval, IR): consiste en obtener información

desde datos textuales, por lo que su desarrollo histórico se ha basado en el uso efectivo de

bibliotecas (recientemente digitales) y en la búsqueda por Internet. Una tarea típica es

encontrar documentos a partir de palabras claves, lo cual puede verse como un proceso de

clasificación de los documentos en función de estas palabras clave. Para ello se usan

medidas de similitud entre los documentos y la consulta.



- estadística: esta disciplina ha proporcionado muchos de los conceptos, algoritmos y

técnicas que se utilizan en Minería de Datos, como por ejemplo, la media, la varianza, las

distribuciones, el análisis univariante y multivariante, la regresión lineal y no lineal, la

teoría del muestreo, la validación cruzada, la modelización paramétrica y no paramétrica,

las técnicas bayesianas, y un largo etcétera. De hecho, algunos paquetes de análisis

estadístico se comercializan como herramientas de Minería de Datos.

- aprendizaje automático: ésta es el área de la inteligencia artificial que se ocupa de

desarrollar algoritmos (y programas) capaces de aprender, y constituye, junto con la

estadística, el corazón del análisis inteligente de los datos. Los principios seguidos en el

aprendizaje automático y en la Minería de Datos son los mismos: la máquina aprende un

modelo a partir de ejemplos y lo usa para resolver el problema.

- sistemas para la toma de decisión: son herramientas y sistemas informatizados que

facilitan a los directivos la resolución de problemas y la toma de decisiones. El objetivo

es proporcionar la información necesaria para realizar decisiones efectivas en el ámbito

empresarial o en tareas de diagnóstico (por ejemplo en medicina). Herramientas como el

análisis ROC o los mismos árboles de decisión provienen de esta área.

- visualización de datos: el uso de técnicas de visualización permite al usuario descubrir,

intuir o entender patrones que serían más difíciles de "ver" a partir de descripciones

matemáticas o textuales de los resultados. Existen técnicas de visualización, como, por

ejemplo:

o las gráficas: diagramas de barras, gráficas de dispersión, histogramas, etc.

o las icónicas: basadas en figuras, colores, etc.

o las basadas en píxeles: cada dato se representa como un único píxel

o las jerárquicas: dividiendo el área de representación en regiones dependiendo de

los datos

- computación paralela y distribuida: actualmente, muchos sistemas de bases de datos

comerciales incluyen tecnologías de procesamiento paralelo, distribuido o de

computación en grid. En estos sistemas el coste computacional de las tareas más

complejas de Minería de Datos se reparte entre diferentes procesadores o computadores.



Su éxito se debe en parte a la explosión de los almacenes de datos (su adaptación

distribuida) y de la Minería de Datos, en los que las prestaciones de los algoritmos de

consulta son críticas. Una de las principales ventajas del procesamiento paralelo es

precisamente la escalabilidad de los algoritmos, lo que lo hace idóneo para estas

aplicaciones.

- reconocimiento de patrones (pattern recognition)

- otras disciplinas: dependiendo del tipo de datos a ser minados o del tipo de aplicación, la

Minería de Datos usa también técnicas de otras disciplinas como el lenguaje natural, el

análisis de imágenes, el procesamiento de señales, los gráficos por computadora, etc.



3.7 Áreas de Aplicación

Los sistemas de Data Mining se implantan en diferentes áreas de negocio utilizan para la

ayuda a la toma de decisiones. A continuación se muestran algunas de ellas, especificando los

problemas tipo a resolver mediante Data Mining:

Comercio/Marketing:

- Ofrecer productos y servicios que se anticipen a las necesidades de los clientes

- Entender y predecir el comportamiento individual de cada cliente

- Identificar patrones de compra de los clientes.

- Buscar asociaciones entre clientes y características demográficas.

- Predecir respuesta a campañas de mailing.

- Análisis de cestas de la compra.

Finanzas / Banca:

- Detectar patrones de uso fraudulento de tarjetas de crédito.

- Identificar clientes leales.

- Predecir clientes con probabilidad de cambiar su afiliación.

- Determinar gasto en tarjeta de crédito por grupos.

- Encontrar correlaciones entre indicadores financieros.

- Identificar reglas de mercado de valores a partir de históricos.

Seguros y Salud Privada:

- Análisis de procedimientos médicos solicitados conjuntamente.

- Predecir qué clientes compran nuevas pólizas.

- Identificar patrones de comportamiento para clientes con riesgo.

- Identificar comportamiento fraudulento.

Transportes:

- Determinar la planificación de la distribución entre tiendas.

- Analizar patrones de carga.



Diseño y Gestión de Bases de Datos.

- Reverse Engineering (dada una base de datos, desnormalizarla para que luego el sistema

la normalice).

- Mejora de Calidad de Datos.

- Mejora de Consultas (si se descubren dependencias funcionales nuevas u otras

condiciones evitables).

Investigación científica

- En áreas de medicina, astronomía, meteorología, psicología, ...

Medicina:

- Identificación de terapias médicas satisfactorias para diferentes enfermedades.

- Asociación de síntomas y clasificación diferencial de patologías.

- Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de riesgo/salud en

distintas patologías.

- Segmentación de pacientes para una atención más inteligente según su grupo.

- Predicciones temporales de los centros asistenciales para el mejor uso de recursos,

consultas, salas y habitaciones.

- Estudios epidemiológicos, análisis de rendimientos de campañas de información,

prevención, sustitución de fármacos, etc.



4.EL PROCESO DE EXTRACCIÓN DE CONOCIMIENTO El proceso de descubrimiento de conocimiento en bases de datos (Knowledge Discovery

from Databases, KDD) consta de una secuencia iterativa de etapas o fases, como se describe en

la figura 4.1:

1. Integración y recopilación

2. Preparación de Datos

3. Minería de Datos

4. Evaluación

5. Difusión y Uso de Modelos

Integración y recopilación

El primer paso en el proceso de extracción de conocimiento a partir de datos es

precisamente reconocer y reunir los datos con los que se va a trabajar, es decir, determinar las

fuentes de información (internas o externas) que pueden ser útiles y dónde conseguirlas.

Preparación de Datos

La calidad del conocimiento descubierto no sólo depende del algoritmo de minería

utilizado, sino también de la calidad de los datos minados. Por ello, después de recopilación, el

siguiente paso en el proceso de KDD es seleccionar y preparar el subconjunto de datos que se va

a minar, los cuales constituyen lo que se conoce como vista minable. En la mayoría de bases de

datos existe mucha información que es incorrecta o inconsistente. Estos problemas se acentúan

4. EL PROCESO DE EXTRACCIÓN DE CONOCIMIENTO

Figura 4.1: Fases del proceso de KDD



cuando realizamos la integración de distintas fuentes.

En esta fase se debe eliminar el mayor número posible de datos erróneos o inconsistentes

(limpieza), irrelevantes (criba) o faltantes, y presentar los datos de la manera más apropiada para

la Minería de Datos (Ej.: discretizaciones, cálculos).

La transformación es una tarea necesaria para la preparación de los datos. Mediante la

transformación se puede producir atributos derivados a los ya existentes que aporten mayor

información, pueden producirse registros nuevos completos o valores transformados de atributos

existentes. Los atributos derivados son nuevos atributos construidos a partir de uno o más

atributos existentes en el mismo registro. Por ejemplo: area = longitud * altura. Además se

pueden agregar atributos calculados como diferencias entre valores previos, promedio de ellos,

diferencias de diferencias o promedios de diferencias y tantos otros como se puedan imaginar.

Además de los atributos derivados pueden aparecer nuevos generarse nuevos registros, que

describen la creación completa de nuevos registros. Por ejemplo: crear registros para clientes que

no realizaron ninguna compra durante el año pasado. No habría ninguna razón para almacenar

dichos registros en nuestra fuente de entrada, pero por motivos de modelización puede tener

sentido representar explícitamente el hecho de que algunos clientes no han realizado ninguna

compra.

La cantidad atributos a incluir es una cuestión fundamental. Si se agregan demasiados

atributos estos pueden provocar ruido en el algoritmo de clasificación confundiéndolo, en

cambio muy pocos atributos no proporcionarían información suficiente para una correcta

clasificación.

Minería de Datos

La fase de Minería de Datos es la más característica del KDD y, por esta razón, muchas

veces se utiliza esta fase para nombrar todo el proceso. El objetivo de esta fase es producir nuevo

conocimiento que pueda utilizar el usuario. Esto se realiza construyendo un modelo basado en

los datos recopilados para este efecto

Evaluación

Tras la ejecución de modelos de minería se evalúan los patrones y se interpretan los

resultados obtenidos mediante un conjunto de entrenamiento.



Difusión y Uso de Modelos

Tras evaluar los modelos de minería, si los resultados son correctos se evalúan sobre el

total de la población.

Además de las fases descritas, frecuentemente se incluye una fase previa de análisis de las

necesidades de la organización y definición del problema, en la que se establecen los objetivos

de Minería de Datos.

El KDD es un proceso iterativo e interactivo. Es iterativo ya que la salida de alguna de las

fases puede hacer volver a pasos anteriores y porque a menudo son necesarias varias iteraciones

para extraer conocimiento de alta calidad. Es interactivo porque el usuario, o más generalmente

un experto en el dominio del problema, debe ayudar en la preparación de los datos, validación

del conocimiento extraído, etc.

A continuación, se muestra gráficamente los esfuerzos asociados a las fases del proceso

KDD:

Data Mining es una de las etapas del proceso de KDD.

Figura 4.2: Esfuerzos asociados a las fases del proceso de KDD



4.1. FASE DE INTEGRACIÓN Y RECOPILACIÓN DE DATOS

El primer paso en el proceso de extracción de conocimiento a partir de datos es

precisamente reconocer y reunir los datos con los que se va a trabajar, es decir, determinar las

fuentes de información que pueden ser útiles y dónde conseguirlas.

El problema de reunir un conjunto de datos que posibilite la extracción de conocimiento

requiere decidir, entre otros aspectos, qué fuentes, internas y externas, se van a obtener los datos,

cómo se van a organizar, cómo se van a mantener con el tiempo y, finalmente, de qué forma se

van a poder extraer parcial o totalmente, en detalle o agregados, con distintas "vistas minables" a

las que podamos aplicar las herramientas concretas de Minería de Datos.

Los datos necesarios para poder llevar a cabo un proceso de KDD pertenecen a distintos

departamentos de una misma entidad (por una parte el Centro de Recogida de Datos y por otra el

almacén de datos de IBM). Además de la información relativa a cartas test, algunos datos

necesarios para el análisis nunca han sido recolectados en el ámbito de la organización por no ser

necesarios para sus aplicaciones. Por esto, se han adquirido datos externos desde bases de datos

públicas para los datos demográficos, para calcular las distancias entre las distintas provincias

españolas.

Cada fuente de datos usa diferentes formatos de registro, diferentes grados de agregación

de los datos, diferentes claves primarias, diferentes tipos de error, etc. Lo primero, por lo tanto,

es integrar todos estos datos. La idea de la integración de múltiples bases de datos ha dado lugar

a la tecnología de almacenes de datos (data warehousing). Este término, tan popular

actualmente, hace referencia a la tendencia actual en las empresas e instituciones de coleccionar

datos de las bases de datos transaccionales y otras fuentes diversas para hacerlos accesibles para

el análisis y la toma de decisiones.

Un almacén de datos es muy aconsejable para la Minería de Datos si se va a trabajar con

grandes volúmenes de datos, que varían con el tiempo y donde se desea realizar tareas de

minerías de datos variadas, abiertas y cambiantes, aunque el hecho de tener un almacén de datos

no es imprescindible.



En algunos casos, en especial cuando el volumen no es muy grande, se puede trabajar con

los datos originales o en formatos heterogéneos (archivos de texto, hojas de cálculo...).

Con el uso de Data Warehouses se pretende proporcionar metodologías y tecnología para

recopilar e integrar los datos históricos de una organización, cuyo fin es el análisis, la obtención

de resúmenes e informes complejos y la extracción de conocimiento. Esta tecnología está

diseñada especialmente para organizar grandes volúmenes de datos de procedencia generalmente

estructurada (bases de datos relacionales, por ejemplo), aunque el concepto general es útil para la

organización de pequeños conjuntos de datos en aplicaciones de Minería de Datos más modestas.

Para el desarrollo de este proyecto se han integrado los datos procedentes del Centro de

Recogida de Datos, del almacén de datos de IBM y la información demográfica en distintas

tablas gestionadas bajo un sistema gestor de bases de datos, en concreto, SQL SERVER 2000.

Una vez que la carta test es depositada por el emisor y recibida por el destinatario, éste la

devuelve al Centro de Recogida de Datos, donde se registra en formato electrónico los datos

pertenecientes a la carta.

Figura 4.3: Fuentes de entrada del DW



Por otro lado, Correos establece los estándares de calidad según la política interna, los

diferentes flujos de correo a cubrir y el volumen de producción de carta test que debe haber en

circulación mensualmente.

Tanto los datos provenientes de Correos como los del participante se registran en una base

de datos transaccional, que va a ser la fuente principal que alimente al DataWarehouse. Además

de estos datos, el DataWarehouse se alimenta de datos demográficos (zonas geográficas de

España y distancias kilométricas entre las distintas comunidades autónomas).

Para alimentar el DataWarehouse es preciso lanzar procesos ETL, encargados de la

extracción, transformación y carga de los datos.

Por tanto, el proceso de integración y recopilación de datos quedaría resumido en la

siguiente imagen:

Figura 4.4: Flujos de información en el Centro de Recogida de Datos

Figura 4.5: Datos provenientes de Correos



Figura 4.6: Identificación de fuentes de datos (internas y eternas)



4.1.1 Identificación de fuentes internas

El Centro de Recogida de Datos contiene la información sobre las últimas cartas

recibidas. Aquí es donde se envían rellenados los cuestionarios de los remitentes y los

destinatarios, y donde se graban en formato electrónico los datos de cada carta.

Una o dos veces por semana, se envían los datos del Centro de recogida al almacén de

datos de IBM. Este almacén contiene toda la información de las cartas test. Es una base de datos

de gran tamaño, pues contiene información histórica de cartas test desde el año 2000.

Esquema de almacenamiento en el Centro de Recogida de Datos

En el Centro de Recogida de Datos contiene información sobre las cartas test enviadas a

los remitentes y devueltas por los destinatarios. Además de datos sobre cartas test, el centro

dispone de información sobre los panelistas que participan en la medición de la calidad.

Las cartas test enviadas a los remitentes y posteriormente devueltas por los destinatarios al

Centro de Recogida de Datos, se registran en una base de datos transaccional con tablas para

gestionar los panelistas y las cartas test. Varias veces por semana se exportan las cartas

registradas al almacén de IBM, por lo que la estructura de estas tablas es la misma que en el

almacén de datos en IBM.



Esquema de almacenamiento en el almacén de datos de IBM

El almacén de datos de IBM contiene, además de las tablas existentes en el Centro de

Recogida de Datos, información de control del sistema, reglas de cálculo para estimar la calidad

en plazo, los diferentes vínculos entre ciudades origen y destino, log del sistema, información

geográfica, fiestas nacionales y locales...

Para la creación del nuevo esquema de almacenamiento que integre los datos útiles para

una posterior explotación en busca de conocimiento provenientes del centro de recogida de

Datos y del almacén de IBM, describiré brevemente las tablas más importantes utilizadas y los

atributos significativos que posee información útil para un posterior análisis mediante Minería de

Datos:

• Address

Esta tabla contiene información sobre la dirección del

participante: tipo de dirección, ID del participante, nombre de la

compañía, dirección postal, teléfono, ciudad, distrito, código postal

y email.

Los datos más significativos a incluir en la vista minable son:

- Mail_addres_l1: contiene información sobre la localidad y

provincia del participante.

El participante puede tener más de una dirección postal (lugar

de vacaciones, trabajo,...) pero para el estudio sólo interesa tener la

dirección del domicilio, que es donde se enviarán las cartas test.

• Addressing method

Contiene información sobre la forma en que está escrita la

dirección postal (a mano o a máquina).

Datos a incluir en la vista minable:

- method_desc: mano o máquina.



Method_key method_id method_desc96 H Mano 97 M Máquina

• Area

Contiene información sobre las ciudades y provincias.


- area_desc: contiene el nombre de las provincias españolas.

• Area level

Contiene información sobre las ciudades agrupadas por

provincia y zona.

• Bundle

Contiene información del fajo: ID fajo, semana de producción,

ID del dropper, método de inducción, fecha de inducción

planeada, fecha de inducción real, hora de inducción, ultima

hora de recogida en buzón, peso del fajo,...

Un fajo es un conjunto de cartas test enviadas a un mismo

remitente, para que las distribuya entre diversos destinatarios.

Las cartas incluidas en un fajo, no tienen por qué tener las

mismas características físicas (peso, tamaño,...) y pueden

pertenecer a distintos productos (línea básica o urgente).


- bundle id: identificador del fajo.

- prod_week_key: semana de producción

- dropper_id: identificador del remitente

area_level_key area_level_id area_level_desc area_group_key 4 ProvN Province National 1 5 Prov Province 2 8 City City 2

10 ZoneN Zone National 1 11 Zone Zone 2 13 CTRY Country 3



- reported_indu_date: fecha de inducción del fajo

- indu_time: hora de inducción

- last_pickup_time: ultima hora de recogida en buzón

• Drop role category

Contiene información del remitente.


- drop_role_category_id: indica si el remitente es particular o

empresa.

drop_role_category_iddrop_category_desc drop_role_category_key P Private 137 B Business 138

• Dropper Contiene información sobre el remitente: ID de remitente,

ID de participante, estado del remitente (activo, inactivo

temporalmente o de baja), tipo de dirección, forma de pago (en

caso de que el participante sea una empresa y franqueé él mismo

las cartas tests. Este importe hay que devolverlo), fechas

restringidas que el remitente ha especificado en las que no puede

inducir cartas, lugar de inducción...


- indu_week_pattern_id: días en los que puede inducir las

cartas test (lunes a viernes o lunes a sábado).

• Franking_method

Contiene información sobre el método de franqueo.


- franking_method_id: ST (sello), MT (máquina de franquear), PP

(franqueo pagado).



Franking_method_keyfranking_method_id franked_by_dropper

82 ST N 83 MT Y 84 PP Y

• Induction_method

Contiene información sobre el método de inducción.


- induction_method_key: PO (oficina de correos), CA (centro

admisión masiva) o MB (buzón).

induction_method_key indu_method_id indu_desc

90 MB Buzón 91 PO Oficina de Correos 92 CA Centro Adm. Masiva

• Mail

Es la tabla que posee la información más útil de las cartas test.

Contiene información sobre la carta test: ID de la carta, código postal

del remitente, set de producción (Local, Provincial, Nacional), ID del

remitente, ID del destinatario, método de inducción, fecha de

inducción, formato de la carta, ID del fajo, código de cancelación,

fecha prevista de depósito, fecha de matasello, fecha de franqueo,

fecha de recepción, hora de recepción, estado de recepción e ID del

transpondedor.


- mail_id: identificador de la carta

- receiver_id: identificador del destinatario

- stamp cancel date: fecha de matasello

- meter date: fecha de franqueo

- received date: fecha de recepción

- damage_id: estado de recepción de la carta test



• Mail format

Contiene información sobre el formato de la carta test.


- format_desc: normalizado, C5, A4.

Format_key Format_id Format_desc 93 Nor Normalizado 94 C5 C5 95 A4 A4

• Mail type

Contiene información sobre el tipo de carta test: ID del

tipo de carta, método de franqueo, tipo de producto, tipo de

dirección, formato de la carta, tamaño de la carta, peso y

estándar del servicio.


- weight_key: peso de la carta.

- service_key: estándar del servicio.

• Participant

Un participante puede ser remitente y/o destinatario a la vez. La tabla Participant

contiene información sobre el participante: nombre, datos bancarios, país e idioma (entre

otros).


- role: indica si el participante es remitente, destinatario o ambos a la vez.



• Product

Contiene información sobre la línea a la que pertenece la carta test

(ordinaria o urgente).


- product_id. : O, U.

product_key product_id product_desc

81 O Carta ordinaria 154 U Carta urgente

• Rec_role_category

Contiene información sobre el destinatario, especificando si

es particular o empresa.


- rec_role_category_id: particular o empresa.

rec_role_category_key rec_role_category_id rec_category_desc

139 P Private 140 B Business

• Zip_range_ext

Contiene información sobre los códigos postales, provincias, ciudades y zonas de la

geografía española.

Datos a incluir en el nuevo diseño:

- zip_range_key: contiene el código postal



- provn_key: contiene el nombre de la provincia al que pertenece el código postal.

- city_key: contiene el nombre de la ciudad al que pertenece el código postal.

- zone_key: contiene el nombre de la zona al que pertenece el código postal.



4.1.2 Identificación de fuentes externas Sólo conociendo el contexto de cada organización o de cada problema en particular se

puede determinar qué fuentes externas van a ser necesarias. Además, este proceso es

generalmente iterativo. A medida que se va profundizando en un estudio, se pueden ir

determinando datos externos que podrían ayudar y se pueden ir añadiendo a nuestro "repositorio

de datos". Por tanto, la tarea de mantener un "repositorio" o un "almacén" con toda la

información necesaria cobra mayor relevancia y complejidad.

Aparte de la información interna de la organización, los almacenes de datos pueden

recoger información externa:

# Demografías (censo), páginas amarillas, gráficos web, información de otras

organizaciones...

# Datos compartidos en una industria o área de negocio, organizaciones y

colegios profesionales, catálogos, etc.

# Datos resumidos de áreas geográficas, distribución de la competencia,

evolución de la economía, información de calendarios y climatologías,...

# Bases de datos externas compradas a otras compañias.

En el proyecto se ha utilizado una base de datos de Datos demográficos contiene

información sobre las distancias (en kilómetros) de las 52 provincias españolas a cualquier otra

provincia española.

Existen varias formas de mezclar las distintas bases de datos para crear el repositorio. Una

posibilidad es simplemente hacer una copia de las bases de datos integrantes (probablemente

eliminando inconsistencias y redundancias). Obviamente, esta aproximación limita las ventajas

para acceder a bases de datos heterogéneas. Por ello, se ha optado a construir el almacén de datos

vía un proceso de integración y almacenamiento en un nuevo esquema integrado.

Figura 4.7: Identificación de fuentes externas



4.1.3 Diseño del nuevo esquema de almacenamiento integrado Selección de variables significativas

Datos de la carta test

# Identificador de carta

# Línea (ordinaria / urgente)

# Formato de la carta (normalizado/ C5 / A4)

# Peso (0-20gr / 20-50 gr / 50-100 gr)

# Dirección postal (escrita a mano / a máquina)

# Método de franqueo (sello / máquina de franquear / franqueo pagado)

# Estándar de servicio

# Semana de producción

# Fecha de matasello

# Fecha de franqueo

# Fecha de recepción

# Estado de recepción (buena / aceptable / mala o abierta / rota)

Datos del fajo

# Identificador de fajo

# Método de inducción (buzón / oficina / centro de admisión masiva)

# Fecha de inducción

# Hora de inducción

# Ultima hora de recogida en buzón

Datos del remitente

# Identificador de remitente

# Ciudad origen

# Provincia origen

# Zona origen

# Código postal

# Categoría del remitente (particular / empresa)

# Días de inducción del remitente (Lunes � Viernes / Lunes �Sábado)



Datos del destinatario

# Identificador de destinatario

# Ciudad destino

# Provincia destino

# Zona destino

# Código postal

# Categoría del destinatario (particular / empresa)

El diseño del DataWarehouse ha sido estructurado en las siguientes áreas:

# Fuentes origen de datos

Contiene información sobre las tablas/vistas necesarias para el aprovisionamiento

del DataMart.

# Fuentes preparadas para minar

Contiene información sobre las tablas/vistas donde se realizará la búsqueda de

conocimiento mediante técnicas de Data Mining. Los datos que se almacenan en

estas tablas deberán haber sido previamente limpiados, transformados y codificados

para poder ejecutar los algoritmos de minería.

# Modelos de Minería

Contiene información sobre las tablas/vistas que utiliza cada uno de los modelos de

minería implementados por la herramienta desarrollada.

# Resultados Minería

Contiene información sobre las tablas donde se almacenan los resultados de aplicar

un modelo de minería.

A continuación se describe el diseño lógico y físico del DW realizado con la herramienta

ERwin.



Diseño lógico de DataWarehouse a construir

# Fuentes origen de datos

CorreoValidoIDcarta

ciudad_origenciudad_destinoprovincia_origenprovincia_destinozona_origenzona_destinoIDfajoIDremitenteIDdestinatariolineametodo_induccionfecha_induccionfecha_recepciondias_antelacionestandar_serviciodias_entregaCP_origenCP_destinocategoria_remitentecategoria_destinatarioformatopesodireccionmetodo_franqueosemana_produccionhora_induccionultima_hora_recogidaestadofecha_matasellofecha_franqueocomunidad_origencomunidad_destino

ProvinciasId

ProvinciaComunidadAutonoma

ProvinciasProvinciaComunidadAutonoma

Kms




T_DMM_RegresionLineal

POrigen: VARCHAR(50)PDestino: VARCHAR(50)Dias: INTEGERKms: INTEGER

ConjuntoEntrenamiento

ciudad_destino: VARCHAR(255)provincia_origen: VARCHAR(255)provincia_destino: VARCHAR(255)zona_origen: VARCHAR(255)zona_destino: VARCHAR(255)IDfajo: DOUBLE PRECISIONIDcarta: DOUBLE PRECISIONIDremitente: INTEGERIDdestinatario: INTEGERlinea: VARCHAR(255)metodo_induccion: VARCHAR(255)fecha_induccion: VARCHAR(255)fecha_recepcion: VARCHAR(255)dias_antelacion: SMALLINTestandar_servicio: SMALLINTdias_entrega: SMALLINTCP_origen: SMALLINTCP_destino: SMALLINTcategoria_remitente: VARCHAR(255)categoria_destinatario: VARCHAR(255formato: VARCHAR(255)peso: VARCHAR(255)direccion: VARCHAR(255)metodo_franqueo: VARCHAR(255)semana_produccion: VARCHAR(255)hora_induccion: VARCHAR(255)ultima_hora_recogida: VARCHAR(255estado: VARCHAR(255)fecha_matasello: VARCHAR(255)fecha_franqueo: VARCHAR(255)comunidad_origen: VARCHAR(255)comunidad_destino: VARCHAR(255)ciudad_origen: VARCHAR(255)



# Resultados de minería T_Score_CorrelacionLinealID_Modelo

Variable_AVariable_BABR

FactoresCertezaID_Modelo

POrigenPDestinoFlujoLineaFormatoPesoMetodo_InduccionCantidadTiempo

T_Score_Arbol_ID3ID_Modelo

ABNum_ElementosEntropia

T_Score_ClusteringID_Modelo

Cluster_IDElementoNum_Elementos



Diseño físico de DataWarehouse a construir # Fuentes origen de datos

Contiene información sobre las tablas/vistas necesarias para el aprovisionamiento

del DataMart.

CorreoValidoIDcarta: DOUBLE PRECISION

ciudad_origen: VARCHAR(255)ciudad_destino: VARCHAR(255)provincia_origen: VARCHAR(255)provincia_destino: VARCHAR(255)zona_origen: VARCHAR(255)zona_destino: VARCHAR(255)IDfajo: DOUBLE PRECISIONIDremitente: INTEGERIDdestinatario: INTEGERlinea: CHAR(18)metodo_induccion: CHAR(18)fecha_induccion: CHAR(18)fecha_recepcion: TIMEdias_antelacion: SMALLINTestandar_servicio: SMALLINTdias_entrega: SMALLINTCP_origen: SMALLINTCP_destino: SMALLINTcategoria_remitente: CHAR(18)categoria_destinatario: CHAR(18)formato: CHAR(18)peso: CHAR(18)direccion: CHAR(18)metodo_franqueo: CHAR(18)semana_produccion: INTEGERhora_induccion: TIMEultima_hora_recogida: TIMEestado: CHAR(18)fecha_matasello: DATEfecha_franqueo: DATEcomunidad_origen: VARCHAR(50)comunidad_destino: VARCHAR(50)

ProvinciasId: INTEGER

Provincia: VARCHAR(50)ComunidadAutonoma: VARCHAR(50)

KmsProvincia_Origen: VARCHAR(50)Provincia_Destino: VARCHAR(50)

Kms: INTEGER




Contiene información sobre las tablas/vistas donde se realizará la búsqueda de

conocimiento mediante técnicas de Data Mining. Los datos que se almacenan en

estas tablas deberán haber sido previamente limpiados, transformados y

codificados para poder ejecutar los algoritmos de minería.

T_DMM_RegresionLineal

POrigen: VARCHAR(50)PDestino: VARCHAR(50)Dias: INTEGERKms: INTEGER

ConjuntoEntrenamientoIDcarta: DOUBLE PRECISION

ciudad_origen: VARCHAR(255)ciudad_destino: VARCHAR(255)provincia_origen: VARCHAR(255)provincia_destino: VARCHAR(255)zona_origen: VARCHAR(255)zona_destino: VARCHAR(255)IDfajo: DOUBLE PRECISIONIDremitente: INTEGERIDdestinatario: INTEGERlinea: CHAR(18)metodo_induccion: CHAR(18)fecha_induccion: CHAR(18)fecha_recepcion: TIMEdias_antelacion: SMALLINTestandar_servicio: SMALLINTdias_entrega: SMALLINTCP_origen: SMALLINTCP_destino: SMALLINTcategoria_remitente: CHAR(18)categoria_destinatario: CHAR(18)formato: CHAR(18)peso: CHAR(18)direccion: CHAR(18)metodo_franqueo: CHAR(18)semana_produccion: INTEGERhora_induccion: TIMEultima_hora_recogida: TIMEestado: CHAR(18)fecha_matasello: DATEfecha_franqueo: DATEcomunidad_origen: VARCHAR(50)comunidad_destino: VARCHAR(50)



# Resultados Minería

Contiene información sobre las tablas donde se almacenan los resultados de aplicar

un modelo de minería.

T_Score_CorrelacionLinealID_Modelo: VARCHAR(20)

Variable_A: VARCHAR(20)Variable_B: VARCHAR(20)A: VARCHAR(50)B: VARCHAR(50)R: INTEGER

T_Score_PrediccionID_Modelo: CHAR(18)

POrigen: VARCHAR(50)PDestino: VARCHAR(50)Flujo: VARCHAR(50)Linea: VARCHAR(50)Formato: VARCHAR(50)Peso: VARCHAR(50)Metodo_Induccion: VARCHAR(50)Cantidad: INTEGERTiempo: VARCHAR(50)

T_Score_ArbolID_Modelo: VARCHAR(20)

Atributo: VARCHAR(20)Valor: VARCHAR(50)Num_Elementos: INTEGEREntropia: INTEGER

T_Score_AjusteCurvaID_Modelo: VARCHAR(20)

Atributo: VARCHAR(20)Valor: VARCHAR(50)Mes: INTEGER



A continuación, especifico los atributos a incluir en el nuevo esquema y el nuevo nombre que

se les ha asignado para una mejor comprensión de los datos:

Tabla CorreoValido

Nombre Antiguo Nombre nuevo Clave Tipo de datos Longitud city_key ciudad_origen Varchar 50 city_key ciudad_destino Varchar 50 provn_key provincia_origen Varchar 50 provn_key provincia_destino Varchar 50 zone_key zona_origen Char 10 zone_key zona_destino Char 10 bundle_id IDfajo BigInt 8 mail_id IDcarta ! BigInt 8 dropper_id IDremitente BigInt 8 receiver_id IDdestinatario BigInt 8 product_id linea Char 10 induction_method_key metodo_induccion Char 10 reported_indu_date fecha_induccion Char 10 received_date fecha_recepcion Char 10

dias_antelación Int 4 service_key estandar_servicio Int 4

dias_entrega Int 4 zip_range_key CP_origen Int 4 zip_range_key CP_destino Int 4 drop_role_category_key categoría_remitente Char 10 rec_role_category_key categoría_destinatario Char 10 format_desc Formato Char 11 weight_key peso Char 10 method_desc direccion Char 10 franking_method_id metodo_franqueo Char 10 prod_week_key semana_produccion Char 10 indu_time hora_induccion Char 10 last_pickup_time ultima_hora_recogida Char 10 damage_id estado Char 10 stamp_cancel_date fecha_matasello Char 10 meter_date fecha_franqueo Char 10

comunidad_origen Varchar 50 comunidad_destino Varchar 50



A continuación se detalla un diccionario de conceptos relativo a los atributos más

significantes para el estudio de las cartas test, así como los diferentes objetos que son la fuente de

información y unos posibles valores que pueden tener los atributos seleccionados:

OBJETO ATRIBUTO VALOR

CARTA IDfajo IDcarta línea formato peso direccion dias_entrega dias_antelacion estado

12 dígitos. Ej.: 716444501469 12 dígitos. Ej.: 723903101139 {O,U} {Normalizado, A4,C5} {0-20, 20-50, 50-100} gr. {Mano, Máquina} [0,30] [-30,3] {B, A, M}

REMITENTE ciudad_origen provincia_origen comunidad_origen zona_origen IDremitente método_induccion fecha_induccion hora_induccion CP_origen categoría_remitente

Ej: Getafe Ej.: Madrid Ej.: Madrid Zona 1 - 9 7 dígitos. Ej.:7150855 {MB, PO, CA} 01/01/2000 � 31/12/2004 00:00 � 23:59 5 dígitos. Ej.: 28039 {P, B}

DESTINATARIO ciudad_destino provincia_ destino comunidad_destino zona_ destino IDdestinatario fecha_recepcion CP_destino categoría_destinatario

Ej.: Illescas Ej.: Toledo Ej.: Castilla La Mancha Zona 1 - 9 7 dígitos. Ej.:7241481 01/01/2000 � 31/12/2004 5 dígitos. Ej.: 45002 {P, B}

CORREOS

estandar_servicio método_franqueo fecha_matasello fecha_franqueo ultima_hora_recogida

{1,2,3} {ST, MT, PP} 01/01/2000 � 31/12/2004 01/01/2000 � 31/12/2004 11:00 � 22:00

IBM semana_produccion 200001 � 200053 200011 � 200153 200021 � 200253 200031 � 200353



4.2 PREPARACIÓN DE DATOS La calidad del conocimiento descubierto no sólo depende del algoritmo de minería

utilizado, sino también de la calidad de los datos minados. Por ello, después de recopilación, el

siguiente paso en el proceso de KDD es seleccionar y preparar el subconjunto de datos que se va

a minar, los cuales constituyen lo que se conoce como vista minable. Este paso es necesario ya

que algunos datos coleccionados en la etapa anterior son irrelevantes o innecesarios para la tarea

de minería que se desea realizar.

En la mayoría de bases de datos existe mucha información que es incorrecta respecto al

dominio de la realidad que se desea cubrir y un número menor, pero a veces también relevante,

de datos inconsistentes. Estos problemas se acentúan cuando realizamos la integración de

distintas fuentes. No obstante, mientras los datos erróneos crecen de manera lineal respecto al

tamaño de los datos recopilados, los datos inconsistentes se multiplican; varias fuentes diferentes

pueden afirmar cosas distintas sobre el mismo objeto.

La integración también produce una disparidad de formatos, nombres, rangos, etc., que

podría no existir, o en menor medida, en las fuentes originales. Esto dificulta en gran medida los

procesos de análisis y extracción de conocimiento. Estos procesos reciben nombres bastante

variados: preparación de datos, data cooking, preprocesamiento, etc. Conjuntamente, la

preparación de datos tiene como objetivo la eliminación del mayor número posible de datos

erróneos o inconsistentes (limpieza) e irrelevantes (criba), y trata de presentar los datos de la

manera más apropiada para la Minería de Datos.

En esta fase se transforman todos los datos a un formato común, frecuentemente mediante

un almacén de datos que consiga unificar de manera operativa toda la información recogida,

detectando y resolviendo las inconsistencias. Este almacén de datos facilita enormemente la

"navegación" y visualización previa de sus datos, para discernir qué aspectos puede interesar que

sean estudiados.

Dado que los datos provienen de diferentes fuentes, pueden contener valores erróneos o

faltantes. Estas situaciones se tratan en la fase de selección, limpieza y transformación, en la que

se eliminan o corrigen los datos incorrectos y se decide la estrategia a seguir con los datos

incompletos.



Además, se proyectan los datos para considerar únicamente aquellas variables o atributos

que van a ser relevantes, con el objetivo de hacer más fácil la tarea propia de minería y para que

los resultados de la misma sean más útiles. La selección incluye tanto una criba o fusión

horizontal (filas / registros) como vertical (columna atributos). Las dos primeras fases del KDD

se suelen englobar bajo el nombre de "preparación datos".

El éxito de un proceso de Minería de Datos depende, no sólo de tener todos los datos

necesarios (una buena recopilación), sino de que éstos estén íntegros, completos y consistentes

(una buena limpieza e integración).



4.2.1 Limpieza de datos

Una vez integrados los datos, se debe realizar una estricta, completa y documentada

depuración de datos. La limpieza de datos puede, en muchos casos, detectar y solucionar

problemas de datos no resueltos durante la integración.

En el proceso de cleaning (limpieza de datos) se detectan las cartas que incluyen algún tipo

de inconsistencia.

4.2.1.1 Detección de valores erróneos

Para identificar cualquier error o dato cuestionable, se han establecido unas ciertas reglas

para validar los datos:

1. Cartas de Maquina de Franquear no franqueadas el mismo día de su inducción.

Según Correos, todas las cartas de maquina de franquear, se franquean el mismo día que se

inducen. Puede ocurrir que cuando se induzca la carta, la oficina esté cerrada por la fecha de

deposito deberá ser el siguiente día laborable de la oficina de correos.

Regla 1: Meter_date � Reported_date <> 0 AND Meter_date � Actual_date <> 0

2. Cartas de sello no mataselladas en los próximos 4 días después de su inducción

Según Correos, se considera una carta errónea aquellas que:

1. Han sido mataselladas antes de ser inducidas (matasello negativo).

2. Han sido mataselladas 5 o más días después de ser inducidas.

Regla 2: franking_method_id = �ST� AND

[(stamp-actual) < 0 AND (reported-actual) <> (stamp-actual] OR

[(stamp-actual) >= 5 AND (reported-actual) <> (stamp-actual)]

3. Cartas urgentes depositadas en buzón

Se considera una carta no válida aquella carta urgente que haya sido inducida en Buzón.

Una carta urgente debe ser depositada en una Oficina de Correos.

Regla 3: product_id = �U� AND (indu_method_id) = �MB



4. Cartas recibidas en un día de no entrega

Hay que detectar todas las cartas que han sido recibidas en días en los que no hay reparto

de correo (festivos locales, festivos nacionales, fines de semana, etc.). Se permite la recepción de

cartas en sábados, excepto del 15 de Julio al 15 de Septiembre, ya que en estas fechas no hay

servicio de entrega.

5. Cartas de sello con fecha de franqueo

Las cartas de sello deberán tener únicamente fecha de matasello.

6. Cartas de maquina de franquear con fecha de matasello

Las cartas de máquina de franquear deberán tener únicamente fecha de franqueo.

7. Cartas de franqueo pagado con fecha de matasello o fecha de franqueo

Las cartas de franqueo pagado no deberán tener fecha de matasello ni fecha de franqueo.

8. Cartas inducidas en un día de no recogida.

Hay que comprobar todas las cartas inducidas en días de no recogida (festivos locales,

festivos nacionales, domingos, etc.). Las cartas inducidas en buzón son válidas sea cual sea el día

de inducción (puede inducirse en buzón cualquier día y a cualquier hora).

9. Cartas que llegan con un retraso mayor a 30 días.

Detecta todas aquéllas cartas que han tardado más de 30 días en llegar a su destino. Estas

cartas se consideraran anómalas y no serán objetos de estudio.

10. Horas de inducción extrañas

Es preciso detectar aquellas cartas que han sido inducidas en horas extremas del día.

- Las cartas de Buzón pueden inducirse a cualquier hora del día.

- Las cartas de Oficina de Correos pueden inducirse a cualquier hora del día, sólo si son de

Sello (ya que se inducen en el Buzón de la Oficina). Las demás cartas deberán ser

depositadas dentro del horario comercial de la Oficina. Se supone que el horario de una

Oficina de Correos es de 9:00 a 19:00.

- Las cartas depositas en un Centro de Admisión Masiva deberán ser depositadas dentro del

horario comercial del Centro. Se supone que este horario es de 9:00 a 18:00.



Regla 10:[(indu_method_id) = �PO� AND (franking_method_id) <> �ST� AND

(indu_time < 08:30h OR indu_time > 19:00h)] OR

(indu_method_id)=�CA� AND (indu_time < 09:00h OR indu_time > 18:00h)

11. Cartas con plazo de entrega menor a 0 días

Hay que comprobar todas las cartas cuyo plazo de entrega es:

• menor que 0, independientemente del flujo (local, provincial y nacional)

• igual que 0, cuyo flujo sea distinto de local.

Esto suele detectarse cuando el participante desconoce la fecha exacta de recepción.

Se trata de cartas cuya fecha de depósito es igual o superior a la de recepción. Por tanto,

estas cartas no deben ser válidas.



4.2.1.2 Detección de valores anómalos

La presencia de valores que no se ajustan al comportamiento general de los datos (outliers)

afecta a la calidad de los datos. Estos datos anómalos pueden representar errores en los datos o

pueden ser valores correctos que son simplemente diferentes a los demás. Algunos algoritmos de

Minería de Datos ignoran estos datos, otros los descartan considerándolos ruido o excepciones,

pero otros son muy sensibles y el resultado se ve claramente perjudicado por ello. Sin embargo,

no siempre es conveniente eliminarlos, ya que, en algunas aplicaciones, como la detección de

compras fraudulentas efectuadas con tarjetas de crédito o la predicción de inundaciones, los

eventos raros pueden ser más interesantes que los regulares (por ejemplo, compras por un

importe mucho más elevado que el de las compras efectuadas habitualmente con la tarjeta, o días

en los que la cantidad de lluvia recogida es muy superior a la media).

Acciones ante datos anómalos (outliers):

# ignorar: algunos algoritmos son robustos a datos anómalos (p.ej. árboles)

# filtrar (eliminar o reemplazar) la columna: solución extrema, pero a veces existe otra

columna dependiente con datos de mayor calidad. Preferible a eliminar la columna es

reemplazarla por una columna discreta diciendo si el valor era normal outlier (por encima

o por debajo).

# filtrar la fila: claramente sesga los datos, porque muchas veces las causas de un dato

erróneo están relacionadas con casos o tipos especiales.

# reemplazar el valor: por el valor �nulo� si el algoritmo lo trata bien o por máximos o

mínimos, dependiendo por donde es el outlier, o por medias. A veces se puede predecir a

partir de otros datos, utilizando cualquier técnica de ML.

# discretizar: transformar un valor continuo en uno discreto (p.ej. muy alto, alto, medio,

bajo, muy bajo) hace que los outliers caigan en �muy alto� o �muy bajo� sin mayores

problemas.



4.2.1.3 Detección de valores faltantes

La presencia de datos faltantes o perdidos (missing values) puede ser también un problema

pernicioso que puede conducir a resultados poco precisos. No obstante, es necesario reflexionar

primero sobre el significado de los valores faltantes antes de tomar ninguna decisión sobre cómo

tratarlos ya que éstos pueden deberse a causas muy diversas, como a un mal funcionamiento del

dispositivo que hizo la lectura del valor, a cambios efectuados en los procedimientos usados

durante la colección de los datos o al hecho de que los datos se recopilen desde fuentes diversas.

Acciones ante datos faltantes (missing values):

# ignorar: algunos algoritmos son robustos a datos faltantes (p.ej. árboles).

# filtrar (eliminar o reemplazar) la columna: solución extrema, pero a veces existe otra

columna dependiente con datos de mayor calidad. Preferible a eliminar la columna, es

reemplazarla por una columna booleana diciendo si el valor existía o no.

# filtrar la fila: claramente sesga los datos, porque muchas veces las causas de un dato

faltante están relacionadas con casos o tipos especiales.

# reemplazar el valor: por medias. A veces se puede predecir a partir de otros datos,

utilizando cualquier técnica de ML.

# segmentar: se segmentan las tuplas por los valores que tienen disponibles. Se obtienen

modelos diferentes para cada segmento y luego se combinan.

# modificar la política de calidad de datos y esperar hasta que los datos faltantes estén

disponibles.

A veces es importante examinar las razones tras datos faltantes y actuar en consecuencia:

# algunos valores faltantes expresan características relevantes: p.ej. la falta de teléfono

puede representar en muchos casos un deseo de que no se moleste a la persona en

cuestión, o un cambio de domicilio reciente.

# valores no existentes: muchos valores faltantes existen en la realidad, pero otros no. P.ej.

el cliente que se acaba de dar de alta no tiene consumo medio de los últimos 12 meses.

# datos incompletos: si los datos vienen de fuentes diferentes, al combinarlos se suele hacer

la unión y no la intersección de campos, con lo que muchos datos faltantes representan

que esas tuplas vienen de una/s fuente/s diferente/s al resto.



Los valores faltantes que se presentan en la base de datos son:

- Estado de la carta. Se considerará que el estado de la carta es buena por defecto. Por

tanto, en los casos en que el destinatario no haya especificado el estado de la carta, se

supondrá que el estado de recepción de la carta es bueno.

- Ultima hora de recogida en buzón. Esta información no es obligatoria, y si no se

especifica, la ultima hora de recogida será las 17:00.

- Distancia en kilómetros. No se dispone de información sobre distancias con origen o

destino fuera de la Península, como son las Islas Baleares, Islas Canarias, Ceuta y

Melilla.



4.2.2 Transformación de atributos

Un aspecto muy importante a la hora de realizar los procesos de integración, limpieza,

selección y transformación es que se debe conocer el dominio de donde provienen los datos. Por

ejemplo, un histograma puede ayudar a detectar los datos anómalos más flagrantes pero no podrá

ayudarnos para determinar otros casos que sólo pueden detectarse con seguridad si conocemos el

dominio de los datos. En otros casos, conocer el dominio es imprescindible, como por ejemplo

para la redefinición de atributos (mediante creación o separación).



4.2.3 Discretización y numeración

El tipo de los datos puede modificarse para facilitar el uso de técnicas que requieren tipos

de datos específicos. Así, algunos atributos se pueden numerizar, lo que reduce el espacio y

permite usar técnicas numéricas.

El proceso inverso consiste en discretizar los atributos continuos, es decir, transformar

valores numéricos en atributos discretos o nominales. Los atributos discretizados pueden tratarse

como atributos categóricos con un número más pequeño de valores. La idea básica es partir los

valores de un atributo continuo en una pequeña lista de intervalos, tal que cada intervalo es visto

como un valor discreto del atributo.

Los datos pueden ser de distinto tipo:

- numéricos (sean enteros o reales, abiertos o cerrados por un intervalo, circulares)

- nominales sin orden (incluyendo valores lógicos o booleanos, con valores prefijados o

abiertos)

- nominales con orden u ordinales (del estilo { bajo, mediano, alto}).

Existen numerosas nomenclaturas alternativas, como pueden ser continuos y discretos,

cuantitativos y cualitativos/categóricos, que no son exactamente equivalentes a la terminología

de datos numéricos y nominales



4.2.4 Selección de datos

No es sólo suficiente con tener una buena calidad de datos, sino además poder

proporcionar a los métodos de Minería de Datos el subconjunto de datos más adecuado para

resolver el problema. Para ello es necesario seleccionar los datos apropiados.

La selección de atributos relevantes es uno de los preprocesamientos más importantes, ya

que es crucial que los atributos utilizados sean relevantes para la tarea de Minería de Datos.

Idealmente, uno podría usar todas las variables y dejar que la herramienta de Minería de

Datos fuera probando hasta elegir las mejores variables predictoras. Obviamente, esta forma de

trabajar no funciona bien, entre otras cosas porque el tiempo requerido para construir un modelo

crece con el número de variables. Aunque en principio algunos algoritmos de Minería de Datos

automáticamente ignoran las variables irrelevantes, en la práctica nuestro conocimiento sobre el

dominio del problema puede permitirnos hacer correctamente muchas de esas selecciones.

Como en el caso de las variables, también podríamos construir el modelo usando todos los

datos. Pero si tenemos muchos, tardaríamos mucho tiempo y probablemente también

necesitaríamos una máquina más potente. Consecuentemente, una buena idea es usar una

muestra (sample) a partir de algunos datos (o filas). La selección de la muestra debe ser hecha

cuidadosamente para asegurar que es verdaderamente aleatoria.

Otra tarea de preparación de los datos es la construcción de atributos, la cual consiste en

construir automáticamente nuevos atributos aplicando alguna operación o función a los atributos

originales con objeto de que estos nuevos atributos hagan más fácil el proceso de minería. La

motivación principal para esta tarea es fuerte cuando los atributos originales no tienen mucho

poder predictivo por sí solos o los patrones dependen de variaciones lineales de las variables

originales.



4.3 MINERÍA DE DATOS

La fase de Minería de Datos es la más característica del KDD y, por esta razón, muchas

veces se utiliza esta fase para nombrar todo el proceso. El objetivo de esta fase es producir nuevo

conocimiento que pueda utilizar el usuario. Esto se realiza construyendo un modelo basado en

los datos recopilados para este efecto. El modelo es una descripción de los patrones y relaciones

entre los datos que pueden usarse para hacer predicciones, para entender mejor los datos o para

explicar situaciones pasadas. Para ello es necesario tomar una serie de decisiones antes de

empezar el proceso:

- Determinar qué tipo de tarea de minería es el más apropiado (clasificación, clustering...)

- Elegir el tipo de modelo. Por ejemplo, para una tarea de clasificación podríamos usar un

árbol de decisión, porque queremos obtener un modelo en forma de reglas.

- Elegir el algoritmo de minería que resuelva la tarea y obtenga el tipo de modelo que

estamos buscando. Esta elección es pertinente porque existen muchos métodos para

construir los modelos. Por ejemplo, para crear árboles de decisión para clasificación

podríamos usar CART o C5.0, entre otros.

Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo

una visualización gráfica de los mismos para tener una primera aproximación. Según los

objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos

desarrollados en diferentes áreas de la Inteligencia Artificial.



4.3.1 Tareas de Minería de Datos realizadas

Una tarea de Minería de Datos es un tipo de problema de Minería de Datos que se pretende

resolver. Mediante técnicas o métodos de minería se pueden resolver las tareas planteadas.

Cada tarea puede ser realizada usando distintas técnicas. Los modelos inferidos por los

árboles de decisión pueden inferir modelos predictivos. Para una misma técnica se han

desarrollado diferentes algoritmos que difieren en la forma y criterios concretos con lo que se

construye el modelo.

Dentro de los modelos predictivos, las tareas más importantes de Data Mining son:

- Clasificación

- Categorización

- Regresión

- Priorización

Dentro de los modelos descriptivos, las tareas más importantes de Data Mining son:

- Clustering (agrupamiento, segmentación)

- Correlaciones y factorizaciones

- Reglas de asociación

- Dependencias funcionales

- Detección de valores e instancias anómalas

De entre todas estas tareas, el proyecto se centra fundamentalmente en las dos tareas de

minería utilizadas por excelencia: clasificación y clustering. Además se han desarrollado otras

tareas muy utilizadas en Data Mining: predicción, análisis de correlación y patrones de

comportamiento (ver figura 4.8):



Figura 4.8: Tareas de Data Mining utilizadas



4.3.1.1 Clasificación

La clasificación se refiere a seleccionar una respuesta a partir de un conjunto fijado

previamente de alternativas en base a la información que se da como entrada. Es decir, se

relacionará una situación única con un grupo mayor de casos similares. Para ello, se deberá

definir un conjunto de entrenamiento o casos de prueba, y una vez contrastados los resultados

obtenidos, se llevará a cabo las tareas de clasificación con la totalidad de los ejemplos

disponibles.

El enfoque algorítmico de Clasificación es generalmente utilizado en problemas de

detección de transacciones fraudulentas, riesgo en la entrega de créditos, predicción de

probabilidad de almacenamiento e identificación de procedimientos médicos.

Básicamente, la clasificación emplea un conjunto de datos (�conjunto de entrenamiento�)

para desarrollar un modelo y utilizarlo como un clasificador para una población mayor de

registros, arrojando la descripción de las características de los registros a cada clase. El objetivo

de esta operación es utilizar el contenido de la base de datos, datos históricos, y así generar

automáticamente un modelo que podrá predecir un comportamiento futuro. Los métodos para

poder realizar lo anterior pueden ser del tipo neuronal o simbólico. Los métodos neuronales, tales

como el algoritmo backpropagation (algoritmo analizado en capítulo siguiente), representan el

modelo final como una arquitectura de nodos y uniones según valores determinados. Los

métodos simbólicos crean modelos que pueden ser representados como árboles de decisión,

gráficos difusos o reglas del tipo �if..then�. El enfoque algorítmico de clasificación predice el

estado de las clases, a través de resultados categóricos.

Para identificar conceptos (atributo de clase) a partir de las características de un conjunto

de ejemplos que los representan se ha de calcular la entropía en cada nodo. El árbol se genera

dividiendo sucesivamente el conjunto de aprendizaje en subconjuntos de ejemplos cada vez más

pequeños hasta conseguir conjuntos suficientemente puros. Es una partición recursiva en zonas

homogéneas o puras a las que se les asocia una clase. Recibe como entrada un conjunto de

ejemplos y a partir de ellos desarrolla un árbol de decisión de arriba a abajo guiado por la

información de los ejemplos. Recibe como entrada un conjunto de ejemplos y a partir de ellos

desarrolla un árbol de decisión de arriba a abajo guiado por la información de los ejemplos.



El proceso de clasificación es realizado automáticamente a partir del conjunto de

entrenamiento, que es una muestra de la base de datos que será minada, los registros para esta

aplicación pertenecen a un pequeño conjunto de clases que ya han sido predefinidas por el

experto. Junto con esta clasificación, se entregan patrones que esencialmente representan una

generalización sobre los registros, y servirán para distinguir las clases.

Posteriormente el algoritmo clasificador utiliza esta pre-clasificación para determinar el

conjunto de parámetros requerido para realizar la discriminación y llegar al modelo.

Una vez que esto se ha llevado a cabo, es necesario verificar la calidad del modelo a través

del conjunto de validación. Cuando ya se ha logrado obtener un clasificador efectivo, este se

utiliza de un modo predictivo para clasificar nuevos registros dentro de las mismas clases

predefinidas. Por ejemplo, un clasificador capaz de identificar riesgos en los préstamos podrían

ser utilizados para ayudar en la decisión de donde otorgar un préstamo. Una vez que ya se ha

logrado un modelo este puede ser utilizado para predecir las clases de un nuevo conjuntos de

registros no clasificados.

Objetivos:

# Mediante la construcción de árboles de decisión, se pretende poder identificar los

atributos que clasifican el estado de recepción de una carta.

# Obtener los mejores separadores que determinan un atributo de clase

# Clasificar el tipo de retraso en la recepción de una carta

# Tipo de provincias según flujo de correo entrante o saliente



4.3.1.2 Predicción

Lo que distingue a la regresión de la clasificación, es el tipo de salida que estas funciones

predicen. Tal como se ha mencionado la clasificación predice estado de clases, mientras que el

enfoque algorítmico de regresión predice un valor específico, por ejemplo el modelo predictivo

para una regresión podría generar la siguiente sentencia:

El ingreso económico de la alumna Alejandra Oñate será de $255

La regresión es utilizada en casos donde la salida predictiva puede tomar posibles valores

ilimitados (variables continuas).

Existen conversiones muy pequeñas que transforman un problema de clasificación en uno

de regresión y viceversa. Mediante el siguiente ejemplo se explica este tipo de conversión: Se

intenta predecir la probabilidad de que una persona responda positiva o negativamente a un

programa de difusión de carrera, se puede generar un puntaje que fluctúe entre el rango de 0 y 1,

los valores cercanos a cero son interpretados como muy probable que no responda, y los valores

cercanos a 1 muy probable que responda. Aquellas personas con valores superiores a 0.5, se

consideran como probables a responder. Como puede apreciarse, el problema de clasificación se

ha convertido en uno de regresión. En un caso contrario, donde se intenta predecir la

probabilidad de que un alumno que trabaja, este en las siguientes cuatro categorías de sueldo: no

lucrativo (ingreso menor a $0), bajo (ingreso entre $0 y $1000), medio (ingreso entre $1000 y

$5000) y alto (ingreso mayor a $5000), es posible tornar un problema de regresión (cantidad de

ingreso) en un problema de clasificación (clase de ingreso).

En general, un problema de regresión se convierte en uno de clasificación convirtiendo la

variable continua, en una categoría discreta, y un problema de clasificación convertirse en uno de

regresión prediciendo el puntaje o probabilidad de cada categoría y asignando un rango de

puntajes para cada una de ellas.

Objetivo:

# Predecir el plazo de entrega de la calidad de recepción de una carta



4.3.1.3 Análisis de correlación

Mediante un análisis de correlación se pretende estudiar si existe relación entre el estado de

recepción y la distancia.

Análisis de correlación entre el estado de recepción de una carta test y la distancia

recorrida

Puede ser interesante analizar los datos en busca de una posible relación entre el estado de

recepción de las cartas test (buena, rota, abierta�) y la distancia recorrida. En particular,

estudiaré si existe una relación entre una carta recibida en malas condiciones. Esto puede ser

debido a que haya recorrido una gran distancia y se haya deteriorado en el recorrido.

Objetivos:

# Demostrar si existe una relación lineal entre dos variables numéricas (ej: el estado

de recepción de una carta test y la distancia recorrida)



4.3.1.4 Reglas de asociación

Este tipo de enfoque algorítmico es utilizado comúnmente en problemas del tipo �Análisis

de Canasta de Mercado� (Market-Basket Analysis), con el fin de obtener las tendencias de

compra de los clientes.

La idea básica de la asociación, es encontrar en los datos reglas que identifican a los

patrones de comportamiento, si se obtiene una comprensión de estos patrones, se puede lograr

una visión realmente enriquecedora de los datos.

La expresión de una regla de asociación, tiene dos componentes; uno es el componente del

lado izquierdo, a veces llamado antecedente, y el otro, un componente del lado derecho llamado

consecuente.

Una regla tiene dos tipos de mediciones, la confianza y soporte. el soporte mide la

frecuencia en que los ítems aparecen juntos, como el porcentaje total de transacciones. La

confianza mide cuan dependiente es un ítem de otro. Una confianza del 100% es improbable, el

analista debe poner mucho cuidado en estos resultados, ya que podrían estar tomándose

situaciones en que se están analizando sólo datos de un periodo específico del tiempo. Otra

precaución a tomar, es vigilar aquellas reglas que tienen un valor excesivamente alto o muy bajo,

para mejores resultados es bueno considerar a estos valores como anomalías estadísticas.

Una vez que los datos han sido minados y se ha detectado, examinado y valorado la

asociación, los usuarios pueden tomar las decisiones sobre la base de las prácticas comunes que

se han encontrado, a los grupos y servicios que tienen alguna preferencia y a la relación existente

entre ellos.

Parece interesante analizar las producciones de cartas test según la estacionalidad mensual

en la que nos encontremos. Se pueden encontrar relaciones temporales curiosas, como por

ejemplo, descubrir que durante los meses de verano el flujo de correo ha disminuido debido a las

vacaciones de los participantes, o por el contrario, ver que la cantidad de correo ha aumentado

durante fechas cercanas a la Navidad.



También puede ser interesante encontrar rutas en las que el plazo medio de entrega sea

diferente para cartas con la misma ruta, en las que se intercambien el origen y el destino. Por

ejemplo, podemos descubrir que una carta básica enviada desde Lugo a Toledo tarda de media 2

días, mientras que de Toledo a Lugo tarda 5 días.

Objetivos:

# Identificar los atributos que repercuten de forma más directa sobre el estado en que

llega la carta y el plazo de entrega.

# Identificar rutas con plazos de entrega distintos a la ida y a la vuelta

# Comparación del rendimiento en diferentes rutas de correos, flujos, periodos, etc.

# Valoración de los efectos (acciones de recuperación) en rutas en las que la demora

en la recepción de envíos está por debajo de los estándares.

# Identificar rutas optimas y tardías



4.3.1.5 Segmentación

Este enfoque algorítmico nace debido a que actualmente las bases de datos crecen día a día

de manera considerable y son pobladas con diversos tipos de datos que hacen necesaria una

�partición� de ellos en colecciones de datos relacionados, para así obtener mayor comprensión de

la información que almacenan, o un resumen de cada conjunto de datos, para hacerlos más útiles

o bien, para ejecutar una técnica de minería de datos.

Agrupamiento o �clustering�, como también se le conoce, agrupa registros que tienen un

gran número de atributos, en un conjunto de grupos o �segmentos� relativamente pequeños,

dicho de otra manera, se segmenta la base de datos en subconjuntos, o sea grupos, donde cada

uno de ellos comparte un número de característica similares. Este proceso de asignación es

ejecutado automáticamente por los algoritmos de agrupamiento que identifican las características

distintivas de un conjunto de datos y entonces particiona en ndimensiones definido por los

atributos.

Este enfoque algorítmico se aplica en problemas de marketing, encontrando grupos con

afinidades en sus gustos, igualmente es utilizado en problemas de �cuidado de la salud�,

encontrando pacientes que padecen de los mismos malestares.

Cuando se aplica este enfoque algorítmico no se conocen las clases ni tampoco el experto

debiera conocerlas, ya que la meta del grupo es producir una segmentación razonable del

conjunto de los registros de entrada de acuerdo a algún criterio, este criterio se define por una

herramienta de agrupamiento. De esta forma, las diferentes funciones de agrupamiento pueden

producir diferentes segmentaciones de un conjunto de registros, produciendo descripciones

implícitas y explícitas. Por ejemplo, la herramienta podría definir grupos según �año de ingreso a

la Universidad�, quedando los alumnos agrupados dependiendo de esta característica.

Los resultados del agrupamiento son utilizados de dos maneras. Una de ellas es para

resumir los contenidos de grandes base de datos, considerando las características de cada grupo

creado, en vez de utilizar aquellas de los registros de la base de datos. Una segunda utilización es

tomar estos resultados como entrada a otros métodos.



Agrupamiento es generalmente utilizado en los primeros pasos del análisis del Data

Mining, identificando grupos relacionados que pueden ser utilizados como punto de partida

para próximas exploraciones.

Las tareas de segmentación consisten en seleccionar una hipótesis en base a unos datos

medidos y su información corolaria. A partir de los datos observables se infieren descripciones

de situaciones a partir de datos observables. Mediante clustering se analizan los datos para

determinar su significado. Para la construcción de clusters se ha utilizado algoritmo basado en

distancia para encontrar grupos homogéneos de elementos: se construye una matriz de

proximidad, y se van agrupando los elementos con mayor similitud.

Se pretende descubrir patrones de comportamiento entre los distintos atributos que

componen una carta test e incluso agrupar en clusters comunidades autónomas con

comportamientos similares.

Objetivos:

# Identificar comunidades autónomas con patrones de comportamiento similares.



4.3.2 Técnicas de Minería de Datos utilizadas

4.3.2.1 Árboles de decisión

Los árboles de decisión son una técnica de aprendizaje automático por inducción que

permiten identificar conceptos (clases de objetos) a partir de las características de un conjunto

de ejemplos que los representan.

La información extraída de los mismos queda organizada jerárquicamente organizada

jerárquicamente en forma de árbol. Es un proceso de generalización a partir de casos

particulares. Se representan por un gráfico dirigido que consta de nodos y arcos. Los nodos

corresponden a una pregunta o a un test que se hace a los ejemplos.

La construcción de un árbol de decisión requiere:

1. Un conjunto de ejemplos representativos de lo que se desea aprender (Conjunto de

entrenamiento Conjunto de entrenamiento)

2. Una representación simbólica representación simbólica del conocimiento (Ejemplos y

definición de sus características) a través de atributos y sus valores

3. Un algoritmo de aprendizaje (clasificación)

4. Un esquema de valoración

Un árbol de decisión tiene un nodo raíz, nodos intermedios y hojas. Cualquier nodo

intermedio puede ser un nodo raíz de un subárbol. Esto conduce a una definición recursiva de

árbol de decisión. Cada nodo intermedio y el raíz tienen asociados separadores que formulan una

pregunta o realizan un test acerca de la existencia o no de una característica en cada caso

ejemplo. Esto permite clasificar los ejemplos y determinar cuáles serían los nodos sucesores.

Para la selección de los rasgos separadores, el rasgo a seleccionar debe de cumplir el

objetivo de que su posición en algún punto del árbol genere un subárbol tan simple como sea

posible y dé una concreta clasificación. Cuando se construye un árbol de decisión, es necesario

tener un medio para determinar los atributos importantes requeridos para la clasificación y el

orden de uso de esos atributos importantes. Es necesario un criterio de selección criterio de

selección de separadores. Cada criterio de selección será un test restringido a una función de

solamente uno de los atributos solamente uno de los atributos.



Una hoja en el árbol corresponde a un conjunto de ejemplos que representan una sola clase.

La clase se asigna por criterio de a la que pertenezcan la mayoría de los ejemplos en la

subdivisión en cuestión. Las hojas del árbol de decisión representan los conceptos extraídos de

manera automática.

Una vez construido un árbol de decisión, un nuevo ejemplo desconocido será representante

de la clase en donde caiga recorriendo el árbol desarrollado desde la raíz a las hojas.

Para la construcción de árboles de decisión se ha escogido el algoritmo ID3.

ID3

Es un método de construcción de árboles de decisión cuyas siglas significan Interactive

Dichotomizer 3, diseñado por Quinlan en 1986. Utiliza la estrategia �divide y vencerás� y va

construyendo el árbol de arriba abajo.

Recibe como entrada un conjunto de ejemplos y a partir de ellos desarrolla un árbol de

decisión de arriba a abajo guiado por la información de los ejemplos. Es un enfoque inductivo o

"dirigido por datos�, donde el orden de presentación de los ejemplos no es importante.

La estructura básica del algoritmo ID3 es iterativa. El árbol se genera dividiendo

sucesivamente el conjunto de aprendizaje en subconjuntos de ejemplos cada vez más pequeños

hasta conseguir conjuntos suficientemente puros. Es una partición recursiva del espacio de

entradas en zonas homogéneas o puras a las que se les asocia una clase.

Un conjunto es bastante puro conjunto cuando casi todos sus ejemplos pertenecen a una

sola clase.

Un separador es un sólo atributo. Esto hace al árbol que tenga significado físico y es más

sencillo interpretar. Se usan dos tipos de separadores:

- Simbólico: el separador será una pregunta tipo: ¿cuál es el valor del atributo X?

- Ordenado: ¿es el valor del atributo menor que un umbral determinado?

En ambos casos, puede haber más de dos nodos hijos.



Para seleccionar el mejor separador hay que utilizar una medida para distinguir entre

posibles candidatos. La medida que se utiliza se basa en la entropía o cantidad de información

definida en la teoría de la información.

La entropía de un nodo N se calcula como:

siendo Nclases el número de clases diferentes en el nodo y p(N,Ci) la proporción de

ejemplos en el nodo pertenecientes a la clase Ci.

La selección del mejor separador se realiza eligiendo el que produce una disminución

mayor en la impureza del nodo analizado.

siendo:

· DI(N,S): el decremento de impureza del nodo N producido al aplicar el separador S

· I(N): impureza del nodo

· Nhijos: número de hijos generados al aplicar S

· p(Nhi): proporción de ejemplos del nodo N que quedan en el nodo hijo i

Se pueden usar varios criterios para decidir si el aumento de la capacidad de clasificación

del árbol el expandir un nodo es suficientemente significativo como para compensar el

incremento de complejidad del árbol. Normalmente se compara la impureza del nodo en estudio

con un valor mínimo Hmin. Si la impureza del árbol es menor, el nodo no se expande.



4.3.2.2 Predicción mediante Factores de Certeza

El conocimiento humano está lleno de incertidumbre. Los esquemas de representación del

conocimiento no contemplan la incertidumbre inherente a la experiencia humana.

Estos esquemas han de ser complementados con sistemas de representación de la

incertidumbre. El conocimiento queda representado por:

- un esquema de representación

- un método de representación de la incertidumbre

Hay incertidumbre debido a muchas causas:

- Insuficiente experiencia

- Inadecuada representación del conocimiento

- Información poco fiable

- No completitud

- Inexactitud inherente al lenguaje

Los factores de certeza se basan en el juicio juicio que tiene un experto sobre el número de

ocurrencias de ciertas situaciones o relaciones cuyo conocimiento se desea incluir en una

base de conocimientos.

Estas medidas de confianza o factores de certeza son evaluaciones o apreciaciones

personales de los expertos que añaden al enunciado de su conocimiento.

Ej.: Si se da A entonces se dará C casi con toda seguridad

Se expresan mediante un número o �factor de certeza�.

Los factores de certeza no se rigen por probabilidad. No se obtienen de poblaciones

muestrales, sino de experiencia. En probabilidad la suma de la probabilidad de que se dé

un hecho y su contrario es 1. Un experto puede sentir que algo es cierto de forma

importante, pero puede no saber cuanto de importante es lo contrario.

El factor de certeza es un valor en el intervalo [-1,1]. (1 indica completa confianza, -1

completa no creencia).



Sean dos reglas R1 y R2 que alcanzan la misma conclusión h, a partir de dos evidencias e1

y e2 diferentes:

R1 : Si e1 entonces h, CF(h, e1)

R2 : Si e2 entonces h, CF(h, e2)

El factor de certeza de h se calculará como:

a) CF(h, e1)+CF(h, e2)(1-CF(h, e1)), si CF(h, e1)>0 y CF(h, e2)>0

b) CF(h, e1)+CF(h, e2)(1+CF(h, e1)), si CF(h, e1)<0 y CF(h, e2)<0

c) [CF(h, e1)+CF(h, e2)]/(1-min(|CF(h, e1)|, |CF(h, e2) |), en cualquier otro caso

Un factor de certeza se puede asociar no sólo a una regla, sino que también se puede

asociar a una condición de una regla. Sea:

R1 : Si e1, CF(e1) Entonces h, CFR(h, e1)

CFR(h, e1) es el factor de certeza de la regla R1

CF(e1) es el factor de certeza de e1

la certeza de �h� con la evidencia �e1� se calcula:

CF(h, e1)= CF(e1) * CFR(h, e1)



4.3.2.3 Regresión lineal

La regresión es la teoría que trata de encontrar una función matemática que ajuste de la

mejor manera posible los valores de la variable bidimensional. Mediante regresión lineal se trata

de obtener una recta que ajuste la nube de puntos.

La ecuación de la recta, que permitirá pronosticar los valores de Y conocidos los de X, será

por tanto de la forma:

Y = a + b X

Como es lógico, para una observación concreta (xi, yi) habrá una diferencia entre el valor

pronosticado a través de la recta para el valor xi, llamándose y*i, y el valor cierto real, yi, y se

produce por tanto un error que será la diferencia entre ambos valores, al que se denomina

residuo.

La suma de todos los residuos es cero, pero el dato con el que se trabaja es con la suma

de los errores al cuadrado que interesa que sea mínima. Impuesta esta condición, se obtienen los

valores de a y b de la recta de regresión (de Y sobre X) que sería:

y � y = sxy / s2x (x � x)

Cálculos realizados A = (Σ(Y) · Σ(X2)) - (Σ(X) · Σ(X·Y)) / (N · Σ(X2)) - (Σ(X)2)

B = N · Σ(X·Y) - (Σ(X) · Σ(Y)) / N · Σ(X2)-(Σ(Y)2) N = Count(X)

R = N · Σ(X·Y) -(Σ(X) · Σ(Y)) / SQUARET(N · Σ(X2) - (Σ(X))2) · (N · Σ(Y2) - (Σ(Y))2)



4.3.2.4 Ajuste de curva univariable

El Ajuste de curva univariable descubre una función matemática que describe exactamente

la distribución de los datos a través del tiempo. Pueden seleccionarse los siguientes tipos de

curvas:

# Mejor ajuste

# Exponencial

# Hipérbola

# Lineal

# Potencia

# Racional

# Recíproca

Tratamiento de valores omitidos: los valores omitidos no están permitidos en los datos

de series temporales.

A continuación se presenta una descripción de las columnas de la Tabla de ajuste:

1. La primera columna muestra los números de las observaciones en las que se basan

los diagramas.

2. La segunda columna muestra para qué periodo estacional se han observado los

valores.

3. La tercera columna muestra los valores observados.

4. La cuarta columna muestra los valores ajustados.

5. La quinta columna muestra los valores residuales, que son las diferencias entre los

valores observados y los ajustados.

El ajuste de curva univariable se basa en la secuenciación. Este tipo de enfoque algorítmico

es muy similar a la asociación, pero la diferencia radica en la inclusión del tiempo de análisis,

agregando comparaciones de tiempo entre las transacciones. En este enfoque se intenta encontrar

patrones entre eventos que ocurren en un periodo de tiempo, por ejemplo incluyendo: �dentro de

los seis meses�, �próxima vez� o un conjunto de rangos como: �próximo día�, �próxima

semana�, �próximo mes�, �próximo año�...



La secuenciación requiere un identificador (por ejemplo: rut), que relacione las

transacciones que han ocurrido en tiempos diferentes, tomando las combinaciones en pares de

todas las transacciones que tienen este mismo identificador y computando el tiempo de

diferencia entre estos pares, el algoritmo identifica el ordenamiento entre ellos.

Debido a que el tiempo es un valor continuo (no categórico), se les debe agrupar en valores

categóricos basado en un conjunto de valores de tiempo definido por el usuario.

Este tipo de enfoque algorítmico es usado para identificar cursos de comportamiento

rutinarios o excepcionales, identificando sucesiones comunes o no comunes de procedimientos

múltiples a través del tiempo.



4.3.2.5 Repertory Grid

Para la construcción de clusters se han utilizado algoritmos basados en distancia, en

particular, Emparrillados (Repertory Grid).

Emparrillados (Repertory Grid)

La malla de repertorios o "repertory grid" o "emparrillado" es una representación de la

visión de un experto sobre un problema particular basada en la �Personal Construct Theory�.

Según la Personal Construct Theory, desarrollado por Nelly en 1955, cada persona tiene su

propio modelo personal del mundo que le rodea. Cada persona clasifica y jerarquiza su mundo,

desarrollando una serie de teorías sobre él. Basándose en estas teorías es posible anticiparse a la

reacción que puede tener una persona frente a una serie de estímulos del mundo.

Un emparrillado consta de construcciones (constructs) y de elementos. (Equivalentes a

atributos y sus ejemplos). Una construcción es una característica bipolar o dicotómica que tiene

cada elemento en algún grado. Sirve para distinguir unos elementos de otros o verificar su

similitud.

Un elemento es una entidad abstracta o concreta. Es un caso importante desde la

perspectiva del experto. El proceso de Adquisición del Conocimiento consiste en solicitar del

experto todos los elementos y construcciones relativas al dominio de conocimiento a explorar.

Las construcciones contemplan la asignación de valores graduales discretos entre sus polos. La

escala puede ser simbólica o numérica y no puede variar el número de escalones (1 a 3 ó 1 a 5)

en toda la malla aunque los nombres utilizados para cada símbolo sean diferentes.

Con los elementos y las construcciones se construye una red donde las construcciones se

ponen en filas y los elementos en columnas.



El análisis de la malla mediante clusters o grupos consiste en encontrar grupos

homogéneos de elementos o de construcciones. Para hacer este análisis se ha de definir una

medida de similitud como una función que asocia un valor numérico a cualquier par

de vectores para ver su similitud o semejanza. Con la función de similitud se construye una

matriz de proximidad que es cuadrada y donde cada elemento de ella mide la similitud entre el

elemento fila y columna que se presenta. La matriz de proximidad es la entrada al análisis de

clusters.

Hay varias técnicas de análisis de clusters, una de ellas es el clustering jerárquico.

Un cluster es una subdivisión de un conjunto de objetos E en varios subconjuntos, Ei, que

cubren E, de forma que:

Una definición de función de similitud utilizada es: dados los vectores u y w definidos

como u = (x1, x2,... xn) y w= (y1, y2,... yn), se define d(u,w) como la distancia entre los vectores

u y w, donde d puede ser típicamente:

D(u,v) = Σ | xi � yi | ó D(u,v) = Σ | xi � yi|2

Pasos para la construcción de la malla:

1. Se construye una matriz de proximidad que es un emparrillado reducido

2. Se transforma a porcentaje mediante:

siendo n = nº de construcciones

D= diferencia máxima posible para una construcción

3. Cogemos el mínimo de la similitud para el nuevo objeto con el resto:

4. Continuamos desarrollando la malla

5. Se obtiene el dendrograma de clustering jerárquico para visualizar los resultados

obtenidos.



Comparación de construcciones

Es algo más compleja que la de elementos, ya que hay que comparar las construcciones y

también las construcciones inversas u opuestas.

Si comparamos características físicas de personas, por ejemplo a través de las

construcciones �bajo/alto� y �mucho peso/poco peso�, podría no haber similitud entre ellas. Pero

si invertimos una construcción, quizás sí haya una mayor semejanza.

Una construcción invertida X� se obtiene de la construcción original X sustituyendo los

valores en X por sus opuestos en la escala de valoración.



4.3.3 Implementación de los algoritmos

4.3.3.1 Algoritmo ID3

El modelo dinámico de proceso y control para la construcción de árboles de decisión

mediante ID3 se podría resumir en el siguiente gráfico:

CLASIFICACIÓN AUTOMÁTICA

1. Seleccionar atributo a clasificar (clase) 2. Calcular nº elementos de cada clase 3. Calcular entropía en nodo raíz 4. Elegir mejor separador 5. ¿Continuar dividiendo el árbol?

Cálculos realizados I(N) = - Σ p(N,Ci)log2 [p(N,Ci )] ∆I(N,S) = I(N) - Σp(Nhi) I(Nhi)



A continuación se muestra la lógica del funcionamiento del algoritmo ID3 utilizado:

Elegir mejor Separador

Aplicar Separador.

Quedan Separadores?

Calcular mejor Separador para

este nivel

Nivel=0

Nivel++

Aplicar mejor Separador

SI

NO FIN

Figura 4.9: Lógica del algoritmo ID3



4.3.3.2 Cálculo de Factores de Certeza

Uno de los principales objetivos de este proyecto es la predicción, en base a unos

parámetros, del estado y del plazo de entrega en que puede llegar una carta desde un origen X a

un destino Y. Para ello, el primer paso sería identificar de entre todos los posibles parámetros de

que se dispone en la Base de Datos, aquellos que puedan repercutir de forma más directa sobre el

estado en que llega la carta (bueno, malo o regular) y sobre el plazo de entrega (temprano, a

tiempo o tarde).

Los factores que más directamente podrían repercutir serían los siguientes:

- Flujo: Dependiendo del origen y del destino, el flujo se consideraría local si ambas

ciudades de origen son las mismas, provincial si las ciudades son distintas pero coinciden

en la Comunidad Autónoma, y nacional en otro caso

- Línea: Las cartas pueden haber sido enviadas por correo ordinario o por correo urgente.

Este factor repercute directamente en el tiempo de entrega, ya que si es correo urgente la

entrega debe realizarse en el mismo día, vaya donde vaya la carta. En cambio, si es

correo ordinario, depende: Si es de flujo local, también debe tardar un día. Si el flujo es

provincial, 2 días. Y si se trata de flujo nacional, puede tardar hasta 3 días

- Formato: El formato de la carta puede ser en A4, C5 o Normalizado. Depende del

tamaño del sobre.

- Peso de la carta: Se agrupan por rangos, que pueden ser 50-100 gr, 20-50 gr, o 0-20 gr.

- Método de inducción: Es la forma en que depositó la carta para su envío. Puede ser el

típico buzón, la oficina de correos directamente o los centros de admisión masiva.

Para realizar el cálculo de las reglas de asociación, en este caso, al disponerse de una Base de

Datos con toda la información necesaria, no se precisa de la valoración del experto. Es más, en

principio los resultados que se obtengan deberían ser más fiables, ya que no están sujetos a la

subjetividad del experto.

El cálculo de los Factores de Certeza se va a realizar en varias etapas. Será preciso descargar

datos en tablas temporales sobre las que hacer cálculos adicionales, ya que no se pueden calcular

de golpe todos ellos.

Los pasos que se han seguido para el cálculo de los factores de certeza son los que siguen:



1. Creación de 3 tablas, una para cada tipo de flujo, con todos los campos de entrada que

hemos seleccionado y que se han expuesto más arriba (línea, formato, peso de la carta y

método de inducción) y con los factores que deseamos predecir (tiempo de entrega y

estado en que llega)

Para este cálculo es preciso realizar varias consultas:

SELECT provincia_origen, provincia_destino, COUNT(*) AS [NºCartas],

MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM dbo.CorreoValido WHERE (linea = 'O') GROUP BY provincia_origen, provincia_destino

select PM.*, km from DataWarehouse.dbo.Kms, DataWarehouse.dbo.PlazoMedio as PM where (IDorigen=(select ID from DataWarehouse.dbo.provincias where

provincia=provincia_origen)) and (IDdestino=(select ID from DataWarehouse.dbo.provincias where

provincia=provincia_destino)) order by plazo_medio DESC, provincia_origen, provincia_destino

obteniendo resultados del tipo:

Provincia origen Provincia destino Nº cartas Máximo Mínimo Media Kms Ceuta Ávila 1 8 8 8 NULLSevilla Melilla 1 8 8 8 NULLGuadalajara Soria 2 14 1 7 173 Huelva Tarragona 1 7 7 7 1029Valladolid Almería 1 7 7 7 756

Para obtener esta información agrupada por comunidades hay que realizar los siguientes

cambios en la consulta:

SELECT comunidad_origen, comunidad_destino, COUNT(*) AS [NºCartas], MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio

FROM DataWarehouse.dbo.CorreoValido WHERE (linea = 'O') GROUP BY comunidad_origen, comunidad_destino ORDER BY 1,2



obteniendo resultados del tipo: Comunidad Origen Comunidad Destino Nº cartas Máximo Mínimo Plazo

medio ANDALUCIA ANDALUCIA 23858 29 -3 2 ANDALUCIA ARAGON 169 8 0 2 ANDALUCIA ASTURIAS 81 8 0 2 ANDALUCIA BALEARES 103 8 1 3 ANDALUCIA CANARIAS 118 10 1 3

Para predecir el plazo de entrega de una carta test para la línea urgente, es preciso

recopilar esta información a partir de históricos. Para cada provincia, además del plazo medio de

entrega, puede ser interesante tener información sobre el numero de cartas enviadas, el plazo

máximo y mínimo en que la carta ha tardado en ser entregada, así como las distancia (en

kilómetros) entre la ciudad de origen y destino.

Para este cálculo es preciso realizar varias consultas:


MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM dbo.CorreoValido WHERE (linea = 'U') GROUP BY provincia_origen, provincia_destino

select PM.*, km from DataWarehouse.dbo.Kms, DataWarehouse.dbo.PlazoMedioU as PM where (IDorigen=(select ID from DataWarehouse.dbo.provincias where




Provincia origen Provincia destino Nº cartas Máximo Mínimo Media Kms Castellón Álava 3 24 1 8 574Almería Huelva 2 11 1 6 516Málaga Vizcaya 6 25 1 5 939Cáceres Jaén 1 4 4 4 423Castellón Badajoz 2 7 1 4 805





SELECT comunidad_origen, comunidad_destino, COUNT(*) AS [NºCartas],

MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM DataWarehouse.dbo.CorreoValido WHERE (linea = 'U') GROUP BY comunidad_origen, comunidad_destino order by 1,2


Comunidad Origen Comunidad Destino Nº cartas Máximo Mínimo Plazo medio

ANDALUCIA ANDALUCIA 1180 12 -3 1 ANDALUCIA ARAGON 55 4 0 1 ANDALUCIA ASTURIAS 45 3 0 1 ANDALUCIA BALEARES 18 3 1 1 ANDALUCIA CANARIAS 136 23 1 1

2. Agrupación de los datos obtenidos en las tablas anteriores.

3. Al disponer ya de todos los datos correctamente agrupados, se ha procedido al cálculo de

los factores de certeza con ayuda del Excel. Para ver cómo se ha procedido a su cálculo,

lo veremos en un ejemplo:

Flujo Línea Formato Peso Método Inducción Número de ocurrencias Tiempo EstadoLlegada

LOCAL O A4 50-100 gr CA 176 A tiempo A LOCAL O A4 50-100 gr CA 1505 A tiempo B LOCAL O A4 50-100 gr CA 59 A tiempo M LOCAL O A4 50-100 gr CA 136 Tarde A LOCAL O A4 50-100 gr CA 870 Tarde B LOCAL O A4 50-100 gr CA 43 Tarde M LOCAL O A4 50-100 gr CA 16 Temprano A LOCAL O A4 50-100 gr CA 112 Temprano B LOCAL O A4 50-100 gr CA 7 Temprano M

En la tabla anterior hemos seleccionado aquellas ocurrencias que tengan los mismos

parámetros de entrada, es decir, el flujo, la línea, el formato, el peso y el método de inducción.

Vemos que en total hay 2924 registros. Sin embargo, de todos ellos, sólo hay 1505 que llegaron a

tiempo y con buen estado de llegada. Por tanto, para calcular el Factor de Certeza de que una

carta reúna esas condiciones, lo haríamos:

1505 / 2924 = 0.51



4. Por último, sólo falta realizar el programa en el que el usuario introducirá los parámetros

de entrada que se han establecido y el programa le hará una predicción. A continuación,

se presenta un pantallazo de dicho programa:

Figura 4.10: Interfaz para calcular la predicción



4.3.3.3 Cálculo del coeficiente de correlación lineal

Para analizar si existe una correlación entre el estado de recepción de una carta test y la

distancia recorrida, es preciso realizar varias consultas previamente. A continuación se muestra

la relación entre las tablas CorreoValido, Provincias (Origen y Destino) y Kms

- seleccionar los provincias origen y destino, número de cartas enviadas, plazo máximo de

entrega, plazo mínimo de entrega, media de entrega.


MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM dbo.CorreoValido WHERE (estado = 'M') GROUP BY provincia_origen, provincia_destino

- seleccionar los provincias origen y destino y la distancia en kilómetros entre ellas:

select PM.*, km from DataWarehouse.dbo.Kms, DataWarehouse.dbo.PlazoMedioMalas as PM where (IDorigen=(select ID from DataWarehouse.dbo.provincias where



Figura 4.11: Relación entre tablas CorreoValido, Provincias y Kms




Provincia origen

Provincia destino Nº cartas Máximo Mínimo Media Kms

Álava Vizcaya 1 15 15 15 66 Murcia Madrid 2 23 2 12 401Sevilla Zaragoza 1 8 8 8 863León Orense 1 7 7 7 271Huelva Huelva 2 6 6 6 0



SELECT comunidad_origen, comunidad_destino, COUNT(*) AS [NºCartas],

MAX(dias_entrega) AS Maximo, MIN(dias_entrega) AS mínimo, AVG(dias_entrega) AS plazo_medio FROM DataWarehouse.dbo.CorreoValido WHERE (estado = 'M') GROUP BY comunidad_origen, comunidad_destino order by 1,2


Comunidad Origen Comunidad Destino Nº cartas Máximo Mínimo Plazo medio

ANDALUCIA ANDALUCIA 132 6 0 1 ANDALUCIA ARAGON 3 8 4 5 ANDALUCIA ASTURIAS 1 1 1 1 ANDALUCIA CANARIAS 4 10 2 4 ANDALUCIA CASTILLA LA MANCHA 3 6 1 2

Los resultados finales se almacenan en la tabla RegresionLineal donde se podrán consultar

los valores calculados.

SELECT POrigen, PDestino, Kms, ROUND(AVG(Dias),0) AS

PlazoMedioEntrega FROM RegresionLineal GROUP BY POrigen, PDestino, Kms;



4.3.3.4 Tabla de Ajuste Para la realización del ajuste de curva univariable se ha utilizado Excel para realizar el

análisis para cada uno de los flujos de correo (local, provincial y nacional).

Cada una de los hojas de Excel consta de las siguientes columnas:

Provincia Tipo (ST, MT, PP) % de cumplimiento de la semana1 % de cumplimiento de la semana2 % de cumplimiento de la semana... % de cumplimiento de la semana53 volumen esperado en la semana1 volumen esperado en la semana2 volumen esperado en la semana.. volumen esperado en la semana153 volumen producido en la semana1 volumen producido en la semana2 volumen producido en la semana... volumen producido en la semana53 volumen acumulado en la semana1 volumen acumulado en la semana2 volumen acumulado en la semana... volumen acumulado en la semana53

Con toda esta información obtenida a través de consultas al DW, se puede dibujar gráficamente

la evolución para cada una de las provincias según el método de franqueo seleccionado a lo largo

de las 53 semanas del año.



4.3.3.5 Clustering jerárquico Se pretende descubrir patrones de comportamiento entre los distintos atributos que

componen una carta test e incluso agrupar en clusters comunidades autónomas con

comportamientos similares.

El modelo dinámico de proceso y control para la construcción de clusters mediante

clustering jerárquico se podría resumir en el siguiente gráfico:

En primer lugar, es preciso calcular los ratios del correo saliente por comunidad según el

estado de recepción de las cartas test.

Para ello, hay que calcular el número de cartas enviadas desde cada comunidad autónoma,

y a continuación distinguir entre esas cartas, las que han sido entregadas en buen estado, estado

aceptable o en mal estado.

Para obtener esta información hay que realizar la siguiente consulta:

SELECT comunidad_origen,COUNT(*) AS [BN] FROM DataWarehouse.dbo.CorreoValido where ((ESTADO IS NULL) OR ESTADO='B') GROUP BY comunidad_origen ORDER BY 1; SELECT comunidad_origen,COUNT(*) AS [A] FROM DataWarehouse.dbo.CorreoValido where (ESTADO='A') GROUP BY comunidad_origen ORDER BY 1; SELECT comunidad_origen,COUNT(*) AS [M] FROM DataWarehouse.dbo.CorreoValido

EMPARRILLADOS

1. Calcular distancias entre elementos 2. Construir matriz de proximidad 3. Transformar a porcentajes 4. Seleccionar elementos con mayor similitud 5. Continuar desarrollando la malla



where (ESTADO='M') GROUP BY comunidad_origen ORDER BY 1; SELECT comunidad_origen,COUNT(*) AS [NºCartas] FROM DataWarehouse.dbo.CorreoValido GROUP BY comunidad_origen ORDER BY 1,2;

Por ultimo, se calcularán los ratios o porcentajes, para comparar unas comunidades

autónomas con otras, obteniendo como resultado:

COMUNIDAD BN A M total BN/total A/total M/total

ANDALUCIA 34111 887 189 35187 96,94% 2,52% 0,54%ARAGON 7731 100 35 7866 98,28% 1,27% 0,44%ASTURIAS 7197 118 35 7350 97,92% 1,61% 0,48%BALEARES 4721 94 18 4833 97,68% 1,94% 0,37%CANARIAS 5942 653 50 6645 89,42% 9,83% 0,75%CANTABRIA 3346 65 17 3428 97,61% 1,90% 0,50%CASTILLA LA MANCHA 7415 196 32 7643 97,02% 2,56% 0,42%CASTILLA LEÓN 16550 294 72 16916 97,84% 1,74% 0,43%CATALUÑA 66474 1454 341 68269 97,37% 2,13% 0,50%CEUTA 358 10 4 372 96,24% 2,69% 1,08%COMUNIDAD VALENCIANA 38978 1038 150 40166 97,04% 2,58% 0,37%EXTREMADURA 4454 50 14 4518 98,58% 1,11% 0,31%GALICIA 13750 916 86 14752 93,21% 6,21% 0,58%LA RIOJA 1998 31 4 2033 98,28% 1,52% 0,20%MADRID 169658 4150 832 174640 97,15% 2,38% 0,48%MELILLA 230 55 3 288 79,86% 19,10% 1,04%MURCIA 4797 93 8 4898 97,94% 1,90% 0,16%NAVARRA 5364 67 11 5442 98,57% 1,23% 0,20%PAIS VASCO 20878 351 67 21296 98,04% 1,65% 0,31%

Con estos datos calculados y mediante consultas a la base de datos, para el análisis de

similitud entre las distintas comunidades autónomas, se han distribuido en forma de malla el

número de cartas producidas por cada comunidad atendiendo a diferentes características de la

carta test:

# Línea: ordinaria, urgente

# Formato de la carta: A4, C5, normalizado

# Peso: 0-20gr, 20-50 gr, 50-100 gr

# Método de franqueo: sello, máquina de franquear, franqueo pagado

# Método de inducción: buzón, oficina de correos, centro de admisión masiva



# Dirección postal: escrita a mano, a máquina

# Estado de recepción: buena, aceptable, mala o abierta, rota

# Participante: particular, empresa

Estos datos se encuentran en valores absolutos. La última columna muestra el total de

cartas producidas para cada comunidad autónoma. A partir del número total de cartas por

comunidad se pueden transformar en valores porcentuales.

Tras obtener los datos agrupados por comunidades autónomas en forma de porcentaje, es

preciso discretizarlos en una escala de valores enteros (en este caso, se ha optado por coger una

escala de 1 a 5).

Proceso de Discretización

El proceso se discretización se realiza para cada una de las variables que intervienen en la

malla. Los valores expresados en forma porcentual se discretizan en una escala de 1 a 5, donde el

1 representa la menor similitud y 5 la mayor.

Figura 4.11: Malla inicial

Figura 4.12: Mallaron valores procentuales



La construcción de histogramas de frecuencias facilitará la asignación de valores discretos.

Línea Ordinaria

Valor continuo

Valor discreto

Nº elementos

[0.95 � 1] 5 2 [0.93 � 0.95) 4 4 [0.91 � 0.93) 3 5 [0.89 � 0.91) 2 5

[0 � 0.89) 1 3

AT RI BUT O O

02

46

O

Línea Urgente

Valor continuo

Valor discreto

Nº elementos

[0.1 � 1] 5 4 [0.09 � 0.1) 4 4 [0.07 � 0.09) 3 5 [0.05 � 0.07) 2 4

[0 � 0.05) 1 2

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

U

Formato A4

Valor continuo

Valor discreto

Nº elementos

[0.06 � 1] 5 1 [0.05 � 0.06) 4 5 [0.04 � 0.05) 3 5 [0.03 � 0.04) 2 4

[0 � 0.03) 1 4

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

A4

Formato C5

Valor continuo

Valor discreto

Nº elementos

[0.14 � 1] 5 3 [0.10 � 0.14) 4 6 [0.08 � 0.10) 3 5 [0.06 � 0.08) 2 3

[0 � 0.06) 1 2

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

C5

Formato Normalizado

Valor continuo

Valor discreto

Nº elementos

[0.90 � 1] 5 3 [0.87 � 0.90) 4 4 [0.85 � 0.87) 3 5 [0.81 � 0.85) 2 5

[0 � 0.81) 1 2

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

NORM



Peso 0-20 gr Valor

continuo Valor

discreto Nº

elementos [0.90 � 1] 5 3

[0.88 � 0.90) 4 4 [0.85 � 0.88) 3 5 [0.82 � 0.85) 2 4

[0 � 0.82) 1 3

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

0-20

Peso 20-50 gr

Valor continuo

Valor discreto

Nº elementos

[0.15 � 1] 5 2 [0.12 � 0.15) 4 3 [0.09 � 0.12) 3 4 [0.08 � 0.09) 2 5

[0 � 0.08) 1 5

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

20-50

Peso 50-100 gr

Valor continuo

Valor discreto

Nº elementos

[0.07 � 1] 5 1 [0.05 � 0.07) 4 5 [0.04 � 0.05) 3 5 [0.03 � 0.04) 2 4

[0 � 0.03) 1 4

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

50-100

Sello Valor

continuo Valor

discreto Nº

elementos [0.99 � 1] 5 3

[0.08 � 0.99) 4 3 [0.06 � 0.08) 3 6 [0.04 � 0.06) 2 3

[0 � 0.04) 1 4

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

ST

Máquina de franquear Valor

continuo Valor

discreto Nº

elementos [0.60 � 1] 5 2

[0.50 � 0.60) 4 3 [0.30 � 0.50) 3 4 [0.10 � 0.30) 2 5

[0 � 0.10) 1 5

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

MT



Franqueo Pagado

Valor continuo Valor discreto

Nº elementos

[0.20 � 1) 4 2 [0.07 � 0.20) 3 4 [0.001 � 0.06) 2 4

0 1 9

01

23

45

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

PP

Buzón

Valor continuo

Valor discreto

Nº elementos

[0.20 � 1) 5 2 [0.4 � 0.55) 4 7 [0.3 � 0.4) 3 5 [0.2 � 0.3) 2 4 [0 � 0.2) 1 1

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

MB

Oficina Postal

Valor continuo

Valor discreto

Nº elementos

[0.6� 1) 5 2 [0.5 � 0.6) 4 4 [0.3 � 0.5) 3 5 [0.2 � 0.3) 2 4 [0 � 0.2) 1 4

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

PO

Centro de Admisión Masiva Valor

continuo Valor

discreto Nº

elementos [0.6� 1) 5 1

[0.4 � 0.6) 4 4 [0.2 � 0.4) 3 3

[0.003 � 0.2) 2 3 0 1 8

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

PO

Mano

Valor continuo

Valor discreto

Nº elementos

[0.27� 1) 5 5 [0.20 � 0.27) 4 2 [0.15 � 0.20) 3 5 [0.10 � 0.15) 2 5

[0 � 0.10) 1 2

0123456

GAL

ICIA

MEL

ILLA

CAS

TILL

A LA

CAT

ALU

ÑA

CAS

TILL

A LE

ÓN

CO

MU

NID

AD

NAV

ARR

A

LA R

IOJA

MU

RC

IA

MAD

RID

CA



Máquina

Valor continuo

Valor discreto

Nº elementos

[0.90� 1) 5 2 [0.85 � 0.90) 4 5 [0.80 � 0.85) 3 5 [0.75 � 0.80) 2 1

[0 � 0.75) 1 6

0123456

Com

unid

ad

ARAG

ON

AND

ALU

CIA

ASTU

RIA

S

CAN

ARIA

S

EXTR

EMAD

UR

A

CEU

TA

BALE

ARES

PAIS

VAS

CO

CAN

TAB

RIA

Serie1

Estado Buena

Valor continuo

Valor discreto

Nº elementos

[0.98� 1) 5 5 [0.97 � 0.98) 4 9 [0.90 � 0.97) 3 3 [0.80 � 0.90) 2 1

[0 � 0.80) 1 1

0123456

Com

unid

ad

ARAG

ON

CEU

TA

PAIS

VAS

CO

CAN

TAB

RIA

CAS

TILL

A LE

ÓN

MAD

RID

BALE

ARES

CAN

ARIA

S

MEL

ILLA

Serie1

Estado Aceptable


Nº elementos

[0.05� 1) 5 3 [0.025 � 0.05) 4 4 [0.20 � 0.025) 3 2 [0.15 � 0.20) 2 7

[0 � 0.15) 1 3

0123456

LA R

IOJA

EXTR

EMAD

UR

A

AND

ALU

CIA

CO

MU

NID

AD

ASTU

RIA

S

PAIS

VAS

CO

CAN

TAB

RIA

CAT

ALU

ÑA

NAV

ARR

A

GAL

ICIA

A

Estado Mala


Nº elementos

[0.007� 1) 5 2 [0.005 � 0.007) 4 3 [0.004 � 0.005) 3 7 [0.003 � 0.004) 2 4

[0 � 0.003) 1 3

0123456

CAN

ARIA

S

MEL

ILLA

CO

MU

NID

AD

CAS

TILL

A LE

ÓN

CAT

ALU

ÑA

CAN

TAB

RIA

AND

ALU

CIA

MU

RC

IA

ARAG

ON

PAIS

VAS

CO

M

Particular

Valor continuo

Valor discreto

Nº elementos

[0.60 � 1) 5 2 [0.40 � 0.60 4 3 [0.30 � 0.40) 3 3 [0.20 � 0.30) 2 6

[0 � 0.20) 1 5

0123456

LA R

IOJA

PAIS

VAS

CO

EXTR

EMAD

UR

A

CAN

TAB

RIA

ARAG

ON

NAV

ARR

A

ASTU

RIA

S

CAS

TILL

A LE

ÓN

MAD

RID

CAN

ARIA

S

P



Empresa

Valor continuo

Valor discreto

Nº elementos

[0.85 � 1) 5 2 [0.75 � 0.85 4 4 [0.70 � 0.75) 3 5 [0.50 � 0.70) 2 4

[0 � 0.50) 1 4

0123456

CAN

ARIA

S

MAD

RID

CAS

TILL

A LE

ÓN

ASTU

RIA

S

NAV

ARR

A

ARAG

ON

CAN

TAB

RIA

EXTR

EMAD

UR

A

PAIS

VAS

CO

LA R

IOJA

B

Proc

eso

de D

ata

Min

ing

en S

istem

a de

Med

ició

n de

Cal

idad

en

Plaz

o de

l Cor

reo

Nac

iona

l

Alfr

edo

Car

rera

s Góm

ez

Pá

gina

157

Com

unid

ad A

utón

oma

O

U

A4

C5

NO

RM

0-20

20

-50

50-1

00

ST

MT

PP

MB

PO

C

A

Man

oM

áqui

naB

A

M

P

B

AN

DA

LUC

IA

2 4

4 3

3 3

2 4

1 5

2 2

2 4

2 4

4 4

2 2

4 A

RA

GO

N

4 2

3 1

5 5

1 3

2 3

3 2

1 4

1 5

5 1

1 2

3 A

STU

RIA

S 3

3 4

3 3

3 2

4 1

4 3

2 2

4 2

4 4

3 3

2 3

BA

LEA

RES

1

5 1

4 3

3 3

1 4

2 1

4 4

1 4

1 4

4 3

3 2

CA

NA

RIA

S 1

5 2

2 4

4 1

2 5

1 1

5 1

1 3

3 3

4 5

1 5

CA

NTA

BR

IA

2 4

1 4

2 2

4 1

4 2

2 3

5 2

5 1

4 2

3 3

2 C

AST

ILLA

LA

MA

NC

HA

4

2 3

5 2

1 4

3 3

2 1

4 3

1 5

1 4

2 2

2 3

CA

STIL

LA L

EÓ

N

4 2

5 5

1 1

5 5

2 4

1 3

5 2

3 3

4 2

3 1

4 C

ATA

LUÑ

A

3 3

2 2

4 4

1 2

3 1

4 3

3 3

4 2

4 2

3 4

1 C

EUTA

5

1 3

5 1

1 5

3 3

3 1

4 3

1 3

3 5

2 1

1 4

CO

MU

NID

AD

VA

LEN

CIA

NA

4

2 3

4 2

2 3

3 2

3 2

3 3

3 3

3 3

4 4

2 3

EXTR

EMA

DU

RA

2

4 4

4 2

2 4

4 3

3 2

3 3

2 3

3 3

5 4

4 2

GA

LIC

IA

3 3

1 4

4 4

3 1

4 1

1 4

4 1

5 1

5 1

2 5

1 LA

RIO

JA

1 5

2 1

5 5

1 2

5 1

1 5

1 1

2 4

1 5

5 5

1 M

AD

RID

3

3 4

2 4

4 1

4 1

5 3

1 1

5 1

5 4

3 3

1 4

MEL

ILLA

5

1 2

4 2

2 3

2 3

2 1

4 4

1 5

1 2

5 4

3 2

MU

RC

IA

2 4

4 3

3 3

2 4

1 4

3 2

2 4

2 4

5 2

2 1

5 N

AV

AR

RA

2

5 3

3 3

3 2

3 3

2 4

4 2

3 2

4 5

1 3

2 3

PAIS

VA

SCO

3

3 1

3 5

5 2

1 5

1 1

4 4

1 5

1 4

2 1

4 1

Lín

ea d

e la

car

ta: O

rdin

aria

, Urg

ente

Fo

rmat

o: A

4, C

5, N

orm

aliz

ado

Peso

: 0-2

0 gr

, 20-

50 g

r, 50

-100

gr

Mét

odo

de fr

anqu

eo: S

ello

, Máq

uina

de

franq

uear

, Fra

nque

o pa

gado

M

étod

o de

indu

cció

n: B

uzón

, Ofic

ina

de C

orre

os, C

entro

de

Adm

isió

n M

asiv

a D

irec

ción

pos

tal:

A m

ano,

A m

áqui

na

Est

ado

de r

ecep

ción

: Bue

na, A

cept

able

, Mal

a T

ipo

de p

artic

ipan

te: P

rivad

o, E

mpr

esa



A partir de esta tabla discretizada, se construye la matriz de proximidad:

D 4 N 19

siendo D la diferencia máxima posible para una construcción, y N el número de

construcciones. Construyo la malla anterior a forma porcentual aplicando la siguiente formula:

A continuación, se elige el elemento con mayor similitud

Elementos E1 y E3 son 91% similares y se pueden considerar un nuevo objeto (E1,E3)

91% similar.

Figura 4.13: Matriz de proximidad (iteración 0)




Elementos (E1,E3) y E17 son 89% similares y se pueden considerar un nuevo objeto

[(E1,E3),E17] 89% similar

Elementos E13 y E19 son 88% similares y se pueden considerar un nuevo objeto

(E13,E19) 89% similar


84% similar







Elementos E7 y E10 son 83% similares y se pueden considerar un nuevo objeto (E7,E10) 83% similar

Elementos E11 y E12 son 83% similares y se pueden considerar un nuevo objeto

(E11,E12) 83% similar

Elementos E15 y [(E1,E3),E17] son 79% similares y se pueden considerar un nuevo objeto

{[(E1,E3),E17] ,E15} 79% similar


79% similar







Elementos E16 y (E4,E6) son 74% similares y se pueden considerar un nuevo objeto





[(E13,E19),E9] 74% similar


70% similar






Elementos [(E4,E6),E16] y (E11,E12) son 64% similares y se pueden considerar un nuevo objeto {[(E4,E6),E16],(E11,E12)} 64% similar

Elementos {[(E1,E3),E17] ,E15} y (E2,E18) son 63% similares y se pueden considerar un

nuevo objeto {[(E1,E3),E17] ,E15},(E2,E18) 63% similar

Elementos [(E13,E19),E9] y (E5,E14) son 54% similares y se pueden considerar un nuevo

objeto {[(E13,E19),E9],(E5,E14)} 54% similar






Elementos [(E7,E10),E8] y {[(E4,E6),E16],(E11,E12)} son 51% similares y se pueden

considerar un nuevo objeto[(E7,E10),E8],{[(E4,E6),E16],(E11,E12)} 51% similar

Elementos {[(E4,E6),E16],(E11,E12)} y [(E7,E10),E8][E13,E19] y son 43% similares y se

pueden considerar un nuevo objeto {[(E4,E6),E16],(E11,E12)} [(E7,E10),E8][E13,E19] 43% similar.

Finalmente, los dos últimos clusters tendrían un 38% de similitud. A partir de las mallas construidas, los resultados obtenidos se pueden visualizar en un

dendrograma:






Figura 4.32:Dendrograma resultante



4.3.3.6 Otros cálculos realizados Identificar rutas con plazos de entrega distintos a la ida y a la vuelta

Puede ser interesante encontrar rutas en las que el plazo medio de entrega sea diferente

para cartas con la misma ruta, en las que se intercambien el origen y el destino. Por ejemplo,

podemos descubrir que una carta básica enviada desde Lugo a Toledo tarda de media 2 días,

mientras que de Toledo a Lugo tarda 5 días.

Para obtener esta información hay que realizar la siguiente consulta:

select PM1.provincia_origen, PM1.provincia_destino, PM1.plazo_medio as PlazoMedioIDA, PM2.plazo_medio as PlazoMedioVUELTA, PM1.plazo_medio-PM2.plazo_medio as Diferencia

from datawarehouse.dbo.plazomedio as PM1,datawarehouse.dbo.plazomedio as PM2

where (PM1.provincia_origen=PM2.provincia_destino AND PM1.provincia_destino=PM2.provincia_origen AND PM1.plazo_medio>PM2.plazo_medio)

order by 5 DESC,1,2 obteniendo resultados del tipo:

Provincia Origen Provincia Destino PlazoMedioIDA PlazoMedioDESTINO DiferenciaGuadalajara Soria 7 1 6

Sevilla Melilla 8 2 6 Badajoz Lérida 6 1 5

Cantabria Baleares 7 2 5 Huelva Tarragona 7 2 5



4.4 EVALUACIÓN Y PRUEBAS En esta fase se evalúan los patrones y se analizan por los expertos, y si es necesario vuelve

a las fases anteriores para una nueva iteración. Esto incluye resolver posibles conflictos con el

conocimiento que se disponía anteriormente.

Para la evaluación de los modelos de Minería de Datos es preciso conocer los conceptos de

confianza, soporte y excepciones.

La confianza mide cuan dependiente es un ítem de otro o dicho de otra forma, es el

porcentaje especifico de ocurrencia y se expresa como un porcentaje.

Otro punto a considerar es el número de filas que �soporta� un patrón. El soporte mide la

frecuencia en que los ítems aparecen juntos.

Las excepciones se definen como un patrón débil que existe junto con las filas de patrones

más poderosos.

La evaluación de la herramienta de Data Mining se ha elaborado mediante el

establecimiento de un conjunto de entrenamiento. La generación de un conjunto de

entrenamiento es un método de aprendizaje automático inductivo que pretende extraer

conocimiento a partir de un conjunto de ejemplos. Ese conjunto de ejemplos se llama conjunto

de entrenamiento. Son ejemplos de decisiones tomadas por un experto que describen por tanto la

decisión tomada.

En nuestro caso el conocimiento está recogido en una Base de Datos. Podríamos generar

registros similares a los de la Base de Datos, pero perderíamos fiabilidad. Pretendemos obtener

un conjunto significativo de todas las decisiones tomadas por el experto. Y para ello, ¿qué mejor

forma de hacerlo que obtenerlos directamente a partir de la Base de Datos?



Bastaría simplemente con registrar en forma de tabla un conjunto de registros extraídos

aleatóriamente de la Base de Datos. Cuánto más grande sea el conjunto de entrenamiento, más

fiable y aproximado a la Base de Conocimiento de que disponemos será.

El número de registros que se van a generar será a selección del usuario. De ese modo, el

usuario de la aplicación, en el momento que lo necesite, podrá generar un conjunto de

entrenamiento tan grande como le sea necesario. No obstante, al ser una Base de Datos muy

grande y seleccionar los registros aleatóriamente, requerirá un tiempo directamente proporcional

al número de registros que haya elegido.

El usuario puede establecer el conjunto de entrenamiento desde la aplicación desarrollada:

Los métodos de aprendizaje permiten construir modelos o hipótesis a partir de un conjunto

de datos, o evidencia. En la mayoría de los casos es necesario evaluar la calidad de las hipótesis

de la manera más exacta posible. Por lo tanto, la etapa de evaluación de modelos es crucial para

la aplicación real de las técnicas de minaría de datos. Sin embargo establecer medidas justas y

exhaustivas no es tarea sencilla. Una primera aproximación nos llevaría a utilizar el propio

conjunto de entrenamiento como referencia para evaluar la calidad de un modelo. Sin embargo,

Figura 4.33: Interfaz para establecer conjunto de entrenamiento



esta aproximación es del todo equivocada, ya que premia los modelos que se ajustan más al

conjunto de entrenamiento, por lo que favorecen los modelos que sobreajustan el conjunto de

datos de entrenamiento y no generalizan para otros datos.

Consecuentemente, una mejor opción es evaluar los modelos sobre un conjunto de datos

diferente al conjunto de entrenamiento. En las siguientes secciones abordamos diferentes

técnicas de evaluación basadas en esta partición de los datos de una evidencia en dos partes, una

para el aprendizaje (entrenamiento), y otra para la evaluación (test).

Otra aproximación, más realista por lo general, es la evaluación basada en costes. En este

tipo de evaluación se avalúa el coste de los errores cometidos por un modelo. En este contexto,

el mejor modelo es el modelo que comete errores con menor coste asociado, no el modelo que

cometa menor número de errores.

Por otra parte, los modelos de regresión no pueden evaluarse comparando si la clase

predicha es igual, o no, a la clase real, ya que la clase es de tipo numérico. En estos casos, se

utiliza la distancia entre ambos valores, ya sea real o cuadrática. El mejor modelo es, entonces, el

modelo que minimice la distancia media entre ambos valores de los puntos utilizados para la

evaluación.

La evaluación de los modelos descriptivos es bastante complicada. Esto se debe

fundamentalmente a la ausencia de una clase donde medir el grado de acierto de un modelo. Es

por ello que las medidas de evaluación de modelos descriptivos se basan en conceptos tales

como la complejidad del modelo y de los datos a partir del modelo, o bien, en agrupamiento, el

nivel de compactación de los diferentes grupos.



4.4.1 Evaluación del algoritmo de Clasificación

Árboles de decisión ID3: Este algoritmo lo ejecutaremos sobre un conjunto de prueba, ya que

de otro modo nos saldría un árbol enorme que nos saturaría la memoria del PC. En este caso, el

conjunto de entrenamiento generado consta de 500 registros seleccionados aleatóriamente, y

generamos el árbol ID3 cogiendo como criterio de clasificación el atributo �estado�. Como

posibles separadores seleccionaremos el peso, el formato y la línea (ordinaria/urgente). Dado que

no hemos seleccionado demasiados separadores, y que el árbol no es excesivamente grande, el

sistema tarda poco en representárnoslo gráficamente. Una vez representado, podemos pedirle que

nos muestre los datos correspondientes a las entropías y a los mejores separadores.

Los mejores separadores seleccionados, son, por este orden:

- Formato

- Línea

- Peso

Se han seleccionado estos separadores para no tener más de 3 valores discretos, lo que agiliza la

ejecución del programa. Además, son los factores que más probablemente puedan repercutir

sobre el estado de llegada de la carta. Si entráramos a analizar otros factores, como la

Comunidad Origen, tendríamos 52 valores posibles para este atributo, por lo que un nodo

dividido mediante este separador pasaría a tener 52 nodos hijos, lo que ralentizaría mucho la

ejecución.



Las entropías calculadas por el programa son las que pueden verse a continuación:

Como podemos ver, hay algunos nodos del árbol que quedan perfectamente clasificados.

NOTA: Este algoritmo ha sido probado sobre otra BBDD (setas.mdb) para clasificar el tipo de

seta venenosa o comestible a partir de características de localización (árbol o pradera), altura,

color,... , cuyos resultados se han calculado manualmente y los resultados obtenidos han

coincidido con los que visualiza la herramienta.

Figura 4.34:Resultados de los cálculos de entropía para cada nodo



4.4.2 Evaluación del algoritmo de Predicción

Predecir plazo de entrega y estado de recepción:

Este algoritmo parte de unos factores de certeza calculados previamente sobre la totalidad de los

datos. Los valores predichos serán mucho más fiables si para su cálculo se ha cogido la totalidad

de los datos que si sólo se han cogido unos pocos. Por tanto, al ejecutar esta parte de la

aplicación, el usuario introduce unas variables de entrada que en este caso serían:

- Provincia Origen

- Provincia Destino

- Línea

- Formato

- Peso

- Método de inducción

Y la aplicación le calcularía el plazo de entrega estimado así como el estado de recepción. Por

ejemplo, si seleccionamos una carta que va de Madrid a Barcelona (Flujo Nacional) por línea

ordinaria, con formato A4, peso entre 50 y 100 gr y la enviamos desde un buzón, el programa

estima con un 58 % de probabilidad que la carta llegará temprano y en buen estado.

Las conclusiones más importantes que se han extraído del cálculo de estos factores de certeza

son:

- Cuando se envía una carta por correo ordinario a nivel nacional, es muy probable que

llegue antes de tiempo y en buen estado

- A nivel local, el correo ordinario es bastante probable que se retrase, aunque llegaría en

buen estado

- A nivel provincial, el correo ordinario llegaría con mayor probabilidad, a tiempo y en

buen estado.

El formato de la carta y el peso de la carta afectan aproximadamente por igual en la calidad del

servicio, ya que por lo general, una carta grande pesa más.



4.4.3 Evaluación del algoritmo de Clustering

Clustering jerárquico: En este caso se va a probar sobre la totalidad de los datos, puesto que

sería imposible extraer conclusiones si lo calculáramos únicamente para un conjunto de

entrenamiento. En la aplicación se parte de la totalidad de los datos y se van agrupando las

comunidades según el parecido que tengan en cada una de sus variables. Después de realizar las

agrupaciones, la aplicación nos muestra el dendrograma.

En esta pantalla se puede ver la matriz completa, todavía sin normalizar.

Por último, después de varias iteraciones que se van viendo por pantalla, vemos el dendrograma:

Figura 4.35: Interfaz de la aplicación con la malla inicial

Figura 4.36: Interfaz de la aplicación con el dendrograma generado



En este dendrograma podemos apreciar gráficamente las comunidades autónomas que más se

parecen. De entre las comunidades que más se parecen cabe destacar:

- Andalucía y Asturias, junto con Murcia, son las que más se parecen entre sí.

- País Vasco y Galicia, junto con Cataluña también se parecen mucho. Esto es notable ya

que son las únicas comunidades que tengan otra lengua oficial reconocida aparte del

castellano



5. INTERPRETACIÓN DE RESULTADOS OBTENIDOS

5.1 Interpretación del árbol de decisión ID3

En la figura 5.1 se muestra un ejemplo del árbol resultante para el atributo de clase �estado�

y las columnas dependientes �peso�, �linea�, y �formato�.

Se desea predecir el estado de llegada de una carta. Para ello, los mejores separadores son: · Formato · Línea · Peso

5. INTERPRETACIÓN DE RESULTADOS OBTENIDOS

Figura 5.1: Árbol generado con atributo de clase �estado� y columnas dependientes �peso�, �linea�, y �formato�



Figura 5.2: Separadores seleccionados para clasificar el estado de recepción



5.2 Estimación de probabilidad Ejemplos de estimaciones para cartas ordinarias, tamaño A4, peso entre 50-100 gr e inducidas en

un centro de inducción masiva

TIPO DE FLUJO ESTADO DE RECEPCIÓN

PLAZO ENTREGA PROBABILIDAD

Nacional Temprano Bueno 0.62

Provincial Temprano Bueno 0.48

Local A tiempo Bueno 0.51

Análisis del flujo local:

Una carta con origen y destino la misma localidad llegará al día siguiente de la fecha de depósito

con un 65% de probabilidad, en un 25% pasados dos días y más de dos días con un 10% de

probabilidad.



Análisis del flujo provincial:

Una carta con origen y destino la misma provincia llegará al segundo dia de la fecha de

depósito con un 64% de probabilidad, al día siguiente de la fecha de depósito con un 15%

de probabilidad y más de dos días con un 21% de probabilidad.

Análisis del flujo nacional:

Una carta con origen y destino la distintas provincias llegará al día siguiente de la fecha de

depósito con un 8% de probabilidad, en un 21% pasados dos días y más de dos días con un 71%

de probabilidad.



5.3 Análisis del coeficiente de correlación lineal Puede ser interesante analizar los datos en busca de una posible relación entre el estado de

recepción de las cartas test y la distancia recorrida.

Para ello utilizaremos el análisis de regresión lineal entre dos variables numéricas (plazo

medio y kilómetros). Mediante el análisis de regresión lineal se puede ver si una determinada

variable o columna depende directamente de otra variable.

Haremos un estudio de estas variables para distintos grupos de datos de entrada:

- Plazo medio de cartas recibidas en mal estado

- Plazo medio de cartas ordinarias

- Plazo medio de cartas urgentes

En los tres datos de entrada, se dispone de información sobre:

- provincia origen

- provincia destino

- número de cartas enviadas desde la provincia origen a la de destino

- número total de cartas enviadas desde la provincia origen a la de destino

- kilómetros de distancia entre la provincia origen y la de destino



- Plazo medio de cartas recibidas en mal estado

- La distancia recorrida apenas influye en el deterioro de una carta (r=0.15)



Plazo medio de cartas ordinarias

- En el correo ordinario, influye relativamente la distancia recorrida en el plazo de entrega (r=0.42)



Plazo medio de cartas urgentes

- En el correo urgente, no influye la distancia recorrida en el plazo de entrega (r=0.29)



5.4 Análisis de curvas univariables Tras realizar el ajuste de curva univariable, las gráficas obtenidas se pueden clasificar en cuatro

tipos.

Tipo 1:

Mediante esta gráfica se identifican comunidades que se comportan de forma distinta en verano

que en invierno. Se ven influenciadas por el periodo vacacional (en verano disminuye y en

invierno aumenta.

Tipo 2:

Mediante esta gráfica se identifican comunidades que se comportan de forma escalonada (dentro

del mismo mes hay semanas que se producen más cartas que otras).

Tipo 3:

Mediante esta gráfica se identifican comunidades que se comportan de forma constante en el

tiempo.



Tipo 4:

Mediante esta gráfica se identifican comunidades con escaso volumen de producción (Ej.:

Ceuta).



5.5 Análisis de los clusters generados

Tras aplicar el algoritmo de clustering jerárquico se puede observar en el dendrograma que

existen tres grupos bien diferenciados.

Cluster1: Madrid, Andalucía, Asturias, Murcia, Aragón

Cluster2: País Vasco, Galicia, Cataluña, La Rioja, Canarias

Cluster 3: Cantabria, Baleares, Melilla, Extremadura, Comunidad valenciana, Ceuta,

Castilla La Mancha, Castilla y León



Las comunidades autónomas más parecidas son:

- Andalucía y Asturias, junto con Murcia

- País Vasco y Galicia



6. CONCLUSIONES

Un Sistema Data Mining nos permite analizar factores de influencia en determinados

procesos, predecir o estimar variables o comportamientos futuros, segmentar o agrupar ítems

similares, además de obtener secuencias de eventos que provocan comportamientos específicos.

La minería de datos es una herramienta que permite convertir los datos recogidos durante

el funcionamiento normal de nuestro negocio en información valiosa. No es una tecnología que

suplante a otras, sino que es complementaria y, en muchos casos, se aprovecha de lo que otros

mecanismos, como la estadística, puedan aportarle.

La llegada del Data Mining se considera como la última etapa de la introducción de

métodos cuantitativos, científicos en el mundo del comercio, industria y negocios. Desde ahora,

todos los no-estadísticos -es decir el 99,5% de nosotros - pueden construir modelos exactos de

algunas de sus actividades, para estudiarlas mejor, comprenderlas y mejorarlas.

Beneficios

- Extraer información táctica y estratégica almacenada en sus Data Warehouse

- La búsqueda de patrones la realiza en forma automatizada, por medio de herramientas

que ejecutan el descubrimiento, generando modelos mediante la aplicación de diferentes

técnicas

- No requiere de personal experto en ciencias estadísticas o altamente entrenado en estas

ciencias, por el contrario, es suficiente un especialista en análisis de datos y un experto en

las áreas de la organización, que tengan conocimientos básicos en áreas estadísticas que

les permita entender y aplicar los resultados.

6. CONCLUSIONES



Problemas

- La falta, por parte de las organizaciones, de un repositorio histórico, especialmente un

Data Warehouse (o Data Marts), además de no contar con bases de datos bien definidas,

con datos íntegros, consistentes, es decir, con datos en condiciones para la aplicación del

Data Mining.

- En otras palabras, la falta de una cultura informática y una visión corporativa, juegan un

papel negativo al momento de aplicar el proceso de Data Mining. En organizaciones con

estas características, el proceso puede requerir más tiempo, pero con una adecuada

reestructuración de las bases de datos, creación de buenos repositorios y una serie de

medidas, se pueden obtener buenos resultados pero con un gasto mayor de tiempo.

Conclusiones obtenidas tras el análisis de curva univariable:

Muchas veces la intuición humana asociada al profundo conocimiento del dominio del

problema produce resultados asombrosos, pero cuando se pregunta a la persona que realizo la

predicción en que se baso, ésta muchas veces no sabe que decir, otras da fundamentos demasiado

ambiguos, superficiales y contradictorios en base a los cuales parece imposible realizar un

algoritmo. Sin embargo hay formas de modelado en utilizando Fuzzy Logic que podrían

incorporar esta experiencia a la predicción.

# Durante el verano se produce un descenso en el correo producido. Esto debe ser debido a

que en el periodo vacacional se envían/reciben menor cantidad de cartas.(vacaciones de

la empresa)

# Durante el invierno se produce un aumento en el correo producido. Este puede ser debido

a que en la época de navidad se incremente el número de cartas (felicitaciones navideñas)

Conclusiones obtenidas tras analizar el árbol ID3 generado:



# Para clasificar el estado de recepción según línea, formato y método de inducción los

separadores/atributos que influyen en que una carta llegue en buen o mal estado son el

método de inducción, formato y línea, en este orden.

Conclusiones obtenidas tras las regla de asociación:

� Correo ordinario a nivel nacional

$ Llegará temprano y en buen estado

� Correo ordinario local

$ Llegará tarde pero en buen estado

� Correo ordinario provincial

$ Llegará a tiempo y en buen estado.

� El formato y el peso afectan por igual en la calidad del servicio

Conclusiones obtenidas tras analizar el clustering jerárquico:

# Se han identificado tres grupos con patrones de comportamiento similares en lo referente

a al tratamiento de cartas producidas:

1. norte España y Canarias

2. interior y costa mediterránea

3. resto



7. BIBLIOGRAFÍA

• [Adriaans, 96] Adriaans, P. W.; Zantige, D.: �Data Mining�. Addison-Wesley, 1996.

• [Berger, 04] Berger, C., �Oracle Data Mining�, Oracle Corporation, U.S.A., Septiembre

2004.

• [Berry, 96] Berry, M. J. A.; Linoff, G.: �Data Mining Techniques�. Wiley Computer

Publishing. New York, 1996.

• [Fayyad, 96a] Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P.; �The KDD Process for

Extracting Useful Knowledge from Volumes of Data�. Communications of the ACM,

November 1996.

• [Fayyad, 96b] Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P.; Uthurusame, R. (Eds):

�Advances in Knowledge Discovery and Data Mining�. AAAI/MIT Press, Cambridge

MA, 1996.

• [Glymour, 96] Glymour C., D. Madigan, D. Pregibon y P. Smyth, �Statistical Inference

and Data Mining�, Communication of the ACM, Noviembre 1996.

• [Han ] Han, J. y M. Kamber, �Data Mining: Concepts and Techniques�.

• [Llovet, 00] Llovet, Juan, �Statgraphics plus 4�, Anaya.

• [Orallo ] Orallo, J., M.Ramirez, C. Ferri, �Introducción a la Minería de Datos�, Prentice

Hall.

• Principles of Data Mining. Prentice Hall.

• Visual Data Mining: Techniques and Tools for Data Visualitation and Mining

• The Handbook of Data Mining. Lawrence Erlbaum Associates, Publishers.

• MIT Press - Principles of Data Mining

• �Strategic Perspectives on the Postal Market 2002-2004� International Post Corporation,

Enero 2002

• �Quality-of-Service Measurement and Performance Monitoring� IBM Postal Solutions,

Marzo 2004

• �Logistics Management� IBM Postal Solutions, Septiembre 2004

• �The Postal Industry 2010� Posteurop.org

7. BIBLIOGRAFÍA



• �Plan Estratégico 2001-2003� Correos 2000

• �POST-EXPO 2002 Quality of Service Monitoring� Bjarne Sorensen

• �Un Punto de Encuentro para el Mundo Postal� Documentación del Foro Postal Europa-

América de 2002 en Madrid

Internet # Knoledge Discovery Network of Excellence, www.kdnet.org

# Laboratorio de Inteligencia Artificial del MIT, www.ai.mit.edu

# Web de Correos y Telégrafos, www.correos.es

# Association of European Public Postal Operators, www.posteurop.org

# Visual Basic Data Mining .NET, www.visual-basic-data-mining.net



El Proyecto consta de las siguientes etapas con su duración estimada:

1. Fase de Análisis 88 días Comprensión del negocio 46 días Identificación del problema 17 días Estudiar posibles soluciones con Data Mining 30 días Definición de requisitos y alcance de la aplicación 15 días Análisis de viabilidad 6 días 2. Fase de Recopilación de datos 45 días Determinar fuentes de información 20 días Comprensión de los datos 40 días Datos recopilados 0 días 3. Fase de Preparación de los datos 73 días Limpieza de datos (cleaning) 28 días · Valores anómalos 18 días · Valores faltantes 10 días Selección de atributos 15 días Transformación 25 días Codificación 5 días Datos preparados para minar 0 días 4. Fase de Construcción del modelo de Minería de Datos 74 días Creación de la vista minable 10 días Seleccionar método de Minería de Datos 10 días Desarrollar de algoritmos de Data Mining 64 días · Análisis 7 días · Diseño 10 días · Construcción 40 días · Pruebas 7 días 5. Fase de Evaluación, interpretación y validación 34 días Identificación y caracterización del conjunto de entrenamiento 10 días Cálculo de incertidumbre 7 días Pruebas de validación 10 días Utilización de la herramienta de Data Mining desarrollada 7 días 6. Fase de Difusión y uso del nuevo conocimiento 16 días Generación de informes 11 días Visualización del conocimiento obtenido 11 días Dendrogramas 16 días Resultados según ubicación geográfica 16 días

8. PLANIFICACIÓN TEMPORAL



7.Interfaz de la aplicación 33 días Módulo de registro e importación de datos 11 días Módulo de preparación de datos 16 días Módulo de creación de la vista minable 11 días Módulo para la búsqueda de patrones de la vista minable 11 días Módulo para la visualización de resultados 11 días 8. Elaboración de manuales de la aplicación 5 días 9. Documentación del Proyecto 200 días

Total duración estimada del PFC: 242 días



A continuación se muestra el diagrama de Gantt correspondiente:



A) FASE INICIAL 75.200,00 � Personal de Gestión 68.400,00 �

2 coordinadores 12 meses (2.000�*2*12) 48.000,00 � 1 grabador 12 meses ( 1.700 �*12) 20.400,00 � Suplemento de personal (1.000� * 12) 12.000,00 �

Gastos de teléfono de Gestión de Red 4.800,00 �

Estimación de una media mes de 400 � 4.800,00 �

Selección de voluntarios 2.000,00 �Panelistas (remitentes y destinatarios) tanto empresas como

particulares 2.000,00 �

B) FASE DESARROLLO 10.000,00 �Recopilación de Datos 2.000,00 � Limpieza de Datos 1.000,00 � Desarrollo de Algoritmos de Minería 6.000,00 � Evaluación, Interpretacion y Validación 1.000,00 �

C) FASE OPERATIVA 13.850,00 � PRODUCCIÓN 11.550,00 � Paquete remitente 11.060,00 �- Cartas test

- Normalizado 1.000,00 � - C5 300,00 � - A4 500,00 �

- Sobres de envío (53 semanas) 2.000,00 � - Sobre de retorno (53 semanas) 2.000,00 � - Etiquetas 200,00 � - Papel + fotocopia de las etiquetas 50,00 � - Impresión de hoja resumen y de ficha envío fajos 600,00 � - Impresión de formulario de recepción 3.000,00 � - Producción de papel (hoja resumen+ficha envío fajos+formulario) 1.000,00 � - Producción de papel de relleno

- Hasta 20 gr. (0) 10,00 � - De 20 a 50 (3 hojas) 100,00 � - De 50 a 100 (8 hojas) 300,00 �

Paquete destinatario 490,00 �- Sobre de envío 100,00 � - Sobre de retorno (53 semanas) 300,00 �

9. PRESUPUESTO



- Etiquetas para sobres de envío (adhesivos) 10,00 � - Etiquetas para sobres de envío (fotocopias) 20,00 � - Manipulado (casado, ensobrado de 7 elem. y sobres de retorno y pegado de sellos) 60,00 � MANIPULADO PAQUETE DEL REMITENTE 1.900,00 � - Rellenos de los envíos 300,00 � - Paquetes de los remitentes 1.000,00 � - Pegado de sellos 600,00 � MOTIVACIÓN RED 100,00 � - Comunicación de vacaciones (verano y navidades) 100,00 �

RECOPILACIÓN DE LOS DATOS 300,00 � Total - Almacenaje fisico de carta 300,00 � TOTAL SIN IVA 89.050,00 � TOTAL CON IVA 103.298,00 �



8. ANEXOS

Reglas de Predicción (FCs)

10. ANEXOS



Glosario de términos Algoritmos genéticos: Técnicas de optimización que usan procesos tales como

combinación genética, mutación y selección natural en un diseño basado en los conceptos de

evolución natural.

Análisis de series de tiempo (time-series): Análisis de una secuencia de medidas hechas a

intervalos específicos. El tiempo es usualmente la dimensión dominante de los datos.

Análisis prospectivo de datos: Análisis de datos que predice futuras tendencias,

comportamientos o eventos basado en datos históricos.

Análisis exploratorio de datos: Uso de técnicas estadísticas tanto gráficas como

descriptivas para aprender acerca de la estructura de un conjunto de datos.

Análisis retrospectivo de datos: Análisis de datos que provee una visión de las

tendencias, comportamientos o eventos basado en datos históricos.

Árbol de decisión: Estructura en forma de árbol que representa un conjunto de decisiones.

Estas decisiones generan reglas para la clasificación de un conjunto de datos. Ver CART y

CHAID.

Base de datos relacional: Es una base de datos donde éstos se almacenan en tablas

conectadas o "relacionadas" entre sí. Una tabla puede contener direcciones y otra, la facturación.

No es como un fichero plano, donde cada registro es un cliente, sino que cada variable está en

una tabla propia.

Base de datos multidimensional: Base de datos diseñada para procesamiento analítico on-

line (OLAP). Estructurada como un hipercubo con un eje por dimensión.



Borrosificar: Convertir en flexible o capaz de manipular la imprecisión del lenguaje

humano.

Bundle: Fajo. A continuación se muestra la relación entre un paquete, formado por

muchos fajos, cada uno de los cuales puede estar formado por una o más cartas.

CART Árboles de clasificación y regresión: Una técnica de árbol de decisión usada para

la clasificación de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un

nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado.

Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparación de datos que

CHAID .

CHAID Detección de interacción automática de Chi cuadrado: Una técnica de árbol de

decisión usada para la clasificación de un conjunto da datos. Provee un conjunto de reglas que se

pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán

un cierto resultado. Segmenta un conjunto de datos utilizando tests de chi cuadrado para crear

múltiples divisiones. Antecede, y requiere más preparación de datos, que CART.

Clasificación: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes

de tal manera que cada miembro de un grupo esté lo "más cercano" posible a otro, y grupos

diferentes estén lo "más lejos" posible uno del otro, donde la distancia está medida con respecto a

variable(s) específica(s) las cuales se están tratando de predecir. Por ejemplo, un problema típico

de clasificación es el de dividir una base de datos de compañías en grupos que son lo más

homogéneos posibles con respecto a variables como "posibilidades de crédito" con valores tales

como "Bueno" y "Malo".

Cluster: Clasificación, grupo.

FAJOPAQUETE CARTAFAJOPAQUETE CARTACARTA



Cluster: nº max de cartas en un fajo

Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos

mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano"

posible a otro, y grupos diferentes estén lo "más lejos" posible uno del otro, donde la distancia

está medida con respecto a todas las variables disponibles.

Computadoras con multiprocesadores: Una computadora que incluye múltiples

procesadores conectados por una red. Ver procesamiento paralelo.

Correo producido: correo cancelado + correo válido

Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean

consistentes y correctamente registrados.

Data Mart: Subconjunto de Data Warehouse, normalmente para un departamento

concreto.

Data Mining: La extracción de información predecible escondida en grandes bases de

datos.

Data Warehouse: Sistema para el almacenamiento y distribución de cantidades masivas

de datos

Datos anormales: Datos que resultan de errores (por ej.: errores en el tipeado durante la

carga) o que representan eventos inusuales.

Dimensión: En una base de datos relacional o plana, cada campo en un registro representa

una dimensión. En una base de datos multidimensional, una dimensión es un conjunto de

entidades similares; por ej.: una base de datos multidimensional de ventas podría incluir las

dimensiones Producto, Tiempo y Ciudad.



Estacionalidad: Distribución de producción (%) por línea de producto y mes.

Función de Agregación: Función que permite unir los valores de varias variables de el

mismo tipo en un único valor.

Knowledge Discovery in Databases (KDD): proceso de descubrimiento automático de

patrones previamente desconocidos, reglas y otros contenidos regulares que se encuentren

presentes implícitamente en grandes volúmenes de datos.

Metadatos: Diccionario de definiciones de los datos almacenados. Es como una biblioteca

que recoge cómo, dónde y qué datos se han incorporado en el Data Warehouse.

Modelo analítico: Una estructura y proceso para analizar un conjunto de datos. Por

ejemplo, un árbol de decisión es un modelo para la clasificación de un conjunto de datos

Modelo lineal: Un modelo analítico que asume relaciones lineales entre una variable

seleccionada (dependiente) y sus predictores (variables independientes).

Modelo no lineal: Un modelo analítico que no asume una relación lineal en los

coeficientes de las variables que son estudiadas.

Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas

en un conjunto de datos.

Navegación de datos: Proceso de visualizar diferentes dimensiones, "fetas" y niveles de

una base de datos multidimensional. Ver OLAP.

ODBC: Open Database Connectivity. Permite el acceso desde aplicaciones Microsoft a

diferentes gestores de bases de datos como, por ejemplo, Oracle.



OLAP: Procesamiento analítico on-line (On Line Analitic prossesing). Se refiere a

aplicaciones de bases de datos orientadas a array que permite a los usuarios ver, navegar,

manipular y analizar bases de datos multidimensionales.

Outlier: Un item de datos cuyo valor cae fuera de los límites que encierran a la mayoría

del resto de los valores correspondientes de la muestra. Puede indicar datos anormales. Deberían

ser examinados detenidamente; pueden dar importante información.

Patrón del Dropper: días que tiene marcados como posibles para inducir correo.

Procesamiento paralelo: Uso coordinado de múltiples procesadores para realizar tareas

computacionales. El procesamiento paralelo puede ocurrir en una computadora con múltiples

procesadores o en una red de estaciones de trabajo o PCs.

RAID: Formación redundante de discos baratos (Redundant Array of inexpensive disks).

Tecnología para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de

alto rendimiento.

Regresión lineal: Técnica estadística utilizada para encontrar la mejor relación lineal que

encaja entre una variable seleccionada (dependiente) y sus predicados (variables independientes).

Selección: Operación consistente en seleccionar de una base de datos a individuos que

respondan a las características de una acción concreta. Incluso si, después de la selección,

quedasen pocos destinatarios de la oferta, el índice de respuesta será muy superior al de una

oferta tradicional.

Sistema Experto: El que es capaz de razonar siguiendo un proceso semejante al que

emplea un especialista humano en la materia a la que concierne el problema a tratar cuando lleva

a cabo su resolución. Dicho sistema, que actúa simultáneamente como sistemas de ejecución y de

transmisión de conocimientos, está constituido por tres partes principales: la base de

conocimientos, de la que forman parte las informaciones específicas, correspondientes al campo



en cuestión. La memoria de trabajo o base de hechos, que contiene los datos concernientes al

problema que se desea tratar y en la que la memorización de todos los resultados intermedios

permite, además de la explicación del origen de las informaciones deducidas, la descripción del

comportamiento del propio sistema. El motor de inferencia, es un programa que con los

conocimientos y heurísticos (mecanismos específicos del proceso de descubrimiento) contenidos

en la base de conocimientos resuelve el problema concreto, especificado gracias a los datos

contenidos en la memoria de trabajo.

Software: Los sistemas de tratamiento de datos informáticos se componen, además de sus

interconexiones, de dos partes principales: el hardware o equipo físico y el software o equipo

lógico. Este último compuesto por todos los programas que existen para el mencionado sistema.

Structured Query Language (SQL): Lenguaje estructurado de consultas. Este lenguaje es

un conjunto de instrucciones que permite realizar diversas operaciones sobre los datos

almacenados en una Base de Datos Relacional. Estas bases de datos son aquellas que se

caracterizan porque la información está contenida en estructuras, llamadas tablas, donde los

datos están dispuestos en filas y columnas y donde existen relaciones entre las distintas tablas de

una misma base de datos.



Manual de usuario A continuación se describe el manual de usuario de la Herramienta de Data Mining.

La finalidad de esta herramienta es poder realizar un análisis inteligente de los datos,

identificar patrones novedosos y potencialmente útiles a partir de una origen de datos, ya sea en

local o mediante una fuente de datos ODBC. Esta herramienta utiliza las siguientes técnicas de

Minería de Datos: segmentación, árboles de decisión, reglas de asociación, regresión lineal y

ajuste de curva univariable.

Al abrir la aplicación, nos encontramos con una pantalla de bienvenida.

Si le damos a siguiente, nos da la opción de utilizar un modelo que ya hayamos creado

previamente, o de crear uno nuevo.



Cree un nuevo modelo e indique el tipo de modelo y la tarea de minería que desea realizar. Una

vez creado un modelo, puede ejecutarlo y guardar los resultados.

En caso de que le demos a crear un nuevo modelo, el sistema nos pedirá que introduzcamos los

datos del mismo, es decir, el nombre, la fecha y una descripción (opcional).



Luego, deberemos seleccionar el origen de los datos. Navegaremos en busca del fichero mdb que

contenga la BBDD y la seleccionaremos.

Ya tenemos el modelo creado. Ahora ya pasaríamos a seleccionar el algoritmo que quisiéramos

aplicar.



Nos encontramos con algoritmos de diversos tipos, que son: Clustering

� Clustering jerárquico: Si seleccionamos este algoritmo, tenemos la opción de

ejecutarlo sobre la totalidad de los datos. El sistema irá iterando paso a paso hasta

generar el dendrograma que representa aquellas provincias que más se parecen

entre sí.

Y por último mostrará el resultado en forma de dendrograma.



Al pulsar en �Estadísticas� mostrará los detalles de los clusters generados, junto con su

localización geográfica.

Clasificación

� Árboles ID3: Primero deberemos seleccionar el origen de los datos, que en

nuestro caso sería Microsoft Jet 4.0 para un archivo mdb, y luego elegiríamos la

ubicación del mismo.



A continuación, el sistema nos pide que seleccionemos la tabla que queramos

clasificar.

Una vez seleccionada, deberemos seleccionar el atributo por el que queramos

clasificar los datos, y finalmente todos los posibles separadores. Con todo ello, el

sistema calculará el árbol ID3, que nos mostrará gráficamente.



También tenemos la opción de ver las entropías si pulsamos en �Detalles�.



Predicción

� Estimación de probabilidad: Esto, que no es un algoritmo propiamente dicho,

nos permite predecir, en base a unas variables de entrada, el estado y el plazo de

entrega de una carta. Los datos que deberemos introducir son la provincia de

origen y de destino, el tipo de línea (ordinaria o urgente), el formato de la carta, su

peso, y el método de inducción por el que vayamos a mandar la carta.



Al pulsar en �Estadísticas� nos mostrará gráficamente la predicción para cada uno de los

flujos de correo (local, provincial o nacional), siendo D la fecha de depósito.



Correlación

� Regresión lineal de 2 variables: Este algoritmo nos permite calcular si existe

alguna relación entre 2 variables existentes. Se basa en fórmulas matemáticas, y el

funcionamiento es muy sencillo: Sólo debemos seleccionar la tabla origen, y las 2

variables cuya relación queramos comprobar. Con esto el sistema nos devolverá

un coeficiente de regresión en caso de que todo vaya bien o un código de error en

caso de que no se haya podido calcular el coeficiente de regresión.



Al dar a �Estadísticas� se puede visualizar los resultados gráficamente, mostrando la

relacion lineal existente entre las 2 variables.



Patrones de comportamiento

- Ajuste de curva univariable: Mediante esta curva podemos determinar si existe alguna

relación entre el plazo de entrega de las cartas y el tiempo. Si hacemos doble clic sobre la

imagen, el sistema nos dará la opción de seleccionar por varios criterios.

Al dar en �Estadísticas� podemos ver las distintas gráficas obtenidas:



Finalmente, al pulsar en �Autor� aparece una descripción con el nombre, fecha de

presentación del proyecto y correo electrónico del autor.

proceso de data mining en sistema de medición de calidad ... · pdf fileproceso de data...

Documents