miner a de datos - geocities.ws · fundamentos, t ecnicas y aplicaciones ramiro aguilar quispe. c...

64
Miner ´ ıa de Datos Fundamentos, T ´ ecnicas y Aplicaciones Ramiro Aguilar Quispe

Upload: others

Post on 18-Nov-2020

19 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

Minerıa de Datos

Fundamentos, Tecnicas y Aplicaciones

Ramiro Aguilar Quispe

Page 2: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

c© Ramiro Aguilar Quispe, 2002.

Carrera de Informatica

Facultad de Ciencias Puras y Naturales

Universidad Mayor de San Andres, Bolivia

Departamento de Informatica y Automatica

Facultad de Ciencias

Universidad de Salamanca, Espana

Imprime:

Reprografıa Signo

C/ Serranos, 31

37008 Salamanca, Espana.

I.S.B.N.: 84-932864-6-X

Esta permitida la reproduccion parcial o total de esta obra siempre que sea con fines

educativos no comerciales y se citen a la fuente y al autor.

ii

Page 3: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

A Jelena

iii

Page 4: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

iv

Page 5: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

Tabla de Contenidos

Tabla de Contenidos v

Lista de Tablas xv

Lista de Figuras xvii

Resumen xxv

Agradecimientos xxvii

I FUNDAMENTOS DE MINERIA DE DATOS 1

1 Contexto de la Minerıa de Datos 31.1 Aprendizaje Automatico . . . . . . . . . . . . . . . . . . . . . . . 31.2 Necesidad de la Minerıa de Datos . . . . . . . . . . . . . . . . . . 51.3 ¿Que es la Minerıa de Datos? . . . . . . . . . . . . . . . . . . . . 6

1.3.1 Minerıa de Datos como Proceso Dual . . . . . . . . . . . 61.3.2 Minerıa de Datos como Nucleo . . . . . . . . . . . . . . . 71.3.3 Concepto de Minerıa de Datos . . . . . . . . . . . . . . . 7

1.4 ¿Que no es la Minerıa de Datos? . . . . . . . . . . . . . . . . . . 81.4.1 Sistemas de Ayuda a la Direccion . . . . . . . . . . . . . . 81.4.2 Sistemas de Procesamiento Analıtico en Lınea . . . . . . . 91.4.3 Consulta e Informe . . . . . . . . . . . . . . . . . . . . . . 10

1.5 ¿Que puede hacer la Minerıa de Datos? . . . . . . . . . . . . . . 101.5.1 Prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

v

Page 6: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

1.5.2 Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . 131.5.3 Estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . 131.5.4 Agrupamiento . . . . . . . . . . . . . . . . . . . . . . . . 141.5.5 Analisis de Asociacion . . . . . . . . . . . . . . . . . . . . 141.5.6 Descripcion y Visualizacion . . . . . . . . . . . . . . . . . 14

1.6 El Contexto de Negocio de la Minerıa de Datos . . . . . . . . . . 151.6.1 Minerıa de Datos como Herramienta de Investigacion . . . 151.6.2 Minerıa de Datos para Procesos . . . . . . . . . . . . . . . 161.6.3 Minerıa de Datos para Mercadeo . . . . . . . . . . . . . . 161.6.4 Minerıa de Datos para Administracion de Relaciones de

Consumo . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.7 El Contexto Tecnico de la Minerıa de Datos . . . . . . . . . . . . 17

1.7.1 Minerıa de Datos y Aprendizaje Automatico . . . . . . . 181.7.2 Minerıa de Datos y Estadıstica . . . . . . . . . . . . . . . 181.7.3 Minerıa de Datos y Toma de Decisiones . . . . . . . . . . 191.7.4 Minerıa de Datos y Tecnologıa de Computo . . . . . . . . 19

1.8 El Contexto Social de la Minerıa de Datos . . . . . . . . . . . . . 191.9 Aplicaciones y Tendencias . . . . . . . . . . . . . . . . . . . . . . 20

1.9.1 Minerıa de Datos Distribuida . . . . . . . . . . . . . . . . 201.9.2 Minerıa de Datos Multimedia . . . . . . . . . . . . . . . . 211.9.3 Minerıa de Datos Web . . . . . . . . . . . . . . . . . . . . 211.9.4 Minerıa de Datos: Seguridad y Confidencialidad . . . . . 21

2 Descubrimiento de Conocimiento en Bases de Datos 232.1 Inteligencia de Negocio . . . . . . . . . . . . . . . . . . . . . . . . 23

2.1.1 Conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.1.2 Alcance de la Inteligencia de Negocio . . . . . . . . . . . . 242.1.3 Niveles de Manejo de Informacion . . . . . . . . . . . . . 252.1.4 Del Analisis Multidimensional al Descubrimiento de Co-

nocimiento . . . . . . . . . . . . . . . . . . . . . . . . . . 252.1.5 Operaciones Basicas del Analisis Multidimensional . . . . 27

2.2 Proceso de Descubrimiento de Conocimiento . . . . . . . . . . . . 282.2.1 Determinacion de Objetivos . . . . . . . . . . . . . . . . . 302.2.2 Preparacion de Datos . . . . . . . . . . . . . . . . . . . . 312.2.3 Transformacion de Datos . . . . . . . . . . . . . . . . . . 33

vi

Page 7: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

2.2.4 Minerıa de Datos . . . . . . . . . . . . . . . . . . . . . . . 342.2.5 Analisis de Resultados . . . . . . . . . . . . . . . . . . . . 352.2.6 Asimilamiento de Conocimiento . . . . . . . . . . . . . . . 40

2.3 Vista Previa de las Tecnicas de Minerıa de Datos . . . . . . . . . 412.3.1 Metodos Estadısticos . . . . . . . . . . . . . . . . . . . . . 422.3.2 Arboles de Induccion . . . . . . . . . . . . . . . . . . . . . 432.3.3 Redes Neuronales Artificiales . . . . . . . . . . . . . . . . 432.3.4 Agrupamiento o Segmentacion . . . . . . . . . . . . . . . 442.3.5 Analisis de Asociacion . . . . . . . . . . . . . . . . . . . . 442.3.6 Algoritmos Geneticos . . . . . . . . . . . . . . . . . . . . 442.3.7 Logica Borrosa . . . . . . . . . . . . . . . . . . . . . . . . 452.3.8 Series Temporales . . . . . . . . . . . . . . . . . . . . . . 45

II DE LA ESTADISTICA AL APRENDIZAJE AUTOMA-TICO 47

3 Regresion y Estimacion 493.1 Conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.2 El Problema de Regresion . . . . . . . . . . . . . . . . . . . . . . 49

3.2.1 Coeficiente de Determinacion de la Regresion . . . . . . . 513.3 Regresion Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.3.1 Proceso de Regresion Lineal . . . . . . . . . . . . . . . . . 523.3.2 Regresion de Y sobre X . . . . . . . . . . . . . . . . . . . 523.3.3 Regresion de X sobre Y . . . . . . . . . . . . . . . . . . . 543.3.4 Ejemplo inicial . . . . . . . . . . . . . . . . . . . . . . . . 543.3.5 Propiedades de la Regresion Lineal . . . . . . . . . . . . . 553.3.6 Otro ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.4 Regresion Lineal Multiple . . . . . . . . . . . . . . . . . . . . . . 583.4.1 Determinacion de los Coeficientes . . . . . . . . . . . . . . 58

3.5 Regresion Logıstica . . . . . . . . . . . . . . . . . . . . . . . . . . 593.5.1 Asociacion entre variables binomiales . . . . . . . . . . . . 593.5.2 Modelo de Regresion Logıstica Simple . . . . . . . . . . . 60

vii

Page 8: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

4 Aprendizaje Bayesiano 634.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.1.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . 634.2 Variables Continuas y Ruido . . . . . . . . . . . . . . . . . . . . 644.3 Aprendizaje Probabilıstico . . . . . . . . . . . . . . . . . . . . . . 654.4 Principio de Longitud de Descripcion Mınima . . . . . . . . . . . 664.5 Clasificador Bayesiano Optimo . . . . . . . . . . . . . . . . . . . 674.6 Clasificador Bayesiano Naive . . . . . . . . . . . . . . . . . . . . 674.7 Estimacion de Probabilidades . . . . . . . . . . . . . . . . . . . . 684.8 Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.8.1 Propagacion de Probabilidades . . . . . . . . . . . . . . . 704.8.2 Propagacion en Arboles . . . . . . . . . . . . . . . . . . . 714.8.3 Propagacion en Poliarboles . . . . . . . . . . . . . . . . . 734.8.4 Propagacion en Redes Multiconectadas . . . . . . . . . . 73

4.9 Redes Bayesianas en Minerıa de Datos . . . . . . . . . . . . . . . 744.10 Aprendizaje Parametrico . . . . . . . . . . . . . . . . . . . . . . . 75

4.10.1 Funcionamiento . . . . . . . . . . . . . . . . . . . . . . . . 754.10.2 Variables no Observadas . . . . . . . . . . . . . . . . . . . 76

4.11 Aprendizaje Estructural . . . . . . . . . . . . . . . . . . . . . . . 784.11.1 Arboles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 784.11.2 Poliarboles . . . . . . . . . . . . . . . . . . . . . . . . . . 794.11.3 Redes Multiconectadas . . . . . . . . . . . . . . . . . . . . 804.11.4 Mejora Estructural . . . . . . . . . . . . . . . . . . . . . . 82

III TECNICAS DE MINERIA DE DATOS 83

5 Arboles de Decision 855.1 ¿Que es un Arbol de Decision? . . . . . . . . . . . . . . . . . . . 85

5.1.1 Representacion Grafica de un Arbol de Decision . . . . . 855.1.2 Expresividad de un Arbol de Decision . . . . . . . . . . . 86

5.2 Induccion de Arboles de Decision a partir de Ejemplos . . . . . . 875.2.1 Tarea recomendada para la Induccion . . . . . . . . . . . 885.2.2 Seleccion del tipo de clasificador y aplicaciones comunes . 89

5.3 Bucle basico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 905.3.1 Entropıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

viii

Page 9: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

5.3.2 Ganancia de informacion . . . . . . . . . . . . . . . . . . 915.3.3 Reduccion de incertidumbre . . . . . . . . . . . . . . . . . 94

5.4 Arboles de Decision dentro del Aprendizaje Automatico . . . . . 975.4.1 Algoritmo ID3 . . . . . . . . . . . . . . . . . . . . . . . . 985.4.2 Algoritmo ID3 Normalizado . . . . . . . . . . . . . . . . . 1005.4.3 Algoritmos Incrementales . . . . . . . . . . . . . . . . . . 1005.4.4 Algoritmos ID5 e ID5R . . . . . . . . . . . . . . . . . . . 101

5.5 Otros Temas de Estudio . . . . . . . . . . . . . . . . . . . . . . . 1035.5.1 Sobreajuste (“overfitting”) . . . . . . . . . . . . . . . . . 1035.5.2 Poda (“prunning”) . . . . . . . . . . . . . . . . . . . . . . 1055.5.3 Atributos de valores continuos . . . . . . . . . . . . . . . 1055.5.4 Medidas alternativas en la seleccion de atributos . . . . . 1065.5.5 Atributos con valores perdidos . . . . . . . . . . . . . . . 1075.5.6 Atributos con pesos diferentes . . . . . . . . . . . . . . . . 1075.5.7 Algoritmo C4.5 . . . . . . . . . . . . . . . . . . . . . . . . 108

5.6 Otros Algoritmos Desarrollados . . . . . . . . . . . . . . . . . . . 1085.6.1 Algoritmo C4.5 Oblicuo . . . . . . . . . . . . . . . . . . . 1085.6.2 Algoritmo C5.0 . . . . . . . . . . . . . . . . . . . . . . . . 109

5.7 Redes Neuronales equivalentes a Arboles de Decision . . . . . . . 109

6 Redes Neuronales Artificiales 1116.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1116.2 Componentes de las Redes Neuronales Artificiales . . . . . . . . . 112

6.2.1 Funciones de Activacion . . . . . . . . . . . . . . . . . . . 1146.2.2 Arquitecturas de RNAs . . . . . . . . . . . . . . . . . . . 1146.2.3 Paradigmas de Aprendizaje . . . . . . . . . . . . . . . . . 115

6.3 Entrenamiento de una Unidad Procesadora . . . . . . . . . . . . 1166.3.1 Geometrıa del funcionamiento de una UPU . . . . . . . . 1166.3.2 Metodo del gradiente descendente . . . . . . . . . . . . . 1176.3.3 Procedimiento de Widrow-Hoff . . . . . . . . . . . . . . . 1186.3.4 Procedimiento delta generalizado . . . . . . . . . . . . . . 119

6.4 Redes Neuronales Multicapa . . . . . . . . . . . . . . . . . . . . . 1196.4.1 Metodo de retropropagacion . . . . . . . . . . . . . . . . . 1206.4.2 Cambio de Pesos en las Capas de la Red . . . . . . . . . . 1206.4.3 Inicializacion y criterio de parada . . . . . . . . . . . . . . 122

ix

Page 10: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

6.4.4 Algoritmo de Aprendizaje . . . . . . . . . . . . . . . . . . 1226.4.5 Generalizacion, precision y sobreajuste . . . . . . . . . . . 123

7 Agrupamiento 1257.1 ¿Que es el agrupamiento? . . . . . . . . . . . . . . . . . . . . . . 1257.2 Reconocimiento Estadıstico de Patrones y Redes Neuronales . . . 1277.3 Mapas Auto-organizados . . . . . . . . . . . . . . . . . . . . . . . 128

7.3.1 Arquitectura de la red . . . . . . . . . . . . . . . . . . . . 1297.3.2 Aprendizaje con la Ecuacion Trivial . . . . . . . . . . . . 1317.3.3 Aprendizaje con la Ecuacion Simple . . . . . . . . . . . . 1327.3.4 Modelos de Vecindarios Neuronales . . . . . . . . . . . . 1337.3.5 Inicializacion y Condicion de Parada . . . . . . . . . . . . 1357.3.6 Algoritmo de Agrupamiento . . . . . . . . . . . . . . . . 136

7.4 Cuantificacion Vectorial . . . . . . . . . . . . . . . . . . . . . . . 1377.4.1 Representantes de Clase . . . . . . . . . . . . . . . . . . . 1377.4.2 Diversas Actualizaciones . . . . . . . . . . . . . . . . . . . 1377.4.3 Algunos Resultados . . . . . . . . . . . . . . . . . . . . . 140

7.5 Red Neuronal de Topologıa Flexible . . . . . . . . . . . . . . . . 1417.5.1 Categorizacion Adaptativa . . . . . . . . . . . . . . . . . 1417.5.2 Plasticidad Neuronal en el cerebro . . . . . . . . . . . . . 1427.5.3 Red Neuronal de Topologıa Flexible . . . . . . . . . . . . 1427.5.4 Funcionamiento . . . . . . . . . . . . . . . . . . . . . . . . 143

8 Analisis de Asociacion 1478.1 Reglas de Asociacion . . . . . . . . . . . . . . . . . . . . . . . . . 147

8.1.1 Forma de las Regla . . . . . . . . . . . . . . . . . . . . . . 1478.1.2 Coherencia de una Regla . . . . . . . . . . . . . . . . . . 1488.1.3 Primera Aproximacion . . . . . . . . . . . . . . . . . . . . 1488.1.4 Descubrimiento de Asociaciones . . . . . . . . . . . . . . . 152

8.2 Descubrimiento de Patrones Secuenciales . . . . . . . . . . . . . . 1538.2.1 Funcionamiento . . . . . . . . . . . . . . . . . . . . . . . . 154

8.3 De las Reglas de Asociacion a las Correlaciones . . . . . . . . . . 1578.3.1 Implicaciones Negativas . . . . . . . . . . . . . . . . . . . 1578.3.2 Reglas de Correlacion . . . . . . . . . . . . . . . . . . . . 158

x

Page 11: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

IV TECNICAS HIBRIDAS 161

9 Sistemas de Logica Borrosa 1639.1 Conjuntos Borrosos . . . . . . . . . . . . . . . . . . . . . . . . . . 163

9.1.1 Grado de Pertenencia . . . . . . . . . . . . . . . . . . . . 1639.1.2 Propiedades de los Conjuntos Borrosos . . . . . . . . . . . 164

9.2 Sistemas Borrosos . . . . . . . . . . . . . . . . . . . . . . . . . . 1669.2.1 Variables Linguısticas . . . . . . . . . . . . . . . . . . . . 1669.2.2 Enborronamiento . . . . . . . . . . . . . . . . . . . . . . . 1679.2.3 Motor de Inferencia . . . . . . . . . . . . . . . . . . . . . 1689.2.4 Modificadores Linguısticos . . . . . . . . . . . . . . . . . . 1699.2.5 Operadores T-Norma y S-Norma . . . . . . . . . . . . . . 1719.2.6 Base de Reglas . . . . . . . . . . . . . . . . . . . . . . . . 1729.2.7 Desemborronado . . . . . . . . . . . . . . . . . . . . . . . 173

9.3 Entrenamiento de Sistemas de Logica Borrosa . . . . . . . . . . . 1749.3.1 Caracterizacion del Conjunto de Entrenamiento . . . . . . 1749.3.2 Entrenamiento con Universos Fijos . . . . . . . . . . . . . 1759.3.3 Entrenamiento con Universos Variables . . . . . . . . . . 176

10 Algoritmos Evolutivos 17910.1 Computacion Evolutiva . . . . . . . . . . . . . . . . . . . . . . . 17910.2 Algoritmos Geneticos . . . . . . . . . . . . . . . . . . . . . . . . . 180

10.2.1 Metafora Natural . . . . . . . . . . . . . . . . . . . . . . . 18010.2.2 Algoritmo Genetico Simple . . . . . . . . . . . . . . . . . 18310.2.3 Implementacion de un Algoritmo Genetico . . . . . . . . . 18410.2.4 Proceso de Seleccion . . . . . . . . . . . . . . . . . . . . . 18510.2.5 Proceso de Cruzamiento . . . . . . . . . . . . . . . . . . . 18710.2.6 Proceso de Mutacion . . . . . . . . . . . . . . . . . . . . . 18910.2.7 Proceso de Seleccion de Sobrevivientes . . . . . . . . . . . 190

10.3 Estrategias Evolutivas . . . . . . . . . . . . . . . . . . . . . . . . 19110.3.1 Representacion . . . . . . . . . . . . . . . . . . . . . . . . 19110.3.2 Estrategias Evolutivas Simples . . . . . . . . . . . . . . . 19110.3.3 Estrategias Evolutivas Compuestas . . . . . . . . . . . . . 19210.3.4 Estrategias Evolutivas Avanzadas . . . . . . . . . . . . . . 193

10.4 Sistemas Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . 19510.5 Programacion Genetica . . . . . . . . . . . . . . . . . . . . . . . 197

xi

Page 12: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

10.6 Hardware Evolutivo . . . . . . . . . . . . . . . . . . . . . . . . . 19710.7 Algoritmos Geneticos en el aprendizaje de Redes Neuronales Ar-

tificiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19910.7.1 Redes Neuronales Artificiales en el Reconocimiento de Pa-

trones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20010.7.2 Algoritmos Geneticos para el Aprendizaje: Cromosoma y

Funcion Objetivo . . . . . . . . . . . . . . . . . . . . . . . 20110.7.3 Proceso de Evolucion . . . . . . . . . . . . . . . . . . . . 20210.7.4 Algunas Conclusiones y Recomendaciones . . . . . . . . . 204

V APLICACIONES 207

11 Gestion de Proyectos Software 20911.1 Pautas para la Simbiosis entre la Minerıa de Datos y la Logica

Borrosa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20911.2 Descripcion de la Base de Datos . . . . . . . . . . . . . . . . . . 21011.3 Minerıa de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

11.3.1 Agrupamiento . . . . . . . . . . . . . . . . . . . . . . . . 21411.3.2 Reglas de Asociacion . . . . . . . . . . . . . . . . . . . . . 21811.3.3 Arboles de Decision . . . . . . . . . . . . . . . . . . . . . 220

11.4 Sistema Clasificador Borroso . . . . . . . . . . . . . . . . . . . . 22511.4.1 Variables de Entrada . . . . . . . . . . . . . . . . . . . . . 22511.4.2 Variable de Salida . . . . . . . . . . . . . . . . . . . . . . 22611.4.3 Reglas Borrosas . . . . . . . . . . . . . . . . . . . . . . . . 22711.4.4 Funciones de Transferencia . . . . . . . . . . . . . . . . . 22911.4.5 Resultados del Sistema Clasificador Borroso . . . . . . . . 232

11.5 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233

12 Proyectos Biologicos de Gran Escala 23512.1 Genoma Humano . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

12.1.1 Genoma Humano Descifrado . . . . . . . . . . . . . . . . 23512.1.2 Coincidencia de Resultados . . . . . . . . . . . . . . . . . 235

12.2 Secuenciacion del Genoma Humano . . . . . . . . . . . . . . . . . 23612.2.1 ¿Que es el Genoma? . . . . . . . . . . . . . . . . . . . . . 23612.2.2 Genes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237

xii

Page 13: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

12.2.3 Polimorfismos Nucleotidos Simples . . . . . . . . . . . . . 23712.2.4 Desafıos Futuros . . . . . . . . . . . . . . . . . . . . . . . 239

12.3 Bioinformatica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23912.3.1 Secuenciacion del Cromosoma 22 . . . . . . . . . . . . . . 241

12.4 Minerıa de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 25012.4.1 Descubrimiento de Patrones Secuenciales . . . . . . . . . 25012.4.2 Reglas de Asociacion . . . . . . . . . . . . . . . . . . . . . 25712.4.3 Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . 257

Bibliografıa 259

A Teminologıa del Aprendizaje Automatico 267

xiii

Page 14: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

xiv

Page 15: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

Lista de Tablas

2.1 Jerarquıa de elementos de dependencia. . . . . . . . . . . . . . . 26

5.1 Ejemplos con atributos multivariados. . . . . . . . . . . . . . . . 92

5.2 Ejemplos con atributos binarios. . . . . . . . . . . . . . . . . . . 95

8.1 Conjunto de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . 149

8.2 Conjunto de reglas de asociacion de mayor confianza. . . . . . . 151

8.3 Conjunto de datos etiquetado mediante la reglas de correlacion

generadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

8.4 Transacciones de compra de artıculos. . . . . . . . . . . . . . . . 155

8.5 Porcentajes de compra de los artıculos te (t) y cafe (c). . . . . . 158

9.1 Grados de pertenencia de las edades de personas respecto de los

conjuntos borrosos: bebes, jovenes, adultos y viejos. . . . . . . . 165

9.2 Conjunto de entrenamiento donde cada fila representa una ins-

tancia, caso o ejemplo para el accionar de un sistema de logica

borrosa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

11.1 Parametros o atributos de la Base de Datos. . . . . . . . . . . . 210

11.2 Valores de los representantes de clase para los proyectos buenos,

regulares y malos usando la distancia “Euclideana”. . . . . . . . 214

xv

Page 16: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

11.3 Valores de los representantes de clase para los proyectos buenos,

regulares y malos usando la distancia de “Manhattan”. . . . . . 216

11.4 Conjunto de reglas de asociacion entre los atributos ASIMDY y

TIEMPO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

11.5 Reglas borrosas de clasificacion. . . . . . . . . . . . . . . . . . . 228

12.1 Aminoacidos que representan el codigo genetico. . . . . . . . . . 239

12.2 Numero de millones de bp’s (Mbp), genes etiquetados y compo-

nentes no localizados por cromosoma. . . . . . . . . . . . . . . . 240

12.3 Conteo de tripletas localizadas por el arbol de secuencias para

las cien mil bp’s. . . . . . . . . . . . . . . . . . . . . . . . . . . . 256

12.4 Reglas de asociacion para las tripletas validas por el arbol de

secuencias (θ > 1500). . . . . . . . . . . . . . . . . . . . . . . . . 257

xvi

Page 17: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

Lista de Figuras

1.1 Ingenierıa del Aprendizaje de Datos. . . . . . . . . . . . . . . . . 3

1.2 Un sistema de Inteligencia Artificial. . . . . . . . . . . . . . . . . 4

1.3 La minerıa de datos como proceso dual entre analisis y sıntesis

sobre los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4 El proceso de minerıa de datos como nucleo para adquirir cono-

cimiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.5 Posicionamiento de las Tecnicas de la Inteligencia Corporativa. . 11

2.1 Estratos de la Inteligencia de Negocio. . . . . . . . . . . . . . . . 24

2.2 Niveles del manejo de la informacion. . . . . . . . . . . . . . . . 26

2.3 Estructura organizacional de una comercial descrita jerarquica-

mente en la Tabla 2.1. . . . . . . . . . . . . . . . . . . . . . . . . 27

2.4 Visualizacion Multidimensional de los datos. . . . . . . . . . . . 28

2.5 Etapas del Proceso de Descubrimiento de Conocimiento en Bases

de Datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.6 Visualizacion del histograma de datos. . . . . . . . . . . . . . . . 32

2.7 Visualizacion del diagrama de sectores. . . . . . . . . . . . . . . 33

2.8 Ejemplo de visualizacion de las medidas estadısticas usando Mi-

neSet para IRIX de Silicon Graphics. . . . . . . . . . . . . . . . 34

xvii

Page 18: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

2.9 Visualizacion de dispersion o “scatterplots” usando MineSet para

IRIX de Silicon Graphics. . . . . . . . . . . . . . . . . . . . . . . 35

2.10 Estimacion del error de clasificacion con la tecnica “Holdout”. . 37

2.11 Validacion cruzada del aprendizaje para estimar el error en el

clasificador. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.12 Curva de esfuerzo al clasificar correctamente una cantidad de

registros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.13 Curva promedio del error aprendizaje en funcion del numero de

registros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.14 Representacion de la confusion provocada por los errores de

clasificacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.15 Curva ROI que representa la precision en funcion de la perdida. 42

3.1 Aproximacion de la curva a los puntos de observacion. . . . . . . 50

3.2 Aproximacion de la superficie f a los puntos de observacion. . . 51

3.3 Regresion de Y sobre X. . . . . . . . . . . . . . . . . . . . . . . 53

3.4 Regresion de X sobre Y . . . . . . . . . . . . . . . . . . . . . . . 54

3.5 Funcion Sigmoidal Logıstica. . . . . . . . . . . . . . . . . . . . . 61

4.1 Red Bayesiana de tres variables binarias. . . . . . . . . . . . . . 69

4.2 Grafo acıclico donde el evento E en independiente del conjunto

de eventos {A, C, D, F, G}. . . . . . . . . . . . . . . . . . . . . . 70

5.1 Un arbol de decision con tres niveles, seis nodos y nueve hojas. . 86

5.2 Definicion de la funcion clasificadora para un arbol de decision

binario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.3 Arbol de decision con atributos (nodos) de valores multivaluados. 89

5.4 Grafico de la funcion Entropıa de rango p(x), x ∈ [0, 1]. . . . . . 91

5.5 Arbol de decision generado para los ejemplos de la tabla 5.1. . . 94

xviii

Page 19: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

5.6 Representacion multidimensional de los ejemplos de la tabla 5.2 96

5.7 Arbol de decision generado para los ejemplos de la tabla 5.2. . . 97

5.8 Determinando cuando empieza el sobreajuste [70]. . . . . . . . . 104

5.9 Arbol de decision de nodos con valores binarios y Red Neuronal

equivalente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.10 Arbol de decision multivariado y Red Neuronal equivalente. . . . 110

6.1 Red Neuronal de ocho nodos y cinco unidades procesadoras. . . 113

6.2 Esquema de una neurona o unidad procesadora. . . . . . . . . . 113

6.3 Taxonomıa de las redes neuronales [9]. . . . . . . . . . . . . . . . 115

6.4 Geometrıa de una UPU. . . . . . . . . . . . . . . . . . . . . . . . 117

6.5 Red neuronal de una capa de entrada y L capas de unidades

procesadoras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

7.1 Distribucion de patrones (puntos) no etiquetados. . . . . . . . . 125

7.2 Jerarquıa de grupos en un conjunto de elementos (puntos). . . . 126

7.3 Particion jerarquica de grupos en forma de arbol. . . . . . . . . 127

7.4 Agrupamiento por distancia Euclidea, a) pequena distancia en-

tre grupos y pequena distancia dentro de los grupos, b) mucha

distancia dentro de los grupos y pequena distancia entre los gru-

pos; y, c) mucha distancia entre los grupos y pequena distancia

dentro de los grupos. . . . . . . . . . . . . . . . . . . . . . . . . 128

7.5 Arquitectura de la red neuronal de Kohonen. . . . . . . . . . . . 129

7.6 Funcion de energıa tipo “sombrero mejicano”: variacion de los

pesos en funcion de la distancia entre las neuronas de salida. . . 130

7.7 Funcion de retroalimentacion lateral simple. . . . . . . . . . . . 133

7.8 Funcion de retroalimentacion lateral exponencial. . . . . . . . . 134

xix

Page 20: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

7.9 Interpretacion geometrica de la variante LVQ2.1. El punto X se

proyecta en la lınea conectada m= y m 6=. . . . . . . . . . . . . . 139

7.10 Aplicaciones de LVQ en la compresion de imagenes. a) Imagen

original de 865 Kb; b) Imagen comprimida con LVQ a 74 Kb;

c) Imagen comprimida con GVQ a 56 Kb. . . . . . . . . . . . . . 140

7.11 Agrupamiento de dıgitos escritos a mano (distribucion aleatoria

de ejemplos). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

7.12 Agrupamiento de dıgitos escritos a mano (agrupaciones por si-

militudes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

7.13 Esquema del cambio de sinapsis entre las neuronas. . . . . . . . 143

7.14 Arquitectura de la red neuronal de topologıa flexible. . . . . . . 144

8.1 Visualizacion de reglas de asociacion en los datos de la tabla 8.1 150

8.2 Identificacion de reglas de asociacion de mayor confianza para

los datos de la tabla 8.1 . . . . . . . . . . . . . . . . . . . . . . . 151

8.3 Identificacion de transacciones y conteo de apariciones. . . . . . 154

8.4 Combinacion de transacciones en cantidad mayor a 2 y combi-

nacion de transacciones de cuatro atributos. . . . . . . . . . . . 155

8.5 Base de datos con transacciones de compras ordenados por “clien-

te”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

8.6 Combinacion de transacciones y descubrimiento de patrones se-

cuenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

9.1 Representacion de las funciones de pertenencia de los conjuntos

borrosos bebe, joven, adulto y viejo para la variable linguıstica

edad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

9.2 Representacion de las funciones de pertenencia de la interseccion

de los conjuntos borrosos jovenes y viejos. . . . . . . . . . . . . . 167

xx

Page 21: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

9.3 Representacion de las funciones de pertenencia de la union de

los conjuntos borrosos jovenes y viejos. . . . . . . . . . . . . . . 168

9.4 Sistema de Logica Borrosa. . . . . . . . . . . . . . . . . . . . . . 169

9.5 Representacion de las funciones de pertenencia de la variable

linguıstica temperatura. . . . . . . . . . . . . . . . . . . . . . . . 170

9.6 Enborronamiento del valor de las entradas reales o concretas. . . 170

9.7 Extraccion de salidas por el Motor de Inferencia Borroso. . . . . 171

9.8 Desemborronado de las variables de salida borrosa. . . . . . . . 173

10.1 Tecnicas de la Computacion Evolutiva. . . . . . . . . . . . . . . 180

10.2 Diagrama de flujo de procesos del algoritmo genetico. . . . . . . 182

10.3 Seleccion por ruleta de 2 individuos progenitores a partir de una

poblacion de 4 individuos. . . . . . . . . . . . . . . . . . . . . . . 186

10.4 Seleccion por muestreo estocastico universal de 2 individuos a

partir de una poblacion de 4 individuos. . . . . . . . . . . . . . . 187

10.5 Proceso de cruzamiento de cromosomas de 8 genes en un punto

c = 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

10.6 Proceso de cruzamiento de cromosomas de 8 genes en dos puntos

c1 = 2 y c2 = 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

10.7 Proceso de cruzamiento uniforme formando un descendiente a

partir de 2 progenitores que obedecen el criterio de copia segun

una mascara de cruce. . . . . . . . . . . . . . . . . . . . . . . . . 189

10.8 Proceso de mutacion del gen numero 4 de un cromosoma de 8

genes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

10.9 Proceso de mutacion estructural de un cromosoma de 8 genes. . 191

10.10 Estructura general de un Sistema Clasificador. . . . . . . . . . . 196

10.11 Esquema de robot insecto de hardware evolutivo. . . . . . . . . . 198

xxi

Page 22: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

10.12 Dinamica de optimizacion cuando la solucion converge y se halla

el optimo global. . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

10.13 Presencia de optimos locales en superficies heterogneas. . . . . . 200

10.14 Esquema de la aplicacion de RNAs en el aprendizaje de cober-

turas de terreno en imagenes satelitales. . . . . . . . . . . . . . . 201

10.15 Comportamiento del error promedio utilizando Backpropaga-

tion en el problema de aprendizaje de coberturas de terreno

en imagenes satelitales. . . . . . . . . . . . . . . . . . . . . . . . 202

10.16 Esquema de cruzamiento de los individuos W uijW

ujk y W v

ijWvjk

que soportan el problema de aprendizaje de coberturas de ter-

reno en imagenes satelitales. . . . . . . . . . . . . . . . . . . . . 204

10.17 Comportamiento del error promedio utilizando Algoritmos Ge-

neticos en el problema de aprendizaje de coberturas de terreno

en imagenes satelitales. . . . . . . . . . . . . . . . . . . . . . . . 205

11.1 Distribucion de proyectos. . . . . . . . . . . . . . . . . . . . . . . 211

11.2 El proyecto numero 267 se desarrollo con mucho tiempo y aunque

no represento mucho esfuerzo logro alta calidad. . . . . . . . . . 212

11.3 Otros puntos de vista de la distribucion de proyectos. . . . . . . 213

11.4 Agrupamiento o generacion de valores representantes de clase

con el criterio de la distancia “Euclideana” (proyecto BUENO=1,

REGULAR=2 y MALO=3). . . . . . . . . . . . . . . . . . . . . 215

11.5 Generacion de valores representantes de clase (proyecto BUENO=2,

REGULAR=1 y MALO=3) usando el criterio de la distancia de

“Manhattan”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

11.6 Reglas de asociacion generadas de la BDs inicial. . . . . . . . . . 218

11.7 Esquema de clasificacion con las reglas de asociacion. . . . . . . 219

11.8 Arbol de decision para clasificar a los proyectos en tres grupos. . 221

xxii

Page 23: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

11.9 Curva de aprendizaje del arbol de decision. . . . . . . . . . . . . 222

11.10 Curva de esfuerzo para los proyectos buenos. . . . . . . . . . . . 222

11.11 Curva de retorno acumulado de coste para la clasificacion de los

proyectos buenos. . . . . . . . . . . . . . . . . . . . . . . . . . . 223

11.12 Arbol de opciones para clasificar a los proyectos en tres grupos. 224

11.13 Representacion de las funciones de pertenencia µEb, µEm y µEa

para la variable linguıstica “esfuerzo”. . . . . . . . . . . . . . . . 226

11.14 Representacion de las funciones de pertenencia µM , µR y µB

para la variable linguıstica “tipo de proyecto”. . . . . . . . . . . 227

11.15 Funcion de transferencia Proyecto vs. Esfuerzo, (a) tiempo corto

y calidad baja; (b) tiempo corto y calidad media; y, (c) tiempo

corto y calidad alta. . . . . . . . . . . . . . . . . . . . . . . . . . 229

11.16 Funcion de transferencia Proyecto vs. Esfuerzo, (a) tiempo medio

y calidad baja; (b) tiempo medio y calidad media; y, (c) tiempo

medio y calidad alta. . . . . . . . . . . . . . . . . . . . . . . . . 230

11.17 Funcion de transferencia Proyecto vs. Esfuerzo Estableciendo

constante tiempo largo y (a) calidad baja, (b) calidad media y,

(c) calidad alta. . . . . . . . . . . . . . . . . . . . . . . . . . . . 231

11.18 Visualizacion de proyectos clasificados con el sistema borroso. . 232

12.1 Los cromosomas de la especie humana. . . . . . . . . . . . . . . 236

12.2 Bases nucleotidas que forman pares por enlaces de hidrogeno. . . 238

12.3 Interpretacion de los componentes de la doble helice de la cadena

de ADN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

12.4 Aminoacidos conformantes del Codigo Genetico. . . . . . . . . . 243

12.5 Modelamiento de los cromosomas en funcion del numero de bp’s.

Evaluacion de la secuenciacion por el Consorcio Publico hasta

diciembre de 2001. . . . . . . . . . . . . . . . . . . . . . . . . . . 244

xxiii

Page 24: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

12.6 Mapeo de SNPs y genes en la porcion de 20.0 Mbp - 20.1 Mbp

del cromosoma humano 22 [66]. . . . . . . . . . . . . . . . . . . 245

12.7 Mapeo de la secuencia de genes del cromosoma 22, porcion 33.2

Mbp - 34.2 Mbp (NCBI). . . . . . . . . . . . . . . . . . . . . . . 246

12.8 Mapeo de la secuencia de genes del cromosoma 22, porcion 33.2

Mbp - 34.2 Mbp (EBI). Debe apreciar la cantidad de genes y

marcas detectadas en 1 Mbp . . . . . . . . . . . . . . . . . . . . 247

12.9 Mapeo de la secuencia de genes del cromosoma 22, porcion 33.2

Mbp - 33.3 Mbp (NCBI). En 1 Mbp, se han detectado cuatro

genes APOL3, APOL4, APOL2 y APOL1. . . . . . . . . . . . . 248

12.10 Mapeo de la secuencia de genes del cromosoma 22, porcion 33.2

Mbp - 33.3 Mbp (EBI). En el anterior intervalo (1 Mbp) se de-

tecta y confirma el gen APOL3, pero no se detectan otros genes

lo cual demuestra el caracter diferenciador de los dos visuali-

zadores (en estas visualizaciones “Ensembl” maneja mas bp’s

que “Entrez” lo que amplia el rango de busqueda de genes, de

modo que para “Ensembl” los genes APOL4, APOL2 y APOL1

estaran en el siguiente intervalo). . . . . . . . . . . . . . . . . . . 249

12.11 Generacion del arbol de secuencias. i) CC→T y CC→G; ii)

CCT→G y CCG→G. . . . . . . . . . . . . . . . . . . . . . . . . 251

12.12 Generacion y conteo de secuencias de longitud 3. . . . . . . . . . 252

12.13 Arbol de secuencias generado. . . . . . . . . . . . . . . . . . . . 253

12.14 Generacion y conteo de secuencias de longitud 3. . . . . . . . . . 254

12.15 Reglas de asociacion de los codones del arbol de secuencias. . . . 258

xxiv

Page 25: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

Resumen

En este trabajo se realiza el analisis y la descripcion de las tecnicas de la minerıade datos y se detallan las aplicaciones realizadas para problemas reales. La obraesta dividida en doce capıtulos estructurados en cinco partes. La primera partecompuesta de dos capıtulos, expresa el entorno o contexto de la minerıa de datosdonde se resalta la diferencia de su implantacion como proceso o como visiondentro del paradigma de investigacion en el area del aprendizaje automatico. Lasegunda parte marca el inicio de la explicacion de las tecnicas y se hace enfasis enlos principios estadısticos elementales con la intension de mostrar que el caminoempieza en la matematica y la estadıstica y continua hacia el enfoque del apren-dizaje automatico; esta parte tiene dos capıtulos. La tercera parte compuestade cuatro capıtulos, especifica los fundamentos, propiedades y puntualizacionesde las tecnicas clasicas de la minerıa de datos; se describen las tecnicas su-pervisadas plasmadas en la Induccion de Arboles y las Redes Neuronales Ar-tificiales y, las tecnicas de descubrimiento de conocimiento: Agrupamiento yAnalisis de Asociacion. La cuarta parte, compuesta de dos capıtulos, englobaotras tecnicas denominadas hıbridas, que amplıan la disponibilidad de opcionespara el minero de datos. La quinta parte de la obra se orienta a mostrar laaplicacion de las tecnicas a problemas reales; en dos capıtulos se propone elmodo de uso e implementacion del metodo tratando de generar espectativaspor la eficacia y eficiencia de los algoritmos, sin embargo, se concluye que laaplicacion de las tecnicas de minerıa de datos pueden brindar buenas solucionesası como algunas incognitas.

xxv

Page 26: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

xxvi

Page 27: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

Agradecimientos

“No hay algo mas penoso en la vidaque la impotencia de solo dar gracias

por el bien recibido” (Anonimo)

Deseo expresar mis agradecimientos a todas las personas que de algunamanera han colaborado para la realizacion de este trabajo. En particular,agradezco a Marıa Moreno por sus observaciones y por la iniciativa para aplicarel metodo dentro del contexto de la minerıa de datos. Agradezco a las personase instituciones que brindaron datos reales sobre los cuales se desarrollaron lasaplicaciones, en particular, a Isabel Ramos de la Universidad de Sevilla por losdatos sobre los proyectos de software. Gracias a Juan Manuel Corchado por lacolaboracion en la gestion de este libro, a los profesores del Departamento deInformatica y Automatica de la Universidad de Salamanca por sus observacionesy opiniones y a los companeros de trabajo del doctorado.

Ramiro Aguilar QuispeSalamanca, Espana

Noviembre, 2002

xxvii

Page 28: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

Notacion

H: Conjunto de hipotesish: HipotesisΞ: Conjunto de ejemplos de entrenamientoX: Ejemplo, instancia (x1, x2, ..., xN )X(K): x1, x2, ..., xK

E: EntropıaG() Ganancia de InformacionR: Reduccion de incertidumbreT : Arbol de decision�: Producto de matrices1: Vector columna unitarioWn×m: Matriz de pesos de n filas por m columnas.

xxviii

Page 29: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

Parte I

FUNDAMENTOS DEMINERIA DE DATOS

1

Page 30: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y
Page 31: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

Capıtulo 1

Contexto de la Minerıa deDatos

1.1 Aprendizaje Automatico

Los zoologos, psicologos y otros estudian el aprendizaje en animales y el hom-bre. El aprendizaje automatico (AA) estudia el aprendizaje en las maquinas.Ciertamente, las tecnicas del aprendizaje automatico derivan de los esfuerzosde los psicologos que tratan de precisar sus teorıas trazando la ruta del apren-dizaje animal y humano hacia los modelos computacionales. Ası pues, el AAse considera como un marco de trabajo que integra los metodos y tecnicas paralograr conocimiento: a partir de un conjunto de datos, se realiza el procesode aprendizaje automatico el cual adquiere el conocimiento que luego puedeexpresar (ver Fig. 1.1).

ConocimientoDatos AprendizajeAutomático

Figura 1.1: Ingenierıa del Aprendizaje de Datos.

3

Page 32: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

4 1.1. Aprendizaje Automatico

Usualmente, el AA provoca cambios en los sistemas que realizan ta-reas asociadas con Inteligencia Artificial (IA). Algunas tareas involucran, re-conocimiento, clasificacion, planificacion, control robotico y prediccion. Aque-llos sistemas en los que se quiere observar mayor autonomıa deben producir esoscambios en tiempo real. Estos sistemas llamados “agentes” perciben y modelansu entorno y calculan acciones apropiadas quizas anticipando sus efectos. Loscambios que ocurren tienen que ver con la estructuracion de la base subyacentede su conocimiento. En la Fig. 1.2 se puede apreciar la arquitectura de un“agente” tıpico en IA.

Percepción

Modelo

Cálculo de laAcción

Planificación yRazonamiento

Señales de sensores Objetivos

Acciones

Figura 1.2: Un sistema de Inteligencia Artificial.

Pero, ¿por que y para que lograr el aprendizaje en las maquinas? Algunasrazones ingenieriles son:

• Algunas tareas no pueden ser definidas excepto por ejemplos; esto es,se pueden disponer de pares entrada y salida pero no se puede explicaruna relacion concisa entre ellas. Entonces, serıa interesante disponer de

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 33: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

1. Contexto de la Minerıa de Datos 5

maquinas que ajusten sus estructuras internas aprendiendo enormes can-tidades de ejemplos y posteriormente emitan una salida coherente a lavez que generen una funcion aproximada con la relacion implıcita de losejemplos.

• Es posible la existencia de enormes cantidades de estructuras de datoscon importantes relaciones y correlaciones. Los metodos de AA se usanpara extraer esas relaciones (minerıa de datos).

• Tıpicamente, el disenador humano produce maquinas que deben trabajaren los entornos en los cuales son usados. Serıa interesante que la mejorade estas maquinas se haga de forma automatica en base a la experiencia.

• Generalmente, la cantidad disponible de conocimiento sobre ciertas ta-reas es dificil de codificar explıcitamente por los humanos. Las maquinaspueden aprender gradualmente ese conocimiento.

• Los entornos cambian en el tiempo. Las maquinas pueden adaptarse aestos cambios reduciendo la constante necesidad de rediseno.

1.2 Necesidad de la Minerıa de Datos

Aunque en la decada de los sesenta la mayorıa de las tecnicas de Inteligencia Ar-tificial (IA) fue imposible demostrarlas por el rendimiento de los computadores,hoy se puede observar que el poder operacional de las mismas mejoro tanto,que resolver problemas o demostrar teoremas o conceptos son solo algunas delas tareas habituales que se realizan.

En la decada de los ochenta, a partir de la invencion del computadorde escritorio, hemos visto que la mejora en rendimiento de estas maquinas seproduce muy aceleraramente: se decıa que la velocidad de los procesadores seduplicaba cada dos anos. No cabe duda, que la evolucion se acelera.

La historia demuestra que en 1906, Stanley, Francis y Freelan a bordo desu aeroplano “Stanley Steamer” lograron romper el record mundial de velocidaden el aire volando a 122 millas/hora (superando la antigua marca de 15 mi-llas/hora), sin embargo, a finales de 1969 los astronautas del programa de laNASA “Apollo”, volaron a una velocidad cercana a 25000 millas/h, es decir223 veces mas rapido. Tambien, la historia nos dice que a principios del sigloXX, muchas empresas, en promedio, podıan almacenar su informacion en 10

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 34: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

6 1.3. ¿Que es la Minerıa de Datos?

Mb; pero, ahora se habla de medidas en terabytes. Para esas organizaciones,sus datos se incrementaron en un factor de cien mil [13].

¿Cuan enormes son ahora las bases de datos? Por ejemplo, el comercioesta adquiriendo una actuacion importante dentro de nuestras actividades y,debido a la automatizacion, muchas empresas, para mejorar sus ofertas y diver-sificar sus productos, necesitan grandes espacios de almacenamiento sobre loscuales puedan almacenar informacion de sus productos. Estas empresas, reali-zan miles de transacciones diarias y el proceso de almacenar dicha informacionno es tan complejo como el de analizarla. Por su parte, en el contexto de la“web” [48] [44], el comercio electronico esta movilizando muchas operacioneslas cuales provocan colecciones de datos en cantidades astronomicas. El volu-men de datos en el comercio electronico se incrementa por causa del caracterdistribuido que tiene su entorno: Internet. La necesidad de analizar tales can-tidades de datos necesita arte y ciencia, sin dejar de lado, las matematicas y laintuicion [14] [13].

1.3 ¿Que es la Minerıa de Datos?

1.3.1 Minerıa de Datos como Proceso Dual

Segun algunos autores [27][30], la Minerıa de Datos (MDs) como analisis de in-formacion solo es un paso en todo el proceso de descubrimiento de conocimiento.

La MDs como parte del proceso de descubrimiento de conocimiento ycomo la aplicacion de los algoritmos para obtener patrones proclives a sertraducidos en conocimiento, elementalmente busca predecir y describir. Laprediccion involucra el uso de algunas variables o atributos en la base dedatos para predecir otras variables de interes o caracterısticas desconocidas.La descripcion se enfoca en buscar patrones humanamente interpretables quedivulguen a los datos. En este entendido, la MDs puede entenderse como unproceso dual de sıntesis (prediccion) y analisis (descripcion) sobre los datos. Enla Fig. 1.3 se muestra a la MDs que sintetiza o generaliza conocimiento a partirde datos conocidos y/o analiza o explica algun conocimiento de alto nivel decaracter implıcito.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 35: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

1. Contexto de la Minerıa de Datos 7

Datos AnálisisSíntesis

Figura 1.3: La minerıa de datos como proceso dual entre analisis y sıntesis sobrelos datos.

1.3.2 Minerıa de Datos como Nucleo

Si resaltamos el caracter operacional de la MDs como un proceso que no soloes un paso dentro del proceso de descubrimiento de conocimiento, sino queinvolucra todos los pasos, entonces puede considerarse como un nucleo como seobserva en la Fig. 1.4 que estarıa basado en los siguientes aspectos:

• Su enfoque interdisciplinario.

• Su funcionalidad preprocesadora: operaciones estadısticas para eliminarcontingencias, ejemplificacion, reduccion de la dimension de los datos,complementacion de datos ausentes.

• Sus algoritmos predictivos y descriptivos.

• Su “facilidad” para proveer y mostrar lo interesante al usuario y presentarsolo las reglas de interes.

• Su “facilidad” para incorporar dominios de conocimiento dentro del pro-ceso de descubrimiento de conocimiento.

Considerando todos los componentes anteriores, la MDs como proceso dedescubrimiento de conocimiento se constituye en el nucleo fundamental dentrodel contexto de la ingenierıa del conocimiento.

1.3.3 Concepto de Minerıa de Datos

Mediando las visiones de las anterioes subsecciones se puede emitir un conceptode la MDs:

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 36: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

8 1.4. ¿Que no es la Minerıa de Datos?

AprendizajeAutomático Bases de

datos

Análisis deagrupamiento

Visualización

Estadística

MDs comoNúcleo

Figura 1.4: El proceso de minerıa de datos como nucleo para adquirir conoci-miento.

La Minerıa de Datos es el proceso de exploracion y analisis de grandescantidades de datos de forma automatica o semiautomatica para descubrir pa-trones y reglas y poder utilizarlos en la toma de decisiones.

Segun otros autores, la minerıa de datos es el proceso de obtener infor-macion valida, transformable y previamente desconocida a partir de grandesvolumenes de datos para poder utilizarla en la toma de decisiones cruciales[63].

1.4 ¿Que no es la Minerıa de Datos?

1.4.1 Sistemas de Ayuda a la Direccion

Los cuadros de mando y los sistemas de informacion se constituyen en herra-mientas que ayudan a la direccion o gestion de alguna empresa.

La informacion de gestion se compone de informacion y coeficientes deactividad, que los cuadros directivos de la empresa pueden consultar segunlas dimensiones de negocio que se definan. Dichas dimensiones de negocio seestructuran, a su vez, en distintos niveles de detalle (por ejemplo, la dimensiongeografica puede constar de los niveles nacional, regional, etc.). Este tipo desistemas existe desde hace tiempo, en el mundo de la informatica bajo distintas

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 37: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

Bibliografıa

[1] Aguilar, R. (1998). Sistema Cognitivo Artificial de Aprendizaje sinConocimiento Previo. Memoria del Trabajo de Grado en Informatica,Universidad Mayor de San Andres, La Paz, Bolivia.

[2] Aguilar, R. (2002). Pautas Para la Simbiosis: Minerıa de Datos y LogicaBorrosa. XI Congreso Espanol sobre Tecnologıas y Logica Fuzzy. Univer-sidad de Leon. ESTYLF 2002.

[3] Aguilar, R. (2001). Reconocimiento Optico de Dıgitos Escritos a Mano.Informe del Trabajo del Curso de Minerıa de Datos. Departamento deInformatica y Automatica. Universidad de Salamanca.

[4] Aguilar, R., Banados H., Cuarite, R., Reynaga, R. (2001). Re-conocimiento de Patrones a Partir de Imagenes Aereas. Reconocimientode Patrones con Redes Neuronales. (Ed: Alonso, L.), Universidad de Sala-manca.

[5] Aguilar, R. (2001). Evolutionary Algorithms in the Learning of Artifi-cial Neural Networks. Artificial Neural Networks in Pattern Recognition.(Eds: Corchado, J.M., Alonso, L., Fyfe, C.), University of Paisley. SOCO2001.

[6] Aguilar, R. (1999). Red Neuronal de Topologıa Flexible. Revista deModelado y Simulacion. (Eds: Aguilar, R., et.al.) Escuela de Modelado ySimulacion.

[7] Aguilar-Ruiz, J.S., Ramos, I., Riquelme, J.C., Toro, M. (2001).An Evolutionary Approach to Estimating Software Development Projects.Information and Software Technology. Elsevier Press.

259

Page 38: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

260 BIBLIOGRAFIA

[8] Alonso, R. (2000). Diseno de Sistemas Borrosos. Curso de Doctoradoen Informatica y Automatica, Universidad de Salamanca.

[9] Alonso, L., Calonge, T. (2001). Redes Neuronales y Reconocimientode Patrones. Reconocimiento de Patrones con Redes Neuronales. (Ed:Alonso, L.), Universidad de Salamanca.

[10] Altshuler, D., et.al. (2000). An SNP map of the human genome gen-erated by reduced representation shotgun sequencing. Nature 407.

[11] von der Becke, C. (2002). Glosario de Inteligencia Artificial.

[12] Borrajo, M.L., Yanez, J.C., Jacome, M.A. (2001). Knowledge Man-agement Systems. Knowledge Management. (Eds: Joyanes, L., Fyfe, C.,Alonso, L., Corhado, J.M.), University of Paisley, U.K. SOCO 2001.

[13] Berry, M., Linoff, G. (1997). Data Mining Techniques: For Market-ing, Sales, and Customer Support. John Wiley & Sons.

[14] Berry, M., Linoff, G. (1999). Mastering Data Mining: The Art andScience of Customer Relationship Management. John Wiley & Sons.

[15] Breiman, L., et.al. (1984). Classification and Regression Trees.Wadsword & Brooks. CA.

[16] Brin, S., et.al. (1997). Beyond Market Baskets: Generalizing Associa-tion Rules to Correlations. SIGMOD, ACM.

[17] Calonge, T., et.al. (2001). Estimation of the Ophthalmic Revision Pe-riod for Diabetic Patients using Neural Networks. Artificial Neural Net-works in Pattern Recognition. (Eds: Corchado, J.M., Alonso, L., Fyfe,C.), University of Paisley. SOCO 2001.

[18] Carvajal, H. (1997). Inteligencia de Negocio: Un Nuevo Marco deAnalisis. Primer Encuentro Nacional de Computacion. Universidad deQueretaro, Mexico.

[19] Castillo, E., et.al. (1999). Introduccion a las Redes Funcionales conAplicaciones. Un Nuevo Paradigma Neuronal. Paraninfo, Espana.

[20] Crawford, J., Crawford, F. (1996). Data Mining in a Scientific En-vironment. Information Management. ANSTO. Australia.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 39: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

BIBLIOGRAFIA 261

[21] Darwin, C. (1959). El Origen de las Especies por medio de la SeleccionNatural. Murray, Londres, Inglaterra.

[22] Davis, L. (1991). Handbook of Genetic Algorithms. Van Nostrand Rein-hold, New York, E.U.A.

[23] Decker, K., Focardi, S. (1995). A Report on Data Mining. SwissScientific Computing Center.

[24] Dıaz, F., Fdez-Riverola, F., Corchado, J.M. (2001). InferingBayesian Models Using Rough Set. Artificial Neural Networks in Pat-tern Recognition. (Eds: Corchado, J.M., Alonso, L., Fyfe, C.), Universityof Paisley. SOCO 2001.

[25] Dzeroski, S., et.al. (2001). Relational Reinforcement Learning. Ma-chine Learning. Kluwer Academic Publisher.

[26] Estivill, V. (1997). Minerıa de Datos. NewsLetter del Laboratorio Na-cional de Informatica Avanzada, Mexico. Vol. 21-22.

[27] Fayyad, U., et.al. (1996). From Data Mining to Knowledge Discovery:An Overview. Knowledge Discovery in Databases. MIT Press.

[28] Fayyad, U., et.al. (2000). Data Minig and its Role in Database Sys-tems. Tutorial. Proceedings of the 26th International Conference on VeryLarge Databases. Cairo, Egypt.

[29] Fdez-Riverola, F., Corchado, J.M. (2002). FSfRT: Forecasting Sys-tem for Red Tides. Kluwer Academic Publishers.

[30] Frawley, W., et.al. (1991). Knowledge Discovery in Databases: AnOverview. Knowledge Discovery in Databases. MIT Press.

[31] Golberg, D. (1989). Genetic Algorithms in Search, Optimization andMachine Learning. Addison-Wesley, MA. E.U.A.

[32] Gonzato, G. (2001). LATEX for Word Processor Users. DepartamentoCientıfico y Tecnologico. Universidad de Verona. Italia.

[33] Han, J., Kamber, M. (2000). Data Mining: Concepts and Techniques.Morgan Kaufmann Publishers.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 40: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

262 BIBLIOGRAFIA

[34] Heckerman, D. (1995). A Tutorial on Learning with Bayesian Networks.Technical Report. Microsoft Research.

[35] Heckerman, D., et.al. (2000). Dependency Networks for Inference.Collaborative, Filtering and Data Visualization. Technical Report. Mi-crosoft Research.

[36] Heckerman, D., et.al. (1999). A Bayesian Approach to Causal Discov-ery. Computation, Causation, and Discovery (Eds: Glymour, C., et.al.)MIT Press.

[37] Higuchi, T., et.al. (1997). Evolvable Hardware. MIT Press. Electrotec-nical Laboratory, Japan. Erasmus University, Rotterdam.

[38] Holland, J. (1975). Adaptation in Natural and Artificial Systems. Uni-versity of Michigan Press, Ann Arbor.

[39] Hopgood, A. (1999). Intelligent Systems for Engineers and Scientists.Second Edition. CRC Press, U.S.A.

[40] International Human Genome Sequencing Consortium. (2001).Initial Sequencing and Analysis of the Human Genome. Nature 409.

[41] Japkowics, N. (2001). Supervised versus Unsupervised Binary-Learningby Feedforward Neural Networks. Machine Learning. Kluwer AcademicPublisher.

[42] Jordan, M., Bishop, C. (1996). Neural Networks. Memory of ArtificialIntelligence Laboratory. MIT.

[43] Joyanes, L., Fyfe, C., Alonso, L., Corchado, J.M. (2001). Knowl-edge Management. University of Paisley. SOCO 2001.

[44] Kohavi, R., Provost, F. (2001). Aplications of Data Mining to Elec-tronic Commerce. Data Mining and Knowledge Discovery. Kluwer Aca-demic Publisher. Boston, E.U.A.

[45] Kohonen, T. (1995). Self-Organizing Maps. Springer-Verlag.

[46] Koza, J. (1992). Genetic Programing: On the Programming of Comput-ers by Means of Natural Selection, MIT Press, Massachusetts, E.U.A.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 41: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

BIBLIOGRAFIA 263

[47] Lawrence, R., et.al. (2000). Personalization of Supermarket ProductRecommendations. IBM Research Report in Computer Science.

[48] Lee, J., Podlaseck, M. (2001). Visualization and Analysis of Click-stream Data of Online Stores for Understading Web Merchandising. IBMT.J. Watson Research Center.

[49] Lopez de Mantaras, R. (1991). A Distance-Based Attribute SelectionMeasure for Decision Tree Induction. Machine Learning. Vol 6. KluwerAcademic Publishers.

[50] Lupe, A. (1997). Metodos Adaptativos de la Defensa Perimetral, Sis-temas Clasificadores de Aprendizaje. Memoria del Trabajo de Grado enInformatica, Universidad Mayor de San Andres, La Paz, Bolivia.

[51] Markovitch, S., Rosenstein, D. (2002). Feature Generation UsingGeneral Constructor Functions. Machine Learning. Kluwer AcademicPublisher.

[52] Martın, F., Ibarrola, N., Lopez, G. (2000). Minerıa, Visualizaciony Descubrimiento de Conocimiento en Bases de Datos. Unidad de Bioin-formatica, Instituto de Salud Carlos III, Espana.

[53] Maxwell, D., Heckerman, D. (1999). Fast Learning from SparseData. Microsoft Research.

[54] Meila, M., Heckerman, D. (2001). An Experimental Comparison ofModel-Based Clustering Methods. Machine Learning. Kluwer AcademicPublisher.

[55] Mendonca, M., Sunderhaft, N. (1999). Mining Software EngineeringData: a Survey. Data & Analysis Center for Software. Department ofDefense, U.S.A.

[56] Michalewicz, Z. (1992). Genetic Algorithms + Data Structures = Evo-lution Programs. Springer-Verlag, Heidelberg.

[57] Michalski, R. (2000). Learnable Evolution Model: Evolutionary Pro-cesses Guided by Machine Learning. Machine Learning. Kluwer AcademicPublisher.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 42: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

264 BIBLIOGRAFIA

[58] Michie, D., et.al. (1994). Machine Learning, Neural and StatisticalClassification. Cambridge University Press.

[59] Miguel, L. (2000). Algoritmos Geneticos. Curso de Doctorado en In-formatica y Automatica, Departamento de Informatica y Automatica,Universidad de Salamanca.

[60] Mitchell, T. (1997). Machine Learning. McGraw Hill.

[61] Morales, E. (1999). Descubrimiento de Conocimiento en Bases deDatos. Instituto Tecnologico y de Estudios Superiores de Monterrey,Mexico.

[62] Moreno, A., et.al. (1994). Aprendizaje Automatico. (Ed: UPC).

[63] Moreno, M.N., Miguel, L.A., Garcıa, F.J., Polo, M.J. (2001).Aplicacion de Tecnicas de Minerıa de Datos en la Construccion y Valida-cion de Modelos Predictivos y Asociativos a partir de las Especificacionesde Requisitos de Software. Seminario “Apoyo a la Decision en Ingenierıadel Software”, Almagro (Ciudad Real), Espana.

[64] Moreno, M.N. (2000). Minerıa de Datos. Curso de Doctorado en In-formatica y Automatica, Departamento de Informatica y Automatica,Universidad de Salamanca.

[65] Morik, K., Brockhausen, P. (1997). A Multistrategy Approach toRelational Knowledge Discovery in Databases. Machine Learning. KluwerAcademic Publisher.

[66] Mullikin, J.C., et.al. (2000). An SNP Map of Human Chromosome22. Nature 407.

[67] Nature. (2000). Human Genome Projects: work in progress. Nature 405.

[68] Nature. (2000). The Story so far... A diary of the sequencing of thehuman genome. Nature 405.

[69] Netz, A., et.al. (2001). Integrating Data Mining with SQL Databases:OLE DB for Data Mining. Microsoft Corporation.

[70] Nilsson, N. (1996). Introduction to Machine Learning. Stanford Univer-sity Press.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 43: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

BIBLIOGRAFIA 265

[71] Nilsson, N. (2000). Inteligencia Artificial. Una Nueva Sıntesis. McGrawHill.

[72] Pressman, R.S. (1992). Software Engineering: A Practitioner’s Ap-proach. 3ra. Edition. McGraw Hill.

[73] Quinlan, J.R. (1986). Induction of Decision Trees. Machine Learning.Kluwer Academic Publishers.

[74] Quinlan, J.R. (1993). C4.5: Programs for Machine Learning. San Fran-cisco: Morgan Kauffman Publishers.

[75] Reeves, C. (1993). Modern Heuristic Techniques for CombinatorialProblems. Blackwell Scientific Publications.

[76] Rıus, F., Baron, F.J., Sanchez, E., Parras, L. (1995). Bioes-tadıstica: Metodos y Aplicaciones. SPICUM. Universidad de Malaga.

[77] Rosemblatt, F. (1958). Principles of Neurodynamics. Washington DC.Spartan Books.

[78] SDG Computing Inc. (2002). The Business Intelligence and DataWarehousing Glossary.

[79] Ruiz, M., Ramos, I. (2001). Estimacion del Coste de la Calidad delSoftware a traves del Proceso de Desarrollo. Revista Colombiana de Com-putacion. Vol 2, Nro 1.

[80] ben Schafer, J., et.al. (2001). E-commerce Recomendation Aplica-tion. Group Lens Research Projects, Departament of Computer Scienceand Engineering, University of Minesota. E.U.A.

[81] Schlimmer, J.C., Fisher, D. (1986). A Case Study of Incremental Con-cept Induction. Proceedings of the Fifth National Conference on ArtificialIntelligence, Morgan Kaufmann.

[82] Shannon, C. (1948). A Mathematical Theory of Communication. TheBell System Technical Journal. Vol. 27, E.U.A.

[83] Silicon Graphics Inc. (2000). MineSet Enterprise Edition, ReferenceGuide.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 44: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

266 BIBLIOGRAFIA

[84] Simoudis, E. (1995). Reality Check for Data Mining. IBM Almaden Re-search Centre.

[85] Smola, A., et.al. (1996). Regression Estimation with Support VectorLearning Machines. ARPA Project.

[86] Thealing, K. (2002). A Data Mining and CRM Glossary.

[87] Utgoff, P. (1988). ID5: An Incremental ID3. Proceedings of the FifthInternational Conference on Machine Learning. (Ed: Laird, J.) Ann Ar-bor, Michigan, USA, June 12-14, Morgan Kaufmann.

[88] Venter, C., et.al. (2001). The Sequence of the Human Genome. Sci-ence 291.

[89] Viademonte, S., Burstein, F. (2001). An Approach to Knowledge dis-covery in the Context of Intelligent Decision Support Perspective. Knowl-edge Management. (Eds: Joyanes, L., Fyfe, C., Alonso, L., Corchado,J.M.), University of Paisley, U.K. SOCO 2001.

[90] Wallis, S., Nelson, G. (2001). Knowledge Discovery in Grammati-cally Analysed Corpora. Data Mining and Knowledge Discovery. KluwerAcademic Publisher.

[91] Werbos, P. (1974). Beyond Regression: New Tools for Predictions andAnalysis in the Behavioral Sciences. Ph. D. Thesis, Harvard University.

[92] Widrow, B., Lehr, M.A. (1990). 30 Year of Adaptive Neural Networks:Perceptron, Madaline, and Backpropagation. Proceedings of the IEEE inNeural Networks, Vol 78, Nro 9, pages 1415-1442.

[93] Widrow, B. (1962). Generalization and Information Storage in Networksof Adaline Neurons. Self-Organizing Systems. (Eds: de Yovitz, M., et.al.).Spartan Books, USA.

[94] Westerdiejk, M, et.al. (2000). Deterministic Generative Models forFast Feature Discovery. Data Mining and Knowledge Discovery. KluwerAcademic Publisher.

[95] Zadeh, L.A. (1965). Fuzzy Sets. Information and Control. Vol 8.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 45: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

Apendice A

Teminologıa del AprendizajeAutomatico

Sistemas de Descubrimiento

Autonomıa. Magnitud en la que un sistema de descubrimiento evaluasus decisiones y produce nuevo conocimiento de forma automatica sin inter-vencion externa.

Conocimiento. Proceso de Descubrimiento de Conocimiento. Procesoque busca nuevo conocimiento sobre un dominio de aplicacion. Para muchoses el camino del descubrimiento, cada uno puede realizar el descubrimientoparticular mediante la aplicacion de un metodo de descubrimiento. El procesodel descubrimiento actua recıpra y repetidamente sobre un dominio dado yusa busqueda en varios espacios de busqueda. A partir de los datos y/o deconocimiento viejo, se infiere conocimiento nuevo. El conocimiento nuevo esreconocido por un sistema de descubrimiento a traves de un criterio autonomode evaluacion.

Descubrimiento Automatico. Metodos y sistemas para desarrollarprocesos de descubrimiento de conocimiento. Aunque los metodos y proce-sos de descubrimiento comparten bases comunes, existen diferencias suficientespara distinguir descubrimiento de conocimiento en bases de datos, descubri-miento cientıfico automatizado, descubrimiento automatizado en matematica ydescubrimiento de robots inteligentes autonomos.

Descubrimiento Cientıfico Automatico (DCA). Tratamiento au-tomatizado de descubrimiento de conocimiento analogo a aquel usado por los

267

Page 46: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

268

cientıficos. A diferencia del DCBD, un proceso de DCA puede buscar datos adi-cionales para mejorar la calidad y extender el alcance del nuevo conocimientogenerado. el DCA se aplica principalmente en Ciencias Naturales (Astronomıa,Biologıa, Quımica, Fısica, etc.).

Descubrimiento de Conocimiento en Bases de Datos (DCBD).Lo concerniente al proceso de descubrimiento de conocimiento aplicados a lasbases de datos. El DCBD organiza los datos disponibles en todos los dominiosde la ciencia y en dominios de aplicacion del mercadeo, planificacion, control,etc. Tıpicamente, el DCBS trabaja con datos inconclusos, datos con ruido eincompletos.

Eficacia. Esfuerzo computacional por lograr una tarea dada de des-cubrimiento. Expresado como una funcion de complejidad de las entradas y eltamano del espacio de busqueda.

Exactitud. Grado de contundencia entre las tareas de descubrimientoy los datos. La exactitud se aplica a los datos existentes y a las prediccionessobre nuevos datos.

Metodo de descubrimiento. Es un algoritmo disenado para lograr unatarea del descubrimiento. Un metodo de descubrimiento puede ser la recons-truccion de una actividad humana para adquirir nuevo conocimiento. El des-cubrimiento automatico adapta metodos de Aprendizaje Automatico (definicionde nuevos conceptos, formacion taxonomica, agrupamiento conceptual, apren-dizaje a partir de ejemplos), Estadısticas (descubrimiento de patrones, evalua-cion de patrones, clasificacion y regresion, validacion cruzada), AdministracionInteligente de Bases de Datos, Visualizacion y Sistemas de Informacion Ge-ograficos (graficos interactivos, presentacion de conocimiento).

Paso del descubrimiento. Es una parte del proceso de descubrimien-to. El proceso del descubrimiento puede acarrear pasos de descubrimientosextensos y no llegar directamente a un nuevo conocimiento. Un paso concretode descubrimiento es una aplicacion de un metodo especıfico de descubrimiento.

Sistema de Descubrimiento. Software (y posiblemente, tambien, elsistema hardware) que realiza autonomamente o apoya a un usuario en el pro-ceso de descubrimiento de conocimiento.

Tarea de descubrimiento. Requerimiento para un componente es-pecıfico de conocimiento nuevo. Son ejemplos de tareas busqueda de regulari-dades, generalizacion de regularidades y combinacion teorica de regularidades.Cada tarea de descubrimiento se caracterizada por el espacio de busqueda ex-plorado y no se sabe de antemano la forma especıfica del nuevo conocimiento o

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 47: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

A. Teminologıa del Aprendizaje Automatico 269

incluso si se descubrira conocimiento dados unos datos de entrada.Versatilidad. Variedad de dominios de aplicacion a los que un sistema

de descubrimiento puede aplicarse y, variedad de metodos de descubrimientoque puede usar.

Entorno

Atributo (campo, variable, caracterıstica, propiedad, magni-tud). Caracterıstica particular de los objetos o de una clase de objeto. Esun mapeo de los objetos hacia valores de un tipo dado combinado con las ope-raciones de magnitud y las relaciones entre objetos.

Atributo de Valor Continuo. Atributo de dominio que es subconjuntode los numeros reales.

Atributo de Valor Discreto. Atributo que tiene un conjunto finito devalores o los valores pueden mapearse a partir del conjunto de enteros.

Atributo de Valor en Intervalo. Atributo donde las distancias pro-porcionales entre pares de valores tienen significado empırico. El cero y launidad son los valores mas tıpicos. Ejemplos de tales atributos son tiempo ytemperatura. Las ecuaciones tienen sentido para los atributos de intervalo.

Atributo de Valor Nominal. Atributo para el que ninguna relaciontiene valores diferentes. Los valores son etiquetas categoricas de objetos.

Atributo de Valor Ordinal. Atributo con dominio de orden empırica-mente significante.

Atributo de Valor Proporcional. Atributo para el cual, el valor deproporcion tiene significado empırico. La unidad es convencional. Las opera-ciones aritmeticas de suma y multiplicacion y la clasificacion de valores tienensignificado empırico. Ejemplos de tales atributos son masa y precio.

Distribucion Conjunta. Describe la probabilidad de aparicion de cadacombinacion de valores de los atributos en el dominio aplicacion (poblacion).Para atributos discretos, se trata de una distribucion discreta.

Dominio de Aplicacion. Sistema real o abstracto que existe y es inde-pendiente del sistema de descubrimiento. Un dominio de aplicacion consiste enobjetos que pueden pertenecer a una o varias clases y juntos forman el conjuntollamado universo, donde estan especificados los atributos y las relaciones de losobjetos. Los dominios de aplicacion se limitan a los subconjuntos del conjuntode todos los objetos existentes, ası como a los subconjuntos de los atributos ylas relaciones.

Dominio del Atributo. Conjunto de posibles valores de un atributo.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 48: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

270

Metrica. Distancia que satisface los axiomas de los espacios metricosy puede definirse entre los valores de atributo simples, de intervalos, propor-cionales (por ejemplo, la distancia Euclideana, la distancia de Manhattan o dis-tancia Mahalanobis entre vectores de valores) o pares de atributos Booleanos(por ejemplo, el numero de objetos en los que dos atributos difieren o distanciade Hamming).

Objeto (entidad, evento, unidad, caso). Miembro o parte separadade un dominio de aplicacion. Los objetos pertenecen a clases de objetos simi-lares como personas, transacciones, situaciones, eventos y procesos. Los objetosson caracterizados por atributos y relaciones hacia otros objetos. Se denominantambien ejemplos.

Relacion. Conjunto de tuplas de objetos (pares, etc.) que tienen signifi-cado especıfico, por ejemplo “a esta casado con b” (para objetos persona a y b,“a tiene b productos en el tiempo t” (para el objeto cliente a, objeto comprab, y objeto tiempo t). En dominios de aplicacion experimentales, las relaciones“a es mas pesado que b” se verifican empıricamente pesando los objetos.

Tipo de Atributo. Caracteriza el tipo de valores del dominio del a-tributo ası como los valores de las operaciones y relaciones de los objetos. Unatributo puede ser nominal, ordinal, intervalo, continuo, etc. Los valores de lostipos pueden ser simples (nombres o numeros, uno por cada objeto) o puedentener una estructura compleja como una serie de tiempo o una imagen querepresenta a una persona o una situacion en una aplicacion multimedia decomunicacion.

Universo. Conjunto de todos los objetos en el dominio de aplicacion oen el modelo del dominio.

Conocimiento

Conocimiento de Dominio. Verificacion empırica o informacion es-pecıfica probada respecto del dominio de aplicacion y no respecto de los datos.Las formas tıpicas son los diccionarios de datos de conocimiento, los conjuntosde formulas contingentes en logica de primer orden, los sistemas de ecuaciones,las taxonomıas, las distribuciones marginales y la distribucion conjunta.

Conocimiento Nuevo. Informacion aumentada o refinada de los mode-los de dominio y/o de las teorıas de dominio. El conocimiento nuevo lo apreciael usuario y puede extenderse a traves del dominio de aplicacion. Para unsistema autonomo, el conocimiento nuevo sera nuevo solo para el sistema de

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 49: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

A. Teminologıa del Aprendizaje Automatico 271

descubrimiento.Modelo de Dominio. Representacion de un dominio de aplicacion.

Subconjuntos de objetos, atributos y relaciones en el dominio de aplicacion. Elmodelo del dominio representa la perspectiva de un proceso de descubrimientoen el dominio de aplicacion. El conjunto de todos los objetos consideradospor el modelo de dominio forma el universo del modelo. Un modelo de dominiopuede incluir datos y conocimiento del dominio. El modelo del dominio inicial seelabora gradualmente en el curso del proceso de descubrimiento de conocimientopara lograr una teorıa de dominio.

Modelo de Dominio Probabilıstico. Suponiendo que los datos sonconsiderados a partir de una muestra reducida de la distribucion conjunta deluniverso. Un modelo de dominio probabilıstico tıpico se expresa en terminosde distribuciones marginales de la distribucion conjunta, por ejemplo, las redesBayesianas y el modelo lineal (generalizado).

Representacion del Conocimiento. Formalismo para expresar cono-cimiento y razonar con conocimiento sobre muchos dominios de aplicacion. Losparadigmas de representacion de conocimiento incluyen marcos, reglas de pro-duccion, redes semanticas, logica de primer orden, sistemas de ecuaciones, etc.Las estructuras de representacion de conocimiento usadas en sistemas de des-cubrimiento se expresan mediante modelos como los arboles, las reglas, lasecuaciones y las tablas de decision.

Taxonomıa. Sistema jerarquico de subconjuntos seleccionados de undominio de atributo, principalmente expresado como un arbol exhaustivo ydisjunto.

Teorıa de Dominio. Sistema entendible, organizado y consistente sobreel dominio de aplicacion. Algunas veces se necesita que, a diferencia de lashipotesis, las teorıas se verifiquen empıricamente. Algunas teorıas pueden serrepresentadas formalmente usando diferentes representaciones de conocimiento.

Datos

Atributo Virtual. Aquel cuyos valores computados resultan de losvalores de otros atributos, generados por un usuario o de forma autonoma. Porejemplo, la transformacion de fecha de nacimiento en edad, o el promedio devarios atributos numericos.

Conjunto de Ejemplos. Subconjunto de objetos de un dominio deaplicacion (poblacion) los cuales estan disponibles para procesos de busqueda.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 50: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

272

Deben darse y asumirse las propiedades probabilısticas del conjunto de ejem-plos, eso relaciona la muestra frente al universo completo del dominio, tambiense pueden definir pesos para los objetos indicando su representatividad.

Datos. Coleccion (moderada, con sentido, censada, observada, etc.) devalores de atributos y relaciones para los objetos en el dominio de aplicacion.Provenientes de los experimentos que incluyen resultados de manipulaciones(independientes o variables de control) y lecturas de sensores (variables depen-dientes). Los datos se estructuran en varios formatos, por ejemplo, en una omas matrices. Es importante la semantica de los datos para guiar el proceso dedescubrimiento, interpretar los resultados y para combinar los datos que vienende varias fuentes.

Datos con Ruido. Datos que contienen errores debido a la naturaleza,medida o sentido. Los valores imprecisos son caracterısticos de toda coleccion dedatos en el contexto de una distribucion estadıstica regular como la Gaussiana,mientras los valores malos pueden ser errores de entrada, tambien pueden sercausados por errores en el manejo de instrumentos, o causados por perturbacionexterna.

Datos Externos. Datos en almacenamiento permanente. A menudo, seguardan en un sistema de administracion de bases de datos.

Datos Fiables. Datos sin distorsiones o errores mayores. Los datosfiables son respetables cuando los mismos atributos son tratados por metodosdiferentes o cuando se usan conjuntos de muestras diferentes.

Datos Inaplicables. Valores perdidos que serıan logicamente imposiblesu obvios para algunos objetos como los valores “no-embarazada” y “prenatal”para el objeto “varon”. La informacion sobre este tipo especial de datos perdi-dos puede ser incluida en el conocimiento del dominio y puede tratarse de unamanera especial por metodos de descubrimiento.

Datos Inconclusos. Datos que no contienen algunos atributos quepueden ser esenciales para el conocimiento sobre algun dominio de aplicacion.Su ausencia puede hacer imposible descubrir conocimiento significante sobre undominio dado.

Datos Internos. Datos que residen en la memoria principal. Estosdatos son organizados tıpicamente en matrices de datos.

Datos Perdidos o Incompletos. Datos sin medir, sin contestacion osimplemente perdidos. Los metodos de descubrimiento varıan segun la maneraen que tratan a los valores perdidos. Por ejemplo, se desestiman estos valoreso se omiten los ficheros correspondientes.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 51: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

A. Teminologıa del Aprendizaje Automatico 273

Diccionario de Datos. Incluye informacion sobre tipos de atributos yotros aspectos respecto de su semantica, por ejemplo, el alcance de todos losvalores y el significado de los valores especiales.

Espacio de Eventos. Conjunto producto del dominio del atributo.Representa todos los datos que son logicamente posibles para los atributosdados.

Formato de los datos. Estructuras particulares para coleccionar datos.Matriz de Datos (tabla correlativa, conjunto de ejemplos). Con-

junto de datos para un conjunto particular de objetos y atributos, organizadossistematicamente en una matriz en la que cada fila representa los valores de losatributos de un objeto y cada columna representa los valores de un atributopor cada objeto.

Registro (tupla, ejemplo, caso). Coleccion de valores de atributosque representan a un objeto. El registro es una fila en una matriz de datos.

Semantica de los datos. Significado de datos en una base de datosrepresentado por el diccionario de datos. En el descubrimiento cientıfico au-tomatico, el significado de datos (objetos, atributos y relaciones) esta repre-sentado por procedimientos operacionales por los que (1) se reconocen objetos,(2) los manipuladores introducen valores deseados, y (3) los sensores adquierendatos.

Tipos de Datos (o tipo de complejidad de datos). Los datos puedenser caracterizados por su tipo de complejidad. Las dimensiones que determinanel tipo de complejidad incluyen el numero de clases del objeto y el tipo deatributos. Los tipos de datos tıpicos son rectangulares y multirelacionales.

Tipo de Datos Rectangular (tabla correlativa, matriz de datos).Tipos de datos para una clase de objetos y tipos de atributos simples. Porejemplo, una tabla o arreglo.

Tipo de Datos Multidimensional. Tipos de datos que caracterizandatos para varias clases de objetos con tipos del atributo simples. Las relacionesestaran disponibles conectando las clases de objetos.

Tipo de Datos en Serie de Tiempo. Tipos de datos donde un atributorepresenta instantes diferentes de tiempo; los registros son ordenados por losvalores de este atributo.

Tipo de Datos en Estructuras Complejas. Datos que no son rec-tangulares, multirelacionales, o en series de tiempo. Los datos de estructuracompleja son frecuentes en quımica, genetica, datos de imagen, texto y dominiosmultimedia.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 52: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

274

Conceptos, descripciones conceptuales

Concepto. Sımbolo que tiene un significado (interpretacion). El signifi-cado incluye extension e intension.

Espacio de Conceptos. Conjunto de todos los conceptos que puedenconstruirse en un lenguaje de conceptos con una estructura en el conjunto. Elnumero de conceptos en el espacio de conceptos puede ser finito, pero a menudoes ilimitado (infinito).

Extension de un Concepto. Conjunto de objetos que se refieren alconcepto. La extension puede limitarse a un dominio de aplicacion dado. Laextension de un atributo es una particion de todos los objetos en las clasesequivalentes, una clase por cada valor del atributo.

Grupo. Conjunto de objetos clasificados debido a su similitud o proximi-dad. Los objetos se descomponen en un conjunto exhaustivo y/o mutuamenteexclusivo de grupos.

Hipotesis. Declaracion o instancia de un patron interpretado que satis-face un rango particular de objetos en un dominio de aplicacion. Durante laevaluacion o prueba, una hipotesis se prueba contra los datos y/o conocimientodel dominio.

Hipotesis completa. Hipotesis que cubre todos los ejemplos positivos.Hipotesis correcta. Hipotesis que no cubre a ninguno de los ejemplos

negativos.Lenguaje de Conceptos. Lenguaje usado para construir conceptos,

por ejemplo, los lenguajes de primer orden y los lenguajes proposicionales.Proposito de un Concepto. Conjunto de propiedades que cumplen

todos los objetos en la extension.Red de Conceptos. Espacios de conceptos parcialmente ordenados de

extensiones e intensiones.

Lenguajes, Espacio de hipotesis

Espacio de Hipotesis. Conjunto de todas las posibles hipotesis dentrodel lenguaje de hipotesis.

Espacio de Hipotesis Completo. Conjunto de hipotesis que contienea todos los arboles de decision con todas las combinaciones posibles de losvalores discretos de los atributos.

Espacio de Versiones. Conjunto de hipotesis que tienen una respuestacorrecta. El espacio de versiones inicial tiene que representar a todas las

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 53: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

A. Teminologıa del Aprendizaje Automatico 275

hipotesis.Lenguaje. Compuesto de terminos (formulas para nombrar objetos)

y formulas (formulas y proverbios para describir situaciones) para describirsituaciones de un dominio de aplicacion particular.

Lenguaje de Hipotesis. Formalismo y semantica para representardeclaraciones candidatas como conocimiento sobre un dominio de aplicacion.

Lenguaje de Primer Orden. Uso de algun subconjunto de logicade predicados o funciones de Horn para representar conceptos, reglas y otrasformas de conocimiento.

Lenguaje Formal. Es un lenguaje compuesto de tres componentes prin-cipales: una sintaxis, que define la notacion especıfica con la que se representala especificacion; una semantica, que ayuda a definir un universo de objetosque se usaran para describir el sistema, y por ultimo, un conjunto de rela-ciones que definen las reglas que indican que objetos satisfacen adecuadamentela especificacion.

Lenguajes Proposicionales. Conjunto de declaraciones primitivas yconectivos logicos. Las declaraciones primitivas llamadas selectores pueden sercondiciones para los valores de los atributos.

Semantica de Lenguaje (interpretacion). Significando de los con-ceptos y declaraciones de un lenguaje. La interpretacion se asigna a cadatermino primitivo y entonces se propaga a todos los terminos complejos y atodas las declaraciones.

Modelos y regularidades

Arbol. Particion de un universo o conjunto ejemplo en un orden jerarqui-camente ordenado de conceptos. Cada concepto en un nivel jerarquico se dividerecursivamente en subconceptos proximos que bajan de nivel jerarquico. Losconceptos en cada nivel jerarquico son disjuntos y colectivamente exhaustivos yla descripcion de los subconceptos en el proximo nivel (lenguaje de conceptos)incluye un termino conjuntivo extenso construido con un atributo extenso. Lostipos principales de esta clase de modelos son los arboles de decision y losarboles de regresion.

Arbol de induccion. Arbol que representa un conjunto de reglas declasificacion para las clases de concepto. Cada declaracion de un arbol de clasi-ficacion se asocia a una clase de concepto, donde la descripcion de la declaracionconstituye una condicion suficiente para la clase de concepto.

Arbol de Regresion. Arbol que representa un conjunto de conceptos

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 54: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

276

homogeneos. Un concepto (nodo) en este arbol es homogeneo si es un atributocontinuo, es decir, la variacion de este atributo en el concepto es mınima.

Argumentos del Patron (parametros). Variables independientes endeclaraciones genericas del patron.

Dependencia Funcional. Relacion entre un atributo dependiente yalgunos atributos independientes, siempre que para cada par de objetos convalores iguales de los atributos independientes los valores del atributo depen-diente sean tambien iguales. Sin embargo, la dependencia funcional aproximadapermite algunas excepciones (debido al ruido).

Deteccion de Objetivos (extraccion de objetivos). Directivas ge-nerales para la extraccion especıfica de patrones por el usuario de un sistemade descubrimiento durante el proceso de descubrimiento.

Deteccion de Patrones (extraccion). Proceso de instanciacion yevaluacion de patrones para formar un conjunto de datos particular.

Ecuacion. Modelo que relaciona un atributo dependiente a los atributosindependientes en la forma de una ecuacion funcional matematica.

Instancia de Patron. Valores de un patron reemplazando variableslibres con constantes y/o enlazando variables libres con cuantificadores.

Lenguaje de Patron. Formalismo para transmitir conocimiento nuevoen un dominio de aplicacion. El tipo de sentencias construido en lenguajeidentico depende del tipo de patron y varıa de las sentencias parecidas allenguaje natural como las reglas o las declaraciones mas abstractas, como losarboles o incluso las declaraciones graficas de un lenguaje grafico. Un compo-nente importante de un lenguaje patron es el lenguaje de conceptos usado paraconstruir conceptos dentro de los modelos.

Metodo de Extraccion de Relaciones Funcionales. Algoritmo paradescubrir la existencia y/o ecuacion de una relacion funcional.

Modelo. Interpretacion de un dominio de aplicacion.Patrones Elementales. Patrones univariados que no involucran una

busqueda compleja y pueden descubrirse en las filas o las columnas de tablasmultidimensionales por metodos simples como monotonicidad, convexidad, con-cavidad, maximos, mınimos, discontinuidades y otros.

Patron Logico Numerico. Incluyen el arbol de subclases, las reglas,las relaciones funcionales, los patrones logicos y otros.

Rango. Subconjunto de objetos. Definidos por una condicion logica enalgunos atributos y sus valores (lenguaje de conceptos). Se usa para restringirel alcance de un modelo a un subconjunto de objetos.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 55: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

A. Teminologıa del Aprendizaje Automatico 277

Regularidad. Declaracion de la forma “P contiene R” que se interpretaen el dominio de aplicacion. P es una instancia patron, R describe el rango delpatron, y la declaracion es verdadera en el dominio de aplicacion. Una hipotesisalcanza el estado de regularidad despues de que se ha probado con los datospertinentes y los valores de utilidad, exactitud e importancia estan sobre losumbrales de aceptacion.

Representacion de Patrones. Representacion de un patron en unsistema de descubrimiento. Los componentes principales de la representacionse refieren a la extraccion, evaluacion y presentacion de especificaciones de lospatrones, ası como de sus argumentos.

Regla. Sentencia del tipo: si LHS (antecedente) entonces RHS (conse-cuente). En todas las situaciones donde la parte izquierda LHS de la regla esverdad, la parte derecha RHS tambien es verdad o muy probable.

Regla Caracterıstica. Objetos que pertenecen al concepto nombradoen LHS y contienen propiedades nombradas en RHS.

Regla de Clasificacion. LHS es una condicion suficiente para clasificarobjetos como pertenecientes al concepto situado en RHS.

Regla de primer orden. Regla basada en lenguaje de concepto deprimer orden.

Regla Exacta. No permite ninguna excepcion. Cada objeto del con-cepto en LHS de una regla tambien debe ser un elemento del concepto en RHS.

Regla Fuerte. Permite algunas excepciones. El numero de excepcionesno puede exceder un lımite dado expresado principalmente como porcentaje.

Relacion Funcional. Modelo que relaciona un atributo dependiente conuno o varios atributos independientes. Por ejemplo, la dependencia funcional ylas ecuaciones.

Regla Probabilıstica. Relaciona la probabilidad condicional denotadapor P (RHS|LHS) a la probabilidad P (RHS).

Regla Proposicional. Regla basada en un lenguaje de concepto proposi-cional.

Tipos de Patrones. Caracterısticas de los patrones.

Busqueda

Busqueda. Operacion central para la extraccion de modelos o patrones.Normalmente, la busqueda se realiza en un espacio de busqueda aprovechandoalguna estructura existente en este espacio. Las diferentes estrategias de bus-queda pueden ser aplicadas por metodos de extraccion de patrones para generar

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 56: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

278

y procesar el espacio de busqueda. La busqueda puede situarse en algunas fasesde la investigacion.

Busqueda Exhaustiva. Proceso que evalua todos los nodos de un espa-cio de busqueda omitiendo los nodos que no pueden excluirse como interesantes.La busqueda exhaustiva asegura una solucion optima, pero a menudo no es realdebido a que no considera el tiempo.

Busqueda Heurıstica. Estrategia de busqueda aplicada para generary/o procesar solo una parte de un espacio de busqueda total que incluye to-das las posibles instancias patron o componentes de las instancias patron. Elcriterio heurıstico determina que partes deben ser incluidas en la busqueda.La busqueda heurıstica tıpica genera una solucion satisfactoria, pero no unasolucion optima. A menudo los espacios de busqueda son enormes y la busquedaheurıstica puede producir una solucion en tiempo razonable.

Busqueda Optima en un paso. Estrategia de busqueda heurısticaque se realiza de forma recursiva. En cada paso, se determina un nodo queperfecciona un criterio local dado.

Concepto de Dispositivo de Busqueda. Organiza el bucle mayor dela busqueda alrededor de la estructura del espacio de busqueda (por ejemplo,la clasificacion previa). Cuando un nodo del espacio de busqueda se procesa,se accede al subconjunto asociado de datos. Si estos accesos se realizan al azarhacia los datos externos, la eficacia de tiempo de descubrimiento puede ser unproblema.

Descubrimiento. Hallazgo, encuentro o manifestacion de los que estabaoculto o era desconocido.

Dispositivos de Busqueda de Datos. Organiza el bucle mayor debusqueda sobre los archivos de datos. Cada registro se accede secuencialmentey se asocia a un nodo en el espacio de busqueda. Los dispositivos de busquedade datos minimizan el acceso a los datos y producen un descubrimiento eficazy oportuno.

Espacio de Busqueda. Es el espacio uni o multidimensional con unaclasificacion parcial. Los elementos (nodos) de un espacio de busqueda puedencorresponder a las instancias del modelo (por ejemplo, las reglas) o a los com-ponentes de las instancias del modelo (por ejemplo, los conjuntos dentro de unaregla o la regla dentro de un sistema de reglas, el nodo de un arbol, o alguntermino de una ecuacion).

Estrategias de Busqueda. Aproximaciones generales para construir yprocesar espacios de busqueda. Las estrategias principales incluyen busqueda

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 57: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

A. Teminologıa del Aprendizaje Automatico 279

heurıstica, busqueda exhaustiva, busqueda a partir de los datos y busqueda deconceptos.

Exploracion del Dominio. Es una tarea mayor de descubrimiento.Poda. Las podas investigan espacios. Esto puede hacerse durante o

despues (postpruning) de la busqueda. Por ejemplo, se puede podar un arbol,para eliminar sobre-especializaciones.

Refinamiento de Busqueda. Filtrado de los resultados de una fase debusqueda anterior. Por ejemplo, pueden aumentarse pistas a la busqueda parainvestigar en el vecindario de un nodo previamente identificado. Otra tecnicade refinamiento es la poda.

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 58: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

280

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 59: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

Indice Tematico

χ-cuadrado, 42, 43, 158

ADN, 235agente autonomo, 197

embebido, 197situado, 197

agente autonomo robotico, 195agrupamiento, 14, 44, 126

algoritmo, 136agrupamiento en lınea, 143algoritmo C4.5, 105, 107algoritmo C4.5 Oblicuo, 108algoritmo de aprendizaje

red neuronal, 122algoritmo evolutivo, 179, 197algoritmo genetico, 124, 180

adaptacion, 181criterio de parada, 185cruzamiento, 187cruzamiento uniforme, 192espacio de busqueda, 182espacio de soluciones, 185funcion de adaptacion, 184funcion de evaluacion, 184individuos no factibles, 184mutacion, 197mutacion estructural, 190operador de seleccion, 185poblacion

criterio de inicializacion, 184superindividuo, 181supervivencia, 181

algoritmo genetico simple, 191proceso de seleccion, 190proceso de seleccion de sobre-

vivientes, 190

algoritmos evolutivos, 12aminoacido, 238analisis

de asociacion, 147analisis de componentes principales,

43analisis de resultados, 35analisis discriminante, 43analisis multidimensional

piramidar, 28rebanar, 28rotar, 28

animats, 198ANOVA, 42aplicacion

compresion de imagenes, 140aprendizaje automatico, 20aprendizaje estructural, 75, 78, 80aprendizaje genetico, 198aprendizaje gradiente, 77aprendizaje incremental constructivo,

141aprendizaje interno, 23aprendizaje no supervisado, 11, 116,

126aprendizaje parametrico, 75aprendizaje reforzado, 198aprendizaje supervisado, 10, 116aproximacion de abajo hacia arriba,

197aproximacion de arriba hacia abajo,

198arbol, 85

algoritmo C5.0, 109espacio de busqueda, 87hoja, 85

281

Page 60: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

282 INDICE TEMATICO

nodo, 85rama, 85redes neuronales, 109

arbol binario, 100arbol de decision, 85

algoritmo C4.5, 108algoritmo ID3, 98, 101, 108algoritmo ID3 normalizado, 100algoritmos incrementales, 100

ID4, 100ID4R, 101ID5, 102ID5R, 103

bucle basico, 90poda, 105, 106sobreajuste, 103sobresajuste, 108

arbol de induccion, 43arbol de secuencias, 250arboles

propagacion de probabilidades,70, 72

arco, 68ART1, 116ART2, 116atributos

con pesos diferentes, 107con valores perdidos, 107, 108valores continuos, 105valores discretos, 105

autoclasificacion, 126

busqueda ciega, 191base causal, 80bases de datos heterogeneas, 20bases nucleotidas, 235, 237bioinformatica, 16bondad de ajuste, 56

categorıa, 85categorizacion dinamica, 143Celera Genomics, 235, 238clase, 85clasificacion, 13, 87clasificacion correcta, 12clasificacion incorrecta, 12

clasificador, 37, 85, 86, 95, 111clusters, 126codon, 237coeficiente de flexibilidad, 145coefiente de correlacion, 55colecciones de datos, 13comercio electronico, 20complejidad de la hipotesis, 66computacion evolutiva, 179comunicacion estrategica, 24conjunto borroso, 163

altura, 165cardinal, 165complemento, 164grado de pertenencia, 164, 176iguales, 164interseccion, 164producto cartesiano, 165subconjunto, 164union, 164

conjunto de ejemplos, 88, 105ejemplo, 87

conjunto de entrenamiento, 13, 36,37, 88, 105, 123

conjunto de logica booleana, 163conjunto de prueba, 36, 37, 88, 105conjuntos borrosos

interseccion, 171conjuntos mutuamente excluyentes,

89conocimiento, 6Consorcio Publico de la Secuenciacion

del Genoma Humano, 235,238

cota empırica, 80cromosoma codificado, 184cromosomas, 236cruzamiento

en un punto, 187multipunto, 187segmentado, 187uniforme, 188

cuadros de mando, 8cuantificacion vectorial, 137curva ROI, 39

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 61: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

INDICE TEMATICO 283

data warehouse, 9datos con ruido, 32dependencia probabilıstica, 68, 69descenso del gradiente, 117descripcion, 6descubrimiento, 6

de asociaciones, 152de conocimiento, 6de patrones secuenciales, 147, 153

desemborronadooperador de implicacion, 173

dimensiones, 26distribucion

Beta, 76Dirichlet, 76gaussiana, 64real, 78

distribucion binomial, 66divide y venceras, 108dominio de aplicacion, 12, 90, 195dominios de aplicacion, 64, 89, 90

ecuacionsimple, 132trivial, 131

ecuacion de gananacia, 16ejemplos clasificados, 13enfermedad genetica, 238entropıa, 91, 95entropıa cruzada, 66epigenesis neuronal, 142era genomica, 239era proteomica, 239error de entrenamiento, 104error de validacion, 104espacio de busqueda, 99, 191espacio de hipotesis, 63, 97

completo, 98estabilidad del aprendizaje, 141estadıstica clasica, 45estimacion, 13estimacion de errores, 36

holdout, 36validacion cruzada, 36

estimador de ruido, 68estrategia evolutiva, 191

estrategia evolutiva simpleconvergencia prematura, 192ritmo de convergencia, 192

exon, 238extractor de caracterısticas, 111

factorde confianza, 148, 151de confianza esperada, 148, 150de soporte, 148, 150

fase de entrenamiento, 111fase de reconocimiento, 111FPGAs, 141funcion

en tiempo discreto, 137funcion de discriminacion, 108

lineal, 109funcion logıstica, 61

ganancia de informacion, 43, 90, 91,97, 106

ganancia normalizada, 100, 106gen, 237genoma, 236genoma humano, 235grados de pertenencia, 163grafo dirigido y ponderado, 114

hardware evolutivo, 198hipotesis, 87

espacio de versiones, 64maxima verosimilitud, 63, 65

hiperplano, 108, 116

I+D, 15icertidumbre promedio, 94implicaciones negativas, 157impureza, 90independencia absoluta, 80independencia condicional, 69individuo, 184informacion partida, 106inteligencia artificial basada en co-

nocimiento, 197inteligencia artificial basada en com-

portamientos, 197inteligencia de negocio, 20, 23

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 62: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

284 INDICE TEMATICO

intron, 238

jerarquıas, 26

logica borrosa, 12, 45lenguaje natural, 163libro de la vida, 236linealmente separable, 95logaritmo neperiano, 60LVQ1, 137, 140LVQ2.1, 138

sobreadaptacion, 140LVQ3, 140

marcara de cruce, 188maxima verosimilitud, 66mınimos cuadrados, 52macronodo o clique, 74mapas

autoorganizados, 128topologicos, 128

matrices de confusion, 38MD-OLAP, 9mercadeo, 16

bases de datos, 16minerıa de datos, 8, 34

contexto de negocio, 15directa, 10distribuida, 20dual, 6indirecta, 11multimedia, 21nucleo, 7origen, 18web, 21

minerıa de textos, 20MineSet

reglas de asociacion, 148modelo de regresion, 49modelo logıstico, 60

numero borroso, 171, 172navaja de occam, 99, 124nodo, 43, 68nodo multipadre, 80nodos no observables, 76normalizacion de datos, 33

OLAP, 9OLVQ1, 140optimo global, 185, 204optimo localoptimo local, 197ordenada, 52

particion jerarquica, 126pendiente de la recta, 52perceptrones, 116plasticidad del aprendizaje, 141plasticidad del cerebro, 142poliarbol, 73polimorfismos nucleotidos simples, 237prediccion, 6, 12probabilidad

a posteriori, 70proceso binomial, 59, 61programacion orientada a agentes,

12propagacion en poliarboles, 73proporcion de ganancia, 108proporcion de ganancia explicada, 55proteına, 237

creatina, 238hemoglobina, 238

proteoma humano, 239

razonamiento aproximado, 163razonamiento impreciso, 163razonamiento probabilıstico, 70reconocimiento

optico, 140reconocimiento de patrones, 13reconocimiento estadıstico de patrones,

111red

neuronal, 109red bayesiana, 75red de Kohonen

proceso de aprendizaje, 130red multiconectada, 73

agrupamiento, 74condicionamiento, 73simulacion estocastica, 74

red neuronalcapa de entrada, 115

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 63: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

INDICE TEMATICO 285

capa de salida, 115capas ocultas, 115ejemplos de entrenamiento, 115espacio de los pesos, 118factor de aprendizaje, 118funcion escalon, 114funcion escalon estandar, 114funcion lineal, 114funcion logıstica, 114funcion sigmoidal, 114funcion signo, 114funcion tangente hiperbolica, 114generalizacion, 123metodo de retropropagacion, 120procedimiento delta generalizado,

119salida deseada, 116taxonomıa, 114

red neuronal Adaline, 116red neuronal artificial, 197red neuronal autoorganizada, 116,

129vecindario neuronal, 133vector de entrada, 129

red neuronal de Hopfield, 116red neuronal de Kohonen, 116, 129,

145reduccion de incertidumbre, 90, 94,

97regla, 87

cuerpo antecendente, 147linealidad, 150parte derecha, 147parte izquierda, 147, 148

regla borrosaantecedente, 172consecuente, 172

reglasasociacion, 147correlacion, 149, 151, 158de asociacion, 147

regresion, 18, 49ecuaciones normales, 53logıstica, 60relacion funcional, 49

regresion lineal, 43, 52

proceso, 52regresion lineal multiple, 58

matriz de diseno, 59regresion lineal simple, 58regresion logıstica, 43relacion de semejanza, 144Revista Nature, 235Revista Science, 235revolucion de la informacion, 20riesgo relativo, 62RNTF, 141, 142robotica adaptativa, 141robot insecto, 198ROLAP, 9

S-Norma, 171secuenciacion del genoma, 237segmentar, 14seleccion de atributos

proporcion de ganancia, 106seleccion natural, 179sentencia, 87series temporales, 45sesgo de restriccion, 99sesgo inductivo, 99sesgo preferencial, 99singleton, 164sistema clasificador

aporte de credito, 196caja de mensajes internos, 195subasta, 196

sistema de logica borrosa, 166algoritmos de entrenamiento, 174base de reglas, 172, 175, 176base de reglas completa, 173conjunto de entrenamiento, 174,

175, 177desemborronado, 173modificador linguıstico, 172motor de inferencia, 168, 173universo de entrada, 166universo de salida, 166valor linguıstico, 176valores linguısticos, 172variable linguıstica, 166, 176

sistema de transacciones, 25

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones

Page 64: Miner a de Datos - geocities.ws · Fundamentos, T ecnicas y Aplicaciones Ramiro Aguilar Quispe. c Ramiro Aguilar Quispe, 2002. Carrera de Inform atica Facultad de Ciencias Puras y

286 INDICE TEMATICO

sistemas clasificadoresformulacion de Mıchigan, 197formulacion de Pittsburg, 197

sistemas de informacion, 8sistemas de logica borrosa

base de reglas, 168sistemas expertos, 195sobreajuste, 106, 124solucion

codificacion, 184superficie de decision oblicua, 108

T-Norma, 171tecnica robusta, 183tamano de muestra equivalente, 68teorıa de la informacion, 66teorıa de la probabilidad, 45teorema de Bayes, 63, 71Teuvo Kohonen, 128transmision de informacion, 66

umbral, 153unidad procesadora, 112

validacion cruzada, 104valores perdidos, 32variabilidad, 57variable

binomial, 59binomial puntual, 59

variable dependiente, 49variable independiente, 49variable proposicional, 68variables, 27varianza de regresion, 55varianza residual, 55vecindario, 131vector, 137

normalizado, 136vector de caracterısticas, 111vida artificial, 197vision analıtica multidimensional, 25

Minerıa de Datos. Fundamentos, Tecnicas y Aplicaciones