tesis manipulaciÓn de medicamentos mediante mineria de datos
TRANSCRIPT
Sede Talca
Minería de datos aplicado a la manipulación de medicamentos de Cesfam, Maule
“Trabajo de seminario para optar al título de
Ingeniería de Informática”
“Profesor guía: Sr. Román Gajardo”
Eduardo Andrés Faúndez Rodríguez
Cristian Ignacio Cortés Cortés
2013
2 | P á g i n a
UNIVERSIDAD TECNOLOGICA DE CHILE INACAP
SEDE TALCA
Minería de datos aplicado a la
manipulación de medicamentos
de Cesfam, Maule
TRABAJO DE SEMINARIO PARA OPTAR AL TÍTULO DE INGENIERO EN
INFORMÁTICA
EDUARDO ANDRÉS FAUNDEZ RODRIGUEZ, CRISTIAN IGNACIO CORTÉS CORTÉS
30/07/201
3 | P á g i n a
ÍNDICE DE CONTENIDOS
Contenido1.- Introducción 9
2.-Planteamiento del Problema de Investigación 11
2.1.-Contextualizacion del Problema 12
2.2.-Solucion al Problema 13
2.3.-Relevancia y viabilidad de la investigación 13
2.4.-Objetivos de la investigación 15
3.-Marco Teórico 16
3.1.-Hipertension 17
3.1.1.-Tipos de Hipertensión 17
3.1.1.1.-Hipertensión Primaria 17
3.1.1.2.-Hipertensión Secundaria 18
3.2.-Mineria de datos 19
3.2.1.-Las Bases de datos y la minería de datos 19
3.2.2.-Proceso 20
3.2.3.-Mineria de Datos como Proceso 21
3.2.4.-Caracteristicas de la Minería de Datos 22
3.5.-Proceso KDD 23
3.2.6.-La minería de datos y su relación con el Proceso KDD 24
3.2.7.-Etapas del Proceso KDD 25
3.2.8.-¿Qué es una tarea de Minería de Datos? 27
3.2.9.-Tipos de tareas en Minería de Datos28
3.2.9.1.-Tareas Predictivas 28
3.2.9.1.1.-Clasificacion o Discriminación 28
3.2.9.1.2.-Clasificacion Suave 29
3.2.9.1.3.-Estimacion probabilidad de clasificación 29
3.2.9.1.4.-Categorizacion 29
3.2.9.1.5.-Preferencias o Priorización 30
3.2.9.1.6.-Regresion 30
4 | P á g i n a
3.2.9.2.-Tareas Descriptivas 30
3.2.9.2.1.-Clustering o Agrupamiento 31
3.2.9.2.2.-Reglas de Asociación 31
3.2.9.2.3.-Dependencias Funcionales 31
3.2.9.2.4.-Patrones Secuenciales 32
3.2.9.2.5.-Correlaciones y Factorizaciones 32
3.2.10.- Método en Minería de Datos 32
3.2.11.-Metodo de minería de Datos y su relación con las tareas 33
3.2.12.-Tecnicas de Minería de Datos 34
3.2.12.1.-Arboles de decisión 34
3.2.12.2.-Red Bayesiana 34
3.2.12.3.-Redes Neuronales 34
3.2.12.4.-Enfoque estadístico para estimación y predicción34
3.2.13.-Metodos Bivariantes 35
3.2.13.1.-Regresion Logística 35
3.2.13.2.-Regresion Lineal Simple 35
3.2.14.-Metodos Multivariantes: Regresión Lineal Múltiple36
3.2.14.1.-Analisis de Regresión Lineal Múltiple 36
3.2.14.2.-Debilidad de una Regresión Lineal Múltiple 38
3.2.14.3.-Delimitacion y definición de variables relevantes del estudio 38
3.2.14.4.-Metodo de Selección de variables en el análisis de regresión lineal 38
3.2.14.5.-Consideraciones de los datos 39
3.2.14.6.-Correlacion de los datos 40
3.2.14.7.-Coeficiente de Correlación de Pearson 40
3.3.-Software de minería de datos 42
3.3.1.-Clementine SPSS 42
3.3.2.-Weka 43
3.3.3.-RapidMiner 43
4.-Marco Metodológico 45
4.1.-La metodología CRISP-DM 46
4.2.-Etapas de Metodología CRISP-DM 46
5.-Desarrollo 49
5 | P á g i n a
5.1.-Metodologia CRISP-DM Aplicada a la investigación 50
5.1.1.-Comprension del negocio 50
5.1.1.1.-Contextualización de la investigación 50
5.1.1.2.-Generacion del plan del Proyecto 50
5.1.1.2.1.-Reuniones personal encargado 50
5.1.1.2.2.-Medicamentos asociados a la hipertensión 51
5.1.1.2.3.-Eleccion del medicamento para la investigación 51
5.1.2.1.-Eleccion de la técnica de minería de datos 52
5.1.2.2.-Eleccion de la herramienta correspondiente 52
5.1.2.3.-Instrumentos 53
5.1.2-Comprension de los datos 54
5.1.2.1.-Recopilacion inicial de los datos 54
5.1.2.2.-Medios para acceder a esta información 54
5.1.2.3.-Realizacion de encuestas 55
5.1.2.4.-Integracion de los datos 56
5.1.2.5.-Visualizacion de los datos obtenidos 56
5.1.3.-Preparacion de los datos 57
5.1.3.1.-Limpieza de datos 58
5.1.3.2.-Selección de los datos 58
5.1.3.3.-Grado de confianza de los datos 59
5.1.4.-Modelado 60
5.1.4.1.-Selección de variables dependientes e Independientes 60
5.1.4.2.-Resumen de la aplicación y correlación general de las variables seleccionadas 61
5.1.4.2.1.-Resumen correlación SPSS Clementine 62
5.1.4.2.2.-Resumen correlación Excel 63
5.1.4.3.-Coeficiente de regresión resultantes de la matriz del modelo 63
5.1.4.4.-Aplicación fórmula matemática para el modelo predictivo 64
5.1.4.5.-Desglosamiento de la formula predictiva para los distintos casos propuestos 65
5.1.4.5.1.-Formula predictiva consumo de medicamentos de forma individual 65
5.1.4.5.2.-Formula predictiva consumo de medicamentos de la población total…………………………….66
5.1.5-Evaluación 68
6 | P á g i n a
5.1.5.1.-Evaluación de los resultados 68
5.1.6.-Despliegue 69
5.1.6.1.-Planificación de despliegue 69
5.1.6.2.-Prototipo diseño 71
6.-Conclusión 72
7.-Bibliografia 75
8.-Anexos 78
7 | P á g i n a
AGRADECIMIENTOS
8 | P á g i n a
1. INTRODUCCIÓN
9 | P á g i n a
En este presente seminario de título se abordara un tema tan importante como es el manejo de
medicamentos en el Cesfam de la comuna de Maule, Chile, ligados a la hipertensión. Unas de las
principales falencias del centro de la salud familiar, es el desabastecimiento de los fármacos que
son entregados diariamente a las personas por diversos motivos, ya sean por enfermedades
crónicas, falencias musculares, diabetes, malestares al organismo, y principalmente por la
hipertensión, esto ocurre principalmente por una mala administración y organización de las
existencias lo cual conlleva a pérdidas importantes de dinero al no solicitar la cantidad necesaria
para la población y el vencimiento de medicamentos, por no tener la información necesaria para
afrontar este relevante problema. Hemos de realizar esta investigación para dar solución a este
inconveniente que presenta dicho centro médico, para ello elaboraremos un método eficiente que
pueda contrarrestar el mal manejo de medicamentos ligados a esta importante enfermedad,
enfermedad por lo cual, es unas de las más solicitadas por el centro de salud familiar. Para paliar
este puntual problema, abordaremos la problemática mediante técnicas de minería de datos que
mediante algoritmos matemáticos, daremos solución pertinente al caso. Para ello se va a
implementar un sistema informático que predecirá el consumo de medicamentos asociados a la
hipertensión, mediantes factores de riesgos biomédicos y sociales, para lograr este resultado,
estudiaremos en profundidad lo que es la hipertensión, los factores que produce esta enfermedad
(factores que serán de gran ayuda para la construcción de nuestro modelo), veremos en
profundidad el concepto de minería de datos, sus tareas y sus respectivas técnicas, exploraremos
en profundidad un método multivariantes conocido como regresión, método de minería de datos
que usaremos para la creación del modelo predictivo, describiremos y analizaremos los
diferentes software de minería de datos y elegiremos el que más se adecue a la problemática
propuesta.
Se espera que los resultados finales de este seminario sean categóricos y los resultados se
asemejen a la realidad y ponga fin a una necesidad de información para la toma de decisiones al
momento de solicitar el stock adecuado para dicho medicamento,
10 | P á g i n a
2. PLANTEAMIENTO DEL PROBLEMA
DE INVESTIGACIÓN
11 | P á g i n a
Capítulo II: Planteamiento del Problema de investigación
2.1 CONTEXTUALIZACIÓN DEL PROBLEMA.
Muchos centros de salud chilenos tienen problemas de organización, tecnológicos o de espacio
físico para llevar a cabo una gestión de stocks de medicamentos eficiente. En el ámbito sanitario
nos centramos en gestionar una materia tan concreta como lo son los medicamentos que es una
novedad dentro del ámbito hospitalario. La administración y abastecimiento de medicamentos es
una disciplina que no ha recibido suficiente atención en los últimos años. El centro de salud no
puede estar desabastecido de medicamentos y, por otro lado, el alto costo de adquisición de
muchos de ellos obliga a optimizar las existencias. Es necesario avanzar en este campo
investigando el comportamiento, administración y abastecimiento de medicamentos para mejorar
las técnicas de previsión de la demanda.
Uno de los principales problemas del desabastecimiento del centro médico está asociado a
medicamentos ligados a la hipertensión (es el aumento de la presión arterial de forma crónica), ya
que la cantidad solicitada de cajas de fármacos asociados a esta enfermedad a los laboratorios
correspondientes, en algunos casos no satisface la demanda, ya que la cantidad de personas que
sufren hipertensión es alta, y mediantes los factores de riesgos de esta enfermedad hace que cada
vez más personas sufran de hipertensión en el pueblo.
Como solución a este problema aparece la minería de datos (data mining, en inglés) con una base
estadística, matemática y algoritmos informáticos “inteligentes” dan solución a esta “necesidad
de información”.
La minería de datos se presenta como un gran aliado para descubrir esta información implícita en
los datos de las instituciones de salud. Para abordar la problemática planteada, existen dos
enfoques, uno es realizar el estudio con minería de datos, y el otro es el enfoque “tradicional”,
vale decir hacer un estudio científico con un estadístico y ocupar nada más que las herramientas
convencionales y el juicio del profesional.
Los resultados que se obtienen con cada minería de datos están respaldados internacionalmente e
incluso sus beneficios son utilizados en estudios internacionales.
12 | P á g i n a
Capítulo II: Planteamiento del Problema de investigación
En Chile, sin embargo, la minería de datos es una tecnología que aún no ha sido completamente
explotada y es utilizada principalmente en el ámbito del “retail”, en la detección de fraudes en
aseguradoras y segmentación. Por todo lo anterior, el uso de minería de datos se presenta como
una buena opción para dar solución a la problemática expuesta.
2.2 SOLUCIÓN AL PROBLEMA.
Se ha decidido abordar la problemática desde el punto de vista de lo que se conoce como proceso
KDD (Knowledge Discovery in Database) siguiendo cada uno de los pasos que este proceso
sugiere, es realizar un método multivariantes de minería de datos conocida como Regresión, para
crear un modelo predictivo del medicamento más utilizado por el CESFAM, Maule asociado a la
hipertensión. Este modelo luego de entrenado, debe ser capaz predecir el consumo de
medicamentos en base a variables biomédicas y sociales. Esto podría tener grandes beneficios
económicos al centro de salud puesto que, al momento de solicitar medicamento ellos se
abastecerán solo con la cantidad predicha y no solicitarán medicamentos de sobra que pueden
llegar a vencer.
Además este modelo predictivo será utilizado para ver el posible consumo mensual de un
individuo mediantes las variables preestablecidas, el modelo entregara un resultado estimado de
cuantas dosis (unidades y/o cajas) consumirá, mediante los factores de riesgos que la persona
poseerá.
2.3 RELEVANCIA Y VIAVILIDAD DE LA INVESTIGACIÓN.
Actualmente, las enfermedades cardiovasculares se han convertido en la primera causa de muerte
en todos los países del mundo industrializado, y el análisis epidemiológico de este fenómeno ha
permitido reconocer la existencia de unas variables biomédicas denominadas factores de riesgo
de enfermedad cardiovascular, capaces de influenciar la probabilidad del padecimiento de
13 | P á g i n a
Capítulo II: Planteamiento del Problema de investigación
accidentes cerebrovasculares, enfermedad coronaria, insuficiencia cardiaca o artropatía periférica.
La hipertensión arterial es uno de estos factores de riesgo modificables y es considerado, en la
actualidad, como uno de los mayores problemas de Salud Pública.
Entre las principales causas del aumento de la hipertensión arterial en Chile y en el mundo se
encuentran la obesidad y el sedentarismo, dos grandes males de este siglo. “tanto la obesidad
como el sedentarismo tienen cura y con información adecuada, la población podría cambiar sus
estilo de vida” (Dr. Luis Hernán Zárate. 2013)
"La presión arterial se eleva como consecuencia de la interacción de factores hereditarios y de
estilos de vida poco apropiados, destacando entre ellos una ingesta calórica excesiva, la apnea del
sueño, sedentarismo o inamovilidad, tabaquismo e ingesta inadecuada de bebidas alcohólicas"
(Dr. Luis Hernán Zárate. 2013).
De este análisis se pueden obtener conclusiones preliminares muy importantes que nos tracen la
directriz apropiada para el comienzo de esta investigación. Mediante la información de los
estados de salud de las personas que viven en la comuna de Maule se podrá determinar el
consumo necesario de medicamentos asociados a la hipertensión, ya que el manejo de fármacos
es manejado de manera muy desentendida y despreocupada. Para ello nos motiva a esta
investigación a buscar una nueva herramienta y/o técnica matemáticas que permitan el
entendimiento de variables asociadas a la enfermedad que inciden en la cantidad de dosis del
medicamento, y a la vez, este modelo predictivo servirá en comunas de Chile, que tengan una
caracterización similar de variables a esta comuna, ya que las variables utilizadas en la
investigación podrán representan la muestra global de un pueblo similar al de Maule.
14 | P á g i n a
Capítulo II: Planteamiento del Problema de investigación
2.4 OBJETIVOS DE LA INVESTIGACIÓN.
2.4.1 GENERAL:
Implementar sistema informático para predecir el consumo de medicamentos asociados a la
hipertensión, en base a variables biomédicas y sociales, mediante método multivariantes de
minería de datos.
2.4.2 ESPECÍFICOS:
1. Investigar el concepto y relación de la hipertensión en Chile, y sus principales
factores asociados a la enfermedad
2. Analizar y estudiar en profundidad el concepto de minería de datos y explicar su
relación con el proceso de KDD.
3. Describir tres de las principales herramientas de minería de datos y seleccionar la
que más se adecue a la problemática propuesta.
4. Construir modelo predictivo de un medicamento asociado a la hipertensión.
5. Analizar la información del modelo resultante de la aplicación de la tarea de
minería de datos.
6. Implementar y Diseñar sistema informático con los datos obtenidos del modelo
predictivo.
15 | P á g i n a
Capítulo II: Planteamiento del Problema de investigación
3. MARCO TEÓRICO
16 | P á g i n a
Capítulo III: Marco Teórico
3.1 HIPERTENSIÓN
La hipertensión arterial (HTA) es un síndrome caracterizado por elevación de la presión arterial
(PA) y sus consecuencias. Sólo en un 5% de casos se encuentra una causa (HTA secundaria); en
el resto, no se puede demostrar una etiología (HTA primaria); pero se cree, cada día más, que son
varios procesos aún no identificados, y con base genética, los que dan lugar a elevación de la PA.
La HTA es un factor de riesgo muy importante para el desarrollo futuro de enfermedad vascular
(enfermedad cerebrovascular, cardiopatía coronaria, insuficiencia cardíaca o renal). La relación
entre las cifras de PA y el riesgo cardiovascular es continua (a mayor nivel, mayor
morbimortalidad), no existiendo una línea divisoria entre presión arterial normal o patológica. La
definición de hipertensión arterial es arbitraria. El umbral elegido es aquel a partir del cual los
beneficios obtenidos con la intervención, sobrepasan a los de la no actuación. A lo largo de los
años, los valores de corte han ido reduciéndose a medida que se han ido obteniendo más datos
referentes al valor pronóstico de la HTA y los efectos beneficiosos de su tratamiento.
Actualmente, se siguen las recomendaciones de la OMS-SIH, que con objeto de reducir la
confusión y proporcionar a los clínicos de todo el mundo unas recomendaciones más uniformes,
ha acordado adoptar en principio la definición y la clasificación establecidas por el JOINT
NATIONAL COMMITTEE de Estados Unidos en su sexto informe (JNC VI) (Eva Castell
Bescós, 2009).
3.1.1 TIPOS DE HIPERTENSIÓN.
3.1.1.1. HIPERTENSIÓN PRIMARIA:
La mayor parte de los casos de hipertensión corresponden a este tipo. Se cree que el 95% de los
pacientes sufren hipertensión esencial, pues se desconoce la causa por la que cursan la
enfermedad, esto es así porque en la gran mayoría de la gente que presenta cifras de tensión
arterial elevada, es difícil encontrar exactamente qué es lo que precipita el aumento de la presión.
La combinación de factores relacionados son (Eva Castell Bescós, 2009):
17 | P á g i n a
Capítulo III: Marco Teórico
- La dilatación y la contracción de los vasos sanguíneos
- Aumento de líquido en la sangre
- Secreción de hormonas
- Volumen de sangre bombeada por el corazón
Además existen ciertos factores de riesgo, como la herencia y el estilo de vida que desempeñan
un papel muy importante en el desarrollo de la hipertensión esencial. Entre más factores de riesgo
se tienen, mayor es la probabilidad de que se presente presión elevada. La raza, la edad, el sexo y
los antecedentes familiares forman parte de los factores que son inmodificables. Pero la obesidad,
el sedentarismo, el tabaquismo, el exceso de sal y grasa en la alimentación, el alcoholismo y el
estrés son factores que cualquier persona puede modificar en pro de su salud y las cuales
predisponen al desarrollo de hipertensión, no sólo en la edad adulta, sino también en la juventud
(Eva Castell Bescós, 2009).
3.1.1.2. HIPERTENSIÓN SECUNDARIA:
Se dice que una persona tiene hipertensión secundaria cuando la presión alta sí tiene una causa
conocida. Es decir, se puede encontrar una enfermedad subyacente que está desencadenando el
aumento de la presión arterial. Esta forma de hipertensión ocurre tan sólo en el 5% de los casos.
A diferencia de la hipertensión esencial, que los médicos pueden tratar pero no curar, la
hipertensión secundaria a menudo puede curarse. Una vez que se corrige la enfermedad o
trastorno que la causa, la presión disminuye e incluso en muchas personas regresa a lo normal.
Entre los trastornos que pueden desencadenar el desarrollo de hipertensión están (Eva Castell
Bescós, 2009):
- Enfermedad renal
- Enfermedad suprarrenal
- Enfermedad tiroidea
- Anormalidades en los vasos sanguíneos
18 | P á g i n a
Capítulo III: Marco Teórico
3.2 MINERÍA DE DATOS
La minería de datos en si es un proceso que genera una salida a partir de una entrada. En este
caso la entrada son los datos que están generalmente (aunque no necesariamente) en repositorios
o almacenes de datos. La minería de datos es entonces descubrir información relevante (para el
dueño de los datos o alguna organización) que se encuentra de forma implícita (se puede decir
“escondida”) en esos datos, información que está presente en forma de relaciones, patrones de
conducta o tendencias. El proceso se realiza mediante la utilización de distintas técnicas
estadísticas, matemáticas y de tecnologías de información. (Orallo, 2004)
Otros autores afirman que la minería de datos es el proceso que tiene como propósito descubrir,
extraer y almacenar información relevante de amplias base de datos a través de programas de
búsqueda e identificación de patrones y relaciones globales, tendencias y otros indicadores
aparentemente caóticos que tienen una explicación que pueden descubrirse mediante diversas
técnicas de esta herramienta. (B.Moxon’s, 1996).
El objetivo fundamental es aprovechar el valor de la información localizada y usar patrones
preestablecidos para que los directivos tengan un mejor conocimiento de su negocio y puedan
tomar decisiones más confiables. (B.Moxon’s, 1996).
3.2.1 LAS BASES DE DATOS Y LA MINERÍA DE DATOS.
Las bases de datos han sido sin duda una herramienta fundamental que ha permitido la evolución
de la ciencia de la minería de datos. De hecho, a veces se usa el término “KDD (Knowledge
Discovery in Database o Descubrimiento de Conocimiento en Bases de Datos) como sinónimo de
minería de datos. (César Krall, 2013).
Las bases de datos puede decirse que son una de los tres soportes en que se apoya la minería de
datos, éstos son:
19 | P á g i n a
Capítulo III: Marco Teórico
1. Bases de datos.
2. Estadísticas.
3. Algoritmia.
Figura 4.1. Cuadro de relación entre minería de datos; base de datos, algoritmia y Estadística
(César Krall, 2013).
3.2.2 PROCESO.
La noción de proceso halla su raíz en el término de origen latino “procesus”. Este concepto
describe la acción de avanzar o ir para adelante, al paso del tiempo y al conjunto de etapas
sucesivas advertidas en un fenómeno natural o necesario para concretar una operación artificial.
(Real Academia española (RAE)).
20 | P á g i n a
Capítulo III: Marco Teórico
3.2.3 MINERÍA DE DATOS COMO PROCESO.
En minería de datos “cada caso es un caso”. Sin embargo, en términos generales, el proceso se
compone de cuatro etapas principales (Trondheim, 1997):
1. Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea.
2. Pre procesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la
reducción y la transformación de las bases de datos. Es la etapa que consume más de la mitad del
tiempo del proyecto.
3. Determinación del modelo: Se comienza realizando unos análisis estadísticos de los datos, y
después se lleva a cabo una visualización gráfica de los mismos para tener una primera
aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden
utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
4. Análisis de los resultados: Verifica si los resultados obtenidos son coherentes y los coteja con
los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son
novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
El procedimiento estándar particular usado en minería de datos se denomina CRISP-DM (Cross-
Industry Standard Process for Data Mining). CRISP-DM exige que la minería de datos sea vista
como un proceso completo, pasando por recolección y administración de los datos, pre procesado
de estos datos, construcción del modelo, evaluación del modelo y finalmente despliegue
(implementación) del modelo.
21 | P á g i n a
Capítulo III: Marco Teórico
Figura 4.2. (Ciclo de vida para la creación de un proyecto de minería de datos)
3.2.4 CARACTERISTICAS DE LA MINERIA DE DATOS.
Entre las características más importantes se destacan (B.Moxon’s, 1996):
Explorar los datos se encuentran en las profundidades de las bases de datos, como los
almacenes de datos, que algunas veces contienen información almacenada durante varios
años.
En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos;
en otros, se mantienen en servidores de Internet e Intranet.
El entorno de la minería de datos suele tener una arquitectura cliente servidor.
Las herramientas de la minería de datos ayudan a extraer el mineral de la información
enterrado en archivos corporativos o en registros públicos, archivados.
El minero es, muchas veces un usuario final con poca o ninguna habilidad de
programación, facultado por barrenadoras de datos y otras poderosas herramientas
indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas.
Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e
inesperados.
22 | P á g i n a
Capítulo III: Marco Teórico
Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y
procesarse rápidamente.
Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en
paralelo para la minería de datos.
3.2.5 PROCESO KDD.
Las siglas KDD provienen del inglés “knowledge Discovery in Database” y se traduce
literalmente como “Descubrimiento de conocimiento en base de datos” y consiste en usar
métodos de minería de datos (algoritmos) para extraer (identificar) lo que se considera como
conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos junto
con pre procesamientos y post-procesamientos. (Han.J.Kamber, 2001).
Otros autores aseguran que “No es un proceso automático, es un proceso iterativo que
exhaustivamente explora volúmenes muy grandes de datos para determinar relaciones. Es un
proceso que extrae información de calidad que puede usarse para dibujar conclusiones basadas en
relaciones o modelos dentro de los datos.” (Morgan Kaufmann, 1999).
“Desde nuestro punto de vista, KDD se refiere al proceso global del descubrimiento de
conocimiento útil a partir de los datos, y minería de datos se refiere a un paso en particular en
este proceso. La minería de datos es la aplicación de algoritmos específicos para extraer patrones
desde los datos” (Fayyad, Piatetsky-Shapiro, & Smyth, 1996).
3.2.6 LA MINERÍA DE DATOS Y SU RELACIÓN CON EL PROCESO KDD.
El proceso general de generar conocimiento mediante el descubrimiento de información implícita
en base de datos, corresponde al proceso KDD, y el proceso de minería de datos propiamente tal,
es solamente una tarea dentro de este proceso, se trata sin embargo de la de la tarea más
23 | P á g i n a
Capítulo III: Marco Teórico
importante pues es la encargada de descubrir los patrones y crear el (o los) modelo(s) (Hernández
Orallo, Ramírez Quintana, & Ferri Ramírez, 2004).
El conocimiento extraído a partir del proceso KDD debe cumplir con una serie de propiedades,
en se nombran las siguientes (Hernández Orallo, Ramírez Quintana, & Ferri Ramírez, 2004):
Valido: Se refiere a que los patrones extraídos deben seguir siendo precisos para datos
nuevos, y no solo para los datos usados en la extracción de patrones.
Novedoso: Debe aportar información previamente desconocida por el usuario.
Potencialmente Útil: El conocimiento proporcionado por el proceso debe conducir a
acciones que sean beneficiosas para el usuario.
Comprensible: Se refiere a la interpretabilidad de la información resultante del proceso, si
extraen patrones que no sean comprensibles, difícilmente se podrán interpretar y la
información lejos de ser una ayuda para quien toma la decisión, aumentará el grado de
incertidumbre.
Figura 4.3. (Proceso de descubrimiento del conocimiento conocido como KDD)
En la figura 4.3 se aprecian las etapas esenciales del proceso KDD y estas se pueden desglosar
cada uno de estas etapas y se descubrirá que cada una es en sí misma un pequeño proceso que
aporta con su salida a la entrada de la etapa siguiente.
24 | P á g i n a
Capítulo III: Marco Teórico
3.2.7 ETAPAS DEL PROCESO KDD.
Algunos autores muestran una descripción mucho más detallada de lo que comprende un proceso
KDD, dividiendo todo el proceso en 9 etapas, nótese eso sí que se trata de las mismas etapas
contenidas en la Figura 4.3, pero a un nivel de detalle mayor.
1) Debe entender el dominio del sistema de información y el conocimiento relevante que se
tiene de antemano con respecto al contexto, se deben identificar además los objetivos del
proceso KDD desde el punto de vista del cliente.
2) Debe seleccionar una colección de datos sobre los cuales se trabajara para extraer los
patrones que se están buscando, esta esta colección puede ser una fuente de datos
completa ya existente o puede ser una “muestra”, un pequeño conjunto de datos que
representa al total. (“La calidad del conocimiento extraído” en el proceso de KDD no
solo depende de la técnica de minería de datos utilizada, depende también de la calidad
de los datos utilizados)
3) Los datos seleccionados deben ser pre-procesados, el pre-procesado de los datos implica
algunas tareas como, elección de qué hacer con datos faltantes o innecesarios (cuando
corresponda) y eliminación de ruido de la muestra.
4) Esta fase trata sobre la reducción y proyección de los datos. Esta fase es crucial y debe
tenerse mucho cuidado sobre las decisiones que aquí se tomen pues influirán de manera
importante en el resultado final del proceso. Se trata principalmente de transformaciones
al formato de los datos y sobre todo a la búsqueda de posibles correlaciones entre
atributos (columnas). Mediante la reducción de la dimensionalidad (cantidad de
atributos) de los datos y algunos métodos de transformaciones, se pueden reducir el
número efectivo de variable consideradas. Al final del procesos de preparación de los
datos (paso dos al cuatro), la salida que se genera (datos procesados, o lo que se conoce
como “vista minable”) representa la entrada a la fase de minería de datos.
25 | P á g i n a
Capítulo III: Marco Teórico
5) Consiste en relacionar los objetivos del proceso KDD identificados en la primera etapa
de una tarea de minería de datos en particular, como por ejemplo clasificaciones,
regresión, agrupamiento, categorización, etc.
6) Contempla un análisis exploratorio de los datos y la selección del algoritmo o técnica a
utilizar para crear el modelo, según los objetivos o requerimientos del paso uno.
7) Se da lugar a la búsqueda de los patrones según la tarea y el algoritmo seleccionado en
las etapas anteriores.
8) Comprende la visualización de los patrones y modelos extraídos o la interpretación de los
patrones resultantes de la tarea a minería de datos, posiblemente se puede volver a iterar
desde este punto a cualquiera de los anteriores, para revisiones, validaciones, etc.
9) Finalmente el actuar de acuerdo al conocimiento resultante de todos los pasos anteriores,
usando este conocimiento de manera directa, insertándolo en otro sistema, o bien
documentándolo en forma de reporte para ser revisado por las personas pertinentes.
(Fayyad, Piatetsky-Shapiro, & Smyth, 1996)
Figura 4.4. (Etapas detalladas del proceso KDD)
26 | P á g i n a
Capítulo III: Marco Teórico
En resumen el objetivo fundamental del KDD es encontrar conocimiento útil, válido, relevante y
nuevo sobre un fenómeno o actividad mediante algoritmos eficientes, dadas las crecientes
órdenes de magnitud en los datos. Al mismo tiempo hay un profundo interés por presentar los
resultados de manera visual o al menos de manera que su interpretación sea muy clara. Otro
aspecto es que la interacción humano-máquina deberá ser flexible, dinámica y colaboradora.
El resultado de la exploración deberá ser interesante y su calidad no debe ser afectada por
mayores volúmenes de datos o por ruido en los datos. En este sentido, los algoritmos de
descubrimiento de información deben ser altamente robustos.
3.2.8 ¿QUE ES UNA TAREA EN MINERÍA DE DATOS?
El término tarea se emplea para designar a aquella obra y trabajo que generalmente demanda de
parte de quien la lleva a cabo cierto esfuerzo y que se realizara durante un tiempo limitado, es
decir, existe un tiempo límite para su realización (Zanón. J, 1999).
Una tarea hace referencia precisamente a “lo que se desea hacer”, o mejor dicho a lo que se
quiere solucionar (relacionado con los requerimientos) mediante minería de datos. Uno de los
aspectos que se debe tener claro en el proceso KDD es distinguir entre una tarea y un método de
minería de datos. Las tareas de DM pueden ser predictivas y las descriptivas (Orallo, 2004).
3.2.9 TIPOS DE TAREAS EN MINERÍA DE DATOS.
3.2.9.1 TAREAS PREDICTIVAS.
Las Tareas predictivas tratan de problemas y tareas en los que hay que predecir uno o más
valores para uno o más ejemplos. Dependiendo de cómo sea la correspondencia entre los
27 | P á g i n a
Capítulo III: Marco Teórico
ejemplos y los valores de salida y la presentación de los ejemplos podemos definir varias tareas
predictivas (Hernández Orallo, Ramírez Quintana, & Ferri Ramírez, 2004)
- Clasificación.
- Clasificación suave.
- Estimación de probabilidad de clasificación
- Categorización.
- Preferencias o priorización.
- Regresión.
3.2.9.1.1 Clasificación o discriminación
Es una de las tareas que más se utilizan en minería de datos. En clasificación los ejemplos se
presentan como un conjunto de pares de datos de entrada y salida ᵹ = {e, s} tal que “e” pertenece
al total de datos de entrada y “s” pertenece al total de datos de salida. El objetivo de esta tarea es
aprender una función ƛ: E → S, llamada “clasificador” que “entienda” que para cada valor de
entrada “E” (de uno de los atributos), existe un valor único para “S”. Se supone que uno de los
atributos (variables) de la vista minable representa a la clase y el conjunto de clase es a su vez el
conjunto de los posibles valores que puede tomar este atributo. Entonces la función aprendida
será capaz de, dado un conjunto de valores de entrada para una nueva instancia.
3.2.9.1.2 Clasificación suave
Se trata de una variante de la clasificación pero que tiene una ligera diferencia y ésta radica en
que la Clasificación suave, además de aprender la función “clasificador”, se aprende otra función
Ѳ: Е → Ʀ que representa el grado de certeza de la predicción hecha por el clasificador ƛ. En el
fondo la clasificación suave es como una versión “mejorada” de la clasificación. Esto permite,
por ejemplo, decidir entre varios clasificadores, cuál es el más deseable.
3.2.9.1.3 Estimación de probabilidad de clasificación
Esta tarea se trata en realidad de una extensión de la clasificación suave, el problema se presenta
de la misma manera que ambas Clasificaciones anteriores, la función que debe aprenderse sin
embargo es distinta. Aquí en lugar de aprender una función “clasificador” que clasifique y otra
28 | P á g i n a
Capítulo III: Marco Teórico
función “grado de certeza” que mida la precisión de esa predicción, se deben aprender “X”
funciones “grado de certeza”, una por cada clase. Y luego, cada uno de los valores devueltos por
cada una de las “X” funciones representan la probabilidad de que un ejemplo sea de cada una de
las clases. Para clasificar esto último, si se sigue la misma tónica de los ejemplos anteriores.
3.2.9.1.4 Categorización
A diferencia de las tareas de clasificación, aquí lo que se busca no es aprender una o más
funciones que se encasillen un nuevo ejemplo. En cambio lo que se busca es aprender una
correspondencia. Esta correspondencia incluye los ejemplos del conjunto de datos de entrada,
como también el conjunto de todas las categorías que están relacionadas en esos datos. En las
tareas de clasificación lo que se buscaba era predecir a cuál clase (de las ya existentes)
pertenecería un nuevo ejemplo “e”, dada la colección de sus atributos, ésas tareas solamente
asignan una y solo una clase a cada instancia del conjunto de salida “s”. En cambio en la
categorización un ejemplo “e” puede tener varias categorías asociadas, así lo que el modelo hará
será dilucidar a cuales de entre todas las categorías, pertenece el ejemplo “e”. Un ejemplo de
categorización seria dado un conjunto de perfiles de clientes en un supermercado, cuales tipos de
clientes comprarían productos
3.2.9.1.5 Preferencias o priorización
Consiste en determinar un orden lógico o “preferencial” entre por lo menos dos ejemplos. Los
que el modelo hace es precisamente “ordenar” nuevos ejemplos según un “criterio” que debe
aprenderse. Este criterio se basa en el conjunto de datos de entrada, todo vez que en este caso
cada ejemplo es una secuencia como la siguiente <e1 , e2 , …ex>, e i∈Е, x ≥ 2 en donde el orden de
la secuencia representa la predicción. Un ejemplo de priorización seria en una compañía de
seguros si se tuvieran varios clientes nuevos, basado en casos de clientes antiguos con perfiles
similares a los nuevos.
3.2.9.1.6 Regresión
29 | P á g i n a
Capítulo III: Marco Teórico
En la regresión, los ejemplos se representan por relaciones entre el conjunto de datos de entrada
“Е” y el conjunto de salidas “S”, quedando entonces como objetivo de la regresión, el aprender la
función ƛ: Е → S que representan la relación entre los ejemplos, ahora se tiene que para cada
valor de “E” se tiene el valor único de “S”. En este sentido la regresión es bastante parecida a la
clasificación, sin embargo la diferencia entre ambas radica en que la regresión, “S” es
estrictamente numérico (los datos de entrada deben ser solamente números). La regresión se
utiliza frecuentemente en contabilidad para estimar, por ejemplo, las ventas para los siguientes
meses basado en las ventas de los últimos meses, aunque cabe destacar que este tipo de regresión
es meramente de tipo lineal, pero existen además otros tipos de regresión, como la logística.
3.2.9.2 TAREAS DESCRIPTIVAS.
Las tareas descriptivas buscan describir los datos existentes. Las tareas descriptivas más usadas
son:
- Agrupamiento (clustering)
- Reglas de asociación.
- Dependencias funcionales.
- Patrones secuenciales.
- Correlaciones y factorizaciones.
3.2.9.2.1 Clustering o Agrupamiento
Dentro de las tareas de clasificación y sus derivadas se señaló que el objetivo de ellas era asignar
a nuevas instancias una de las clases preestablecidas, esto supone que esas clases ya se
encuentran definidas desde antes de la elección de la tarea de minería de datos y forman parte de
la información de entrada. El agrupamiento en cambio, parte del hecho de que esas clases son
desconocidas a priori, no se conocen ni las clases ni siquiera cuantas son o si las hay. Por lo tanto
el objetivo de esta tarea es precisamente encontrar u obtener estos grupos o clases que se desean
“similares”. A veces se puede especificar al modelo la cantidad de clases que se desean obtener,
otras veces es el algoritmo quien define cuantos grupos se encontraron. La función que se
30 | P á g i n a
Capítulo III: Marco Teórico
aprende es igual a la de la Clasificación: A:E → S con la excepción de que los valores del
conjunto S crean durante el proceso mismo del aprendizaje y no están dados en el conjuntos de
datos de Entrada E como en la Clasificación.
3.2.9.2.2 Reglas de asociación
Similares a las reglas de clasificación. Pueden predecir cualquier atributo, no solo la clase, o
predecir combinaciones de atributos. Las diferentes reglas de asociación expresan diferentes
regularidades que yacen en el conjunto de datos y generalmente predicen cosas diferentes. Se
centra el interés en las reglas que aplican a un número grande de instancias y que tiene una
precisión alta en las instancias en las que aplica. La cobertura de una regla de asociación es el
número de instancias para las cuales ella predice correctamente (soporte).La precisión
(confianza) es el número de instancias que predice correctamente, expresado como una
proporción de todas las instancias a las que se aplica.
3.2.9.2.3 Dependencia Funcionales
Hay veces en que los atributos están relacionados entre sí de manera más especifica que la de
pertenecer a una misma relación. Hay veces en que es posible determinar que un atributo depende
de otro funcionalmente, como si existiera una función f en el “mundo”, tal que t [A] = f (t [B]).
La función se anotaría como f: A → B, pero como f es desconocida (o sino B sería un atributo
derivado), sólo nos quedamos con A → B, la dependencia funcional, que se lee “A determina B”.
3.2.9.2.4 Patrones secuenciales
El objetivo de la tarea es poder describir de forma concisa relaciones temporales que existen
entre los valores de los atributos del conjunto de ejemplos. Utiliza reglas de asociación
secuenciales.- reglas que expresan patrones de comportamiento secuencial, es decir, que se dan
en instantes distintos en el tiempo. Encontrar patrones en secuencia Una secuencia es una lista
ordenada de itemsets, donde cada itemset es un elemento de la secuencia El tamaño de una
secuencia es su cantidad de elementos (itemsets) La longitud de una secuencia es su cantidad de
31 | P á g i n a
Capítulo III: Marco Teórico
ítems. El soporte de una secuencia es el porcentaje de secuencias que la contienen en un conjunto
de secuencias S Las secuencias frecuentes (o patrones secuenciales) son las sub secuencias de
una secuencia que tienen un soporte mínimo.
3.2.9.2.5 Correlaciones y factorizaciones
Si bien esta tarea no describe precisamente a los datos si no que más bien se utiliza como parte
del proceso de selección de atributos ya que se usa para ver si dos o más atributos numéricos
están correlacionados de alguna manera, puede ser vista como una tarea independiente y
suficiente si lo que se espera de la minería de datos es precisa y únicamente buscar correlaciones
entre variables. Las correlaciones trabajan únicamente como atributos numéricos y las relaciones
encontradas pueden ser tanto bidireccionales (x y) como no orientadas (x - y).
3.2.10 METODO EN MINERÍA DE DATOS
Un método es una palabra que proviene del termino griego “methodos” (camino o vía) y que se
refiere al medio utilizado para llegar a su fin. Su significado original señala el camino que
conduce a un lugar (Francis Bacón, 1626).En minería de datos utiliza diversos tipos de métodos
para llevar a cabo una tarea como son la Inteligencia artificial, aprendizaje automático,
estadística, y sistemas de base de datos.
3.2.11 METODOS DE MINERÍA DE DATOS Y SU RELACIÓN CON LAS TAREAS
Las tareas dicen relación con el “¿Qué hacer?” y los métodos con el “¿Cómo hacerlo?”, es claro
entonces que cada una de las tareas descritas requiere de un método o técnica para ser resuelta.
De la misma forma que en la vida cotidiana, generalmente no existe solo una forma de resolver
un problema sino que varias maneras, es lógico pensar que en la minería de datos no existe un
único método para resolver una determinada tarea, la verdad es que una única técnica ofrece un
32 | P á g i n a
Capítulo III: Marco Teórico
espectro de soluciones para resolver distintas tareas (Hernández Orallo, Ramírez Quintana, &
Ferri Ramírez, 2004).
En la siguiente tabla se puede apreciar claramente el hecho de que varias técnicas y/o algoritmos
son utilizados en varias tareas. La tabla fue extraída desde el trabajo de Hernández (Hernández
Orallo, Ramírez Quintana, & Ferri Ramírez, 2004):
Tabla4.1. (Cuadro comparativo de diversas técnicas de Minería de datos)
3.2.12 TÉCNICAS DE MINERÍA DE DATOS.
3.2.12.1 Árboles de decisión
Es la técnica que permite analizar decisiones secuenciales basadas en el uso de resultados y
probabilidad asociados. Los arboles de decisión se pueden usar para generar sistemas expertos,
búsqueda binaria y árboles de juegos. Las ventajas de loa árboles de decisión es que resume los
33 | P á g i n a
Capítulo III: Marco Teórico
ejemplos de partida, permitiendo la clasificación de nuevos casos siempre y cuando no existan
modificaciones sustanciales en las condiciones bajo las cuales se generaron los ejemplos que
sirvieron para su construcción (Tenembaum, Aarón, Langsam, 1993).
3.2.12.2 Red Bayesiana
Son utilizadas en diversas áreas de aplicación como por ejemplo el diagnóstico médico. Las
mismas proveen una forma compacta de representar el conocimiento y métodos flexibles de
razonamiento basados en las teorías probabilísticas capaces de predecir el valor de variables no
observadas y explicar las observadas. Entre las características que poseen las redes bayesianas, se
puede destacar que permiten aprender sobre relaciones de dependencia y causalidad, permiten
combinar conocimiento con datos, evitan el sobre-ajuste de los datos y pueden manejar bases de
datos incompletas (Heckerman, 1995; Heckerman & Chickering, 1996; Ramoni & Sebastiani,
1996).
3.2.12.3 Redes Neuronales
Son modelos no lineales, inspirados en el funcionamiento del cerebro, que fueron diseñados para
resolver una gran variedad de problemas. Los perceptores multi-capa son algoritmos de regresión
que construyen un modelo determinista y=f(x), relacionando un conjunto de predictores, x, y
predictandos y (Gutiérrez, J.M. et, 2004).
3.2.12.4 Enfoques estadísticos para estimación y predicción
Este tipo de métodos pertenecen todas las técnicas que están mayormente relacionadas con la
estadística tradicional, los algoritmos utilizados son lo que se encuentran con la gran mayoría del
software estadísticos presentes en el mercado hace años (como el clásico SPSS Clementine, como
claro ejemplo). Principalmente al igual que en la estadística, a este tipo de enfoques pertenecen
los modelos de predicción bivariantes, como la regresión lineal simple, regresión logística y la
regresión múltiple (E Jiménez-Contreras, 1993).
3.2.13 MÉTODOS BIVARIANTES.
34 | P á g i n a
Capítulo III: Marco Teórico
Las técnicas estadísticas bivariantes permiten el análisis conjunto de dos características de los
individuos de una población con el propósito de detectar posibles relaciones entre ellas. La
naturaleza (nominal, ordinal o numérica) de las características objeto de estudio determinará las
técnicas y herramientas más adecuadas para su análisis. (E Jiménez-Contreras, 1993).
3.2.13.1 Regresión logística
La regresión logística es un modelo de regresión para variables dependientes o de respuesta
binomial mente distribuidas. Es útil modelar la probabilidad de un evento ocurrido como función
de otros factores. Es un modelo lineal generalizado que usa como función de enlace la función
logit. Es una variación de las funciones de regresión lineal representadas anteriormente
(Hernández Orallo, Ramírez Quintana, & Ferri Ramírez, 2004).
3.2.13.2 Regresión lineal simple
Es una técnica estadística en donde se trata generalmente de estimar el valor de una variable a
partir del valor de otra variable por lo que trabaja con solo dos atributos. Se basa en relaciones
entre variables del tipo causa- efecto en donde la variable independiente se le conoce como
variable de entrada (también llamada regresor) y cuyo valor genera una variable de salida (o de
respuesta). En resumen la regresión se explica de manera que el valor tome un atributo (regresor)
influye directamente en el valor que tomara el otro atributo (Hernández Orallo, Ramírez
Quintana, & Ferri Ramírez, 2004).
35 | P á g i n a
Capítulo III: Marco Teórico
Figura 4.5. (Ejemplo de modelo creado con regresión lineal simple)
3.2.14 MÉTODOS MULTIVARIANTES: REGRESIÓN LINEAL MÚLTIPLE
La regresión lineal múltiple es una extensión de la regresión simple para trabajar con múltiples
variables. Refleja las posibilidades entre varias variables de entrada y variable objetivo.
Generalmente lo que se tiene es la superposición es un único modelo de las regresiones a cada
uno de las variables de entrada con la variable de respuesta. (Hernández Orallo, Ramírez
Quintana, & Ferri Ramírez, 2004).
3.2.14.1 Análisis de Regresión Múltiple
Mediante un modelo de regresión lineal múltiple (MRLM) tratamos de explicar el
comportamiento de una determinada variable que denominaremos variable a explicar, variable
endógena o variable dependiente, (y representaremos con la letra Y) en función de un conjunto de
k variables explicativas X1, X2,..., Xk mediante una relación de dependencia lineal (suponiendo
X1 = 1) (Doran, H. (1989):
Y=a+B1∗X1+B2∗X2+B3∗X 3+…+Bk∗Xk+R
Y: Variable dependiente
B: Coeficiente estandarizado
X: Variables Independiente
R: Perturbación, error o residuo.
36 | P á g i n a
Capítulo III: Marco Teórico
Para poder resolver y obtener a=b1 y b2 en una ecuación de regresión múltiple el cálculo se
presenta muy tedioso porque se tiene que resolver 3 ecuaciones que se generan por el método de
mínimo de cuadrados:
∑ y=na+b1∑ x1+b2∑ x2
∑ x1 y=a∑ x1+b1∑ x12+b2∑ x1 x2
∑ x2 y=a∑ x2+b1∑ x1 x2+b2∑ x22
La dificultad al momento de usar regresiones múltiples, constituye la identificación de las
variables independientes relevantes y la selección de los términos del modelo de regresión
(Obregón, 2007).
3.2.14.2 Debilidades de una regresión lineal múltiple
Tanto la recta de regresión como el coeficiente de correlación no son robustos, en el sentido de
que resultan muy afectados por medidas particulares que se alejen mucho de la tendencia general.
Se puede utilizar la correlación (Obregón, 2007).
3.2.14.3 Delimitación y definición de variables relevantes para el estudio.
37 | P á g i n a
Capítulo III: Marco Teórico
La investigación que desarrollaremos debe contar con una o más variables a la vez que no pueda
existir una variable que no responda al objetivo final de la investigación (Obregón, 2007)..
3.2.14.4 Métodos de selección de variables en el análisis de regresión lineal Múltiple.
La selección del método permite especificar cómo se introducen las variables independientes en
el análisis. Utilizando distintos métodos se pueden construir diversos modelos de regresión a
partir del mismo conjunto de variables (Obregón, 2007).
Para introducir las variables del bloque en un sólo paso seleccione Introducir. Para eliminar las
variables del bloque en un solo paso, seleccione Eliminar. La selección de variables Hacia
adelante introduce las variables del bloque una a una basándose en los criterios de entrada. La
eliminación de variables Hacia atrás introduce todas las variables del bloque en un único paso y
después las elimina una a una basándose en los criterios de salida. La entrada y salida de
variables mediante Pasos sucesivos examina las variables del bloque en cada paso para
introducirlas o excluirlas. Se trata de un procedimiento hacia adelante por pasos. Los valores de
significación de los resultados se basan en el ajuste de un único modelo. Por ello, estos valores
no suele ser válidos cuando se emplea un método por pasos (Pasos sucesivos, Hacia adelante o
Hacia atrás) (E Jiménez-Contreras, 1993).
Todas las variables deben superar el criterio de tolerancia para que puedan ser introducidas en la
ecuación, independientemente del método de entrada especificado. El nivel de tolerancia por
defecto es 0,0001. Tampoco se introduce una variable si esto provoca que la tolerancia de otra ya
presente en el modelo se sitúe por debajo del criterio de tolerancia (E Jiménez-Contreras, 1993).
Todas las variables independientes seleccionadas se añaden a un mismo modelo de regresión. Sin
embargo, puede especificar distintos métodos de introducción para diferentes subconjuntos de
variables (E Jiménez-Contreras, 1993).
3.2.14.5 Consideraciones sobre los datos.
Datos: Las variables dependientes e independientes deben ser cuantitativas. Las variables
categóricas, como la religión, estudios principales o el lugar de residencia, han de recodificarse
38 | P á g i n a
Capítulo III: Marco Teórico
como variables binarias o como otros tipos de variables de contraste.
Supuestos: Para cada valor de la variable independiente, la distribución de la variable
dependiente debe ser normal. La varianza de distribución de la variable dependiente debe ser
constante para todos los valores de la variable independiente. La relación entre la variable
dependiente y cada variable independiente debe ser lineal y todas las observaciones deben ser
independientes.
Estadísticos: Para cada variable: número de casos válidos, media y desviación típica. Para cada
modelo: coeficientes de regresión, matriz de correlaciones, correlaciones parciales y
semiparciales, R múltiple, R cuadrado, R cuadrado corregida, cambio en R cuadrado, error típico
de la estimación, tabla de análisis de la varianza, valores pronosticados y residuos. Además,
intervalos de confianza al 95% para cada coeficiente de regresión, matriz de varianza-covarianza,
factor de inflación de la varianza, tolerancia, prueba de Durbin-Watson, medidas de distancia
(Mahalanobis, Cook y valores de influencia), DfBeta, DfAjuste, intervalos de predicción y
diagnósticos por caso.
3.2.14.6 Correlación de datos.
Establece si existe una relación entre las variables y responde a la pregunta, “¿Qué tan evidente
es esta relación?”
La correlación es una prueba fácil y rápida para eliminar factores que no influyan en la
predicción, para una respuesta dada.
3.2.14.7 Coeficiente de correlación Pearson
Es una medida de la fuerza de relación entre las variables x y.
Es un numero entre -1 y 1
Es un valor positivo indica que cuando un variable aumenta, la otra variable aumenta
Un valor negativo indica que cuando una variable aumenta, la otra variable aumenta
Un valor negativo indica que cuando una variable aumenta la otra disminuye
Si las dos variables no están relacionadas, el coeficiente de correlación se aproxima a 0
r= SSxy
√ SSxSSy
39 | P á g i n a
Capítulo III: Marco Teórico
Coeficiente de correlación Interpretación
0,80 a 1,00 Alta relación de variables
0,60 a 0,79 Una relación entre moderada y acentuada
0,40 a 0,59 Una media relación de variables
0,20 a 0,59 Una media baja relación de variables
0, 00 a 0,19 Una relación fortuita o insignificante
Tabla 4.2 (Tabla de interpretación de la correlación de variables)
El coeficiente de correlación no es más que una medida de resumen, para el cual se utilizara la
tabla () como referencia de comparación de los resultados de correlación.
40 | P á g i n a
Capítulo III: Marco Teórico
3.3 SOFTWARE DE MINERIA DE DATOS.
3.3.1 CLEMENTINE SPSS
Clementine es un conjunto de programas de minería de datos que permite desarrollar rápidamente
modelos predictivos mediante técnicas empresariales y utilizarlos en operaciones empresariales
para mejorar la toma de decisiones. Con un diseño que sigue el modelo CRISP-DM, estándar del
sector, Clementine admite el proceso completo de minería de datos, desde los propios datos hasta
obtener los mejores resultados.
Características:
Software propietario de IBM.
Licencia no gratuita.
Manipulación visual de datos.
Creación automática de modelos.
No hay necesidad de bases de datos especializadas.
Módulos:
Cliente.
Servidor.
Batch.
Compatibilidad:
Entornos Windows.
Entornos Unix (Solo servidor).
Desarrollado en Java.
41 | P á g i n a
Capítulo III: Marco Teórico
3.3.2 WEKA
Es una plataforma de software para aprendizaje automático y minería de datos escrito en Java y
desarrollado en la Universidad de Waikato. Weka es un software libre distribuido bajo
licencia GNU-GPL.
El paquete Weka contiene una colección de herramientas de visualización
y algoritmos para análisis de datos y modelado predictivo, unidos a una interfaz gráfica de
usuario para acceder fácilmente a sus funcionalidades. La versión original de Weka fue un front-
end enTCL/TK para modelar algoritmos implementados en otros lenguajes de programación, más
unas utilidades para pre procesamiento de datos desarrolladas en C para hacer experimentos de
aprendizaje automático. Esta versión original se diseñó inicialmente como herramienta para
analizar datos procedentes del dominio de la agricultura, pero la versión más reciente basada en
Java (WEKA 3), que empezó a desarrollarse en 1997, se utiliza en muchas y muy diferentes
áreas, en particular con finalidades docentes y de investigación.
Características:
Desarrollado en Java.
Desarrollado en Java.
Multiplataforma.
Interfaz de Usuario.
Interfaz de Explorador.
Interfaz Experimentador.
Interfaz flujo de conocimiento.
42 | P á g i n a
Capítulo III: Marco Teórico
3.3.3 RAPIDMINER
Rapidminer (anteriormente, YALE, Yet Another Learning Environment) es un programa
informático para el análisis y minería de datos. Permite el desarrollo de procesos de análisis de
datos mediante el encadenamiento de operadores a través de un entorno gráfico. Se usa en
investigación educación, capacitación, creación rápida de prototipos y en aplicaciones
empresariales. En una encuesta realizada por KDnuggets, un periódico de minería de datos,
Rapidminer ocupó el segundo lugar en herramientas de analítica y de minería de datos utilizadas
para proyectos reales en 2009 y fue el primero en 2010.
La versión inicial fue desarrollada por el departamento de inteligencia artificial de la Universidad
de Dortmund en 2001. Se distribuye bajo licencia AGPL y está hospedado en SourceForge desde
el 2004.
Rapidminer proporciona más de 500 operadores orientados al análisis de datos, incluyendo los
necesarios para realizar operaciones de entrada y salida, pre procesamiento de datos y
visualización. También permite utilizar los algoritmos incluidos en Weka.
Características:
Desarrollado en Java.
Multiplataforma.
Representación interna de los procesos de análisis de datos en ficheros XML.
Permite el desarrollo de programas a través de un lenguaje de script.
Puede usarse de diversas maneras:
1) A Través de un GUI.
2) En línea de comandos.
3) En Batch.
4) Desde otros programas a través de llamadas a sus bibliotecas.
43 | P á g i n a
Capítulo III: Marco Teórico
Extensible.
Incluye gráficos y herramientas de visualización de datos.
4. MARCO
METODOLOGICO
44 | P á g i n a
Capítulo III: Marco Teórico
4.1 LA METODOLOGÍA CRISP-DM.
Los orígenes de CRISP-DM, se remontan hacia el año 1999 cuando un importante consorcio de
empresas europeas tales como NCR (Dinamarca), AG(Alemania), SPSS (Inglaterra), OHRA
(Holanda), Teradata, SPSS, y Daimer-Chrysler, proponen a partir de diferentes versiones de
KDD (Knowledge Discovery in Databases) [Reinartz, 1995], [Adraans, 1996], [Brachman,1996],
[Fayyad, 1996], el desarrollo de una guía de referencia de libre distribución denominada CRISP-
DM (Cross Industry Standard Process for Data Mining).
A partir del año 2000, con el gran crecimiento que surgió en el área de la minería de datos, surgen
tres nuevos modelos que plantean un enfoque sistemático para llevar a cabo el proceso [3]:
SEMMA, Catalyst (conocida como P3TQ) y CRISP-DM.
Actualmente la guía de referencia más utilizada en el desarrollo de proyectos de Data Mining.
Estructura el proceso en seis fases: Comprensión del negocio, Comprensión de los datos,
Preparación de los datos, Modelado, Evaluación e Implantación [5]. La sucesión de fases, no es
necesariamente rígida. Cada fase es descompuesta en varias tareas generales de segundo nivel.
Las tareas generales se proyectan a tareas específicas, pero en ningún momento se propone como
realizarlas. Es decir, CRISP-DM establece un conjunto de tareas y actividades para cada fase del
proyecto pero no especifica cómo llevarlas a cabo
4.2 ETAPAS METODOLOGÍA CRISP-DM.
El estándar incluye un modelo y una guía, estructurados en seis fases, algunas de estas fases son
bidireccionales, lo que significa que algunas fases permitirán revisar parcial o totalmente las fases
anteriores.
1) Comprensión del negocio (Objetivos y requerimientos desde una perspectiva no técnica)
45 | P á g i n a
Capítulo III: Marco Teórico
Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios
de éxito)
Evaluación de la situación (Inventario de recursos, requerimientos, supuestos,
terminologías propias del negocio…)
Establecimiento de los objetivos de la minería de datos (objetivos y criterios de
éxito)
Generación del plan del proyecto (plan, herramientas, equipo y técnicas)
2) Comprensión de los datos (Familiarizarse con los datos teniendo presente los objetivos
del negocio)
Recopilación inicial de datos
Descripción de los datos
Exploración de los datos
Verificación de calidad de datos
3) Preparación de los datos (Obtener la vista minable o dataset)
Selección de los datos
Limpieza de datos
Construcción de datos
Integración de datos
Formateo de datos
4) Modelado (Aplicar las técnicas de minería de datos a los dataset)
Selección de la técnica de modelado
Diseño de la evaluación
Construcción del modelo
Evaluación del modelo
46 | P á g i n a
Capítulo III: Marco Teórico
5) Evaluación (De los modelos de la fase anteriores para determinar si son útiles a las
necesidades del negocio)
Evaluación de resultados
Revisar el proceso
Establecimiento de los siguientes pasos o acciones
6) Despliegue (Explotar utilidad de los modelos, integrándolos en las tareas de toma de
decisiones de la organización)
Planificación de despliegue
Planificación de la monitorización y del mantenimiento
Generación de informe final
Revisión del proyecto
Figura 5.1 (Modelo de proceso CRISP-DM, 2000)
47 | P á g i n a
Capítulo III: Marco Teórico
5. DESARROLLO
48 | P á g i n a
Capítulo III: Marco Teórico
5.1 METODOLOGIA CRISP-DM APLICADA EN LA INVESTIGACIÓN.
5.1.1 COMPRENSIÓN DEL NEGOCIO.
5.1.1.1 Contextualización de la investigación
Situación Actual: Comuna de Maule, VII Región, Chile.
Descripción del contexto: CESFAM Maule.
La comuna de Maule abarca una superficie de 238,22 km2 y una población de 16.837 habitantes
(Censo INE Año 2002), correspondientes a un 1,68% de la población total de la región y una
densidad de 70,68 hab/km2. Del total de la población, 8.146 son mujeres (40,02%) y 8.691 son
hombres (51,62%). Un 59,98% (10.098 hab.) corresponde a población rural, y un 40,02% (6.739
habs.) corresponde a población urbana.
(Figura 5.1 Mapa representativo comuna de Maule, VII, Chile)
5.1.1.2 Generación del plan del proyecto.
5.1.1.2.1 Reuniones personal encargado
Mediante reuniones con el personal encargado de bodega, pedimos información sobre los 5
medicamentos más usados del CESFAM, Maule, asociados a la hipertensión y los factores que
genera dicha enfermedad, en grandes rasgos, información detallada de cada medicamento, para
49 | P á g i n a
Capítulo III: Marco Teórico
así, poder elegir el medicamento correcto y más importante para poder realizar el modelo
predictivo.
5.1.1.2.2 Medicamentos asociados a la hipertensión
Los 4 medicamentos más usados en el CESFAM asociados a la hipertensión son: Ácido Acetil
Salicílico, Enalapril, Losartan, Metformina.
5.1.1.2.3 Elección medicamento para investigación.
Para elegir el medicamento adecuado para poder realizar el modelo predictivo, nos orientaremos
en el fármaco más solicitado en el Cesfam, Maule. Para ello recurrimos a historial de registro de
manejos de medicamentos de forma mensual.
Medicamento
Cantidad
farmacia/Mensual
(cajas)
Ácido Acetil Salicílico 3000
Enalapril 20mg 3000
Losartan 2800
Metformina 850mg 2700
Tabla 5.1 (Muestra Mensual medicamentos hipertensión Cesfam, Maule)
En el cuadro se muestra el ingreso promedio mensual de cada medicamento seleccionado, y se
optara usar el fármaco Enalapril para nuestra investigación y su posterior modelo predictivo, este
modelo servirá para los demás fármacos ya que los factores asociados a la enfermedad son
similares.
50 | P á g i n a
Capítulo III: Marco Teórico
5.1.2.3 Elección Técnica minería de datos
Para esta investigación hemos decido optar por un algoritmo de regresión lineal múltiple, ya que
estudiaremos la relación entre variables independientes (predictoras o explicativas) y otra
variable dependiente (criterio, explicada, respuesta).
5.1.2.4 Elección Herramienta correspondiente
En el marco teórico se definieron tres software como candidatos para ser utilizados en el presente
proyecto, la idea de esta etapa es seleccionar la herramienta con la que se trabajara. En la figura
6.2 se muestran las características de cada herramienta
Herramientas Plataforma Soporte Licencia
Grado de
complejidad Respaldo
Experiencia en
salud
SPSS Clementine
12.0
Microsoft
Windows Si De Pago Media SPSS Si
Rapidminer 4.5.0 Multiplataforma Parcial Libre Sencilla - No
Weka 4.7.0 Multiplataforma Parcial Libre Compleja - Si
(Figura 5.2. Cuadro comparativo de selección de herramientas)
Una de las herramientas de software a utilizar es SPSS Clementine 12.0 que funciona bajo
plataforma Microsoft Windows, cuenta con soporte y esta aplicación tiene licencia pago. Tiene
una dificultad de uso de nivel medio pero la configuración de los nodos requiere un conocimiento
avanzado.
El siguiente candidato es una aplicación de licencia libre Rapidminer 4.5.0 un software con un
grado de complejidad sencilla pero que su diferencia con SPSS Clementine no tiene respaldo,
está escrito en java lo que permite ser utilizado en cualquier plataforma que tenga máquina virtual
de java.
Por otro lado está el software Weka 4.7.0, esta es la última versión libre de Weka, esta aplicación
al igual que Rapidminer es multiplataforma, esta aplicación tiene un grado de complejidad alto.
51 | P á g i n a
Capítulo III: Marco Teórico
Como criterio de selección se prioriza como aspecto fundamental la experiencia en área salud,
por lo que se descarta de inmediato Rapidminer, como segundo aspecto importante a la hora de
escoger la herramienta de minería de es que SPSS Clementine cuenta con respaldo SPSS que es
el encargado de prestar soporte. El tercer aspecto considerado para la selección es el nivel de
complejidad de la herramienta, ya que siempre es preferible utilizar una herramienta amigable al
usuario, por lo que se descarta Weka.
5.1.2.5 Instrumentos
Las Herramientas de ofimática involucradas en la investigación, tanto en la recopilación de la
misma como el manejo de datos.
Nombre Descripción
Microsoft Excel 2010 Ingreso de datos, Pruebas Correlación de
variables
PASWStatistics18 Modelado de datos
Google Chrome Descarga de Información
Microsoft Visual Studio 2010 Desarrollo de la aplicación
Block de Notas Reordenamiento de datos
5.1.2 COMPRENSIÓN DE LOS DATOS.
5.1.2.1 Recopilación inicial de los datos
52 | P á g i n a
Capítulo III: Marco Teórico
En esta etapa se hace la recopilación de las posibles variables que se usaran en el modelo
predictivo del medicamento que hemos seleccionado. Para poder identificar las posibles variables
recurrimos a citas bibliográficas para resolver los factores asociados a la enfermedad.
- Factores asociados a la enfermedad: Los factores asociados a la hipertensión a un
individuo son varios, estos pueden ser:
Sexo
Edad
Dosis
Herencia
IMC
Cigarro
Alcohol
Sedentarismo
Apnea sueño
- Factores externos a la enfermedad:
Año
Cantidad
5.1.2.2 Medios para acceder a esta información
Para llegar a esta información nos vimos en la necesidad de hacer encuestas, puesto que la
información que necesitábamos para poder realizar la investigación no se nos podía suministrar
porque era información confidencial del paciente.
53 | P á g i n a
Capítulo III: Marco Teórico
5.1.2.3 Realización de encuesta
Para esto buscamos información del número de habitantes de comuna de Maule para obtener el
universo de personas dentro de los rangos establecidos por la investigación (45-69 años) ya
contando con la información de las personas que habitan en la comuna de Maule en estos rangos
de edad, podemos calcular el tamaño de la muestra y así tener un análisis confiable.
n= K2∗p∗q∗N
(e2∗( N−1 ) )+k2∗p∗q
Dónde:
n: Es el tamaño de la población o universo. 4231 personas en el rango de
edad de (45-69) la población de Maule (www.deis.cl).
K: Es la variable de nivel de confianza en este caso será de 95,5 %.
e: Es el error muestral.
p: Este dato es generalmente desconocido y se suele suponer que p=q=0.5
q: Es la proporción de individuos que no poseen esa característica, es decir,
es 1-p.
N: Es el tamaño de la muestra
Por lo tanto:
n= 22∗0,5∗0,5∗4231
(52∗( 4231−1 ) )+22∗0,5∗0,5 = 431 Personas Encuestadas
54 | P á g i n a
Capítulo III: Marco Teórico
5.1.2.4 Integración de los datos.
En esta etapa se da inicio a la confección de la encuesta mediante a la muestra del total de
personas de la edad asignada. Para esto nos dirigimos a diferentes puntos estratégicos del pueblo
(CESFAM, Plaza municipal y poblaciones)
5.1.2.5 Visualización de los datos obtenidos.
Ya obtenidos los datos en la encuesta, con las variables; Nombre, Edad, IMC, Consumo cigarro, Herencia,
Sedentarismo, Apnea sueño, Dosis y Año, fue traspasada a una planilla Excel 2010 véase figura 5.3. Para
su posterior manejo y filtrado.
Figura 5.3 (Excel encuesta de la muestra de población del pueblo de Maule
55 | P á g i n a
Capítulo III: Marco Teórico
5.1.3 PREPARACIÓN DE LOS DATOS.
En esta fase se da inicio al filtrado de datos, para así dejar solo las variables relevantes para
nuestra investigación, para ello se utilizó el software PASWStatistics18 para crear una
extensión .sav, y así Clementine pueda “leer” la información que está en nuestro Excel para hacer
posteriormente los filtrados correspondientes y variables que no serán de gran importancia para
nuestra investigación.
Figura 5.4 (Presentación de los datos en SPSS)
56 | P á g i n a
Capítulo III: Marco Teórico
5.1.3.1 Limpieza de datos.
En esta fase procede a filtrar la información para ir descartando y seleccionando solo las variables
que sirven para el estudio y aplicación de la regresión lineal múltiple tal como lo muestra la
figura 5.5
Figura 5.5 (Presentación de los filtros en Clementine SPSS.)
5.1.3.2 Selección de los datos.
Edad: Seleccionamos esta variable porque existe un rango de edades (45-69) que es el grupo
donde mayormente se presenta la hipertensión y por lo tanto el uso del medicamento.
Herencia: Seleccionamos esta variable porque existe la relación entre enfermos por hipertensión
y los antecedentes familiares o herencia. Puesto que al tener familiares con este síntoma habrá
mayor probabilidad de que la persona padezca la enfermedad.
57 | P á g i n a
Capítulo III: Marco Teórico
Imc: Con este dato nos proveímos del estado de salud de la persona y es un indicador importante
que se relaciona con la hipertensión.
Cigarro: Seleccionamos esta variable porque inmediatamente después de fumar un cigarrillo, por
efecto de la nicotina, aumentan en el organismo los niveles de ciertas sustancias llamadas
catecolaminas que provocan contracción de los vasos sanguíneos. Como consecuencia, es
necesaria más fuerza para que la sangre se mueva por conductos más estrechos y es así como se
elevan las cifras de presión arterial.
Alcohol: Seleccionamos esta variable porque se cree que el alcohol precipita la liberación de la
hormona epinefrina (adrenalina) que contrae los vasos sanguíneos. Reducir el consumo de
alcohol puede disminuir la presión arterial.
Sedentarismo: Los individuos que practican más horas de actividades sedentarias interactivas -
uso de ordenador y conducción-, posiblemente acompañadas por una mayor carga de estrés
mental, tienen hasta un 50% más de riesgo de desarrollar hipertensión arterial.
Apnea Sueño: Debido a la breve parada respiratoria durante el sueño, el contenido de oxígeno en
sangre disminuye fuertemente. Esto puede hacer que el corazón y el cerebro no reciban suficiente
oxígeno. Como reacción de alarma del organismo, se libera mayor cantidad de hormonas que
estimulan la circulación. En consecuencia, los vasos sanguíneos se contraen, produciendo
elevaciones importantes de la presión arterial sistólica y diastólica nocturna.
Dosis: La dosis es la cantidad asignada a personas que ya sufren hipertensión, por lo cual es una
variable importante ya que nos entrega la cantidad de Enalapril que ingiere cada individuo
dependiendo su estado.
5.1.3.3 Grado de confianza de los datos.
En esta fase consideraremos que tan confiables son las variables que hemos seleccionado,
Clementine (Correlación entre variables Pearson) nos dirá que tan fuertes serán estas variables,
para posteriormente calcular el grado de correlación entre ellas. Véase figura 5.6.
58 | P á g i n a
Capítulo III: Marco Teórico
Figura 5.6 (Correlación entre variables Pearson.)
En la figura 5.6 se puede apreciar que las variables tienen una fuerte correlación individual,
excepto la variable Sedentarismo, ya que las personas de este grupo de edad, escasamente hacen
actividad física, este caso no se da solo en Maule, ya que la tendencia se marca en todo chile el
alto sedentarismo de la población, por esta razón hemos decidido excluir esta variable al
momento de aplicarla en la fórmula de regresión lineal múltiple, ya que tiene una baja relación y
puesto que el 98% de las personas en ese rango es sedentaria. Así se dará más importancia a las
variables más fuertes, como son la herencia, consumo de cigarros y consumo de alcohol
5.1.4 MODELADO.
5.1.4.1 Selección de variables dependientes e Independientes:
En esta fase se debe seleccionar cuáles serán las variables dependientes e independientes (Salida
y Entrada). Véase figura 5.7.
59 | P á g i n a
Capítulo III: Marco Teórico
Figura 5.7 (Proceso de selección de variables de entrada y salida en la aplicación SPSS)
5.1.4.2 Resumen de la aplicación y correlación general de las variables seleccionadas
En esta fase se darán a conocer el resumen y relación general de todas las variables
seleccionadas, para ello Clementine SPSS nos entrega un resumen del modelo resultante con el
grado de correlación general existente. Véase Tabla 5.1
60 | P á g i n a
Capítulo III: Marco Teórico
5.1.4.2.1 Resumen correlación SPSS Clementine.
Tabla 5.1 (Resumen de la aplicación SPSS)
La información que nos entrega la figura corresponde al resumen del modelo y en ella se muestra
el coeficiente de correlación R y el coeficiente de determinación R2. El valor R = 0,870 esto
indica que existe una relación directa y relativamente fuerte entre las variables. Como bien se
sabe, hasta este momento solo se puede hablar de relación y grado de relación y no se puede
afirmar causalidad.
El valor de R2 = 0,757 nos indica que el 0,757 % de la variabilidad de la variable y es explicada
por el modelo de regresión que se está estimando. Recordar que
R2=1− suma cuadradode losresiduossuma de cuadradostotal
La expresión R2 corregida es una correlación a baja de R2 basada en el número de casos de
variables independientes que participan en el estudio.
Ejemplo:
R2 Corregida = R2 p (1−R2)n−p−1
Donde p designa el número de variables independientes.
61 | P á g i n a
Capítulo III: Marco Teórico
Cuando el número de casos es pequeño y el número de variables independientes aumenta
R2 corregida es considerado un buen estimador de valor poblacional.
En este ejemplo, como sólo participa una variable independiente el valor r2 y r2 (Corregida ) son
relativamente similares.
5.1.4.2.2 Resumen correlación Excel.
Como podemos ver en la tabla la correlación de variables que nos arrojó Excel es de 0,757, es
una correlación aceptable dentro del rango establecido por las ciencias sociales y biológicas.
En resumen podemos apreciar que ambas pruebas hechas en SPSS Clementine y Excel arrojan un
“R” muy aceptable para seguir con nuestro modelo ya que las variables que se trabajan para
nuestra predicción tienen una alta correlación entre ellas.
5.1.4.3 Coeficientes de regresión resultantes de la matriz del modelo.
En esta etapa se mostraran los coeficientes resultantes de cada variable mediante la matriz del modelo para
cada variable asignada.
62 | P á g i n a
Capítulo III: Marco Teórico
Tabla 5.2 (Tabla de coeficientes (a))
En esta tabla se observa la constante de la regresión y el coeficiente no estandarizado
correspondiente a la Apnea Sueño, Consumos de cigarros (Unidad), Edad, Herencia, IMC,
Consumo de alcohol, sedentarismo y el residuo o constante del modelo.
Los coeficientes B van a indicar el incremento de las variables, por el incremento unitario de la
correspondiente variable explicativa.
Estos coeficientes B más la constante, serán utilizados en nuestra formula de Regresión lineal
múltiple para nuestro modelo predictivo.
5.1.4.4 Aplicación fórmula matemática para el modelo predictivo
En esta etapa daremos confección a nuestra formula algorítmica que será la que estimara y
predecirá el consumo del medicamento de forma mensual para la aplicación del sistema.
Formula predictiva consumo de medicamento:
Y=B1∗X1+B2∗X 2+B3∗X3+B4∗X4+B5∗X5+B6∗X6+R
63 | P á g i n a
Capítulo III: Marco Teórico
Dónde:
Y Cantidad de dosis estimada
X1 Edad promedio población
X2 IMC promedio población
X3 Consumo cigarros promedio población
X 4 Consumo alcohol promedio población
X5 Herencia promedio población
X6 Apnea de sueño promedio población
R
Residuo o constante, contiene el efecto de
todas las variables distintas de X1 y X n
Tabla 5.3 (Variables y coeficientes utilizados en la regresión lineal múltiple de manera general)
5.1.4.5 Desglosamiento de formula predictiva para los distintos casos propuestos
En esta etapa desglosaremos la fórmula para los casos que hemos propuesto en nuestro seminario
sobre el consumo de dosis de un individuo, y el consumo general de la población mediante los
factores de riesgo de la enfermedad.
5.1.4.5.1 Formula predictiva consumo de medicamento de forma individual:
Y=B1∗X1+B2∗X 2+B3∗X3+B4∗X4+B5∗X5+B6∗X6+R
Y Cantidad de dosis estimada Individuo
64 | P á g i n a
Capítulo III: Marco Teórico
X1 Edad Individuo
X2 IMC individuo
X3 Consumo cigarros individuo
X 4 Consumo alcohol individuo
X5 Herencia promedio individuo
X6 Apnea Sueño Individuo ( 0,1)
R
Residuo o constante, contiene el efecto de
todas las variables distintas de X1 y X n
Tabla 5.4 (Variables y coeficientes utilizados en la regresión lineal múltiple de manera individual)
Cabe recordar que en este caso el sedentarismo se excluye de la formula, ya que en el resultado
de la muestra de la encuesta existe un 98% de personas que no hacen actividad física, por esta
razón no afecta en el resultado de la predicción, dándole importancia a variables fuertes e
importantes como la herencia, consumo de alcohol y cigarros.
De la tabla 5.2 resultante podemos determinar la función de regresión para el consumo de un
individuo es:
Y= ( X1∗0,187 )+( X2∗−0,145 )+ ( X3∗0,151 )+( X 4∗0,008 )+( X 5∗4,480 )+( X7∗1,700 )−13,149
5.1.4.5.2 Formula predictiva consumo de medicamento de población general:
Y= (B1∗X1+B2∗X2+B3∗X3+B4∗X4+B5∗X5+B6∗X6+R )∗K
65 | P á g i n a
Capítulo III: Marco Teórico
Y Cantidad de dosis estimada
X1 Edad promedio población
X2 IMC promedio población
X3 Consumo cigarros promedio población
X 4 Consumo alcohol promedio población
X5 Herencia promedio población
X6 Apnea de sueño promedio población
R
Residuo o constante, contiene el efecto de
todas las variables distintas de X1 y X n
K Cantidad población para generar la predicción
Tabla 5.4 (Variables y coeficientes utilizados en la regresión lineal múltiple de la población general)
En este caso se incluye el sedentarismo, ya que en la regresión se introducirán la cantidad
promedio de personas sedentarias que hay en el pueblo, todas estas variables multiplicadas por la
variable K
Y=( ( X1∗0,187 )+( X2∗−0,145 )+( X 3∗0,151 )+( X4∗0,008 )+( X5∗4,480 )+( X6∗1,700 )+R )∗K
66 | P á g i n a
Capítulo III: Marco Teórico
5.1.5 EVALUACIÓN.
5.1.5.1 Evaluación de los resultados
En esta etapa realizaremos las pruebas correspondientes con los resultados obtenidos de nuestra
regresión lineal múltiple para nuestros dos casos. Para realizar las pruebas correspondientes se
utilizó Excel 2010.
- Prueba Predicción de uso de medicamento de un individuo de manera Mensual:
Tabla 5.5 (Pruebas de predicción de manera individual)
Como se puede ser en la Tabla 5.5 se realizaron las pruebas correspondientes donde se aplicó la
fórmula de consumo del medicamento de manera individual, esta predicción hace referencia a
cuantas dosis y/o cajas debería consumir el individuo. Este caso en particular es muy especial, ya
que asignamos a un individuo de 67 años, con un IMC de 30 (obeso), consume 40 cigarrillos
diarios, toma 5000 cc de alcohol al mes (5 litros), no tiene herencia de enfermedad y sufre apnea
de sueño ( 0,1), este modelo arroja que el individuo debería consumir 56 dosis al mes dando 2
cajas de forma mensual, este caso hace que el sujeto tenga la enfermedad de manera crónica, ya
que tiene que consumir 2 dosis diarias aprox.
67 | P á g i n a
Capítulo III: Marco Teórico
- Prueba Predicción de uso de medicamento de la población de manera Mensual:
Tabla 5.6 (Pruebas de predicción de población manera mensual)
En esta prueba se ingresa un promedio de edad de 56 años, un promedio de IMC de la población
de 26, un consumo de 10 cigarrillos mensual, 500 cc de alcohol mensual, una herencia de la
enfermedad de 1 y apnea de sueño de 1 (0,1), arroja un consumo de 64177 dosis, dando 2292
cajas de forma mensual.
5.1.6 DESPLIEGUE.
5.1.6.1 Planificación de despliegue
En esta etapa daremos paso al despliegue de nuestra investigación, para ello diseñaremos e
implementaremos un sistema con los datos obtenidos mediante la regresión lineal múltiple, este sistema
tendrá los mismos resultados que las pruebas hechas en Excel, a diferencia que el software diseñado será
mucho más amigable para el usuario final.
68 | P á g i n a
Capítulo III: Marco Teórico
5.1.6.2 Prototipo diseño software.
69 | P á g i n a
Capítulo III: Marco Teórico
6. CONCLUSIÓN
70 | P á g i n a
Capítulo III: Marco Teórico
En el ámbito de la salud un punto que ha sido muy importante es la de controlar el stock de
medicamentos y surge como una necesidad nuevas herramientas que puedan ayudar a la toma de
decisiones.
Con la ayuda de datos y estadística se puede anticipar a hechos o proporcionar información
importante para la toma de decisiones con la cual se puede obtener importantes beneficios, en
este caso económicos.
Una idea, un proyecto innovador pueden ayudar a la optimización y reordenamiento de las toma
de decisiones a futuro y poder tener así planes de contingencia.
Mediante la técnica de minería de datos el Cesfam podrá anticiparse a la necesidad del uso del
medicamento Enalapril y así tener una pronta acción solucionando los problemas de stock del
medicamento y optimizando sus recursos.
Los resultados de la investigación fueron bastante exactos y coherentes teniendo una alta
confianza y llegando a comprender como los factores de riesgo asociados a la enfermedad
influyen directamente con el uso del medicamento Enalapril para controlar la hipertensión.
Mediante el desarrollo de nuestro seminario nos hemos dado cuenta que tan significativa es la
enfermedad, el resultado nos dio a entender que mientras más edad una persona posee más
posibilidades de sufrir hipertensión, el consumo de cigarrillos y alcohol es trascendental para
poseer esta enfermedad a corto o largo plazo, pero más aún el factor que más importante fue la
herencia, cuyo resultado es certero, si un individuo tiene herencia familiar (1,2,3,4..) existe una
probabilidad tremenda de que sufra de hipertensión
Usando este mismo modelo de predicción para el medicamento Enalapril, se puede predecir otros
medicamentos asociados a la hipertensión, ya que los factores de riesgos y/o variables en el
mayor de los casos son similares, solo cambian el consumo general o consumo personal de
personas que consumen el medicamento que se va a predecir.
Para el centro de salud ha resultado una buena experiencia con la cual han podido estimar el
consumo de medicamentos optimizando en gastos monetario y para nosotros fue de gran ayuda,
ya que hemos aprendido bastante al profundizar en un ámbito como es la minería de datos, ya
71 | P á g i n a
Capítulo III: Marco Teórico
que mediante a sus novedosas técnicas, pueden ser de gran ayuda a instituciones pequeñas y
grandes empresas para el mejor funcionamiento dependiendo en el ámbito en el que esta trabaja.
72 | P á g i n a
Capítulo III: Marco Teórico
7. BIBLIOGRAFÍA
73 | P á g i n a
Capítulo III: Marco Teórico
(Dr. Luis Hernán Zárate. 2013)
http://www.dmedicina.com/enfermedades/enfermedades-vasculares-y-del-corazon/hipertension-
arterial
(Eva Castell Bescós, 2009).Hipertencion arterial primaria y secundaria
http://www.medynet.com/usuarios/jraguilar/Manual%20de%20urgencias%20y%20Emergencias/
htaurg.pdf
(Orallo, 2004) Introduccion a la minería de datos. Madrid, España: Ediciones Pearson Prentice
hall.
(B.Moxon’s, 1996). http://www.ugr.es/~jalberto/Investigacion/Casta_eda4.pdf
(César Krall, 2013).Las bases de datos y la minería de datos
http://www.aprenderaprogramar.com/index.php?option=com_content&id=258&Itemid=164
(Trondheim, 1997). Minería de datos como proceso
exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosYany2008.pdf
(Han.J.Kamber, 2001).Proceso KDD
http://academia.edu/1059656/Mineria_de_datos_conceptos_y_tecnicas
(Hernández Orallo, J., Ramirez Quintana, M. J., & Ferri Ramírez, C,2004). Introducción a la
Minería de Datos. Madrid: Pearson.
(Morgan Kaufmann, 1999).Proceso de extracción de conocimiento
http://www.webmining.cl/2011/01/proceso-de-extraccion-de-conocimiento
(E Jiménez-Contreras, 1993).Metodos Bivariantes
http://ec3.ugr.es/publicaciones/
Jimenez_Contreras,_E_Resenna_del_libro_Bibliometria_analisis_bivariante.pdf
(Gutiérrez, J.M. et, 2004).Redes Neuronales
74 | P á g i n a
Capítulo III: Marco Teórico
http://grupos.unican.es/ai/meteo/articulos/LibroINM_2capitulos.pdf
(Obregón, J, R., 2007). El método Estadístico. España, Madrid: Hambourg
75 | P á g i n a
Capítulo III: Marco Teórico
8. ANEXOS
76 | P á g i n a
Capítulo III: Marco Teórico
Anexo I: Censo por grupos edad, región, comuna y sexo
Anexo I.1.- Población por grupos de edad según Región, comuna y sexo (www.deis.cl,2008)
77 | P á g i n a
Capítulo III: Marco Teórico
78 | P á g i n a