tesis manipulaciÓn de medicamentos mediante mineria de datos

Sede Talca

Minería de datos aplicado a la manipulación de medicamentos de Cesfam, Maule

“Trabajo de seminario para optar al título de

Ingeniería de Informática”

“Profesor guía: Sr. Román Gajardo”

Eduardo Andrés Faúndez Rodríguez

Cristian Ignacio Cortés Cortés

2013

2 | P á g i n a

UNIVERSIDAD TECNOLOGICA DE CHILE INACAP

SEDE TALCA

Minería de datos aplicado a la

manipulación de medicamentos

de Cesfam, Maule

TRABAJO DE SEMINARIO PARA OPTAR AL TÍTULO DE INGENIERO EN

INFORMÁTICA

EDUARDO ANDRÉS FAUNDEZ RODRIGUEZ, CRISTIAN IGNACIO CORTÉS CORTÉS

30/07/201

3 | P á g i n a

ÍNDICE DE CONTENIDOS

Contenido1.- Introducción 9

2.-Planteamiento del Problema de Investigación 11

2.1.-Contextualizacion del Problema 12

2.2.-Solucion al Problema 13

2.3.-Relevancia y viabilidad de la investigación 13

2.4.-Objetivos de la investigación 15

3.-Marco Teórico 16

3.1.-Hipertension 17

3.1.1.-Tipos de Hipertensión 17

3.1.1.1.-Hipertensión Primaria 17

3.1.1.2.-Hipertensión Secundaria 18

3.2.-Mineria de datos 19

3.2.1.-Las Bases de datos y la minería de datos 19

3.2.2.-Proceso 20

3.2.3.-Mineria de Datos como Proceso 21

3.2.4.-Caracteristicas de la Minería de Datos 22

3.5.-Proceso KDD 23

3.2.6.-La minería de datos y su relación con el Proceso KDD 24

3.2.7.-Etapas del Proceso KDD 25

3.2.8.-¿Qué es una tarea de Minería de Datos? 27

3.2.9.-Tipos de tareas en Minería de Datos28

3.2.9.1.-Tareas Predictivas 28

3.2.9.1.1.-Clasificacion o Discriminación 28

3.2.9.1.2.-Clasificacion Suave 29

3.2.9.1.3.-Estimacion probabilidad de clasificación 29

3.2.9.1.4.-Categorizacion 29

3.2.9.1.5.-Preferencias o Priorización 30

3.2.9.1.6.-Regresion 30

4 | P á g i n a

3.2.9.2.-Tareas Descriptivas 30

3.2.9.2.1.-Clustering o Agrupamiento 31

3.2.9.2.2.-Reglas de Asociación 31

3.2.9.2.3.-Dependencias Funcionales 31

3.2.9.2.4.-Patrones Secuenciales 32

3.2.9.2.5.-Correlaciones y Factorizaciones 32

3.2.10.- Método en Minería de Datos 32

3.2.11.-Metodo de minería de Datos y su relación con las tareas 33

3.2.12.-Tecnicas de Minería de Datos 34

3.2.12.1.-Arboles de decisión 34

3.2.12.2.-Red Bayesiana 34

3.2.12.3.-Redes Neuronales 34

3.2.12.4.-Enfoque estadístico para estimación y predicción34

3.2.13.-Metodos Bivariantes 35

3.2.13.1.-Regresion Logística 35

3.2.13.2.-Regresion Lineal Simple 35

3.2.14.-Metodos Multivariantes: Regresión Lineal Múltiple36

3.2.14.1.-Analisis de Regresión Lineal Múltiple 36

3.2.14.2.-Debilidad de una Regresión Lineal Múltiple 38

3.2.14.3.-Delimitacion y definición de variables relevantes del estudio 38

3.2.14.4.-Metodo de Selección de variables en el análisis de regresión lineal 38

3.2.14.5.-Consideraciones de los datos 39

3.2.14.6.-Correlacion de los datos 40

3.2.14.7.-Coeficiente de Correlación de Pearson 40

3.3.-Software de minería de datos 42

3.3.1.-Clementine SPSS 42

3.3.2.-Weka 43

3.3.3.-RapidMiner 43

4.-Marco Metodológico 45

4.1.-La metodología CRISP-DM 46

4.2.-Etapas de Metodología CRISP-DM 46

5.-Desarrollo 49

5 | P á g i n a

5.1.-Metodologia CRISP-DM Aplicada a la investigación 50

5.1.1.-Comprension del negocio 50

5.1.1.1.-Contextualización de la investigación 50

5.1.1.2.-Generacion del plan del Proyecto 50

5.1.1.2.1.-Reuniones personal encargado 50

5.1.1.2.2.-Medicamentos asociados a la hipertensión 51

5.1.1.2.3.-Eleccion del medicamento para la investigación 51

5.1.2.1.-Eleccion de la técnica de minería de datos 52

5.1.2.2.-Eleccion de la herramienta correspondiente 52

5.1.2.3.-Instrumentos 53

5.1.2-Comprension de los datos 54

5.1.2.1.-Recopilacion inicial de los datos 54

5.1.2.2.-Medios para acceder a esta información 54

5.1.2.3.-Realizacion de encuestas 55

5.1.2.4.-Integracion de los datos 56

5.1.2.5.-Visualizacion de los datos obtenidos 56

5.1.3.-Preparacion de los datos 57

5.1.3.1.-Limpieza de datos 58

5.1.3.2.-Selección de los datos 58

5.1.3.3.-Grado de confianza de los datos 59

5.1.4.-Modelado 60

5.1.4.1.-Selección de variables dependientes e Independientes 60

5.1.4.2.-Resumen de la aplicación y correlación general de las variables seleccionadas 61

5.1.4.2.1.-Resumen correlación SPSS Clementine 62

5.1.4.2.2.-Resumen correlación Excel 63

5.1.4.3.-Coeficiente de regresión resultantes de la matriz del modelo 63

5.1.4.4.-Aplicación fórmula matemática para el modelo predictivo 64

5.1.4.5.-Desglosamiento de la formula predictiva para los distintos casos propuestos 65

5.1.4.5.1.-Formula predictiva consumo de medicamentos de forma individual 65

5.1.4.5.2.-Formula predictiva consumo de medicamentos de la población total…………………………….66

5.1.5-Evaluación 68

6 | P á g i n a

5.1.5.1.-Evaluación de los resultados 68

5.1.6.-Despliegue 69

5.1.6.1.-Planificación de despliegue 69

5.1.6.2.-Prototipo diseño 71

6.-Conclusión 72

7.-Bibliografia 75

8.-Anexos 78

7 | P á g i n a

AGRADECIMIENTOS

8 | P á g i n a

1. INTRODUCCIÓN

9 | P á g i n a

En este presente seminario de título se abordara un tema tan importante como es el manejo de

medicamentos en el Cesfam de la comuna de Maule, Chile, ligados a la hipertensión. Unas de las

principales falencias del centro de la salud familiar, es el desabastecimiento de los fármacos que

son entregados diariamente a las personas por diversos motivos, ya sean por enfermedades

crónicas, falencias musculares, diabetes, malestares al organismo, y principalmente por la

hipertensión, esto ocurre principalmente por una mala administración y organización de las

existencias lo cual conlleva a pérdidas importantes de dinero al no solicitar la cantidad necesaria

para la población y el vencimiento de medicamentos, por no tener la información necesaria para

afrontar este relevante problema. Hemos de realizar esta investigación para dar solución a este

inconveniente que presenta dicho centro médico, para ello elaboraremos un método eficiente que

pueda contrarrestar el mal manejo de medicamentos ligados a esta importante enfermedad,

enfermedad por lo cual, es unas de las más solicitadas por el centro de salud familiar. Para paliar

este puntual problema, abordaremos la problemática mediante técnicas de minería de datos que

mediante algoritmos matemáticos, daremos solución pertinente al caso. Para ello se va a

implementar un sistema informático que predecirá el consumo de medicamentos asociados a la

hipertensión, mediantes factores de riesgos biomédicos y sociales, para lograr este resultado,

estudiaremos en profundidad lo que es la hipertensión, los factores que produce esta enfermedad

(factores que serán de gran ayuda para la construcción de nuestro modelo), veremos en

profundidad el concepto de minería de datos, sus tareas y sus respectivas técnicas, exploraremos

en profundidad un método multivariantes conocido como regresión, método de minería de datos

que usaremos para la creación del modelo predictivo, describiremos y analizaremos los

diferentes software de minería de datos y elegiremos el que más se adecue a la problemática

propuesta.

Se espera que los resultados finales de este seminario sean categóricos y los resultados se

asemejen a la realidad y ponga fin a una necesidad de información para la toma de decisiones al

momento de solicitar el stock adecuado para dicho medicamento,

10 | P á g i n a

2. PLANTEAMIENTO DEL PROBLEMA

DE INVESTIGACIÓN

11 | P á g i n a

Capítulo II: Planteamiento del Problema de investigación

2.1 CONTEXTUALIZACIÓN DEL PROBLEMA.

Muchos centros de salud chilenos tienen problemas de organización, tecnológicos o de espacio

físico para llevar a cabo una gestión de stocks de medicamentos eficiente. En el ámbito sanitario

nos centramos en gestionar una materia tan concreta como lo son los medicamentos que es una

novedad dentro del ámbito hospitalario. La administración y abastecimiento de medicamentos es

una disciplina que no ha recibido suficiente atención en los últimos años. El centro de salud no

puede estar desabastecido de medicamentos y, por otro lado, el alto costo de adquisición de

muchos de ellos obliga a optimizar las existencias. Es necesario avanzar en este campo

investigando el comportamiento, administración y abastecimiento de medicamentos para mejorar

las técnicas de previsión de la demanda.

Uno de los principales problemas del desabastecimiento del centro médico está asociado a

medicamentos ligados a la hipertensión (es el aumento de la presión arterial de forma crónica), ya

que la cantidad solicitada de cajas de fármacos asociados a esta enfermedad a los laboratorios

correspondientes, en algunos casos no satisface la demanda, ya que la cantidad de personas que

sufren hipertensión es alta, y mediantes los factores de riesgos de esta enfermedad hace que cada

vez más personas sufran de hipertensión en el pueblo.

Como solución a este problema aparece la minería de datos (data mining, en inglés) con una base

estadística, matemática y algoritmos informáticos “inteligentes” dan solución a esta “necesidad

de información”.

La minería de datos se presenta como un gran aliado para descubrir esta información implícita en

los datos de las instituciones de salud. Para abordar la problemática planteada, existen dos

enfoques, uno es realizar el estudio con minería de datos, y el otro es el enfoque “tradicional”,

vale decir hacer un estudio científico con un estadístico y ocupar nada más que las herramientas

convencionales y el juicio del profesional.

Los resultados que se obtienen con cada minería de datos están respaldados internacionalmente e

incluso sus beneficios son utilizados en estudios internacionales.

12 | P á g i n a


En Chile, sin embargo, la minería de datos es una tecnología que aún no ha sido completamente

explotada y es utilizada principalmente en el ámbito del “retail”, en la detección de fraudes en

aseguradoras y segmentación. Por todo lo anterior, el uso de minería de datos se presenta como

una buena opción para dar solución a la problemática expuesta.

2.2 SOLUCIÓN AL PROBLEMA.

Se ha decidido abordar la problemática desde el punto de vista de lo que se conoce como proceso

KDD (Knowledge Discovery in Database) siguiendo cada uno de los pasos que este proceso

sugiere, es realizar un método multivariantes de minería de datos conocida como Regresión, para

crear un modelo predictivo del medicamento más utilizado por el CESFAM, Maule asociado a la

hipertensión. Este modelo luego de entrenado, debe ser capaz predecir el consumo de

medicamentos en base a variables biomédicas y sociales. Esto podría tener grandes beneficios

económicos al centro de salud puesto que, al momento de solicitar medicamento ellos se

abastecerán solo con la cantidad predicha y no solicitarán medicamentos de sobra que pueden

llegar a vencer.

Además este modelo predictivo será utilizado para ver el posible consumo mensual de un

individuo mediantes las variables preestablecidas, el modelo entregara un resultado estimado de

cuantas dosis (unidades y/o cajas) consumirá, mediante los factores de riesgos que la persona

poseerá.

2.3 RELEVANCIA Y VIAVILIDAD DE LA INVESTIGACIÓN.

Actualmente, las enfermedades cardiovasculares se han convertido en la primera causa de muerte

en todos los países del mundo industrializado, y el análisis epidemiológico de este fenómeno ha

permitido reconocer la existencia de unas variables biomédicas denominadas factores de riesgo

de enfermedad cardiovascular, capaces de influenciar la probabilidad del padecimiento de

13 | P á g i n a


accidentes cerebrovasculares, enfermedad coronaria, insuficiencia cardiaca o artropatía periférica.

La hipertensión arterial es uno de estos factores de riesgo modificables y es considerado, en la

actualidad, como uno de los mayores problemas de Salud Pública.

Entre las principales causas del aumento de la hipertensión arterial en Chile y en el mundo se

encuentran la obesidad y el sedentarismo, dos grandes males de este siglo. “tanto la obesidad

como el sedentarismo tienen cura y con información adecuada, la población podría cambiar sus

estilo de vida” (Dr. Luis Hernán Zárate. 2013)

"La presión arterial se eleva como consecuencia de la interacción de factores hereditarios y de

estilos de vida poco apropiados, destacando entre ellos una ingesta calórica excesiva, la apnea del

sueño, sedentarismo o inamovilidad, tabaquismo e ingesta inadecuada de bebidas alcohólicas"

(Dr. Luis Hernán Zárate. 2013).

De este análisis se pueden obtener conclusiones preliminares muy importantes que nos tracen la

directriz apropiada para el comienzo de esta investigación. Mediante la información de los

estados de salud de las personas que viven en la comuna de Maule se podrá determinar el

consumo necesario de medicamentos asociados a la hipertensión, ya que el manejo de fármacos

es manejado de manera muy desentendida y despreocupada. Para ello nos motiva a esta

investigación a buscar una nueva herramienta y/o técnica matemáticas que permitan el

entendimiento de variables asociadas a la enfermedad que inciden en la cantidad de dosis del

medicamento, y a la vez, este modelo predictivo servirá en comunas de Chile, que tengan una

caracterización similar de variables a esta comuna, ya que las variables utilizadas en la

investigación podrán representan la muestra global de un pueblo similar al de Maule.

14 | P á g i n a


2.4 OBJETIVOS DE LA INVESTIGACIÓN.

2.4.1 GENERAL:

Implementar sistema informático para predecir el consumo de medicamentos asociados a la

hipertensión, en base a variables biomédicas y sociales, mediante método multivariantes de

minería de datos.

2.4.2 ESPECÍFICOS:

1. Investigar el concepto y relación de la hipertensión en Chile, y sus principales

factores asociados a la enfermedad

2. Analizar y estudiar en profundidad el concepto de minería de datos y explicar su

relación con el proceso de KDD.

3. Describir tres de las principales herramientas de minería de datos y seleccionar la

que más se adecue a la problemática propuesta.

4. Construir modelo predictivo de un medicamento asociado a la hipertensión.

5. Analizar la información del modelo resultante de la aplicación de la tarea de

minería de datos.

6. Implementar y Diseñar sistema informático con los datos obtenidos del modelo

predictivo.

15 | P á g i n a


3. MARCO TEÓRICO

16 | P á g i n a

Capítulo III: Marco Teórico

3.1 HIPERTENSIÓN

La hipertensión arterial (HTA) es un síndrome caracterizado por elevación de la presión arterial

(PA) y sus consecuencias. Sólo en un 5% de casos se encuentra una causa (HTA secundaria); en

el resto, no se puede demostrar una etiología (HTA primaria); pero se cree, cada día más, que son

varios procesos aún no identificados, y con base genética, los que dan lugar a elevación de la PA.

La HTA es un factor de riesgo muy importante para el desarrollo futuro de enfermedad vascular

(enfermedad cerebrovascular, cardiopatía coronaria, insuficiencia cardíaca o renal). La relación

entre las cifras de PA y el riesgo cardiovascular es continua (a mayor nivel, mayor

morbimortalidad), no existiendo una línea divisoria entre presión arterial normal o patológica. La

definición de hipertensión arterial es arbitraria. El umbral elegido es aquel a partir del cual los

beneficios obtenidos con la intervención, sobrepasan a los de la no actuación. A lo largo de los

años, los valores de corte han ido reduciéndose a medida que se han ido obteniendo más datos

referentes al valor pronóstico de la HTA y los efectos beneficiosos de su tratamiento.

Actualmente, se siguen las recomendaciones de la OMS-SIH, que con objeto de reducir la

confusión y proporcionar a los clínicos de todo el mundo unas recomendaciones más uniformes,

ha acordado adoptar en principio la definición y la clasificación establecidas por el JOINT

NATIONAL COMMITTEE de Estados Unidos en su sexto informe (JNC VI) (Eva Castell

Bescós, 2009).

3.1.1 TIPOS DE HIPERTENSIÓN.

3.1.1.1. HIPERTENSIÓN PRIMARIA:

La mayor parte de los casos de hipertensión corresponden a este tipo. Se cree que el 95% de los

pacientes sufren hipertensión esencial, pues se desconoce la causa por la que cursan la

enfermedad, esto es así porque en la gran mayoría de la gente que presenta cifras de tensión

arterial elevada, es difícil encontrar exactamente qué es lo que precipita el aumento de la presión.

La combinación de factores relacionados son (Eva Castell Bescós, 2009):

17 | P á g i n a


- La dilatación y la contracción de los vasos sanguíneos

- Aumento de líquido en la sangre

- Secreción de hormonas

- Volumen de sangre bombeada por el corazón

Además existen ciertos factores de riesgo, como la herencia y el estilo de vida que desempeñan

un papel muy importante en el desarrollo de la hipertensión esencial. Entre más factores de riesgo

se tienen, mayor es la probabilidad de que se presente presión elevada. La raza, la edad, el sexo y

los antecedentes familiares forman parte de los factores que son inmodificables. Pero la obesidad,

el sedentarismo, el tabaquismo, el exceso de sal y grasa en la alimentación, el alcoholismo y el

estrés son factores que cualquier persona puede modificar en pro de su salud y las cuales

predisponen al desarrollo de hipertensión, no sólo en la edad adulta, sino también en la juventud

(Eva Castell Bescós, 2009).

3.1.1.2. HIPERTENSIÓN SECUNDARIA:

Se dice que una persona tiene hipertensión secundaria cuando la presión alta sí tiene una causa

conocida. Es decir, se puede encontrar una enfermedad subyacente que está desencadenando el

aumento de la presión arterial. Esta forma de hipertensión ocurre tan sólo en el 5% de los casos.

A diferencia de la hipertensión esencial, que los médicos pueden tratar pero no curar, la

hipertensión secundaria a menudo puede curarse. Una vez que se corrige la enfermedad o

trastorno que la causa, la presión disminuye e incluso en muchas personas regresa a lo normal.

Entre los trastornos que pueden desencadenar el desarrollo de hipertensión están (Eva Castell

Bescós, 2009):

- Enfermedad renal

- Enfermedad suprarrenal

- Enfermedad tiroidea

- Anormalidades en los vasos sanguíneos

18 | P á g i n a


3.2 MINERÍA DE DATOS

La minería de datos en si es un proceso que genera una salida a partir de una entrada. En este

caso la entrada son los datos que están generalmente (aunque no necesariamente) en repositorios

o almacenes de datos. La minería de datos es entonces descubrir información relevante (para el

dueño de los datos o alguna organización) que se encuentra de forma implícita (se puede decir

“escondida”) en esos datos, información que está presente en forma de relaciones, patrones de

conducta o tendencias. El proceso se realiza mediante la utilización de distintas técnicas

estadísticas, matemáticas y de tecnologías de información. (Orallo, 2004)

Otros autores afirman que la minería de datos es el proceso que tiene como propósito descubrir,

extraer y almacenar información relevante de amplias base de datos a través de programas de

búsqueda e identificación de patrones y relaciones globales, tendencias y otros indicadores

aparentemente caóticos que tienen una explicación que pueden descubrirse mediante diversas

técnicas de esta herramienta. (B.Moxon’s, 1996).

El objetivo fundamental es aprovechar el valor de la información localizada y usar patrones

preestablecidos para que los directivos tengan un mejor conocimiento de su negocio y puedan

tomar decisiones más confiables. (B.Moxon’s, 1996).

3.2.1 LAS BASES DE DATOS Y LA MINERÍA DE DATOS.

Las bases de datos han sido sin duda una herramienta fundamental que ha permitido la evolución

de la ciencia de la minería de datos. De hecho, a veces se usa el término “KDD (Knowledge

Discovery in Database o Descubrimiento de Conocimiento en Bases de Datos) como sinónimo de

minería de datos. (César Krall, 2013).

Las bases de datos puede decirse que son una de los tres soportes en que se apoya la minería de

datos, éstos son:

19 | P á g i n a


1. Bases de datos.

2. Estadísticas.

3. Algoritmia.

Figura 4.1. Cuadro de relación entre minería de datos; base de datos, algoritmia y Estadística

(César Krall, 2013).

3.2.2 PROCESO.

La noción de proceso halla su raíz en el término de origen latino “procesus”. Este concepto

describe la acción de avanzar o ir para adelante, al paso del tiempo y al conjunto de etapas

sucesivas advertidas en un fenómeno natural o necesario para concretar una operación artificial.

(Real Academia española (RAE)).

20 | P á g i n a


3.2.3 MINERÍA DE DATOS COMO PROCESO.

En minería de datos “cada caso es un caso”. Sin embargo, en términos generales, el proceso se

compone de cuatro etapas principales (Trondheim, 1997):

1. Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea.

2. Pre procesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la

reducción y la transformación de las bases de datos. Es la etapa que consume más de la mitad del

tiempo del proyecto.

3. Determinación del modelo: Se comienza realizando unos análisis estadísticos de los datos, y

después se lleva a cabo una visualización gráfica de los mismos para tener una primera

aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden

utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.

4. Análisis de los resultados: Verifica si los resultados obtenidos son coherentes y los coteja con

los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son

novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

El procedimiento estándar particular usado en minería de datos se denomina CRISP-DM (Cross-

Industry Standard Process for Data Mining). CRISP-DM exige que la minería de datos sea vista

como un proceso completo, pasando por recolección y administración de los datos, pre procesado

de estos datos, construcción del modelo, evaluación del modelo y finalmente despliegue

(implementación) del modelo.

21 | P á g i n a


Figura 4.2. (Ciclo de vida para la creación de un proyecto de minería de datos)

3.2.4 CARACTERISTICAS DE LA MINERIA DE DATOS.

Entre las características más importantes se destacan (B.Moxon’s, 1996):

Explorar los datos se encuentran en las profundidades de las bases de datos, como los

almacenes de datos, que algunas veces contienen información almacenada durante varios

años.

En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos;

en otros, se mantienen en servidores de Internet e Intranet.

El entorno de la minería de datos suele tener una arquitectura cliente servidor.

Las herramientas de la minería de datos ayudan a extraer el mineral de la información

enterrado en archivos corporativos o en registros públicos, archivados.

El minero es, muchas veces un usuario final con poca o ninguna habilidad de

programación, facultado por barrenadoras de datos y otras poderosas herramientas

indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas.

Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e

inesperados.

22 | P á g i n a


Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y

procesarse rápidamente.

Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en

paralelo para la minería de datos.

3.2.5 PROCESO KDD.

Las siglas KDD provienen del inglés “knowledge Discovery in Database” y se traduce

literalmente como “Descubrimiento de conocimiento en base de datos” y consiste en usar

métodos de minería de datos (algoritmos) para extraer (identificar) lo que se considera como

conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos junto

con pre procesamientos y post-procesamientos. (Han.J.Kamber, 2001).

Otros autores aseguran que “No es un proceso automático, es un proceso iterativo que

exhaustivamente explora volúmenes muy grandes de datos para determinar relaciones. Es un

proceso que extrae información de calidad que puede usarse para dibujar conclusiones basadas en

relaciones o modelos dentro de los datos.” (Morgan Kaufmann, 1999).

“Desde nuestro punto de vista, KDD se refiere al proceso global del descubrimiento de

conocimiento útil a partir de los datos, y minería de datos se refiere a un paso en particular en

este proceso. La minería de datos es la aplicación de algoritmos específicos para extraer patrones

desde los datos” (Fayyad, Piatetsky-Shapiro, & Smyth, 1996).

3.2.6 LA MINERÍA DE DATOS Y SU RELACIÓN CON EL PROCESO KDD.

El proceso general de generar conocimiento mediante el descubrimiento de información implícita

en base de datos, corresponde al proceso KDD, y el proceso de minería de datos propiamente tal,

es solamente una tarea dentro de este proceso, se trata sin embargo de la de la tarea más

23 | P á g i n a


importante pues es la encargada de descubrir los patrones y crear el (o los) modelo(s) (Hernández

Orallo, Ramírez Quintana, & Ferri Ramírez, 2004).

El conocimiento extraído a partir del proceso KDD debe cumplir con una serie de propiedades,

en se nombran las siguientes (Hernández Orallo, Ramírez Quintana, & Ferri Ramírez, 2004):

Valido: Se refiere a que los patrones extraídos deben seguir siendo precisos para datos

nuevos, y no solo para los datos usados en la extracción de patrones.

Novedoso: Debe aportar información previamente desconocida por el usuario.

Potencialmente Útil: El conocimiento proporcionado por el proceso debe conducir a

acciones que sean beneficiosas para el usuario.

Comprensible: Se refiere a la interpretabilidad de la información resultante del proceso, si

extraen patrones que no sean comprensibles, difícilmente se podrán interpretar y la

información lejos de ser una ayuda para quien toma la decisión, aumentará el grado de

incertidumbre.

Figura 4.3. (Proceso de descubrimiento del conocimiento conocido como KDD)

En la figura 4.3 se aprecian las etapas esenciales del proceso KDD y estas se pueden desglosar

cada uno de estas etapas y se descubrirá que cada una es en sí misma un pequeño proceso que

aporta con su salida a la entrada de la etapa siguiente.

24 | P á g i n a


3.2.7 ETAPAS DEL PROCESO KDD.

Algunos autores muestran una descripción mucho más detallada de lo que comprende un proceso

KDD, dividiendo todo el proceso en 9 etapas, nótese eso sí que se trata de las mismas etapas

contenidas en la Figura 4.3, pero a un nivel de detalle mayor.

1) Debe entender el dominio del sistema de información y el conocimiento relevante que se

tiene de antemano con respecto al contexto, se deben identificar además los objetivos del

proceso KDD desde el punto de vista del cliente.

2) Debe seleccionar una colección de datos sobre los cuales se trabajara para extraer los

patrones que se están buscando, esta esta colección puede ser una fuente de datos

completa ya existente o puede ser una “muestra”, un pequeño conjunto de datos que

representa al total. (“La calidad del conocimiento extraído” en el proceso de KDD no

solo depende de la técnica de minería de datos utilizada, depende también de la calidad

de los datos utilizados)

3) Los datos seleccionados deben ser pre-procesados, el pre-procesado de los datos implica

algunas tareas como, elección de qué hacer con datos faltantes o innecesarios (cuando

corresponda) y eliminación de ruido de la muestra.

4) Esta fase trata sobre la reducción y proyección de los datos. Esta fase es crucial y debe

tenerse mucho cuidado sobre las decisiones que aquí se tomen pues influirán de manera

importante en el resultado final del proceso. Se trata principalmente de transformaciones

al formato de los datos y sobre todo a la búsqueda de posibles correlaciones entre

atributos (columnas). Mediante la reducción de la dimensionalidad (cantidad de

atributos) de los datos y algunos métodos de transformaciones, se pueden reducir el

número efectivo de variable consideradas. Al final del procesos de preparación de los

datos (paso dos al cuatro), la salida que se genera (datos procesados, o lo que se conoce

como “vista minable”) representa la entrada a la fase de minería de datos.

25 | P á g i n a


5) Consiste en relacionar los objetivos del proceso KDD identificados en la primera etapa

de una tarea de minería de datos en particular, como por ejemplo clasificaciones,

regresión, agrupamiento, categorización, etc.

6) Contempla un análisis exploratorio de los datos y la selección del algoritmo o técnica a

utilizar para crear el modelo, según los objetivos o requerimientos del paso uno.

7) Se da lugar a la búsqueda de los patrones según la tarea y el algoritmo seleccionado en

las etapas anteriores.

8) Comprende la visualización de los patrones y modelos extraídos o la interpretación de los

patrones resultantes de la tarea a minería de datos, posiblemente se puede volver a iterar

desde este punto a cualquiera de los anteriores, para revisiones, validaciones, etc.

9) Finalmente el actuar de acuerdo al conocimiento resultante de todos los pasos anteriores,

usando este conocimiento de manera directa, insertándolo en otro sistema, o bien

documentándolo en forma de reporte para ser revisado por las personas pertinentes.

(Fayyad, Piatetsky-Shapiro, & Smyth, 1996)

Figura 4.4. (Etapas detalladas del proceso KDD)

26 | P á g i n a


En resumen el objetivo fundamental del KDD es encontrar conocimiento útil, válido, relevante y

nuevo sobre un fenómeno o actividad mediante algoritmos eficientes, dadas las crecientes

órdenes de magnitud en los datos. Al mismo tiempo hay un profundo interés por presentar los

resultados de manera visual o al menos de manera que su interpretación sea muy clara. Otro

aspecto es que la interacción humano-máquina deberá ser flexible, dinámica y colaboradora.

El resultado de la exploración deberá ser interesante y su calidad no debe ser afectada por

mayores volúmenes de datos o por ruido en los datos. En este sentido, los algoritmos de

descubrimiento de información deben ser altamente robustos.

3.2.8 ¿QUE ES UNA TAREA EN MINERÍA DE DATOS?

El término tarea se emplea para designar a aquella obra y trabajo que generalmente demanda de

parte de quien la lleva a cabo cierto esfuerzo y que se realizara durante un tiempo limitado, es

decir, existe un tiempo límite para su realización (Zanón. J, 1999).

Una tarea hace referencia precisamente a “lo que se desea hacer”, o mejor dicho a lo que se

quiere solucionar (relacionado con los requerimientos) mediante minería de datos. Uno de los

aspectos que se debe tener claro en el proceso KDD es distinguir entre una tarea y un método de

minería de datos. Las tareas de DM pueden ser predictivas y las descriptivas (Orallo, 2004).

3.2.9 TIPOS DE TAREAS EN MINERÍA DE DATOS.

3.2.9.1 TAREAS PREDICTIVAS.

Las Tareas predictivas tratan de problemas y tareas en los que hay que predecir uno o más

valores para uno o más ejemplos. Dependiendo de cómo sea la correspondencia entre los

27 | P á g i n a


ejemplos y los valores de salida y la presentación de los ejemplos podemos definir varias tareas

predictivas (Hernández Orallo, Ramírez Quintana, & Ferri Ramírez, 2004)

- Clasificación.

- Clasificación suave.

- Estimación de probabilidad de clasificación

- Categorización.

- Preferencias o priorización.

- Regresión.

3.2.9.1.1 Clasificación o discriminación

Es una de las tareas que más se utilizan en minería de datos. En clasificación los ejemplos se

presentan como un conjunto de pares de datos de entrada y salida ᵹ = {e, s} tal que “e” pertenece

al total de datos de entrada y “s” pertenece al total de datos de salida. El objetivo de esta tarea es

aprender una función ƛ: E → S, llamada “clasificador” que “entienda” que para cada valor de

entrada “E” (de uno de los atributos), existe un valor único para “S”. Se supone que uno de los

atributos (variables) de la vista minable representa a la clase y el conjunto de clase es a su vez el

conjunto de los posibles valores que puede tomar este atributo. Entonces la función aprendida

será capaz de, dado un conjunto de valores de entrada para una nueva instancia.

3.2.9.1.2 Clasificación suave

Se trata de una variante de la clasificación pero que tiene una ligera diferencia y ésta radica en

que la Clasificación suave, además de aprender la función “clasificador”, se aprende otra función

Ѳ: Е → Ʀ que representa el grado de certeza de la predicción hecha por el clasificador ƛ. En el

fondo la clasificación suave es como una versión “mejorada” de la clasificación. Esto permite,

por ejemplo, decidir entre varios clasificadores, cuál es el más deseable.

3.2.9.1.3 Estimación de probabilidad de clasificación

Esta tarea se trata en realidad de una extensión de la clasificación suave, el problema se presenta

de la misma manera que ambas Clasificaciones anteriores, la función que debe aprenderse sin

embargo es distinta. Aquí en lugar de aprender una función “clasificador” que clasifique y otra

28 | P á g i n a


función “grado de certeza” que mida la precisión de esa predicción, se deben aprender “X”

funciones “grado de certeza”, una por cada clase. Y luego, cada uno de los valores devueltos por

cada una de las “X” funciones representan la probabilidad de que un ejemplo sea de cada una de

las clases. Para clasificar esto último, si se sigue la misma tónica de los ejemplos anteriores.

3.2.9.1.4 Categorización

A diferencia de las tareas de clasificación, aquí lo que se busca no es aprender una o más

funciones que se encasillen un nuevo ejemplo. En cambio lo que se busca es aprender una

correspondencia. Esta correspondencia incluye los ejemplos del conjunto de datos de entrada,

como también el conjunto de todas las categorías que están relacionadas en esos datos. En las

tareas de clasificación lo que se buscaba era predecir a cuál clase (de las ya existentes)

pertenecería un nuevo ejemplo “e”, dada la colección de sus atributos, ésas tareas solamente

asignan una y solo una clase a cada instancia del conjunto de salida “s”. En cambio en la

categorización un ejemplo “e” puede tener varias categorías asociadas, así lo que el modelo hará

será dilucidar a cuales de entre todas las categorías, pertenece el ejemplo “e”. Un ejemplo de

categorización seria dado un conjunto de perfiles de clientes en un supermercado, cuales tipos de

clientes comprarían productos

3.2.9.1.5 Preferencias o priorización

Consiste en determinar un orden lógico o “preferencial” entre por lo menos dos ejemplos. Los

que el modelo hace es precisamente “ordenar” nuevos ejemplos según un “criterio” que debe

aprenderse. Este criterio se basa en el conjunto de datos de entrada, todo vez que en este caso

cada ejemplo es una secuencia como la siguiente <e1 , e2 , …ex>, e i∈Е, x ≥ 2 en donde el orden de

la secuencia representa la predicción. Un ejemplo de priorización seria en una compañía de

seguros si se tuvieran varios clientes nuevos, basado en casos de clientes antiguos con perfiles

similares a los nuevos.

3.2.9.1.6 Regresión

29 | P á g i n a


En la regresión, los ejemplos se representan por relaciones entre el conjunto de datos de entrada

“Е” y el conjunto de salidas “S”, quedando entonces como objetivo de la regresión, el aprender la

función ƛ: Е → S que representan la relación entre los ejemplos, ahora se tiene que para cada

valor de “E” se tiene el valor único de “S”. En este sentido la regresión es bastante parecida a la

clasificación, sin embargo la diferencia entre ambas radica en que la regresión, “S” es

estrictamente numérico (los datos de entrada deben ser solamente números). La regresión se

utiliza frecuentemente en contabilidad para estimar, por ejemplo, las ventas para los siguientes

meses basado en las ventas de los últimos meses, aunque cabe destacar que este tipo de regresión

es meramente de tipo lineal, pero existen además otros tipos de regresión, como la logística.

3.2.9.2 TAREAS DESCRIPTIVAS.

Las tareas descriptivas buscan describir los datos existentes. Las tareas descriptivas más usadas

son:

- Agrupamiento (clustering)

- Reglas de asociación.

- Dependencias funcionales.

- Patrones secuenciales.

- Correlaciones y factorizaciones.

3.2.9.2.1 Clustering o Agrupamiento

Dentro de las tareas de clasificación y sus derivadas se señaló que el objetivo de ellas era asignar

a nuevas instancias una de las clases preestablecidas, esto supone que esas clases ya se

encuentran definidas desde antes de la elección de la tarea de minería de datos y forman parte de

la información de entrada. El agrupamiento en cambio, parte del hecho de que esas clases son

desconocidas a priori, no se conocen ni las clases ni siquiera cuantas son o si las hay. Por lo tanto

el objetivo de esta tarea es precisamente encontrar u obtener estos grupos o clases que se desean

“similares”. A veces se puede especificar al modelo la cantidad de clases que se desean obtener,

otras veces es el algoritmo quien define cuantos grupos se encontraron. La función que se

30 | P á g i n a


aprende es igual a la de la Clasificación: A:E → S con la excepción de que los valores del

conjunto S crean durante el proceso mismo del aprendizaje y no están dados en el conjuntos de

datos de Entrada E como en la Clasificación.

3.2.9.2.2 Reglas de asociación

Similares a las reglas de clasificación. Pueden predecir cualquier atributo, no solo la clase, o

predecir combinaciones de atributos. Las diferentes reglas de asociación expresan diferentes

regularidades que yacen en el conjunto de datos y generalmente predicen cosas diferentes. Se

centra el interés en las reglas que aplican a un número grande de instancias y que tiene una

precisión alta en las instancias en las que aplica. La cobertura de una regla de asociación es el

número de instancias para las cuales ella predice correctamente (soporte).La precisión

(confianza) es el número de instancias que predice correctamente, expresado como una

proporción de todas las instancias a las que se aplica.

3.2.9.2.3 Dependencia Funcionales

Hay veces en que los atributos están relacionados entre sí de manera más especifica que la de

pertenecer a una misma relación. Hay veces en que es posible determinar que un atributo depende

de otro funcionalmente, como si existiera una función f en el “mundo”, tal que t [A] = f (t [B]).

La función se anotaría como f: A → B, pero como f es desconocida (o sino B sería un atributo

derivado), sólo nos quedamos con A → B, la dependencia funcional, que se lee “A determina B”.

3.2.9.2.4 Patrones secuenciales

El objetivo de la tarea es poder describir de forma concisa relaciones temporales que existen

entre los valores de los atributos del conjunto de ejemplos. Utiliza reglas de asociación

secuenciales.- reglas que expresan patrones de comportamiento secuencial, es decir, que se dan

en instantes distintos en el tiempo. Encontrar patrones en secuencia Una secuencia es una lista

ordenada de itemsets, donde cada itemset es un elemento de la secuencia El tamaño de una

secuencia es su cantidad de elementos (itemsets) La longitud de una secuencia es su cantidad de

31 | P á g i n a


ítems. El soporte de una secuencia es el porcentaje de secuencias que la contienen en un conjunto

de secuencias S Las secuencias frecuentes (o patrones secuenciales) son las sub secuencias de

una secuencia que tienen un soporte mínimo.

3.2.9.2.5 Correlaciones y factorizaciones

Si bien esta tarea no describe precisamente a los datos si no que más bien se utiliza como parte

del proceso de selección de atributos ya que se usa para ver si dos o más atributos numéricos

están correlacionados de alguna manera, puede ser vista como una tarea independiente y

suficiente si lo que se espera de la minería de datos es precisa y únicamente buscar correlaciones

entre variables. Las correlaciones trabajan únicamente como atributos numéricos y las relaciones

encontradas pueden ser tanto bidireccionales (x y) como no orientadas (x - y).

3.2.10 METODO EN MINERÍA DE DATOS

Un método es una palabra que proviene del termino griego “methodos” (camino o vía) y que se

refiere al medio utilizado para llegar a su fin. Su significado original señala el camino que

conduce a un lugar (Francis Bacón, 1626).En minería de datos utiliza diversos tipos de métodos

para llevar a cabo una tarea como son la Inteligencia artificial, aprendizaje automático,

estadística, y sistemas de base de datos.

3.2.11 METODOS DE MINERÍA DE DATOS Y SU RELACIÓN CON LAS TAREAS

Las tareas dicen relación con el “¿Qué hacer?” y los métodos con el “¿Cómo hacerlo?”, es claro

entonces que cada una de las tareas descritas requiere de un método o técnica para ser resuelta.

De la misma forma que en la vida cotidiana, generalmente no existe solo una forma de resolver

un problema sino que varias maneras, es lógico pensar que en la minería de datos no existe un

único método para resolver una determinada tarea, la verdad es que una única técnica ofrece un

32 | P á g i n a


espectro de soluciones para resolver distintas tareas (Hernández Orallo, Ramírez Quintana, &

Ferri Ramírez, 2004).

En la siguiente tabla se puede apreciar claramente el hecho de que varias técnicas y/o algoritmos

son utilizados en varias tareas. La tabla fue extraída desde el trabajo de Hernández (Hernández

Orallo, Ramírez Quintana, & Ferri Ramírez, 2004):

Tabla4.1. (Cuadro comparativo de diversas técnicas de Minería de datos)

3.2.12 TÉCNICAS DE MINERÍA DE DATOS.

3.2.12.1 Árboles de decisión

Es la técnica que permite analizar decisiones secuenciales basadas en el uso de resultados y

probabilidad asociados. Los arboles de decisión se pueden usar para generar sistemas expertos,

búsqueda binaria y árboles de juegos. Las ventajas de loa árboles de decisión es que resume los

33 | P á g i n a


ejemplos de partida, permitiendo la clasificación de nuevos casos siempre y cuando no existan

modificaciones sustanciales en las condiciones bajo las cuales se generaron los ejemplos que

sirvieron para su construcción (Tenembaum, Aarón, Langsam, 1993).

3.2.12.2 Red Bayesiana

Son utilizadas en diversas áreas de aplicación como por ejemplo el diagnóstico médico. Las

mismas proveen una forma compacta de representar el conocimiento y métodos flexibles de

razonamiento basados en las teorías probabilísticas capaces de predecir el valor de variables no

observadas y explicar las observadas. Entre las características que poseen las redes bayesianas, se

puede destacar que permiten aprender sobre relaciones de dependencia y causalidad, permiten

combinar conocimiento con datos, evitan el sobre-ajuste de los datos y pueden manejar bases de

datos incompletas (Heckerman, 1995; Heckerman & Chickering, 1996; Ramoni & Sebastiani,

1996).

3.2.12.3 Redes Neuronales

Son modelos no lineales, inspirados en el funcionamiento del cerebro, que fueron diseñados para

resolver una gran variedad de problemas. Los perceptores multi-capa son algoritmos de regresión

que construyen un modelo determinista y=f(x), relacionando un conjunto de predictores, x, y

predictandos y (Gutiérrez, J.M. et, 2004).

3.2.12.4 Enfoques estadísticos para estimación y predicción

Este tipo de métodos pertenecen todas las técnicas que están mayormente relacionadas con la

estadística tradicional, los algoritmos utilizados son lo que se encuentran con la gran mayoría del

software estadísticos presentes en el mercado hace años (como el clásico SPSS Clementine, como

claro ejemplo). Principalmente al igual que en la estadística, a este tipo de enfoques pertenecen

los modelos de predicción bivariantes, como la regresión lineal simple, regresión logística y la

regresión múltiple (E Jiménez-Contreras, 1993).

3.2.13 MÉTODOS BIVARIANTES.

34 | P á g i n a


Las técnicas estadísticas bivariantes permiten el análisis conjunto de dos características de los

individuos de una población con el propósito de detectar posibles relaciones entre ellas. La

naturaleza (nominal, ordinal o numérica) de las características objeto de estudio determinará las

técnicas y herramientas más adecuadas para su análisis. (E Jiménez-Contreras, 1993).

3.2.13.1 Regresión logística

La regresión logística es un modelo de regresión para variables dependientes o de respuesta

binomial mente distribuidas. Es útil modelar la probabilidad de un evento ocurrido como función

de otros factores. Es un modelo lineal generalizado que usa como función de enlace la función

logit. Es una variación de las funciones de regresión lineal representadas anteriormente

(Hernández Orallo, Ramírez Quintana, & Ferri Ramírez, 2004).

3.2.13.2 Regresión lineal simple

Es una técnica estadística en donde se trata generalmente de estimar el valor de una variable a

partir del valor de otra variable por lo que trabaja con solo dos atributos. Se basa en relaciones

entre variables del tipo causa- efecto en donde la variable independiente se le conoce como

variable de entrada (también llamada regresor) y cuyo valor genera una variable de salida (o de

respuesta). En resumen la regresión se explica de manera que el valor tome un atributo (regresor)

influye directamente en el valor que tomara el otro atributo (Hernández Orallo, Ramírez

Quintana, & Ferri Ramírez, 2004).

35 | P á g i n a


Figura 4.5. (Ejemplo de modelo creado con regresión lineal simple)

3.2.14 MÉTODOS MULTIVARIANTES: REGRESIÓN LINEAL MÚLTIPLE

La regresión lineal múltiple es una extensión de la regresión simple para trabajar con múltiples

variables. Refleja las posibilidades entre varias variables de entrada y variable objetivo.

Generalmente lo que se tiene es la superposición es un único modelo de las regresiones a cada

uno de las variables de entrada con la variable de respuesta. (Hernández Orallo, Ramírez

Quintana, & Ferri Ramírez, 2004).

3.2.14.1 Análisis de Regresión Múltiple

Mediante un modelo de regresión lineal múltiple (MRLM) tratamos de explicar el

comportamiento de una determinada variable que denominaremos variable a explicar, variable

endógena o variable dependiente, (y representaremos con la letra Y) en función de un conjunto de

k variables explicativas X1, X2,..., Xk mediante una relación de dependencia lineal (suponiendo

X1 = 1) (Doran, H. (1989):

Y=a+B1∗X1+B2∗X2+B3∗X 3+…+Bk∗Xk+R

Y: Variable dependiente

B: Coeficiente estandarizado

X: Variables Independiente

R: Perturbación, error o residuo.

36 | P á g i n a


Para poder resolver y obtener a=b1 y b2 en una ecuación de regresión múltiple el cálculo se

presenta muy tedioso porque se tiene que resolver 3 ecuaciones que se generan por el método de

mínimo de cuadrados:

∑ y=na+b1∑ x1+b2∑ x2

∑ x1 y=a∑ x1+b1∑ x12+b2∑ x1 x2

∑ x2 y=a∑ x2+b1∑ x1 x2+b2∑ x22

La dificultad al momento de usar regresiones múltiples, constituye la identificación de las

variables independientes relevantes y la selección de los términos del modelo de regresión

(Obregón, 2007).

3.2.14.2 Debilidades de una regresión lineal múltiple

Tanto la recta de regresión como el coeficiente de correlación no son robustos, en el sentido de

que resultan muy afectados por medidas particulares que se alejen mucho de la tendencia general.

Se puede utilizar la correlación (Obregón, 2007).

3.2.14.3 Delimitación y definición de variables relevantes para el estudio.

37 | P á g i n a


La investigación que desarrollaremos debe contar con una o más variables a la vez que no pueda

existir una variable que no responda al objetivo final de la investigación (Obregón, 2007)..

3.2.14.4 Métodos de selección de variables en el análisis de regresión lineal Múltiple.

La selección del método permite especificar cómo se introducen las variables independientes en

el análisis. Utilizando distintos métodos se pueden construir diversos modelos de regresión a

partir del mismo conjunto de variables (Obregón, 2007).

Para introducir las variables del bloque en un sólo paso seleccione Introducir. Para eliminar las

variables del bloque en un solo paso, seleccione Eliminar. La selección de variables Hacia

adelante introduce las variables del bloque una a una basándose en los criterios de entrada. La

eliminación de variables Hacia atrás introduce todas las variables del bloque en un único paso y

después las elimina una a una basándose en los criterios de salida. La entrada y salida de

variables mediante Pasos sucesivos examina las variables del bloque en cada paso para

introducirlas o excluirlas. Se trata de un procedimiento hacia adelante por pasos. Los valores de

significación de los resultados se basan en el ajuste de un único modelo. Por ello, estos valores

no suele ser válidos cuando se emplea un método por pasos (Pasos sucesivos, Hacia adelante o

Hacia atrás) (E Jiménez-Contreras, 1993).

Todas las variables deben superar el criterio de tolerancia para que puedan ser introducidas en la

ecuación, independientemente del método de entrada especificado. El nivel de tolerancia por

defecto es 0,0001. Tampoco se introduce una variable si esto provoca que la tolerancia de otra ya

presente en el modelo se sitúe por debajo del criterio de tolerancia (E Jiménez-Contreras, 1993).

Todas las variables independientes seleccionadas se añaden a un mismo modelo de regresión. Sin

embargo, puede especificar distintos métodos de introducción para diferentes subconjuntos de

variables (E Jiménez-Contreras, 1993).

3.2.14.5 Consideraciones sobre los datos.

Datos: Las variables dependientes e independientes deben ser cuantitativas. Las variables

categóricas, como la religión, estudios principales o el lugar de residencia, han de recodificarse

38 | P á g i n a


como variables binarias o como otros tipos de variables de contraste.

Supuestos: Para cada valor de la variable independiente, la distribución de la variable

dependiente debe ser normal. La varianza de distribución de la variable dependiente debe ser

constante para todos los valores de la variable independiente. La relación entre la variable

dependiente y cada variable independiente debe ser lineal y todas las observaciones deben ser

independientes.

Estadísticos: Para cada variable: número de casos válidos, media y desviación típica. Para cada

modelo: coeficientes de regresión, matriz de correlaciones, correlaciones parciales y

semiparciales, R múltiple, R cuadrado, R cuadrado corregida, cambio en R cuadrado, error típico

de la estimación, tabla de análisis de la varianza, valores pronosticados y residuos. Además,

intervalos de confianza al 95% para cada coeficiente de regresión, matriz de varianza-covarianza,

factor de inflación de la varianza, tolerancia, prueba de Durbin-Watson, medidas de distancia

(Mahalanobis, Cook y valores de influencia), DfBeta, DfAjuste, intervalos de predicción y

diagnósticos por caso.

3.2.14.6 Correlación de datos.

Establece si existe una relación entre las variables y responde a la pregunta, “¿Qué tan evidente

es esta relación?”

La correlación es una prueba fácil y rápida para eliminar factores que no influyan en la

predicción, para una respuesta dada.

3.2.14.7 Coeficiente de correlación Pearson

Es una medida de la fuerza de relación entre las variables x y.

Es un numero entre -1 y 1

Es un valor positivo indica que cuando un variable aumenta, la otra variable aumenta

Un valor negativo indica que cuando una variable aumenta, la otra variable aumenta

Un valor negativo indica que cuando una variable aumenta la otra disminuye

Si las dos variables no están relacionadas, el coeficiente de correlación se aproxima a 0

r= SSxy

√ SSxSSy

39 | P á g i n a


Coeficiente de correlación Interpretación

0,80 a 1,00 Alta relación de variables

0,60 a 0,79 Una relación entre moderada y acentuada

0,40 a 0,59 Una media relación de variables

0,20 a 0,59 Una media baja relación de variables

0, 00 a 0,19 Una relación fortuita o insignificante

Tabla 4.2 (Tabla de interpretación de la correlación de variables)

El coeficiente de correlación no es más que una medida de resumen, para el cual se utilizara la

tabla () como referencia de comparación de los resultados de correlación.

40 | P á g i n a


3.3 SOFTWARE DE MINERIA DE DATOS.

3.3.1 CLEMENTINE SPSS

Clementine es un conjunto de programas de minería de datos que permite desarrollar rápidamente

modelos predictivos mediante técnicas empresariales y utilizarlos en operaciones empresariales

para mejorar la toma de decisiones. Con un diseño que sigue el modelo CRISP-DM, estándar del

sector, Clementine admite el proceso completo de minería de datos, desde los propios datos hasta

obtener los mejores resultados.

Características:

Software propietario de IBM.

Licencia no gratuita.

Manipulación visual de datos.

Creación automática de modelos.

No hay necesidad de bases de datos especializadas.

Módulos:

Cliente.

Servidor.

Batch.

Compatibilidad:

Entornos Windows.

Entornos Unix (Solo servidor).

Desarrollado en Java.

41 | P á g i n a


3.3.2 WEKA

Es una plataforma de software para aprendizaje automático y minería de datos escrito en Java y

desarrollado en la Universidad de Waikato. Weka es un software libre distribuido bajo

licencia GNU-GPL.

El paquete Weka contiene una colección de herramientas de visualización

y algoritmos para análisis de datos y modelado predictivo, unidos a una interfaz gráfica de

usuario para acceder fácilmente a sus funcionalidades. La versión original de Weka fue un front-

end enTCL/TK para modelar algoritmos implementados en otros lenguajes de programación, más

unas utilidades para pre procesamiento de datos desarrolladas en C para hacer experimentos de

aprendizaje automático. Esta versión original se diseñó inicialmente como herramienta para

analizar datos procedentes del dominio de la agricultura, pero la versión más reciente basada en

Java (WEKA 3), que empezó a desarrollarse en 1997, se utiliza en muchas y muy diferentes

áreas, en particular con finalidades docentes y de investigación.

Características:



Multiplataforma.

Interfaz de Usuario.

Interfaz de Explorador.

Interfaz Experimentador.

Interfaz flujo de conocimiento.

42 | P á g i n a


3.3.3 RAPIDMINER

Rapidminer (anteriormente, YALE, Yet Another Learning Environment) es un programa

informático para el análisis y minería de datos. Permite el desarrollo de procesos de análisis de

datos mediante el encadenamiento de operadores a través de un entorno gráfico. Se usa en

investigación educación, capacitación, creación rápida de prototipos y en aplicaciones

empresariales. En una encuesta realizada por KDnuggets, un periódico de minería de datos,

Rapidminer ocupó el segundo lugar en herramientas de analítica y de minería de datos utilizadas

para proyectos reales en 2009 y fue el primero en 2010.

La versión inicial fue desarrollada por el departamento de inteligencia artificial de la Universidad

de Dortmund en 2001. Se distribuye bajo licencia AGPL y está hospedado en SourceForge desde

el 2004.

Rapidminer proporciona más de 500 operadores orientados al análisis de datos, incluyendo los

necesarios para realizar operaciones de entrada y salida, pre procesamiento de datos y

visualización. También permite utilizar los algoritmos incluidos en Weka.

Características:


Multiplataforma.

Representación interna de los procesos de análisis de datos en ficheros XML.

Permite el desarrollo de programas a través de un lenguaje de script.

Puede usarse de diversas maneras:

1) A Través de un GUI.

2) En línea de comandos.

3) En Batch.

4) Desde otros programas a través de llamadas a sus bibliotecas.

43 | P á g i n a


Extensible.

Incluye gráficos y herramientas de visualización de datos.

4. MARCO

METODOLOGICO

44 | P á g i n a


4.1 LA METODOLOGÍA CRISP-DM.

Los orígenes de CRISP-DM, se remontan hacia el año 1999 cuando un importante consorcio de

empresas europeas tales como NCR (Dinamarca), AG(Alemania), SPSS (Inglaterra), OHRA

(Holanda), Teradata, SPSS, y Daimer-Chrysler, proponen a partir de diferentes versiones de

KDD (Knowledge Discovery in Databases) [Reinartz, 1995], [Adraans, 1996], [Brachman,1996],

[Fayyad, 1996], el desarrollo de una guía de referencia de libre distribución denominada CRISP-

DM (Cross Industry Standard Process for Data Mining).

A partir del año 2000, con el gran crecimiento que surgió en el área de la minería de datos, surgen

tres nuevos modelos que plantean un enfoque sistemático para llevar a cabo el proceso [3]:

SEMMA, Catalyst (conocida como P3TQ) y CRISP-DM.

Actualmente la guía de referencia más utilizada en el desarrollo de proyectos de Data Mining.

Estructura el proceso en seis fases: Comprensión del negocio, Comprensión de los datos,

Preparación de los datos, Modelado, Evaluación e Implantación [5]. La sucesión de fases, no es

necesariamente rígida. Cada fase es descompuesta en varias tareas generales de segundo nivel.

Las tareas generales se proyectan a tareas específicas, pero en ningún momento se propone como

realizarlas. Es decir, CRISP-DM establece un conjunto de tareas y actividades para cada fase del

proyecto pero no especifica cómo llevarlas a cabo

4.2 ETAPAS METODOLOGÍA CRISP-DM.

El estándar incluye un modelo y una guía, estructurados en seis fases, algunas de estas fases son

bidireccionales, lo que significa que algunas fases permitirán revisar parcial o totalmente las fases

anteriores.

1) Comprensión del negocio (Objetivos y requerimientos desde una perspectiva no técnica)

45 | P á g i n a


Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios

de éxito)

Evaluación de la situación (Inventario de recursos, requerimientos, supuestos,

terminologías propias del negocio…)

Establecimiento de los objetivos de la minería de datos (objetivos y criterios de

éxito)

Generación del plan del proyecto (plan, herramientas, equipo y técnicas)

2) Comprensión de los datos (Familiarizarse con los datos teniendo presente los objetivos

del negocio)

Recopilación inicial de datos

Descripción de los datos

Exploración de los datos

Verificación de calidad de datos

3) Preparación de los datos (Obtener la vista minable o dataset)

Selección de los datos

Limpieza de datos

Construcción de datos

Integración de datos

Formateo de datos

4) Modelado (Aplicar las técnicas de minería de datos a los dataset)

Selección de la técnica de modelado

Diseño de la evaluación

Construcción del modelo

Evaluación del modelo

46 | P á g i n a


5) Evaluación (De los modelos de la fase anteriores para determinar si son útiles a las

necesidades del negocio)

Evaluación de resultados

Revisar el proceso

Establecimiento de los siguientes pasos o acciones

6) Despliegue (Explotar utilidad de los modelos, integrándolos en las tareas de toma de

decisiones de la organización)

Planificación de despliegue

Planificación de la monitorización y del mantenimiento

Generación de informe final

Revisión del proyecto

Figura 5.1 (Modelo de proceso CRISP-DM, 2000)

47 | P á g i n a


5. DESARROLLO

48 | P á g i n a


5.1 METODOLOGIA CRISP-DM APLICADA EN LA INVESTIGACIÓN.

5.1.1 COMPRENSIÓN DEL NEGOCIO.

5.1.1.1 Contextualización de la investigación

Situación Actual: Comuna de Maule, VII Región, Chile.

Descripción del contexto: CESFAM Maule.

La comuna de Maule abarca una superficie de 238,22 km2 y una población de 16.837 habitantes

(Censo INE Año 2002), correspondientes a un 1,68% de la población total de la región y una

densidad de 70,68 hab/km2. Del total de la población, 8.146 son mujeres (40,02%) y 8.691 son

hombres (51,62%). Un 59,98% (10.098 hab.) corresponde a población rural, y un 40,02% (6.739

habs.) corresponde a población urbana.

(Figura 5.1 Mapa representativo comuna de Maule, VII, Chile)

5.1.1.2 Generación del plan del proyecto.

5.1.1.2.1 Reuniones personal encargado

Mediante reuniones con el personal encargado de bodega, pedimos información sobre los 5

medicamentos más usados del CESFAM, Maule, asociados a la hipertensión y los factores que

genera dicha enfermedad, en grandes rasgos, información detallada de cada medicamento, para

49 | P á g i n a


así, poder elegir el medicamento correcto y más importante para poder realizar el modelo

predictivo.

5.1.1.2.2 Medicamentos asociados a la hipertensión

Los 4 medicamentos más usados en el CESFAM asociados a la hipertensión son: Ácido Acetil

Salicílico, Enalapril, Losartan, Metformina.

5.1.1.2.3 Elección medicamento para investigación.

Para elegir el medicamento adecuado para poder realizar el modelo predictivo, nos orientaremos

en el fármaco más solicitado en el Cesfam, Maule. Para ello recurrimos a historial de registro de

manejos de medicamentos de forma mensual.

Medicamento

Cantidad

farmacia/Mensual

(cajas)

Ácido Acetil Salicílico 3000

Enalapril 20mg 3000

Losartan 2800

Metformina 850mg 2700

Tabla 5.1 (Muestra Mensual medicamentos hipertensión Cesfam, Maule)

En el cuadro se muestra el ingreso promedio mensual de cada medicamento seleccionado, y se

optara usar el fármaco Enalapril para nuestra investigación y su posterior modelo predictivo, este

modelo servirá para los demás fármacos ya que los factores asociados a la enfermedad son

similares.

50 | P á g i n a


5.1.2.3 Elección Técnica minería de datos

Para esta investigación hemos decido optar por un algoritmo de regresión lineal múltiple, ya que

estudiaremos la relación entre variables independientes (predictoras o explicativas) y otra

variable dependiente (criterio, explicada, respuesta).

5.1.2.4 Elección Herramienta correspondiente

En el marco teórico se definieron tres software como candidatos para ser utilizados en el presente

proyecto, la idea de esta etapa es seleccionar la herramienta con la que se trabajara. En la figura

6.2 se muestran las características de cada herramienta

Herramientas Plataforma Soporte Licencia

Grado de

complejidad Respaldo

Experiencia en

salud

SPSS Clementine

12.0

Microsoft

Windows Si De Pago Media SPSS Si

Rapidminer 4.5.0 Multiplataforma Parcial Libre Sencilla - No

Weka 4.7.0 Multiplataforma Parcial Libre Compleja - Si

(Figura 5.2. Cuadro comparativo de selección de herramientas)

Una de las herramientas de software a utilizar es SPSS Clementine 12.0 que funciona bajo

plataforma Microsoft Windows, cuenta con soporte y esta aplicación tiene licencia pago. Tiene

una dificultad de uso de nivel medio pero la configuración de los nodos requiere un conocimiento

avanzado.

El siguiente candidato es una aplicación de licencia libre Rapidminer 4.5.0 un software con un

grado de complejidad sencilla pero que su diferencia con SPSS Clementine no tiene respaldo,

está escrito en java lo que permite ser utilizado en cualquier plataforma que tenga máquina virtual

de java.

Por otro lado está el software Weka 4.7.0, esta es la última versión libre de Weka, esta aplicación

al igual que Rapidminer es multiplataforma, esta aplicación tiene un grado de complejidad alto.

51 | P á g i n a


Como criterio de selección se prioriza como aspecto fundamental la experiencia en área salud,

por lo que se descarta de inmediato Rapidminer, como segundo aspecto importante a la hora de

escoger la herramienta de minería de es que SPSS Clementine cuenta con respaldo SPSS que es

el encargado de prestar soporte. El tercer aspecto considerado para la selección es el nivel de

complejidad de la herramienta, ya que siempre es preferible utilizar una herramienta amigable al

usuario, por lo que se descarta Weka.

5.1.2.5 Instrumentos

Las Herramientas de ofimática involucradas en la investigación, tanto en la recopilación de la

misma como el manejo de datos.

Nombre Descripción

Microsoft Excel 2010 Ingreso de datos, Pruebas Correlación de

variables

PASWStatistics18 Modelado de datos

Google Chrome Descarga de Información

Microsoft Visual Studio 2010 Desarrollo de la aplicación

Block de Notas Reordenamiento de datos

5.1.2 COMPRENSIÓN DE LOS DATOS.

5.1.2.1 Recopilación inicial de los datos

52 | P á g i n a


En esta etapa se hace la recopilación de las posibles variables que se usaran en el modelo

predictivo del medicamento que hemos seleccionado. Para poder identificar las posibles variables

recurrimos a citas bibliográficas para resolver los factores asociados a la enfermedad.

- Factores asociados a la enfermedad: Los factores asociados a la hipertensión a un

individuo son varios, estos pueden ser:

Sexo

Edad

Dosis

Herencia

IMC

Cigarro

Alcohol

Sedentarismo

Apnea sueño

- Factores externos a la enfermedad:

Año

Cantidad

5.1.2.2 Medios para acceder a esta información

Para llegar a esta información nos vimos en la necesidad de hacer encuestas, puesto que la

información que necesitábamos para poder realizar la investigación no se nos podía suministrar

porque era información confidencial del paciente.

53 | P á g i n a


5.1.2.3 Realización de encuesta

Para esto buscamos información del número de habitantes de comuna de Maule para obtener el

universo de personas dentro de los rangos establecidos por la investigación (45-69 años) ya

contando con la información de las personas que habitan en la comuna de Maule en estos rangos

de edad, podemos calcular el tamaño de la muestra y así tener un análisis confiable.

n= K2∗p∗q∗N

(e2∗( N−1 ) )+k2∗p∗q

Dónde:

n: Es el tamaño de la población o universo. 4231 personas en el rango de

edad de (45-69) la población de Maule (www.deis.cl).

K: Es la variable de nivel de confianza en este caso será de 95,5 %.

e: Es el error muestral.

p: Este dato es generalmente desconocido y se suele suponer que p=q=0.5

q: Es la proporción de individuos que no poseen esa característica, es decir,

es 1-p.

N: Es el tamaño de la muestra

Por lo tanto:

n= 22∗0,5∗0,5∗4231

(52∗( 4231−1 ) )+22∗0,5∗0,5 = 431 Personas Encuestadas

54 | P á g i n a


5.1.2.4 Integración de los datos.

En esta etapa se da inicio a la confección de la encuesta mediante a la muestra del total de

personas de la edad asignada. Para esto nos dirigimos a diferentes puntos estratégicos del pueblo

(CESFAM, Plaza municipal y poblaciones)

5.1.2.5 Visualización de los datos obtenidos.

Ya obtenidos los datos en la encuesta, con las variables; Nombre, Edad, IMC, Consumo cigarro, Herencia,

Sedentarismo, Apnea sueño, Dosis y Año, fue traspasada a una planilla Excel 2010 véase figura 5.3. Para

su posterior manejo y filtrado.

Figura 5.3 (Excel encuesta de la muestra de población del pueblo de Maule

55 | P á g i n a


5.1.3 PREPARACIÓN DE LOS DATOS.

En esta fase se da inicio al filtrado de datos, para así dejar solo las variables relevantes para

nuestra investigación, para ello se utilizó el software PASWStatistics18 para crear una

extensión .sav, y así Clementine pueda “leer” la información que está en nuestro Excel para hacer

posteriormente los filtrados correspondientes y variables que no serán de gran importancia para

nuestra investigación.

Figura 5.4 (Presentación de los datos en SPSS)

56 | P á g i n a


5.1.3.1 Limpieza de datos.

En esta fase procede a filtrar la información para ir descartando y seleccionando solo las variables

que sirven para el estudio y aplicación de la regresión lineal múltiple tal como lo muestra la

figura 5.5

Figura 5.5 (Presentación de los filtros en Clementine SPSS.)

5.1.3.2 Selección de los datos.

Edad: Seleccionamos esta variable porque existe un rango de edades (45-69) que es el grupo

donde mayormente se presenta la hipertensión y por lo tanto el uso del medicamento.

Herencia: Seleccionamos esta variable porque existe la relación entre enfermos por hipertensión

y los antecedentes familiares o herencia. Puesto que al tener familiares con este síntoma habrá

mayor probabilidad de que la persona padezca la enfermedad.

57 | P á g i n a


Imc: Con este dato nos proveímos del estado de salud de la persona y es un indicador importante

que se relaciona con la hipertensión.

Cigarro: Seleccionamos esta variable porque inmediatamente después de fumar un cigarrillo, por

efecto de la nicotina, aumentan en el organismo los niveles de ciertas sustancias llamadas

catecolaminas que provocan contracción de los vasos sanguíneos. Como consecuencia, es

necesaria más fuerza para que la sangre se mueva por conductos más estrechos y es así como se

elevan las cifras de presión arterial.

Alcohol: Seleccionamos esta variable porque se cree que el alcohol precipita la liberación de la

hormona epinefrina (adrenalina) que contrae los vasos sanguíneos. Reducir el consumo de

alcohol puede disminuir la presión arterial.

Sedentarismo: Los individuos que practican más horas de actividades sedentarias interactivas -

uso de ordenador y conducción-, posiblemente acompañadas por una mayor carga de estrés

mental, tienen hasta un 50% más de riesgo de desarrollar hipertensión arterial.

Apnea Sueño: Debido a la breve parada respiratoria durante el sueño, el contenido de oxígeno en

sangre disminuye fuertemente. Esto puede hacer que el corazón y el cerebro no reciban suficiente

oxígeno. Como reacción de alarma del organismo, se libera mayor cantidad de hormonas que

estimulan la circulación. En consecuencia, los vasos sanguíneos se contraen, produciendo

elevaciones importantes de la presión arterial sistólica y diastólica nocturna.

Dosis: La dosis es la cantidad asignada a personas que ya sufren hipertensión, por lo cual es una

variable importante ya que nos entrega la cantidad de Enalapril que ingiere cada individuo

dependiendo su estado.

5.1.3.3 Grado de confianza de los datos.

En esta fase consideraremos que tan confiables son las variables que hemos seleccionado,

Clementine (Correlación entre variables Pearson) nos dirá que tan fuertes serán estas variables,

para posteriormente calcular el grado de correlación entre ellas. Véase figura 5.6.

58 | P á g i n a


Figura 5.6 (Correlación entre variables Pearson.)

En la figura 5.6 se puede apreciar que las variables tienen una fuerte correlación individual,

excepto la variable Sedentarismo, ya que las personas de este grupo de edad, escasamente hacen

actividad física, este caso no se da solo en Maule, ya que la tendencia se marca en todo chile el

alto sedentarismo de la población, por esta razón hemos decidido excluir esta variable al

momento de aplicarla en la fórmula de regresión lineal múltiple, ya que tiene una baja relación y

puesto que el 98% de las personas en ese rango es sedentaria. Así se dará más importancia a las

variables más fuertes, como son la herencia, consumo de cigarros y consumo de alcohol

5.1.4 MODELADO.

5.1.4.1 Selección de variables dependientes e Independientes:

En esta fase se debe seleccionar cuáles serán las variables dependientes e independientes (Salida

y Entrada). Véase figura 5.7.

59 | P á g i n a


Figura 5.7 (Proceso de selección de variables de entrada y salida en la aplicación SPSS)

5.1.4.2 Resumen de la aplicación y correlación general de las variables seleccionadas

En esta fase se darán a conocer el resumen y relación general de todas las variables

seleccionadas, para ello Clementine SPSS nos entrega un resumen del modelo resultante con el

grado de correlación general existente. Véase Tabla 5.1

60 | P á g i n a


5.1.4.2.1 Resumen correlación SPSS Clementine.

Tabla 5.1 (Resumen de la aplicación SPSS)

La información que nos entrega la figura corresponde al resumen del modelo y en ella se muestra

el coeficiente de correlación R y el coeficiente de determinación R2. El valor R = 0,870 esto

indica que existe una relación directa y relativamente fuerte entre las variables. Como bien se

sabe, hasta este momento solo se puede hablar de relación y grado de relación y no se puede

afirmar causalidad.

El valor de R2 = 0,757 nos indica que el 0,757 % de la variabilidad de la variable y es explicada

por el modelo de regresión que se está estimando. Recordar que

R2=1− suma cuadradode losresiduossuma de cuadradostotal

La expresión R2 corregida es una correlación a baja de R2 basada en el número de casos de

variables independientes que participan en el estudio.

Ejemplo:

R2 Corregida = R2 p (1−R2)n−p−1

Donde p designa el número de variables independientes.

61 | P á g i n a


Cuando el número de casos es pequeño y el número de variables independientes aumenta

R2 corregida es considerado un buen estimador de valor poblacional.

En este ejemplo, como sólo participa una variable independiente el valor r2 y r2 (Corregida ) son

relativamente similares.

5.1.4.2.2 Resumen correlación Excel.

Como podemos ver en la tabla la correlación de variables que nos arrojó Excel es de 0,757, es

una correlación aceptable dentro del rango establecido por las ciencias sociales y biológicas.

En resumen podemos apreciar que ambas pruebas hechas en SPSS Clementine y Excel arrojan un

“R” muy aceptable para seguir con nuestro modelo ya que las variables que se trabajan para

nuestra predicción tienen una alta correlación entre ellas.

5.1.4.3 Coeficientes de regresión resultantes de la matriz del modelo.

En esta etapa se mostraran los coeficientes resultantes de cada variable mediante la matriz del modelo para

cada variable asignada.

62 | P á g i n a


Tabla 5.2 (Tabla de coeficientes (a))

En esta tabla se observa la constante de la regresión y el coeficiente no estandarizado

correspondiente a la Apnea Sueño, Consumos de cigarros (Unidad), Edad, Herencia, IMC,

Consumo de alcohol, sedentarismo y el residuo o constante del modelo.

Los coeficientes B van a indicar el incremento de las variables, por el incremento unitario de la

correspondiente variable explicativa.

Estos coeficientes B más la constante, serán utilizados en nuestra formula de Regresión lineal

múltiple para nuestro modelo predictivo.

5.1.4.4 Aplicación fórmula matemática para el modelo predictivo

En esta etapa daremos confección a nuestra formula algorítmica que será la que estimara y

predecirá el consumo del medicamento de forma mensual para la aplicación del sistema.

Formula predictiva consumo de medicamento:

Y=B1∗X1+B2∗X 2+B3∗X3+B4∗X4+B5∗X5+B6∗X6+R

63 | P á g i n a


Dónde:

Y Cantidad de dosis estimada

X1 Edad promedio población

X2 IMC promedio población

X3 Consumo cigarros promedio población

X 4 Consumo alcohol promedio población

X5 Herencia promedio población

X6 Apnea de sueño promedio población

R

Residuo o constante, contiene el efecto de

todas las variables distintas de X1 y X n

Tabla 5.3 (Variables y coeficientes utilizados en la regresión lineal múltiple de manera general)

5.1.4.5 Desglosamiento de formula predictiva para los distintos casos propuestos

En esta etapa desglosaremos la fórmula para los casos que hemos propuesto en nuestro seminario

sobre el consumo de dosis de un individuo, y el consumo general de la población mediante los

factores de riesgo de la enfermedad.

5.1.4.5.1 Formula predictiva consumo de medicamento de forma individual:

Y=B1∗X1+B2∗X 2+B3∗X3+B4∗X4+B5∗X5+B6∗X6+R

Y Cantidad de dosis estimada Individuo

64 | P á g i n a


X1 Edad Individuo

X2 IMC individuo

X3 Consumo cigarros individuo

X 4 Consumo alcohol individuo

X5 Herencia promedio individuo

X6 Apnea Sueño Individuo ( 0,1)

R



Tabla 5.4 (Variables y coeficientes utilizados en la regresión lineal múltiple de manera individual)

Cabe recordar que en este caso el sedentarismo se excluye de la formula, ya que en el resultado

de la muestra de la encuesta existe un 98% de personas que no hacen actividad física, por esta

razón no afecta en el resultado de la predicción, dándole importancia a variables fuertes e

importantes como la herencia, consumo de alcohol y cigarros.

De la tabla 5.2 resultante podemos determinar la función de regresión para el consumo de un

individuo es:

Y= ( X1∗0,187 )+( X2∗−0,145 )+ ( X3∗0,151 )+( X 4∗0,008 )+( X 5∗4,480 )+( X7∗1,700 )−13,149

5.1.4.5.2 Formula predictiva consumo de medicamento de población general:

Y= (B1∗X1+B2∗X2+B3∗X3+B4∗X4+B5∗X5+B6∗X6+R )∗K

65 | P á g i n a


Y Cantidad de dosis estimada

X1 Edad promedio población

X2 IMC promedio población

X3 Consumo cigarros promedio población

X 4 Consumo alcohol promedio población

X5 Herencia promedio población

X6 Apnea de sueño promedio población

R



K Cantidad población para generar la predicción

Tabla 5.4 (Variables y coeficientes utilizados en la regresión lineal múltiple de la población general)

En este caso se incluye el sedentarismo, ya que en la regresión se introducirán la cantidad

promedio de personas sedentarias que hay en el pueblo, todas estas variables multiplicadas por la

variable K

Y=( ( X1∗0,187 )+( X2∗−0,145 )+( X 3∗0,151 )+( X4∗0,008 )+( X5∗4,480 )+( X6∗1,700 )+R )∗K

66 | P á g i n a


5.1.5 EVALUACIÓN.

5.1.5.1 Evaluación de los resultados

En esta etapa realizaremos las pruebas correspondientes con los resultados obtenidos de nuestra

regresión lineal múltiple para nuestros dos casos. Para realizar las pruebas correspondientes se

utilizó Excel 2010.

- Prueba Predicción de uso de medicamento de un individuo de manera Mensual:

Tabla 5.5 (Pruebas de predicción de manera individual)

Como se puede ser en la Tabla 5.5 se realizaron las pruebas correspondientes donde se aplicó la

fórmula de consumo del medicamento de manera individual, esta predicción hace referencia a

cuantas dosis y/o cajas debería consumir el individuo. Este caso en particular es muy especial, ya

que asignamos a un individuo de 67 años, con un IMC de 30 (obeso), consume 40 cigarrillos

diarios, toma 5000 cc de alcohol al mes (5 litros), no tiene herencia de enfermedad y sufre apnea

de sueño ( 0,1), este modelo arroja que el individuo debería consumir 56 dosis al mes dando 2

cajas de forma mensual, este caso hace que el sujeto tenga la enfermedad de manera crónica, ya

que tiene que consumir 2 dosis diarias aprox.

67 | P á g i n a


- Prueba Predicción de uso de medicamento de la población de manera Mensual:

Tabla 5.6 (Pruebas de predicción de población manera mensual)

En esta prueba se ingresa un promedio de edad de 56 años, un promedio de IMC de la población

de 26, un consumo de 10 cigarrillos mensual, 500 cc de alcohol mensual, una herencia de la

enfermedad de 1 y apnea de sueño de 1 (0,1), arroja un consumo de 64177 dosis, dando 2292

cajas de forma mensual.

5.1.6 DESPLIEGUE.

5.1.6.1 Planificación de despliegue

En esta etapa daremos paso al despliegue de nuestra investigación, para ello diseñaremos e

implementaremos un sistema con los datos obtenidos mediante la regresión lineal múltiple, este sistema

tendrá los mismos resultados que las pruebas hechas en Excel, a diferencia que el software diseñado será

mucho más amigable para el usuario final.

68 | P á g i n a


5.1.6.2 Prototipo diseño software.

69 | P á g i n a


6. CONCLUSIÓN

70 | P á g i n a


En el ámbito de la salud un punto que ha sido muy importante es la de controlar el stock de

medicamentos y surge como una necesidad nuevas herramientas que puedan ayudar a la toma de

decisiones.

Con la ayuda de datos y estadística se puede anticipar a hechos o proporcionar información

importante para la toma de decisiones con la cual se puede obtener importantes beneficios, en

este caso económicos.

Una idea, un proyecto innovador pueden ayudar a la optimización y reordenamiento de las toma

de decisiones a futuro y poder tener así planes de contingencia.

Mediante la técnica de minería de datos el Cesfam podrá anticiparse a la necesidad del uso del

medicamento Enalapril y así tener una pronta acción solucionando los problemas de stock del

medicamento y optimizando sus recursos.

Los resultados de la investigación fueron bastante exactos y coherentes teniendo una alta

confianza y llegando a comprender como los factores de riesgo asociados a la enfermedad

influyen directamente con el uso del medicamento Enalapril para controlar la hipertensión.

Mediante el desarrollo de nuestro seminario nos hemos dado cuenta que tan significativa es la

enfermedad, el resultado nos dio a entender que mientras más edad una persona posee más

posibilidades de sufrir hipertensión, el consumo de cigarrillos y alcohol es trascendental para

poseer esta enfermedad a corto o largo plazo, pero más aún el factor que más importante fue la

herencia, cuyo resultado es certero, si un individuo tiene herencia familiar (1,2,3,4..) existe una

probabilidad tremenda de que sufra de hipertensión

Usando este mismo modelo de predicción para el medicamento Enalapril, se puede predecir otros

medicamentos asociados a la hipertensión, ya que los factores de riesgos y/o variables en el

mayor de los casos son similares, solo cambian el consumo general o consumo personal de

personas que consumen el medicamento que se va a predecir.

Para el centro de salud ha resultado una buena experiencia con la cual han podido estimar el

consumo de medicamentos optimizando en gastos monetario y para nosotros fue de gran ayuda,

ya que hemos aprendido bastante al profundizar en un ámbito como es la minería de datos, ya

71 | P á g i n a


que mediante a sus novedosas técnicas, pueden ser de gran ayuda a instituciones pequeñas y

grandes empresas para el mejor funcionamiento dependiendo en el ámbito en el que esta trabaja.

72 | P á g i n a


7. BIBLIOGRAFÍA

73 | P á g i n a


(Dr. Luis Hernán Zárate. 2013)

http://www.dmedicina.com/enfermedades/enfermedades-vasculares-y-del-corazon/hipertension-

arterial

(Eva Castell Bescós, 2009).Hipertencion arterial primaria y secundaria

http://www.medynet.com/usuarios/jraguilar/Manual%20de%20urgencias%20y%20Emergencias/

htaurg.pdf

(Orallo, 2004) Introduccion a la minería de datos. Madrid, España: Ediciones Pearson Prentice

hall.

(B.Moxon’s, 1996). http://www.ugr.es/~jalberto/Investigacion/Casta_eda4.pdf

(César Krall, 2013).Las bases de datos y la minería de datos

http://www.aprenderaprogramar.com/index.php?option=com_content&id=258&Itemid=164

(Trondheim, 1997). Minería de datos como proceso

exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosYany2008.pdf

(Han.J.Kamber, 2001).Proceso KDD

http://academia.edu/1059656/Mineria_de_datos_conceptos_y_tecnicas

(Hernández Orallo, J., Ramirez Quintana, M. J., & Ferri Ramírez, C,2004). Introducción a la

Minería de Datos. Madrid: Pearson.

(Morgan Kaufmann, 1999).Proceso de extracción de conocimiento

http://www.webmining.cl/2011/01/proceso-de-extraccion-de-conocimiento

(E Jiménez-Contreras, 1993).Metodos Bivariantes

http://ec3.ugr.es/publicaciones/

Jimenez_Contreras,_E_Resenna_del_libro_Bibliometria_analisis_bivariante.pdf

(Gutiérrez, J.M. et, 2004).Redes Neuronales

74 | P á g i n a


http://grupos.unican.es/ai/meteo/articulos/LibroINM_2capitulos.pdf

(Obregón, J, R., 2007). El método Estadístico. España, Madrid: Hambourg

75 | P á g i n a


8. ANEXOS

76 | P á g i n a


Anexo I: Censo por grupos edad, región, comuna y sexo

Anexo I.1.- Población por grupos de edad según Región, comuna y sexo (www.deis.cl,2008)

77 | P á g i n a


78 | P á g i n a

tesis manipulaciÓn de medicamentos mediante mineria de datos

Documents