práctica en weka

Post on 04-Jul-2015

4.404 Views

Category:

Health & Medicine

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Inteligencia Artificial Avanzada

Mayra Montalván

22/04/2009

OBJETIVO

El objetivo de este ejercicio es familiarizarse con el entornoWEKA para lo cuál se trabajará con una base de datos quecontiene datos sobre medidas médicas de pacientes (todasmujeres) y en la que se pretende determinar cuáles son losfactores que hacen que una persona se le diagnostique laenfermedad conocida como Diabetes.

Usando el algoritmo de aprendizaje automático másconocido como Árboles de Clasificación, procederemos arealizar el árbol de decisión para tal diagnóstico.

PROBLEMA

Las variables son las mediciones relativas a las del paciente: edad,embarazo y más información.Número de Instancias de la base de datos: 768.Número de Atributos: 8 más clase. Para cada atributo: (todos con valores numéricos)

1. Número de veces embarazada.2. Una concentración de glucosa en plasma 2 horas en una prueba de

tolerancia oral a la glucosa.3. La presión arterial diastólica (mm Hg).4. Pliegue tricipital espesor (mm)5. 2-horas de insulina en suero (mu U / ml)6. Índice de masa corporal (peso en kg / (altura en m) ^ 2)7. Diabetes pedigrí función8. Edad (años)

9. Variable de clase (0 ó 1)

PROBLEMA

Valores de Atributos Faltantes: Ninguno

Distribución de Clase : (clase con valor 1 es interpretada como: "tested

positive")

Valores en el atributo Clase:De: 0 A: tested_negativeDe: 1 A: tested_positive

VALOR DE LA CLASE NÚMERO DE INSTANCIAS

0 500

1 268

GENERACIÓN DEL ÁRBOL

Se dispone de los datos recogidos para pronosticar laaparición de la diabetes en pacientes, que se trata sólo demujeres menores de 21 años, para lo cuál procedemos con:1. Lanzar el Interfaz Explorer en la herramienta WEKA:

GENERACIÓN DEL ÁRBOL

GENERACIÓN DEL ÁRBOL

2. Cargar la Base de Datos: Para cargar la base de datos seutilizará el botón OPEN FILE del interfaz Explorer (pestañaPreprocess), se seleccionará el directorio data y dentro de él,el fichero "diabetes.arff". El resultado será una pantalla comola que se muestra en la figura:

GENERACIÓN DEL ÁRBOL

GENERACIÓN DEL ÁRBOL

3. En la parte izquierda aparecen los atributos mencionadosanteriomente.

4. Haciendo clic sobre cada uno de los atributos, se muestrainformación sobre el mismo en la parte derecha de laventana. En el caso de atributos discretos se indica elnúmero de instancias que toman cada uno de los valoresposibles; y en el caso de atributos reales se muestran losvalores máximo, mínimo, medio y la desviación estándar.

Una vez vistas las posibilidades de representación gráfica, seprobará uno de los algoritmos de aprendizaje automáticoincluidos en WEKA: los árboles de decisión.

GENERACIÓN DEL ÁRBOL

5. Para ello se seleccionará la pestaña Classify y se elegirá unclasificador pulsando el botón Choose. Aparecerá unaestructura de directorios en la que se seleccionará eldirectorio trees y dentro del él el algoritmo J48. Semantendrán las opciones por defecto del clasificador (J48 –C0.25 –M 2), tal y como muestra la pantalla siguiente.

GENERACIÓN DEL ÁRBOL

GENERACIÓN DEL ÁRBOL

El resto de opciones para el experimento también semantendrán en los valores por defecto: activa la opción detest ‘cross validation’ e inactivas las restantes. Para generarel árbol se pulsará Start. El resultado será el que muestra lapantalla siguiente, donde se muestran en modo texto tanto elárbol generado como la capacidad de clasificación del mismo:

GENERACIÓN DEL ÁRBOL

GENERACIÓN DEL ÁRBOL

También es posible visualizar el árbol de decisión de unaforma más legible. Para ello se debe hacer clic con el botónderecho en la ventana de resultados, sobre el resultado de lageneración del árbol. Aparecerá un menú desplegable:

GENERACIÓN DEL ÁRBOL

Y dentro de ese menú se deberá seleccionar la opción‘Visualize tree’. El resultado se muestra en la figurasiguiente:

FIN DE LA PRESENTACIÓN

top related