tutorial de inducción al rapidminer

24
KNOWLED AND SYSTEMS In Rapi S PERU nducción al idMiner 5.1 2012 l 1 WWW . KASPERU . COM

Upload: kasperu-sac

Post on 30-Jul-2015

7.111 views

Category:

Documents


10 download

DESCRIPTION

Tutorial paso a paso, para aprender el rapidminer, contiene las definiciones y los pasos iniciales para usar el rapidminer.Aprende como crear repositorios, importar datos, identificar tipos de datos, tipos de atributos, aprende a crear gráficos, aprende a crear modelos y diseñar experimentos.http://www.facebook.com/kasperuonline

TRANSCRIPT

Page 1: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1

KNOWLED AND SYSTEMS

Inducción

RapidMiner

YSTEMS PERU

Inducción al

RapidMiner 5.1

www.kasperu.com

2012

al

5.1

W W W . K A S P E R U . C O M

Page 2: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 2

Tabla de contenido

1. RAPIDMINER. ......................................................................................................................................... 3

2. USO BÁSICO. ......................................................................................................................................... 4

2.1. PERSPECTIVAS ............................................................................................................................. 4

2.2. ASPECTOS PRELIMINARES. ....................................................................................................... 5

2.3. OBJETIVOS DEL MODELO ........................................................................................................... 6

2.4. DESARROLLO DEL MODELO ...................................................................................................... 6

A. DEFINICION DE PROCESOS. ...................................................................................................... 6

B. LECTURA DE DATOS. ................................................................................................................... 8

C. TRANSFORMACION DE DATOS. ........................................................................................... 10

D. EJECUCION DEL PROCESO. ................................................................................................. 12

E. MUESTREO ................................................................................................................................... 13

F. RANKING DE ATRIBUTOS .......................................................................................................... 14

G. MODELADO ............................................................................................................................... 16

H. CONSULTA DEL MODELO ...................................................................................................... 19

I. RENDIMIENTO DEL MODELO.................................................................................................... 21

J. MODELO NAIVE BAYES.............................................................................................................. 22

K. MODELO REDES NEURONALES .............................................................................................. 23

Page 3: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

1. RAPIDMINER.

El RapidMiner es un software desarrollado porRapid-I, empresa basada en Dortmund,Alemania que en los últimos años ha venidoteniendo un desarrollo vertiginoso.

El producto principal de Rapid-I, es la soluciónde análisis de los datos RapidMiner es el lídermundial de código abierto del sistema dedescubrimiento de conocimiento y minería dedatos. Está disponible como una aplicaciónstand-alone para el análisis de datos y comoun motor de minería de datos que pueden serintegrado en otros productos. Por ahora, milesde aplicaciones de RapidMiner en más de 30países dan a sus usuarios una ventajacompetitiva. Entre los usuarios son empresasde renombre como Ford, Honda, Nokia, Miele,Philips, IBM, HP, Cisco, Merrill Lynch, BNPParibas, Bank of America, Mobilkom Austria,Akzo Nobel, Aureus Pharma, PharmaDM,Cyprotex, Celera, Revere, LexisNexis, Mitre ymuchas empresas pequeñas y medianas sebenefician de el modelo de negocio de códigoabierto de Rapid-I1.

RapidMiner (anteriormente, YALE, Yet AnotherLearning Environment) es un programainformático desarrollado en Java para elanálisis y minería de datos. Permite eldesarrollo de procesos de análisis de datosmediante el encadenamiento de operadores através de un entorno gráfico. Se usa eninvestigación y en aplicaciones empresariales.

La versión inicial fue desarrollada por eldepartamento de inteligencia artificial de laUniversidad de Dortmund en 2001. Sedistribuye bajo licencia GPL y está hospedadoen SourceForge desde el 2004.

RapidMiner proporciona más de 500operadores orientados al análisis de datos,incluyendo los necesarios para realizaroperaciones de entrada y salida, pre-procesamiento de datos y visualización.También permite utilizar los algoritmosincluidos en Weka y en R.

1www.rapid-i.com

En una encuesta realizada por KDnuggets2 ,una página de minería de datos, RapidMinerocupó el segundo lugar en herramientas deanalítica y de minería de datos utilizadas paraproyectos reales en 2009, fue el primero en2010 y en el 2011.

Which data mining/analytic tools you used in thepast 12 months for a real project (not justevaluation) [1103 voters]

% users in 2011% users in 2010

RapidMiner(305)

27.7%37.8%

R (257) 23.3%29.8%

Excel (240) 21.8%24.3%

SAS (150) 13.6%12.1%

Your owncode (134)

12.1%18.4%

KNIME (134) 12.1%19.2%

Weka(Pentaho)(130)

11.8%14.4%

Salford (117) 10.6%1.6%

Statistica (94) 8.5%6.3%

IBM SPSSModeler (91)

8.3%7.3%

MATLAB (79) 7.2%9.2%

IBM SPSSStatistics (79)

7.2%7.9%

SASEnterpriseMiner (78)

7.1%5.5%

JMP (63) 5.7%

11 AntsAnalytics (62)

5.6%

Microsoft SQLServer (54)

4.9%6.9%

2www.kdnuggets.com/polls/index.html

Page 4: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1

Características Desarrollado en Java Multiplataforma Representación interna de los

análisis de datos en ficheros Permite el desarrollo de

través de un lenguaje de script Puede usarse de diversas maneras: A través de un GUI En línea de comandos En batch (lotes) Desde otros programas

llamadas a sus bibliotecas Extensible Incluye gráficos y herramientas

visualización de datos Dispone de un módulo de integración

R y con Weka

Programación basada enoperadores

Página 4

los procesos deXMLprogramas a

scriptmaneras:

a través de

herramientas de

integración con

controles u

2. USO BÁSICO.

2.1. PERSPECTIVAS

El rapidminer permiteperspectivas:

a. Perspectiva de DiseñoAmbiente para diseñarde datos.

En esta perspectiva esoperadores y con los repositorios.

Los operadores correspondende algoritmos estandarizadosencadenar tal y comoproyecto de minería de

Los repositoriosalmacenes de datos y

www.kasperu.com

PERSPECTIVAS

permite trabajar en tres

Diseñodiseñar el proceso de la minería

es posible trabajar con losrepositorios.

corresponden a un conjuntoestandarizados que se pueden

como un lego para armar unde datos.

corresponden a losy de proyectos.

Page 5: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1

b. Perspectiva de Resultados.Ambiente para ver los resultadosmodelado.

c. Perspectiva de Bienvenida.Pantalla inicial al entrar a la herramienta.

d. Mi primer modelo en rapidminer

Introducir en el desarrollomediante la herramienta de mineríaRapidMiner, haciendo uso de laCRISP.

Página 5

Resultados.resultados del

.herramienta.

rapidminer

de modelosminería de datos

la metodología

2.2. ASPECTOS PRELIMINAR

a) Identificar el directorio

b) Definir la ubicaciónprocesos

.. exercises\exercise

c) Identificar la fuentePara el desarrollousa los datos depositados

exercises\exercise

d) Identificar el tipoLos tipos de datosaceptados por elsiguientes.

Tipo de Datoattribute_valuenominalnumericintegerrealtextbinomialpolynomicfile_pathdate_timedatetime

www.kasperu.com

PRELIMINARES.

directorio de trabajo.

ubicación del repositorio de

exercise 01\repository

fuente de los datos.de este ejercicio se hace

depositados en:

exercise 01\data\SampleData.xls

de dato y de atributodatos y tipos de atributos

el Rapidminer son los

Tipo de Atributoattributelabelidweightbatchclusterpredicticoutliercostbase_value

Page 6: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 6

2.3. OBJETIVOS DEL MODELO

Crear un modelo para calcular laprobabilidad de que un cliente de laempresa BikeBuyer compre uno de losproductos de la empresa, se proporcionalos siguientes datos:

Clave IDAtributos MaritalStatus, Gender,

YearlyIncome, Children,Education, Occupation,HomeOwner, Cars,CommuteDistance, Region, Age

Clase BikeBuyer

1. Efectuar las siguientes transformaciones dedatos: LogYearlyIncome = log(YearlyIncome) Discretizar YearlyIncome en 4 bins Transforme el tipo de dato Age de

integer a polynominal. Transforme el tipo de dato Cars de

nominal a numerical

2. Genere una muestra balanceada de datos(1000 de Yes y 1000 de No) observe que elbalanceo de datos se efectúa sobre laclase BikeBuyer.

3. Identificar los atributos con mayorrelevancia para el proceso de clasificación,mediante el cálculo de los pesos de cadaatributo. No aplique la normalización de lospesos. Elimine aquellos atributos cuyo nivelde relevancia es menor a un valor que seestablecerá por experimentación.

4. Aplique el algoritmo Decision Tree paradesarrollar un modelo predictivo queidentifique los atributos que mejor explicanla clase para los datos proporcionados.

5. Aplique modelo al 100 de los datosproporcionados y a la muestra deentrenamiento.

6. Calcule el desempeño del modelo (para el100% de los datos) mediante la aplicaciónde las siguientes medidas de evaluación:a. Matriz de confusión.

2.4. DESARROLLO DEL MODELO

Para desarrollar el modelo de predicción seejecutaran los siguientes pasos:

A. DEFINICION DE PROCESOS.

En RapidMiner los proyectos se trabajanmediante una definición de procesos, unadefinición de proceso es un conjunto deoperadores o módulos encadenados en unasecuencia. Una definición de procesos es unarchivo que se almacena en un repositorio.

Un repositorio, además de almacenar archivosde definición de procesos, puede almacenardatos pre-cargados en archivos de lecturarápida.

a) Crear el repositorio de procesos.

Seleccione new local repository

Definir el nombre del repositorio o alias[Exercise 01] y seleccione la ruta donde seubicará el repositorio.

Page 7: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1

.. exercises\exercise 01\repository

Presiones Finish

Confirme la creación del repositorio.

Por otro lado verifique que enencuentre el archivo:

Exercise 01.properties

b) Crear una nueva definición

Una definición de procesos esde operadores encadenadosdeterminado orden con la finalidaddatos desde diversas fuentes,transformación, crear modelos,modelos, optimizar modelosresultados.

Para crear una definición deel ícono New:

Esto genera automáticamenteperspectiva de diseño vacía.

Página 7

repository

repositorio.

en la carpeta se

definición de procesos

es un conjuntoencadenados en

finalidad de leerfuentes, aplicar

modelos, evaluarmodelos y grabar los

de procesos use

automáticamente una

www.kasperu.com

Page 8: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 8

B. LECTURA DE DATOS.

a) Leer el archivo de datos desde unoperador.

Use el operador Read Excel para leer elarchivo de datos.

El operador Read Excel se diferencia deloperador Read Excel with Format, en queel primero permite la definición de cadaatributo por el usuario, en el caso delsegundo usa la definición proporcionadapor el Excel.

Lleve el ícono al panel Process yencadénelo de la siguiente forma.

Observe que no debe encadenar la entradafil

Verifique los parámetros del operador en elpanel Parameters

Use la opción Import ConfigurationWizard, para definir los atributos a leer, lostipos de datos y los tipos de atributos.

Seleccione el archivo de datos, desde lacarpetaexercises\exercise 01\data\SampleData.xls

Seleccione la hoja con la que trabajará yvisualice los datos:

Page 9: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 9

Defina las anotaciones para los atributos,estos pueden ser de cuatro tipos:

- Es una fila de datosName Es la fila de nombresComment Es una fila de comentariosUnit Indica la unidad de los datos

Asigne [Name] a la primera fila y [–] alresto de filas de datos (sin los []).

Asigne el tipo de dato y el tipo de atributo acada atributo según la siguiente tabla:

Atributo Tipo deDato

Tipo deAtributo

ID integer idMaritalStatus binomial attributeGender binomial attributeYearlyIncome integer attributeChildren polynominal attributeEducation polynominal attributeOccupation polynominal attributeHomeOwner binomial attributeCars polynominal attributeCommuteDistance polynominal attributeRegion polynominal attributeAge integer attributeBikeBuyer binomial label

Presione Finish para terminar la configuraciónde la importación de datos.

b) Creación de una Meta Data.

La desventaja de los operadores Read esque requieren abrir y leer los datos desdeel archivo original de datos, una alternativaes leerlo una sola vez y almacenarlo en unformato que RapidMiner requiere para serprocesado, denominado MetaData.

Use la opción Import Excel Sheet paraimportar los datos de la hoja de Excel ygrabarlo como un repositorio de datos.

Page 10: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1

Esta opción genera una secuenciaventanas similares a la opciónConfiguration Wizard del operadorExcel.

La quinta venta permite almacenardatos en un repositorio activo.

Página 10

secuencia de cincoopción Importoperador Read

almacenar losactivo.

C. TRANSFORMACION

a) Crear un sub procesooperadores de preparación

Denomine alTransformation

Encadene los operadoresforma:

b) Aplique las siguientesa los datos.

LogYearlyIncome Discretizar YearlyIncome Transforme el

integer a polynominal. Transforme el

nominal a numerical

Para esto use los siguientes

1. Generate attributes2. Discretize by bins3. Numerical to polynominal4. Nominal to numerical

www.kasperu.com

TRANSFORMACION DE DATOS.

proceso para contener lospreparación de datos:

sub proceso Data

operadores de la siguiente

siguientes transformaciones

YearlyIncome = log(YearlyIncome)YearlyIncome en 4 bins

el tipo de dato Age depolynominal.

el tipo de dato Cars denumerical

siguientes operadores:

attributesbinspolynominal

numerical

Page 11: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 11

Configure cada uno de los cuatrooperadores de transformación de datos,según las indicaciones anteriores.

1. Generate attributes

2. Discretize by bins

3. Numerical to polynominal

4. Nominal to numerical

Page 12: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 12

D. EJECUCION DEL PROCESO.

Para ejecutar los operadores use el botónExecute

Observe que ahora se pasa a laperspectiva de resultados.

a) Analice los resultados obtenidos.

La herramienta proporciona cuatro (vistas):

1. Meta Data viewPresenta una vista de las propiedadesde los datos.

2. Data viewPresenta una vista de los datos.

3. Plot ViewProporciona una potente herramientapara el ploteo de datos.

4. AnnotationsProporciona una ambiente para escribircomentarios acerca del modelo.

Page 13: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 13

E. MUESTREO

Objetivo. Generar una muestrabalanceada de datos (1000 de Yes y 1000de No) observe que el balanceo de datosse efectúa sobre la clase BikeBuyer.

Para el proceso de muestreo se aplicará eloperado Sample

Use los siguientes parámetros para eloperador:

Identifique los estados de la clase

Se observa que 1,000 registroscorresponden a Yes y 9,000 correspondena No.

Para obtener una muestra balanceada dedatos se puede extraer el 100% de los Yesy el 11.11% de los No, obteniéndose entotal 2,000 registros.

Los ratios se definen en la opción sampleratio per class.

Ejecute la definición del proceso paravisualizar los resultados.

Para los datos originales se dispone de10,000 registros.

Para los datos muestreados se dispone de1,999 registros.

El balanceo de los datos se puedeobservar en la opción Plot View.

Page 14: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1

Página 14

F. RANKING DE ATRIBUTOS

Objetivo. Identificarmayor relevanciaclasificación, mediantepesos de cadanormalización deaquellos atributoses menor a un valorexperimentación.

Para el procesodimensionalidad seoperadores que seproceso Weight.

a) Cálculo de los pesos

Los pesos seoperador Weight by

El operador permitecontribución del atributoclase, debe considerarsecálculo a priori, esconsiderando queen la clase, asumiendorelación entre losse calcula sin construirmodelo.

www.kasperu.com

ATRIBUTOS

Identificar los atributos conrelevancia para el proceso de

mediante el cálculo de losatributo. No aplique la

de los pesos. Eliminecuyo nivel de relevancia

valor que se establecerá por

proceso de reducción de lase aplicará un conjunto dese agruparan en el sub-

pesos de cada atributo

calcularán usando elby Information Gain

permite calcular el nivel deatributo para predecir la

considerarse que el peso es unes decir que se calculacada atributo por influye

asumiendo que no existeatributos y por otro lado

construir ni evaluar ningún

Page 15: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 15

Los criterios usados son los siguientes:

Weight by Information GainWeight by Information Gain RatioWeight by RuleWeight by Value AverageWeight by DeviationWeight by CorrelationWeight by Chi Squared StatisticWeight by Gini IndexWeight by Tree ImportanceWeight by UncertaintyWeight by ReliefWeight by SVMWeight by PCAWeight by Component ModelWeight by User Specification

Para los 1,999 registros seleccionado ypara el operador de pesos Weight byInformation Gain se obtiene los siguientesresultados:

attibute weightAge 0.073CommuteDistance 0.014Education 0.010Children 0.009Region 0.007Occupation 0.007MaritalStatus 0.004HomeOwner 0.002Gender 0.002YearlyIncome 0.000Cars 0.000Log Yearly Income 0.000

b) Eliminación de los pesos menores

Use el operador Select by Weights paraseleccionar aquellos atributos con un nivelde relevancia mayor a un valor que seestablecerá por experimentación.

Observando los datos, ¿Qué valorconsidera apropiado para ubicar el puntode corte?

Asigne los siguientes parámetros aloperador (observe que los valores son

referenciales y estos deben ser obtenidospor experimentación.

Ejecute la definición de procesos paraobservar los resultados.

Atributos orginales

Atributos seleccionados

Page 16: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 16

G. MODELADO

Objetivo. Aplicar el algoritmo DecisionTree para desarrollar un modelo predictivoque identifique los atributos que mejorexplican la clase para los datosproporcionados.

Para crear el modelo se puede hacer usode diferentes algoritmos, no se puedeafirmar que uno de ellos es mejor que losotros, la utilidad de los algoritmos dependede los datos proporcionados, de lastransformaciones aplicadas y del problemaa resolver.

a) Creación del árbol de decisión.

El árbol de decisión se crea usando eloperador Decision Tree basado en elalgoritmo Quinlan's C4.5 or CART.

b) Datos de entrenamiento.

Los datos para el entrenamiento del árbolprovienen del proceso de selección anteriory corresponden a:

c) Parámetros del modelo

Este operador entrena árboles de decisióna partir de datos nominales y numéricos.Cada vez que un nuevo nodo se crea en undeterminado momento, un atributo seescoge para maximizar el poder dediscriminación de ese nodo con respecto alas demás alternativas asignadas alsubárbol en particular.

Criterion: específica el criterio deselección de atributos y de divisionesnuméricas (ganancia de información,índice gini, precisión, proporción deganancia).

Minimal size for Split: tamaño mínimode divisiones que se pueden dar encada nodo.

Minimal leaf size: tamaño mínimo dela hoja.

Minimal gain: la ganancia mínima quedebe lograrse con el fin de producir unadivisión.

Maximal depth: La profundidadmáxima del árbol.

Confidence: El nivel de confianzautilizado para el cálculo del errorpesimista de la poda.

Number of prepruning: El número denodos alternativos probados cuando latécnica de la poda evitaría una división.

No prepruning: Las reglas de poda seaplican luego de cada iteración

Prenuning: Las reglas de poda basadaen el criterio correspondiente despuésde generar el árbol.

Determinar los parámetros óptimos de unmodelo es un arte y una ciencia, para

Page 17: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 17

propósitos de este ejercicio se usaran lossiguientes valores.

Los parámetros óptimos en la práctica secalculan mediante un proceso deoptimización, proceso bastante costoso entiempo de computadora.

d) Árbol de decisión

Luego de correr el modelo se obtiene lossiguientes resultados.

Dado que árbol no se puede visualizarfácilmente se presenta las reglasidentificadas por el algoritmo.

CommuteDistance = 0-1 Miles| Education = Bachelors: Yes {Yes=142, No=86}| Education = Graduate Degree: Yes {Yes=111, No=73}| Education = High School: No {Yes=31, No=44}| Education = Partial College: Yes {Yes=100, No=62}| Education = Partial High School: No {Yes=10, No=37}

CommuteDistance = 1-2 Miles| Education = Bachelors: Yes {Yes=35, No=26}| Education = Graduate Degree: No {Yes=23, No=52}| Education = High School: Yes {Yes=44, No=29}| Education = Partial College: Yes {Yes=66, No=41}

Page 18: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 18

| Education = Partial High School: No {Yes=10, No=30}

CommuteDistance = 10+ Miles| Region = Europe: No {Yes=10, No=40}| Region = North America: No {Yes=44, No=89}| Region = Pacific: Yes {Yes=49, No=48}

CommuteDistance = 2-5 Miles| Occupation = Clerical: No {Yes=11, No=14}| Occupation = Management: Yes {Yes=23, No=17}| Occupation = Manual: No {Yes=15, No=27}| Occupation = Professional: Yes {Yes=85, No=78}| Occupation = Skilled Manual: Yes {Yes=50, No=22}

CommuteDistance = 5-10 Miles: No {Yes=141, No=184}

Page 19: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 19

En este árbol se puede identificar quealgunos atributos con alto peso no fuerenseleccionados por el árbol de decisión, tales el caso de Age y Children.

attibute weightAge 0.073CommuteDistance 0.014Education 0.010Children 0.009Region 0.007Occupation 0.007MaritalStatus 0.004HomeOwner 0.002Gender 0.002YearlyIncome 0.000Cars 0.000Log Yearly Income 0.000

H. CONSULTA DEL MODELO

Objetivo. Aplicar el modelo a la muestra deentrenamiento y al 100% de los datosproporcionados.

a) Consulta del modelo

Luego de crear el modelo es necesarioconsultarlo, para este propósito se usará eloperador Apply Model.

Este operador requiere dos entradas: El modelo generado por el árbol de

decisión. Los datos (sin label) a los que se les

asignará la predicción.

Los parámetros del modelo son lossiguientes: Application parameters: Los

parámetros del modelo para suaplicación (por lo general no esnecesario).

Create view: Indica que los modelosdeben crear una nueva vista paravisualizar los resultados sin cambiar losdatos.

Page 20: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 20

Para propósitos de este ejercicio seconsultará el modelo con los datos deentrenamiento y con los datos originales.

Observe que el modelo se “transfiere”desde el operador Decisión Tree al primeroperador Apply Model y desde esteoperador al siguiente operador ApplyModel.

b) Resultados obtenidos.

Luego de ejecutar la definición del procesose obtiene los siguientes resultados:

Datos originales:

Datos de entrenamiento:

Observar que se han creado 3 atributosespeciales adicionales:

prediction respuesta del modeloconfidence_Yes Probabilidad de Yesconfidence_No Probabilidad de No

Estos atributos presentan los valores quese muestran en la siguiente tabla:

Observar que la suma de las confianzas es1.0 y que la predicción depende de laconfianza, la predicción corresponde a laconfianza que es > 0.5.

Page 21: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 21

I. RENDIMIENTO DEL MODELO

Objetivo. Calcular el desempeño delmodelo (para el 100% de los datos)mediante la aplicación de las siguientesmedidas de evaluación:

a. Matriz de confusión.

El rendimiento del modelo se calcularáusando la matriz de confusión.

a) Calcular la medida de rendimiento.

La matriz de confusión se implementamediante el operador Performance.

En contraste con los otros métodos deevaluación de rendimiento, como porejemplo el rendimiento de clasificación,rendimiento de clasificación binomial o derendimiento de regresión, este operador sepuede utilizar para todo tipo de tareas deaprendizaje.Se determinará automáticamente el tipo detarea de aprendizaje y calcular los criteriosmás comunes para este tipo.

El operador requiere como entrada losdatos etiquetados con la predicción.

Cómo resultado se obtiene la medida deperformance y los datos etiquetados.

El operador tiene un solo parámetro quepor lo general no se usa, indica si el pesode ejemplo se debe utilizar para loscálculos de rendimiento.

b) Resultados obtenidos

Datos originalestrue Yes true No sum class

precision

pred. Yes 705 4,293 4,998 14.11%

pred. No 295 4,707 5,002 94.10%

sum 1,000 9,000

class recall 70.50% 52.30%

El %VP es del 70.50% y el %VN es del52.30%.

El %VPP es del 14.11% y del VPN es del94.10%

Datos de entrenamientotrue Yes true No sum class

precision

pred. Yes 705 482 1,187 59.39%

pred. No 295 517 812 63.67%

Sum 1,000 999

class recall 70.50% 51.75%

El %VP es del 70.50% y el %VN es del51.75%.

El %VPP es del 59.39% y del VPN es del63.67%

Observe que el %VP es similar en amboscasos, pero que el %VPP con los datosoriginales es menor que en el caso de losdatos de entrenamiento.

Page 22: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 22

J. MODELO NAIVE BAYES

a) Modelo Naive Bayes.

El modelo naive bayes clasifica usando unadistribución normal estimada.

Considera que cada atributo influye demanera independiente en el resultado.

Tiene un único parámetro Laplacecorrection, se usa para reducir la influencia delcero en la probabilidad.

b) Modificación del Modelo.

Modifique la definición de procesos parareemplazar el operador Decision Tree porel operador Naive Bayes.

Por otro lado elimine los operadores dereducción de dimensionalidad dado quecuando se usa el operador Apply Modeleste requiere el los atributos de la consultacoincidan con los atributos del modelo.

El resto del modelo permanece igual.

c) Resultados obtenidos

Datos originalestrueYes

trueNo sum

classprecision

pred. Yes 660 3,376 4,036 16.35%

pred. No 340 5,624 5,964 94.30%

sum 1,000 9,000

class recall 66.00% 62.49%

El %VP es del 66.00% y el %VN es del62.49%.

El %VPP es del 16.35% y del VPN es del94.30%

Datos de entrenamientotrueYes

trueNo sum

classprecision

pred. Yes 660 363 1,023 64.52%

pred. No 340 636 976 65.16%

sum 1,000 999

class recall 66.00% 63.66%

El %VP es del 66.00% y el %VN es del63.66%.

El %VPP es del 64.52% y del VPN es del65.16%

Observe que el %VP es similar en amboscasos, pero que el %VPP con los datosoriginales es menor que en el caso de losdatos de entrenamiento.

Page 23: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 23

K. MODELO REDES NEURONALES

a) Red Neuronal.

El modelo de redes neuronales es aplicablesolo para atributos numéricos, por lo quees necesario asegurar que todos los datossean numéricos (enteros o reales).

b) Parámetros de la Red Neuronal

hidden layers: Neuronas de las capasintermedias.

training cycles: Épocas default: 500 learning rate: Ratio de aprendizaje. momentum: momentum de decay: Indica si el ratio de aprendizaje

se reduce en el tiempo shuffle: Indica si la data de entrada es

reordenada antes del aprendizaje normalize: Indica si la data es

normalizada en el rango -1 a +1 error epsilon: Error de entrenamiento

mínimo para detener el entrenamiento.

Dejando por defecto los parámetros de lacapa intermedia se obtiene la siguientearquitectura, 12 neuronas en la capa deentrada, 9 neuronas en la capa intermediay 2 neuronas en la capa de salida.

c) Modelo de la Red Neuronal

Diseñe la siguiente definición de procesos,donde se incluye un operador queconvierte los valores nominales anuméricos.

Page 24: Tutorial de Inducción al RapidMiner

Inducción al RapidMiner 5.1 www.kasperu.com

Página 24

d) Preparación de datos

Antes de proceder a trabajar con la redneuronal es necesario convertir todos losatributos categóricos a numéricos

Use el operador Nominal to Numericalpara convertir los valores categóricos envalores numéricos mediante elprocedimiento de numbering.

Asigne los siguientes parámetros aloperador:

d) Resultados obtenidos

Datos originalestrueYes

trueNo sum

classprecision

pred. Yes 794 3,743 4,537 17.50%

pred. No 206 5,257 5,463 96.23%

sum 1,000 9,000

class recall 79.40% 58.41%

El %VP es del 79.40.00% y el %VN es del58.41%.