104509028 tutorial de induccion al rapidminer

Upload: maxcongo

Post on 11-Feb-2018

234 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    1/24

    Induccin al RapidMiner 5.1

    KNOWLED AND SYSTEM

    IRapi

    S PERU

    duccin aldMiner 5.1

    www.kasperu.com

    2012

    W W W . K A S P E R U . C O M

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    2/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 2

    Tabla de contenido

    1. RAPIDMINER. ........................... ...................... ......................... ...................... ......................... ................ 3

    2. USO BSICO. ........................... ...................... ......................... ...................... ......................... ................ 4

    2.1. PERSPECTIVAS .................... ......................... ...................... ............................ ...................... ........ 4

    2.2. ASPECTOS PRELIMINARES. ....................... ......................... ...................... ......................... ........ 5

    2.3. OBJETIVOS DEL MODELO ........................ ....................... ......................... ......................... .......... 6

    2.4. DESARROLLO DEL MODELO ............................ ...................... ......................... ...................... ..... 6

    A. DEFINICION DE PROCESOS. ............................ ...................... ......................... ...................... ..... 6

    B. LECTURA DE DATOS. ........................ ...................... ......................... ......................... ................... 8

    C. TRANSFORMACION DE DATOS............................................................................................ 10D. EJECUCION DEL PROCESO.................................................................................................. 12

    E. MUESTREO................................................................................................................................... 13

    F. RANKING DE ATRIBUTOS .......................................................................................................... 14

    G. MODELADO ............................................................................................................................... 16

    H. CONSULTA DEL MODELO...................................................................................................... 19

    I. RENDIMIENTO DEL MODELO.................................................................................................... 21

    J. MODELO NAIVE BAYES.............................................................................................................. 22

    K. MODELO REDES NEURONALES .............................................................................................. 23

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    3/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    1. RAPIDMINER.

    El RapidMiner es un software desarrollado por

    Rapid-I, empresa basada en Dortmund,Alemania que en los ltimos aos ha venidoteniendo un desarrollo vertiginoso.

    El producto principal de Rapid-I, es la solucinde anlisis de los datos RapidMiner es el ldermundial de cdigo abierto del sistema dedescubrimiento de conocimiento y minera dedatos. Est disponible como una aplicacinstand-alone para el anlisis de datos y comoun motor de minera de datos que pueden serintegrado en otros productos. Por ahora, miles

    de aplicaciones de RapidMiner en ms de 30pases dan a sus usuarios una ventajacompetitiva. Entre los usuarios son empresasde renombre como Ford, Honda, Nokia, Miele,Philips, IBM, HP, Cisco, Merrill Lynch, BNPParibas, Bank of America, Mobilkom Austria,Akzo Nobel, Aureus Pharma, PharmaDM,Cyprotex, Celera, Revere, LexisNexis, Mitre ymuchas empresas pequeas y medianas sebenefician de el modelo de negocio de cdigoabierto de Rapid-I1.

    RapidMiner (anteriormente, YALE, Yet AnotherLearning Environment) es un programainformtico desarrollado en Java para elanlisis y minera de datos. Permite eldesarrollo de procesos de anlisis de datosmediante el encadenamiento de operadores atravs de un entorno grfico. Se usa eninvestigacin y en aplicaciones empresariales.

    La versin inicial fue desarrollada por eldepartamento de inteligencia artificial de laUniversidad de Dortmund en 2001. Se

    distribuye bajo licencia GPL y est hospedadoen SourceForge desde el 2004.

    RapidMiner proporciona ms de 500operadores orientados al anlisis de datos,incluyendo los necesarios para realizaroperaciones de entrada y salida, pre-procesamiento de datos y visualizacin.Tambin permite utilizar los algoritmosincluidos en Weka y en R.

    1 www.rapid-i.com

    En una encuesta realizada por KDnuggets2 ,una pgina de minera de datos, RapidMinerocup el segundo lugar en herramientas deanaltica y de minera de datos utilizadas para

    proyectos reales en 2009, fue el primero en2010 y en el 2011.

    Which data mining/analytic tools you used in thepast 12 months for a real project (not justevaluation) [1103 voters]

    % users in 2011% users in 2010

    RapidMiner(305)

    27.7%37.8%

    R (257) 23.3%29.8%

    Excel (240) 21.8%24.3%

    SAS (150) 13.6%12.1%

    Your owncode (134)

    12.1%18.4%

    KNIME (134) 12.1%19.2%

    Weka(Pentaho)(130)

    11.8%14.4%

    Salford (117) 10.6%1.6%

    Statistica (94) 8.5%6.3%

    IBM SPSSModeler (91)

    8.3%7.3%

    MATLAB (79) 7.2%9.2%

    IBM SPSSStatistics (79)

    7.2%7.9%

    SASEnterpriseMiner (78)

    7.1%5.5%

    JMP (63) 5.7%

    11 AntsAnalytics (62)

    5.6%

    Microsoft SQLServer (54)

    4.9%6.9%

    2 www.kdnuggets.com/polls/index.html

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    4/24

    Induccin al RapidMiner 5.1

    Caractersticas Desarrollado en Java Multiplataforma Representacin interna de l

    anlisis de datos en ficheros Permite el desarrollo de

    travs de un lenguaje de scri Puede usarse de diversas m A travs de un GUI En lnea de comandos En batch (lotes) Desde otros programas

    llamadas a sus bibliotecas Extensible Incluye grficos y her

    visualizacin de datos Dispone de un mdulo de i

    R y con Weka

    Programacin basada enoperadores

    Pgina 4

    s procesos deXMLprogramas a

    ptaneras:

    a travs de

    amientas de

    ntegracin con

    controles u

    2. USO BSICO.

    2.1. PERSPECTIVA

    El rapidminer perperspectivas:

    a. Perspectiva de DAmbiente para diseade datos.

    En esta perspectiva eoperadores y con los

    Los operadores corrde algoritmos estandencadenar tal y comproyecto de minera d

    Los repositoriosalmacenes de datos y

    www.kasperu.com

    ite trabajar en tres

    iseor el proceso de la minera

    s posible trabajar con losepositorios.

    esponden a un conjuntoarizados que se pueden

    un lego para armar une datos.

    corresponden a losde proyectos.

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    5/24

    Induccin al RapidMiner 5.1

    b. Perspectiva de ResultadosAmbiente para ver los rmodelado.

    c. Perspectiva de Bienvenida.

    Pantalla inicial al entrar a la herr

    d. Mi primer modelo en rapid

    Introducir en el desarrollomediante la herramienta de miRapidMiner, haciendo uso de lCRISP.

    Pgina 5

    .sultados del

    mienta.

    iner

    de modelosera de datos

    a metodologa

    2.2. ASPECTOS PR

    a) Identificar el dire

    b) Definir la ubica

    procesos

    .. exercises\exerci

    c) Identificar la fuePara el desarrollousa los datos dep

    exercises\exercise

    d) Identificar el tipoLos tipos de dataceptados porsiguientes.

    Tipo de Datoattribute_valuenominalnumericintegerrealtext

    binomialpolynomicfile_pathdate_timedatetime

    www.kasperu.com

    LIMINARES.

    ctorio de trabajo.

    in del repositorio de

    se 01\repository

    te de los datos.de este ejercicio se hacesitados en:

    01\data\SampleData.xls

    de dato y de atributoos y tipos de atributosl Rapidminer son los

    Tipo de Atributoattributelabelidweightbatchcluster

    predicticoutliercostbase_value

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    6/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 6

    2.3. OBJETIVOS DEL MODELO

    Crear un modelo para calcular la

    probabilidad de que un cliente de laempresa BikeBuyer compre uno de losproductos de la empresa, se proporcionalos siguientes datos:

    Clave IDAtributos MaritalStatus, Gender,

    YearlyIncome, Children,Education, Occupation,HomeOwner, Cars,CommuteDistance, Region, Age

    Clase BikeBuyer

    1. Efectuar las siguientes transformaciones dedatos: LogYearlyIncome = log(YearlyIncome) Discretizar YearlyIncome en 4 bins Transforme el tipo de dato Age de

    integer a polynominal. Transforme el tipo de dato Cars de

    nominal a numerical

    2. Genere una muestra balanceada de datos(1000 de Yes y 1000 de No) observe que el

    balanceo de datos se efecta sobre laclase BikeBuyer.

    3. Identificar los atributos con mayorrelevancia para el proceso de clasificacin,mediante el clculo de los pesos de cadaatributo. No aplique la normalizacin de lospesos. Elimine aquellos atributos cuyo nivelde relevancia es menor a un valor que seestablecer por experimentacin.

    4. Aplique el algoritmo Decision Tree para

    desarrollar un modelo predictivo queidentifique los atributos que mejor explicanla clase para los datos proporcionados.

    5. Aplique modelo al 100 de los datosproporcionados y a la muestra deentrenamiento.

    6. Calcule el desempeo del modelo (para el100% de los datos) mediante la aplicacinde las siguientes medidas de evaluacin:a. Matriz de confusin.

    2.4. DESARROLLO DEL MODELO

    Para desarrollar el modelo de prediccin se

    ejecutaran los siguientes pasos:

    A. DEFINICION DE PROCESOS.

    En RapidMiner los proyectos se trabajanmediante una definicin de procesos, unadefinicin de proceso es un conjunto deoperadores o mdulos encadenados en unasecuencia. Una definicin de procesos es unarchivo que se almacena en un repositorio.

    Un repositorio, adems de almacenar archivos

    de definicin de procesos, puede almacenardatos pre-cargados en archivos de lecturarpida.

    a) Crear el repositorio de procesos.

    Seleccione new local repository

    Definir el nombre del repositorio o alias[Exercise 01] y seleccione la ruta donde seubicar el repositorio.

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    7/24

    Induccin al RapidMiner 5.1

    .. exercises\exercise 01\repo

    Presiones Finish

    Confirme la creacin del rep

    Por otro lado verifique que eencuentre el archivo:

    Exercise 01.properties

    b) Crear una nueva definicin

    Una definicin de procesosde operadores encadeterminado orden con la fidatos desde diversas fu

    transformacin, crear momodelos, optimizar modeloresultados.

    Para crear una definicin del cono New:

    Esto genera automticperspectiva de diseo vaca.

    Pgina 7

    sitory

    sitorio.

    n la carpeta se

    de procesos

    es un conjuntoenados enalidad de leer

    entes, aplicar

    elos, evaluary grabar los

    procesos use

    amente una

    www.kasperu.com

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    8/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 8

    B. LECTURA DE DATOS.

    a) Leer el archivo de datos desde un

    operador.

    Use el operador Read Excel para leer elarchivo de datos.

    El operador Read Excel se diferencia deloperador Read Excel with Format, en queel primero permite la definicin de cadaatributo por el usuario, en el caso delsegundo usa la definicin proporcionadapor el Excel.

    Lleve el cono al panel Process y

    encadnelo de la siguiente forma.

    Observe que no debe encadenar la entradafil

    Verifique los parmetros del operador en elpanel Parameters

    Use la opcin Import ConfigurationWizard, para definir los atributos a leer, lostipos de datos y los tipos de atributos.

    Seleccione el archivo de datos, desde lacarpetaexercises\exercise 01\data\SampleData.xls

    Seleccione la hoja con la que trabajar y

    visualice los datos:

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    9/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 9

    Defina las anotaciones para los atributos,

    estos pueden ser de cuatro tipos:- Es una fila de datosName Es la fila de nombresComment Es una fila de comentariosUnit Indica la unidad de los datos

    Asigne [Name] a la primera fila y [] alresto de filas de datos (sin los []).

    Asigne el tipo de dato y el tipo de atributo acada atributo segn la siguiente tabla:

    Atributo Tipo deDato

    Tipo deAtributo

    ID integer id

    MaritalStatus binomial attributeGender binomial attributeYearlyIncome integer attributeChildren polynominal attributeEducation polynominal attributeOccupation polynominal attributeHomeOwner binomial attributeCars polynominal attributeCommuteDistance polynominal attributeRegion polynominal attributeAge integer attribute

    BikeBuyer binomial label

    Presione Finish para terminar la configuracinde la importacin de datos.

    b) Creacin de una Meta Data.

    La desventaja de los operadores Read esque requieren abrir y leer los datos desdeel archivo original de datos, una alternativaes leerlo una sola vez y almacenarlo en unformato que RapidMiner requiere para serprocesado, denominado MetaData.

    Use la opcin Import Excel Sheet paraimportar los datos de la hoja de Excel ygrabarlo como un repositorio de datos.

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    10/24

    Induccin al RapidMiner 5.1

    Esta opcin genera una secventanas similares a laConfiguration Wizard delExcel.

    La quinta venta permitedatos en un repositorio activ

    Pgina 10

    encia de cincopcin Importperador Read

    almacenar los.

    C. TRANSFORMACI

    a) Crear un sub pr

    operadores de pr

    Denomine alTransformation

    Encadene los opforma:

    b) Aplique las siguia los datos.

    LogYearlyInco Discretizar Ye Transforme el

    integer a polyn Transforme el

    nominal a num

    Para esto use los

    1. Generate attri2. Discretize by b3. Numerical to p4. Nominal to nu

    www.kasperu.com

    ON DE DATOS.

    ceso para contener los

    eparacin de datos:

    sub proceso Data

    radores de la siguiente

    entes transformaciones

    me = log(YearlyIncome)rlyIncome en 4 bins

    l tipo de dato Age deominal.

    tipo de dato Cars deerical

    siguientes operadores:

    utesinsolynominal

    erical

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    11/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 11

    Configure cada uno de los cuatrooperadores de transformacin de datos,segn las indicaciones anteriores.

    1. Generate attributes

    2. Discretize by bins

    3. Numerical to polynominal

    4. Nominal to numerical

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    12/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 12

    D. EJECUCION DEL PROCESO.

    Para ejecutar los operadores use el botn

    Execute

    Observe que ahora se pasa a laperspectiva de resultados.

    a) Analice los resultados obtenidos.

    La herramienta proporciona cuatro (vistas):

    1. Meta Data viewPresenta una vista de las propiedadesde los datos.

    2. Data viewPresenta una vista de los datos.

    3. Plot ViewProporciona una potente herramientapara el ploteo de datos.

    4. Annotations

    Proporciona una ambiente para escribircomentarios acerca del modelo.

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    13/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 13

    E. MUESTREO

    Objetivo. Generar una muestra

    balanceada de datos (1000 de Yes y 1000de No) observe que el balanceo de datosse efecta sobre la clase BikeBuyer.

    Para el proceso de muestreo se aplicar eloperado Sample

    Use los siguientes parmetros para eloperador:

    Identifique los estados de la clase

    Se observa que 1,000 registroscorresponden a Yes y 9,000 corresponden

    a No.

    Para obtener una muestra balanceada dedatos se puede extraer el 100% de los Yesy el 11.11% de los No, obtenindose en

    total 2,000 registros.

    Los ratios se definen en la opcin sampleratio per class.

    Ejecute la definicin del proceso paravisualizar los resultados.

    Para los datos originales se dispone de10,000 registros.

    Para los datos muestreados se dispone de1,999 registros.

    El balanceo de los datos se puedeobservar en la opcin Plot View.

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    14/24

    Induccin al RapidMiner 5.1

    Pgina 14

    F. RANKING DE AT

    Objetivo. Identifi

    mayor relevanciclasificacin, mepesos de cadanormalizacin daquellos atributoses menor a un valexperimentacin.

    Para el procesdimensionalidad soperadores queproceso Weight.

    a) Clculo de los pe

    Los pesos seoperadorWeight

    El operador percontribucin delclase, debe consiclculo a priori,considerando queen la clase, asrelacin entre losse calcula sin comodelo.

    www.kasperu.com

    IBUTOS

    icar los atributos con

    para el proceso deiante el clculo de losatributo. No aplique la

    los pesos. Eliminecuyo nivel de relevancia

    or que se establecer por

    de reduccin de lae aplicar un conjunto dee agruparan en el sub-

    sos de cada atributo

    calcularn usando ely Information Gain

    ite calcular el nivel detributo para predecir laerarse que el peso es uns decir que se calculacada atributo por influyemiendo que no existeatributos y por otro lado

    nstruir ni evaluar ningn

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    15/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 15

    Los criterios usados son los siguientes:

    Weight by Information Gain

    Weight by Information Gain RatioWeight by RuleWeight by Value AverageWeight by DeviationWeight by CorrelationWeight by Chi Squared StatisticWeight by Gini IndexWeight by Tree ImportanceWeight by UncertaintyWeight by ReliefWeight by SVMWeight by PCA

    Weight by Component ModelWeight by User Specification

    Para los 1,999 registros seleccionado ypara el operador de pesos Weight byInformation Gain se obtiene los siguientesresultados:

    attibute weightAge 0.073CommuteDistance 0.014Education 0.010

    Children 0.009Region 0.007Occupation 0.007MaritalStatus 0.004HomeOwner 0.002Gender 0.002YearlyIncome 0.000Cars 0.000Log Yearly Income 0.000

    b) Eliminacin de los pesos menores

    Use el operador Select by Weights paraseleccionar aquellos atributos con un nivelde relevancia mayor a un valor que seestablecer por experimentacin.

    Observando los datos, Qu valorconsidera apropiado para ubicar el puntode corte?

    Asigne los siguientes parmetros aloperador (observe que los valores son

    referenciales y estos deben ser obtenidospor experimentacin.

    Ejecute la definicin de procesos para

    observar los resultados.Atributos orginales

    Atributos seleccionados

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    16/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 16

    G. MODELADO

    Objetivo. Aplicar el algoritmo Decision

    Tree para desarrollar un modelo predictivoque identifique los atributos que mejorexplican la clase para los datosproporcionados.

    Para crear el modelo se puede hacer usode diferentes algoritmos, no se puedeafirmar que uno de ellos es mejor que losotros, la utilidad de los algoritmos dependede los datos proporcionados, de lastransformaciones aplicadas y del problemaa resolver.

    a) Creacin del rbol de decisin.

    El rbol de decisin se crea usando eloperador Decision Tree basado en elalgoritmo Quinlan's C4.5 or CART.

    b) Datos de entrenamiento.

    Los datos para el entrenamiento del rbolprovienen del proceso de seleccin anteriory corresponden a:

    c) Parmetros del modelo

    Este operador entrena rboles de decisina partir de datos nominales y numricos.

    Cada vez que un nuevo nodo se crea en undeterminado momento, un atributo seescoge para maximizar el poder dediscriminacin de ese nodo con respecto alas dems alternativas asignadas alsubrbol en particular.

    Criterion: especfica el criterio deseleccin de atributos y de divisionesnumricas (ganancia de informacin,ndice gini, precisin, proporcin deganancia).

    Minimal size for Split: tamao mnimode divisiones que se pueden dar encada nodo.

    Minimal leaf size: tamao mnimo dela hoja.

    Minimal gain: la ganancia mnima quedebe lograrse con el fin de producir unadivisin.

    Maximal depth: La profundidadmxima del rbol.

    Confidence: El nivel de confianzautilizado para el clculo del errorpesimista de la poda.

    Number of prepruning: El nmero denodos alternativos probados cuando latcnica de la poda evitara una divisin.

    No prepruning: Las reglas de poda seaplican luego de cada iteracin

    Prenuning: Las reglas de poda basadaen el criterio correspondiente despusde generar el rbol.

    Determinar los parmetros ptimos de un

    modelo es un arte y una ciencia, para

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    17/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 17

    propsitos de este ejercicio se usaran lossiguientes valores.

    Los parmetros ptimos en la prctica se

    calculan mediante un proceso deoptimizacin, proceso bastante costoso entiempo de computadora.

    d) rbol de decisin

    Luego de correr el modelo se obtiene lossiguientes resultados.

    Dado que rbol no se puede visualizarfcilmente se presenta las reglasidentificadas por el algoritmo.

    CommuteDistance = 0-1 Miles| Education = Bachelors: Yes {Yes=142, No=86}| Education = Graduate Degree: Yes {Yes=111, No=73}| Education = High School: No {Yes=31, No=44}| Education = Partial College: Yes {Yes=100, No=62}| Education = Partial High School: No {Yes=10, No=37}

    CommuteDistance = 1-2 Miles| Education = Bachelors: Yes {Yes=35, No=26}| Education = Graduate Degree: No {Yes=23, No=52}| Education = High School: Yes {Yes=44, No=29}

    | Education = Partial College: Yes {Yes=66, No=41}

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    18/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 18

    | Education = Partial High School: No {Yes=10, No=30}

    CommuteDistance = 10+ Miles| Region = Europe: No {Yes=10, No=40}

    | Region = North America: No {Yes=44, No=89}| Region = Pacific: Yes {Yes=49, No=48}

    CommuteDistance = 2-5 Miles| Occupation = Clerical: No {Yes=11, No=14}| Occupation = Management: Yes {Yes=23, No=17}| Occupation = Manual: No {Yes=15, No=27}| Occupation = Professional: Yes {Yes=85, No=78}| Occupation = Skilled Manual: Yes {Yes=50, No=22}

    CommuteDistance = 5-10 Miles: No {Yes=141, No=184}

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    19/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 19

    En este rbol se puede identificar quealgunos atributos con alto peso no fuerenseleccionados por el rbol de decisin, tal

    es el caso de Age y Children.

    attibute weightAge 0.073CommuteDistance 0.014Education 0.010Children 0.009Region 0.007Occupation 0.007MaritalStatus 0.004HomeOwner 0.002Gender 0.002

    YearlyIncome 0.000Cars 0.000Log Yearly Income 0.000

    H. CONSULTA DEL MODELO

    Objetivo. Aplicar el modelo a la muestra de

    entrenamiento y al 100% de los datosproporcionados.

    a) Consulta del modelo

    Luego de crear el modelo es necesarioconsultarlo, para este propsito se usar eloperadorApply Model.

    Este operador requiere dos entradas: El modelo generado por el rbol de

    decisin. Los datos (sin label) a los que se les

    asignar la prediccin.

    Los parmetros del modelo son lossiguientes: Application parameters: Los

    parmetros del modelo para suaplicacin (por lo general no esnecesario).

    Create view: Indica que los modelosdeben crear una nueva vista paravisualizar los resultados sin cambiar losdatos.

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    20/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 20

    Para propsitos de este ejercicio seconsultar el modelo con los datos deentrenamiento y con los datos originales.

    Observe que el modelo se transfieredesde el operador Decisin Tree al primeroperador Apply Model y desde esteoperador al siguiente operador ApplyModel.

    b) Resultados obtenidos.

    Luego de ejecutar la definicin del procesose obtiene los siguientes resultados:

    Datos originales:

    Datos de entrenamiento:

    Observar que se han creado 3 atributosespeciales adicionales:

    prediction respuesta del modeloconfidence_Yes Probabilidad de Yesconfidence_No Probabilidad de No

    Estos atributos presentan los valores quese muestran en la siguiente tabla:

    Observar que la suma de las confianzas es1.0 y que la prediccin depende de laconfianza, la prediccin corresponde a laconfianza que es > 0.5.

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    21/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 21

    I. RENDIMIENTO DEL MODELO

    Objetivo. Calcular el desempeo del

    modelo (para el 100% de los datos)mediante la aplicacin de las siguientesmedidas de evaluacin:

    a. Matriz de confusin.

    El rendimiento del modelo se calcularusando la matriz de confusin.

    a) Calcular la medida de rendimiento.

    La matriz de confusin se implementamediante el operadorPerformance.

    En contraste con los otros mtodos de

    evaluacin de rendimiento, como porejemplo el rendimiento de clasificacin,rendimiento de clasificacin binomial o derendimiento de regresin, este operador sepuede utilizar para todo tipo de tareas deaprendizaje.Se determinar automticamente el tipo detarea de aprendizaje y calcular los criteriosms comunes para este tipo.

    El operador requiere como entrada losdatos etiquetados con la prediccin.

    Cmo resultado se obtiene la medida deperformance y los datos etiquetados.

    El operador tiene un solo parmetro quepor lo general no se usa, indica si el pesode ejemplo se debe utilizar para losclculos de rendimiento.

    b) Resultados obtenidos

    Datos originalestrue Yes true No sum class

    precision

    pred. Yes 705 4,293 4,998 14.11%

    pred. No 295 4,707 5,002 94.10%

    sum 1,000 9,000

    class recall 70.50% 52.30%

    El %VP es del 70.50% y el %VN es del52.30%.

    El %VPP es del 14.11% y del VPN es del94.10%

    Datos de entrenamientotrue Yes true No sum class

    precision

    pred. Yes 705 482 1,187 59.39%

    pred. No 295 517 812 63.67%

    Sum 1,000 999

    class recall 70.50% 51.75%

    El %VP es del 70.50% y el %VN es del51.75%.

    El %VPP es del 59.39% y del VPN es del63.67%

    Observe que el %VP es similar en amboscasos, pero que el %VPP con los datosoriginales es menor que en el caso de losdatos de entrenamiento.

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    22/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 22

    J. MODELO NAIVE BAYES

    a) Modelo Naive Bayes.

    El modelo naive bayes clasifica usando unadistribucin normal estimada.

    Considera que cada atributo influye demanera independiente en el resultado.

    Tiene un nico parmetro Laplacecorrection, se usa para reducir la influencia delcero en la probabilidad.

    b) Modificacin del Modelo.

    Modifique la definicin de procesos parareemplazar el operador Decision Tree porel operador Naive Bayes.

    Por otro lado elimine los operadores de

    reduccin de dimensionalidad dado quecuando se usa el operador Apply Modeleste requiere el los atributos de la consultacoincidan con los atributos del modelo.

    El resto del modelo permanece igual.

    c) Resultados obtenidos

    Datos originales

    trueYes

    trueNo sum

    classprecision

    pred. Yes 660 3,376 4,036 16.35%

    pred. No 340 5,624 5,964 94.30%

    sum 1,000 9,000

    class recall 66.00% 62.49%

    El %VP es del 66.00% y el %VN es del62.49%.

    El %VPP es del 16.35% y del VPN es del94.30%

    Datos de entrenamientotrue

    Yes

    true

    No sum

    class

    precision

    pred. Yes 660 363 1,023 64.52%

    pred. No 340 636 976 65.16%

    sum 1,000 999

    class recall 66.00% 63.66%

    El %VP es del 66.00% y el %VN es del

    63.66%.

    El %VPP es del 64.52% y del VPN es del65.16%

    Observe que el %VP es similar en amboscasos, pero que el %VPP con los datosoriginales es menor que en el caso de losdatos de entrenamiento.

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    23/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 23

    K. MODELO REDES NEURONALES

    a) Red Neuronal.

    El modelo de redes neuronales es aplicablesolo para atributos numricos, por lo quees necesario asegurar que todos los datossean numricos (enteros o reales).

    b) Parmetros de la Red Neuronal

    hidden layers: Neuronas de las capasintermedias.

    training cycles: pocas default: 500 learning rate: Ratio de aprendizaje. momentum: momentum de decay: Indica si el ratio de aprendizaje

    se reduce en el tiempo shuffle: Indica si la data de entrada es

    reordenada antes del aprendizaje normalize: Indica si la data es

    normalizada en el rango -1 a +1 error epsilon: Error de entrenamiento

    mnimo para detener el entrenamiento.

    Dejando por defecto los parmetros de lacapa intermedia se obtiene la siguientearquitectura, 12 neuronas en la capa de

    entrada, 9 neuronas en la capa intermediay 2 neuronas en la capa de salida.

    c) Modelo de la Red Neuronal

    Disee la siguiente definicin de procesos,donde se incluye un operador queconvierte los valores nominales anumricos.

  • 7/23/2019 104509028 Tutorial de Induccion Al RapidMiner

    24/24

    Induccin al RapidMiner 5.1 www.kasperu.com

    Pgina 24

    d) Preparacin de datos

    Antes de proceder a trabajar con la redneuronal es necesario convertir todos losatributos categricos a numricos

    Use el operador Nominal to Numericalpara convertir los valores categricos envalores numricos mediante elprocedimiento de numbering.

    Asigne los siguientes parmetros aloperador:

    d) Resultados obtenidos

    Datos originalestrue

    Yes

    true

    No sum

    class

    precision

    pred. Yes 794 3,743 4,537 17.50%

    pred. No 206 5,257 5,463 96.23%

    sum 1,000 9,000

    class recall 79.40% 58.41%

    El %VP es del 79.40.00% y el %VN es del58.41%.