capitulo 7 cart

Upload: vicente-santiago-grass-bustos

Post on 09-Jul-2015

307 views

Category:

Documents


0 download

TRANSCRIPT

CART: Arboles de Clasificacin y Regresin

Taller de Inteligencia de Negocios DATA MININGArie Rapaport

TemasTemas Administrativos 2. Clase: CART: Arboles de Clasificacin y Regresin1.

Descanso

Control 4. Tarea3.

Temario Clase1. Arboles 2. Particin Recursiva 3. Medidas de Impureza 4. El Problema de Overfitting 5. Arboles de Regresin

Arboles

Arboles y ReglasObjetivo: Clasificar o predecir un resultado basado en un grupo de predictores El resultado es un grupo de reglas Ejemplo: Objetivo: Clasificar un registro si aceptar una oferta de tarjera de crdito o no aceptar La regla podras ser SI (Ingreso> 92.5) Y (Educacin < 1.5) Y (Familia 14.4 y los que lot size < 14.4 Despus de evaluar esa divisin, probar la siguiente, que es 15.4 (entre 14.8 and 16.0)

Primera Divisin: Lot Size = 19.000

Segunda Divisin: Income = $84,750(Nodo de Lot Size 84.75, ENTONCES clase = owner

Determinar el Nombre del Nodo HojaCada nombre de nodo hoja es determinado votando sobre los registros y usando el valor de corte Registros en cada nodo hoja son de los datos de entrenamiento Corte por defecto = 0.5 significa que el nombre del nodo hoja se determina por la clase mayoritaria Corte = 0.75: requiere mayora de 75% o ms registros 1 en la hoja para nombrarlo nodo 1

Arbol luego de todas las divisiones

El Problema de Overfitting

Detener el Crecimiento del ArbolFin natural es 100% puro en cada hoja Esto overfitt los datos, ajustndose al ruido de los datos Overfitting implica una baja precisin predictiva de nuevos datos Pasado cierto punto, la tasa de error de los datos de validacin empiezan a crecer

Tasa de Error del Arbol

CHAIDCHAID, ms antiguo que CART, utiliza medida estadstica de chi-square para limitar el crecimiento del rbol Las divisiones se detienen cuando la mejora de pureza no es estadsticamente significativa

Podar o PruningCART permite al rbol crecer al mximo, luego poda las hojas La idea es encontrar el punto en que el error de validacin empieza a crecer En el proceso se generan arboles ms pequeos en forma sucesiva podando las hojas En cada paso de podar, son posibles varios arboles Se utiliza el Costo Compuesto para seleccionar el mejor rbol en cada paso

Costo CompuestoCC(T) = Err(T) + L(T) CC(T) = Costo Compuesto de un rbol Err(T) = proporcin de registros mal clasificados = factor de penalidad de acuerdo al tamao del rbol (determinado por el usuario) Entre arboles de cierto tamao, seleccionar el de menor CC Realizar esto para cada tamao de rbol

Resultados de PodarEste proceso genera un grupo de rboles de diferentes tamaos y sus tasas de error asociadas Dos rboles de inters: Arbol de error mnimoTienes menor tasa de error en datos de validacin

Mejor rbol podadoArbol ms pequeo dentro de una desviacin estndar del rbol de menor error Esto agrega un bono de simplicidad

Tasas de Error en Arboles Podados

Arboles de Regresin

Arboles de Regresin para PrediccinUsado con variables objetivos continuas Procedimiento similar al rbol de clasificacin Varios intentos de divisin, seleccionar el que minimice la impureza

Diferencias con Clasificacin (CT)La prediccin es calculada como promedio de las variables numricas en el rectngulo (en CT es el voto de mayora) Impureza mide la suma de los cuadrados de las desviaciones del promedio de la hoja Efectividad medida con RMSE (raz del promedio de los errores al cuadrado)

Ventajas de los ArbolesFacil de usar y entender Produce reglas que son fciles de interpretar e implementar La seleccin y reduccin de variables es automtica No requiere supuestos de modelos estadsticos Puede funcionar sin un manejo exhaustivo de datos faltantes

DesventajasPuede no funcionar bien donde la estructura de datos no es bien capturada por divisiones horizontales o verticales Como el proceso funciona con una variable a la vez, no puede capturar interacciones entre las variables

ResumenArboles de Clasificacin y Regresin es un mtodo fcil y transparente para clasificar o predecir nuevos registros Un rbol es una representacin grfica de un grupo de reglas Arboles deben ser podados para evitar overfitting de los datos de entrenamiento Como los rboles no hacen supuestos de la estructura de datos, estos usualmente requieren grandes muestras