Árboles de clasificación

12
AUTOR: Nancy Loarte

Upload: maricela-loarte

Post on 10-Jul-2015

4.481 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Árboles de Clasificación

AUTOR :Na ncy Loa rte

Page 2: Árboles de Clasificación

Los s is te ma s ba s a dos e n á rbole s de c la s ific a c ión forma n una fa milia lla ma da TDIDT (Top-Down Induc tion of De c is ion Tre e s ).

E l prog ra ma AID (Automa tic Inte ra c tion De te c tion), de S onquis t, B a ke r y Morg a n (1971), re pre s e nta uno de los prime ros mé todos de a jus te de los da tos ba s a dos e n á rbole s de c la s ific a c ión. AID e s ta ba s a do e n un a lg oritmo re curs ivo con s uce s iva s pa rtic ione s de la s obs e rva c ione s orig ina le s e n otros s ubg rupos me nore s y má s homog é ne os me dia nte s e cue nc ia s b ina ria s de pa rtic ione s .

P os te riorme nte , conoc ido como CAR T (Cla s s ific a tion And R e g re s s ion Tre e s o á rbole s de c la s ific a c ión y re g re s ión), propue s to por B re ima n e t. a l. (1984).

Page 3: Árboles de Clasificación

Un a lg oritmo re curs ivo de c la s ific a c ión no b ina rio, lla ma do CHAID (Ch i-s qua re a utoma tic inte ra c tion de te c tion),  introduc ido por Ka s s (1980).

E l a lg oritmo C4.5. de s a rrolla do por Quinla n  (1993). E l a lg oritmo ID3 (Inte ra c tive Dichotomiz e r)  (Quinla n,

1986). Los Arbole s B a ye s ia nos ba s a dos e n la a plic a c ión de

mé todos B a ye s ia nos a a rbole s de c la s ific a c ión. Una a lte rna tiva ma s conoc ida como MAR S

( Multiva ria te Ada pta tive R e g re s ión S pline s ), propue s to por F rie dma n (1991).

Page 4: Árboles de Clasificación

Un á rbol de c la s ific a c ión e s una form a de re pre s e nta r e l c onoc im ie nto ob te nido e n e l proc e s o de a pre ndiz a je induc tivo.

E s uno de los mé todos de a pre ndiz a je induc tivo s upe rvis a do no pa ra m é tric o m á s utiliz a do. Com o form a de re pre s e nta c ión de l c onoc imie nto, los á rbole s de c la s ific a c ión s e de s ta c a n por s u s e nc ille z .

Page 5: Árboles de Clasificación

Un á rbol de c la s ific a c ión pos e e los s ig uie nte s e le me ntos : Nodos intermedios : e ng e ndra n dos o ma s (de pe ndie ndo

de l mé todo e mple a do) s e g me ntos de s ce ndie nte s inme dia tos . Ta mbié n de nomina dos s e g me ntos inte rme dios .

Nodos terminales : e s un nodo que no s e pue de dividir ma s , ta mbié n de nomina do s e g me nto te rmina l.

Rama de un nodo t: cons ta de todos los s e g me ntos de s ce ndie nte s de l nodo t, e xc luye ndo t.

Árbol de decis ión completo ( Tmax): á rbol e n e l cua l c a da nodo te rmina l no s e pue de ra mific a r.

Subárbol: s e obtie ne de la poda de una o ma s ra ma s de l á rbol comple to Tm a x.

Page 6: Árboles de Clasificación

Aprendizaje . Cons is te e n la cons trucc ión de l á rbol a pa rtir de un conjunto de prototipos , S . Cons tituye la fa s e má s comple ja y la que de te rmina e l re s ulta do fina l. A e s ta fa s e de dica mos la ma yor pa rte de nue s tra a te nc ión

Page 7: Árboles de Clasificación

Clas ificación. Cons is te e n e l e tique ta do de un pa trón, X, inde pe ndie nte de l conjunto de a pre ndiz a je . S e tra ta de re s ponde r a la s pre g unta s a s oc ia da s a los nodos inte riore s utiliz a ndo los va lore s de los a tributos de l pa trón X. E s te proce s o s e re pite de s de e l nodo ra íz h a s ta a lc a nz a r una hoja , s ig uie ndo e l c a mino impue s to por e l re s ulta do de c a da e va lua c ión.

Page 8: Árboles de Clasificación

Cons tituye la fa s e de a pre ndiz a je . La c ons truc c ión s e pue de re s um ir e n los s ig u ie nte s puntos , de a c ue rdo a un e s q ue m a re c urs ivo:

3. El avance e s tá b a s a do e n la pa rtic ión de un nodo de a c ue rdo a a lg una re g la , norm a lm e nte e va lua ndo una c ondic ión s obre e l va lor de a lg una va ria b le : Los prototipos que ve rific a n la c ondic ión s e a s ig na n a uno de los dos nodos h ijo (norm a lm e nte e l iz qu ie rdo) y los re s ta nte s , a l o tro. Cua ndo un nodo s e pa rtic iona , pa s a a s e r un nodo inte rm e dio.

Page 9: Árboles de Clasificación

2. El cas o bas e o condición de parada tie ne como ob je tivo de te ne r e l proce s o de pa rtic ión de nodos . Cua ndo s e ve rific a la condic ión de pa ra da e n un nodo, é s te e s un nodo hoja .

Los prototipos a s oc ia dos a un nodo hoja cons tituye n un a g rupa mie nto homog é ne o, por lo que a l nodo s e le a s ig na una e tique ta .

E n oca s ione s , s e poda e l á rbol re s ulta nte utiliz a ndo a lg una re g la de poda

Page 10: Árboles de Clasificación

Ventajas E s una té cnica no pa rá me trica , tie ne e n cue nta la s

inte ra cc ione s que e xis te n e ntre los da tos . S on ba s ta nte rá pidos y la e xig e nc ia computa c iona l no

e s muy a lta . S obre s a le a obs e rva c ione s ma l e tique ta da s . La re g la de a s ig na c ión e s s imple y le g ib le s , por ta nto

la inte rpre ta c ión de re s ulta dos e s dire c ta e intuitiva . E s vá lida s e a cua l fue ra la na tura le z a de la s va ria b le s

e xplica tiva s : continua s , b ina ria s nomina le s u ordina le s .

Page 11: Árboles de Clasificación

Des ventajas E xis te d ificulta d pa ra e le g ir e l á rbol óptimo. E xis te mucha ine s ta b ilida d e n los da tos por lo que

la s re g la s de a s ig na c ión s on s e ns ib le s . No e xis te una func ión g e ne ra l de la s va ria b le s por lo

ta nto e xis te la pé rdida de la re pre s e nta c ión g e omé trica .

Los á rbole s de c la s ific a c ión re quie re n un g ra n núme ro de da tos pa ra a s e g ura rs e que la c a ntida d de la s obs e rva c ione s de los nodos hoja s e a s ig nific a tiva .

Page 12: Árboles de Clasificación

http://math.uprm.edu/~edgar/treeDaza.html

http://www.fceco.uner.edu.ar/extinv/publicdocent/sarangur/pdf/arbolesdecision.pdf

http://math.uprm.edu/~edgar/clasifall9.pdf http://iie.fing.edu.uy/ense/asign/recpat/material/tema3_00

-01/node26.html