clp teoria 2.2 ml tar2015

7/21/2019 CLP Teoria 2.2 ML Tar2015

1/22

1

INDICE

2.1 Decisin Bayesiana (MAP)2.2. Estimacin de mxima verosimilitud (ML) y

estimacin Bayesiana de parmetros

2.2.1 Introduccin

2.2.2 Estimacin ML2.2.3 Estimacin Bayesiana

2.2.4 Conclusiones


2/22

2

2.2.1 INTRODUCCIN

La clasificacin bayesiana precisa del conocimiento defx(x |i) yde Pr(i). Para el clculo de estas magnitudes se requiere:

- Disponer de una serie de datos previamenteclasificados de forma fiable.

- Disponer de un estimador de esas probabilidades.

La estimacin de fx(x |i) requiere muchos datos a menos quepodamos definir una funcin que dependa de unos pocosparmetros i.

Caso gaussiano: icontiene la media y la matriz de covarianza

( )( ) ( )11/ 2/ 2

1 1( | , ) exp

22

T

i i i i id

i

f

=

x x x C x C


3/22

3

Existen dos alternativas:

1. Estimacin de mxima verosimilidud (ML): Losparmetros a estimar se consideran deterministas(aunque desconocidos).

2. Estimacin bayesiana: Los parmetros son variablesde las que se tiene un conocimiento a priori(relacionado con el concepto de creencia y asociadoa una funcin de densidad de probabilidad). La

definicin del estimador bayesiano permite mejorarfcilmente la estimacin defx(x|i) cuando se disponede nuevos datos.


4/22

4

Suponemos que disponemos de una base de datos etiquetada (unconjunto de vectores de caractersticas clasificados por categoras).

A partir de una particin aleatoria de sta (base de datos deentrenamiento) hemos de determinarfx(x|i):

{ }1

1 1,1 2,1 ,1, ,...,c

ND = x x x

{ }22 1,2 2,2 ,2, ,..., cND = x x x { }33 1,3 2,3 ,3, ,..., cND = x x x

1 1:c

2 2:c 3 3:c

El resto de vectores se usar para evaluar las prestaciones del

clasificador (base de datos de test).


5/22

5

2.2.2 ESTIMACIN DE MXIMA VEROSIMILITUD (ML)

Si en cada clase i los datos xk,iDi observados sonindependientes:

( ) ,1

| ( | )ci

N

i i k i i

k

f D f=

= x x

es la funcin de verosimilitud. El estimador ML maximiza estafuncin (o su logaritmo):

( ) ( ), arg max | arg max ln |i i

i ML i i i if D f D= =

Un conjunto de condiciones necesarias para obtener elestimador vienen dadas por:

( )ln |i i i

f D = 0


7/22

7

Caracterizacin de un estimador

Un estimador es una funcin que aplica sobre los vectores decaractersticas xk,iseleccionados de la base de datos para entrenar elclasificador. Si la seleccin se hace de forma aleatoria, los valoresproporcionados por el estimador sern tambin aleatorios: para cadaposible particin l de la base de datos obtenemos una estimacindistinta .

1. Sesgo: diferencia entre el valor verdadero del parmetro y elpromedio de los valores sobre las posibles particiones aleatorias dela base de datos de entrenamiento. Mide si el estimador comete unerror sistemtico.

,

l i

{ }, ,1

1 L

l i l i

l

BL

=

=


8/22

8

2. Varianza: desviacin de los valores aleatorios proporcionados por elestimador respecto a un valor medio. Mide si el resultado delestimador depende mucho o poco de la seleccin concreta devectores.

{ }2

, , ,

1 1

1 1 varL L

l i l i s i

l sL L

= =

=


9/22

9

Propiedades del estimador ML:

1. Es asintticamente insesgado (en muchos casos esinsesgado aunque N sea pequeo)

2. Es asintticamente eficiente (cuando N es grande, suvarianza es la de Crmer-Rao)

Sin embargo

1. No tiene porqu ser el que proporcione menor error declasificacin cuando utilicemos

2. Si la pdf asumida es muy distinta de la real lasestimaciones pueden ser de poca calidad.

,( | , )i i MLf x x


10/22

10

Ejemplo 1:

Estimador ML de la media isi la matriz de covarianza Ciesconocida, en el caso gausiano multivariable. Demostrad que:

,

1

1

ci

i

N

i ML k

kcN =

= x

,

1

1

ci

i

N

i ML k

kcN =

= x ( )( ), , ,1

1

ci

i

NT

i ML k i ML k i ML

kcN =

= x x C

Ejemplo 2:

Estimador ML de la media iy la matriz de covarianza Cien elcaso gausiano multivariable. Demostrad que:


11/22

11

Ejemplo 3:

Estimador ML de la probabilidad pkde aparicin de 1 paracada una de las componentes del vector de datos binarios

x{0,1}d:

[ ]

, ,1

1 1

1

( | , ) (1 )

,...,

i

k j k j

N dx x

k k

j k

d

f D p p

p p

= =

=

=

x p

p


12/22


13/22

13

ESTIMACIN BAYESIANA y ESTIMACIN ML

Comparacin:

La funcin tendr un pico tanto ms abrupto alrededorde cuanto mayor sea Ni.

Si f(

i

) no es cero y no vara mucho cerca de entonces

( | )i i

f D

i i=

i i

=

( | ) ( )( | )

( )i i i

i i

i

f D ff D

f D=

tambien tiene un pico en y los estimadores obtenidos por

Bayes y mediante ML coinciden.

En la prctica, si el nmero de vectores de Di es pequeo, esmejor la estimacin bayesiana. Cuando se tienen muchasmuestras, ambos estimadores coinciden

i i

=


14/22

14

1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 3.20

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

15 muestras35 muestras200 muestras

1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 3.20

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


f(D|)

f()

Ejemplo 5:

Estimacin ML de la media(0=2) sobre un nmerovariable de muestrasGaussianas.

La fdp a priori de es

Gaussiana.

Estimacin Bayesianade lamedia (0=2) sobre unnmero variable demuestras Gaussianas.

La fdp a priori de esGaussiana.

f()

f(D|)f()


15/22

15

1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 3.20

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9


Estimacin Bayesianade la

media (0=2) sobre unnmero variable demuestras Gaussianas.

La fdp a priori de esuniforme.

f()

f(D|)f()


16/22

16

Queremos determinar la probabilidad a posteriori a partir de lasobservaciones en Di , y supondremos que:

- La forma defx(x|i)es conocida pero no el parmetro i

- Nuestro conocimiento a priori de i est enf(i)

- El resto de nuestro conocimiento sobre iviene dado porlos datos en Di

Suposiciones

2. Estimar directamente las probabilidades a posteriori Pr(i|x)


17/22

17

( | ) ( | ) ( | ) ( | )i i i i i if f D f f D d = x xx x x

Procedimiento:

1. Promediar la forma conocida para la funcin de verosimilitudrespecto a la probabilidad a posteriori del parmetro:

2. Calculamos la probabilidad a posteriori del parmetro como

( | ) ( )( | ) ( | ) ( )

( | ) ( )

i i i

i i i i i

i i i i

f D ff D f D f

f D f d=

3. Suponiendo independencia de los datos en Di

,

1

( | ) ( | )iN

i i k i i

k

f D f=

= x


18/22

18

Ejemplo 4:

Estimador bayesiano defx(x|D)si

( ) ( )0 0( | ) , ( ) ,f N f Nx x C C

donde se suponen conocidas 0, C0y C, y se dispone de los

datos observadosD= {x1,, xN}

A partir de 2 y3podemos escribir:

( )

1

1 1 1 10 0 0

1

( ) ( | ) ( )

1exp 2

2

N

kk

N

T T

k

k

f D f f

N x

=

=

= =

= + + +

x x

C C C C


19/22

19

La ecuacin puede escribirse tambin como:

Igualando ambas expresiones:

( ) ( )11( ) exp2

TN N N

f D =

C

( )1 1 1 1 1 1

0 0 012 2

N

T T T T

k N N N kN x K

=

+ + = +

C C C C C C

1 1 10N N

= +C C C

Comparando los trminos lineales en :

donde los trminos que no dependen de y otras constantesquedan asimilados en K. Comparando el termino cuadrtico en :

1 1 10 0

1

N

N N k

k

x

=

= +C C C

(1)

(2)


20/22

20

A partir de (1) y usando la igualdad: ( ) ( )1 11 1

+ = +A B A A B B

( ) 10 0N N = +C C C C C

Teniendo en cuenta que si A y B son invertibles

podemos usar (3) en (2) para obtener

( ) ( )

1 1 + = +

A A B B B A B A

1 1

0 0 0 0

1 1 1

N NN N N

= + + +

C C C m C C C

1

1 N

N k

kN == m x

(3)


21/22

21

Ntese que la media es una combinacin lineal del

conocimiento a priori de la media 0y la informacin aportadapor los datos mN. Integrando la ecuacin 1:

( )( | ) ( | ) ( | ) ( | ) ,N Nf f D f f D d N = +x xx x x C C

CuandoN la estimacion de a partir de f(|D)tiende aser ML

1

N N NN

= = m C C


22/22

22

2.2.3 CONCLUSIONES

Si se puede suponer una forma paramtrica para fx(x|i)entonces la fase de entrenamiento del clasificador sereduce a la estimacin de los parmetros

Pueden utilizarse dos soluciones para la estimacin deparmetros: ML (ms simple computacionalmente) obayesiana (si se dispone de conocimiento a priori sobre losparmetros)

clp teoria 2.2 ml tar2015

Documents