clp teoria 2.2 ml tar2015
TRANSCRIPT
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
1/22
1
INDICE
2.1 Decisin Bayesiana (MAP)2.2. Estimacin de mxima verosimilitud (ML) y
estimacin Bayesiana de parmetros
2.2.1 Introduccin
2.2.2 Estimacin ML2.2.3 Estimacin Bayesiana
2.2.4 Conclusiones
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
2/22
2
2.2.1 INTRODUCCIN
La clasificacin bayesiana precisa del conocimiento defx(x |i) yde Pr(i). Para el clculo de estas magnitudes se requiere:
- Disponer de una serie de datos previamenteclasificados de forma fiable.
- Disponer de un estimador de esas probabilidades.
La estimacin de fx(x |i) requiere muchos datos a menos quepodamos definir una funcin que dependa de unos pocosparmetros i.
Caso gaussiano: icontiene la media y la matriz de covarianza
( )( ) ( )11/ 2/ 2
1 1( | , ) exp
22
T
i i i i id
i
f
=
x x x C x C
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
3/22
3
Existen dos alternativas:
1. Estimacin de mxima verosimilidud (ML): Losparmetros a estimar se consideran deterministas(aunque desconocidos).
2. Estimacin bayesiana: Los parmetros son variablesde las que se tiene un conocimiento a priori(relacionado con el concepto de creencia y asociadoa una funcin de densidad de probabilidad). La
definicin del estimador bayesiano permite mejorarfcilmente la estimacin defx(x|i) cuando se disponede nuevos datos.
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
4/22
4
Suponemos que disponemos de una base de datos etiquetada (unconjunto de vectores de caractersticas clasificados por categoras).
A partir de una particin aleatoria de sta (base de datos deentrenamiento) hemos de determinarfx(x|i):
{ }1
1 1,1 2,1 ,1, ,...,c
ND = x x x
{ }22 1,2 2,2 ,2, ,..., cND = x x x { }33 1,3 2,3 ,3, ,..., cND = x x x
1 1:c
2 2:c 3 3:c
El resto de vectores se usar para evaluar las prestaciones del
clasificador (base de datos de test).
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
5/22
5
2.2.2 ESTIMACIN DE MXIMA VEROSIMILITUD (ML)
Si en cada clase i los datos xk,iDi observados sonindependientes:
( ) ,1
| ( | )ci
N
i i k i i
k
f D f=
= x x
es la funcin de verosimilitud. El estimador ML maximiza estafuncin (o su logaritmo):
( ) ( ), arg max | arg max ln |i i
i ML i i i if D f D= =
Un conjunto de condiciones necesarias para obtener elestimador vienen dadas por:
( )ln |i i i
f D = 0
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
6/22
6
xk,iDi
Funcionesfx(xk,i|i)asociadas a cada uno
de los vectores deDi
f(Di|i)
( ) ( ),1
| |ciN
i i k i i
k
f D f =
= x x
lnf(Di|i)
ML
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
7/22
7
Caracterizacin de un estimador
Un estimador es una funcin que aplica sobre los vectores decaractersticas xk,iseleccionados de la base de datos para entrenar elclasificador. Si la seleccin se hace de forma aleatoria, los valoresproporcionados por el estimador sern tambin aleatorios: para cadaposible particin l de la base de datos obtenemos una estimacindistinta .
1. Sesgo: diferencia entre el valor verdadero del parmetro y elpromedio de los valores sobre las posibles particiones aleatorias dela base de datos de entrenamiento. Mide si el estimador comete unerror sistemtico.
,
l i
{ }, ,1
1 L
l i l i
l
BL
=
=
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
8/22
8
2. Varianza: desviacin de los valores aleatorios proporcionados por elestimador respecto a un valor medio. Mide si el resultado delestimador depende mucho o poco de la seleccin concreta devectores.
{ }2
, , ,
1 1
1 1 varL L
l i l i s i
l sL L
= =
=
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
9/22
9
Propiedades del estimador ML:
1. Es asintticamente insesgado (en muchos casos esinsesgado aunque N sea pequeo)
2. Es asintticamente eficiente (cuando N es grande, suvarianza es la de Crmer-Rao)
Sin embargo
1. No tiene porqu ser el que proporcione menor error declasificacin cuando utilicemos
2. Si la pdf asumida es muy distinta de la real lasestimaciones pueden ser de poca calidad.
,( | , )i i MLf x x
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
10/22
10
Ejemplo 1:
Estimador ML de la media isi la matriz de covarianza Ciesconocida, en el caso gausiano multivariable. Demostrad que:
,
1
1
ci
i
N
i ML k
kcN =
= x
,
1
1
ci
i
N
i ML k
kcN =
= x ( )( ), , ,1
1
ci
i
NT
i ML k i ML k i ML
kcN =
= x x C
Ejemplo 2:
Estimador ML de la media iy la matriz de covarianza Cien elcaso gausiano multivariable. Demostrad que:
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
11/22
11
Ejemplo 3:
Estimador ML de la probabilidad pkde aparicin de 1 paracada una de las componentes del vector de datos binarios
x{0,1}d:
[ ]
, ,1
1 1
1
( | , ) (1 )
,...,
i
k j k j
N dx x
k k
j k
d
f D p p
p p
= =
=
=
x p
p
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
12/22
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
13/22
13
ESTIMACIN BAYESIANA y ESTIMACIN ML
Comparacin:
La funcin tendr un pico tanto ms abrupto alrededorde cuanto mayor sea Ni.
Si f(
i
) no es cero y no vara mucho cerca de entonces
( | )i i
f D
i i=
i i
=
( | ) ( )( | )
( )i i i
i i
i
f D ff D
f D=
tambien tiene un pico en y los estimadores obtenidos por
Bayes y mediante ML coinciden.
En la prctica, si el nmero de vectores de Di es pequeo, esmejor la estimacin bayesiana. Cuando se tienen muchasmuestras, ambos estimadores coinciden
i i
=
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
14/22
14
1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 3.20
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
15 muestras35 muestras200 muestras
1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 3.20
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
5 muestras35 muestras200 muestras
f(D|)
f()
Ejemplo 5:
Estimacin ML de la media(0=2) sobre un nmerovariable de muestrasGaussianas.
La fdp a priori de es
Gaussiana.
Estimacin Bayesianade lamedia (0=2) sobre unnmero variable demuestras Gaussianas.
La fdp a priori de esGaussiana.
f()
f(D|)f()
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
15/22
15
1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 3.20
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
15 muestras35 muestras200 muestras
Estimacin Bayesianade la
media (0=2) sobre unnmero variable demuestras Gaussianas.
La fdp a priori de esuniforme.
f()
f(D|)f()
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
16/22
16
Queremos determinar la probabilidad a posteriori a partir de lasobservaciones en Di , y supondremos que:
- La forma defx(x|i)es conocida pero no el parmetro i
- Nuestro conocimiento a priori de i est enf(i)
- El resto de nuestro conocimiento sobre iviene dado porlos datos en Di
Suposiciones
2. Estimar directamente las probabilidades a posteriori Pr(i|x)
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
17/22
17
( | ) ( | ) ( | ) ( | )i i i i i if f D f f D d = x xx x x
Procedimiento:
1. Promediar la forma conocida para la funcin de verosimilitudrespecto a la probabilidad a posteriori del parmetro:
2. Calculamos la probabilidad a posteriori del parmetro como
( | ) ( )( | ) ( | ) ( )
( | ) ( )
i i i
i i i i i
i i i i
f D ff D f D f
f D f d=
3. Suponiendo independencia de los datos en Di
,
1
( | ) ( | )iN
i i k i i
k
f D f=
= x
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
18/22
18
Ejemplo 4:
Estimador bayesiano defx(x|D)si
( ) ( )0 0( | ) , ( ) ,f N f Nx x C C
donde se suponen conocidas 0, C0y C, y se dispone de los
datos observadosD= {x1,, xN}
A partir de 2 y3podemos escribir:
( )
1
1 1 1 10 0 0
1
( ) ( | ) ( )
1exp 2
2
N
kk
N
T T
k
k
f D f f
N x
=
=
= =
= + + +
x x
C C C C
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
19/22
19
La ecuacin puede escribirse tambin como:
Igualando ambas expresiones:
( ) ( )11( ) exp2
TN N N
f D =
C
( )1 1 1 1 1 1
0 0 012 2
N
T T T T
k N N N kN x K
=
+ + = +
C C C C C C
1 1 10N N
= +C C C
Comparando los trminos lineales en :
donde los trminos que no dependen de y otras constantesquedan asimilados en K. Comparando el termino cuadrtico en :
1 1 10 0
1
N
N N k
k
x
=
= +C C C
(1)
(2)
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
20/22
20
A partir de (1) y usando la igualdad: ( ) ( )1 11 1
+ = +A B A A B B
( ) 10 0N N = +C C C C C
Teniendo en cuenta que si A y B son invertibles
podemos usar (3) en (2) para obtener
( ) ( )
1 1 + = +
A A B B B A B A
1 1
0 0 0 0
1 1 1
N NN N N
= + + +
C C C m C C C
1
1 N
N k
kN == m x
(3)
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
21/22
21
Ntese que la media es una combinacin lineal del
conocimiento a priori de la media 0y la informacin aportadapor los datos mN. Integrando la ecuacin 1:
( )( | ) ( | ) ( | ) ( | ) ,N Nf f D f f D d N = +x xx x x C C
CuandoN la estimacion de a partir de f(|D)tiende aser ML
1
N N NN
= = m C C
-
7/21/2019 CLP Teoria 2.2 ML Tar2015
22/22
22
2.2.3 CONCLUSIONES
Si se puede suponer una forma paramtrica para fx(x|i)entonces la fase de entrenamiento del clasificador sereduce a la estimacin de los parmetros
Pueden utilizarse dos soluciones para la estimacin deparmetros: ML (ms simple computacionalmente) obayesiana (si se dispone de conocimiento a priori sobre losparmetros)