PLN entropía 1
Teoría de la Información
• Teoría de la Información• Entropía• Información mutua• Entropía y PLN
PLN entropía 2
Valor esperado
• Dada una variable aleatoria X que toma valores x1, x2, ..., xn en un dominio de acuerdo con una distribución de probabilidad, podemos definir el valor esperado de X como la suma de los valores ponderados con su probabilidad
• E(X) = p(x1)X(x1) + p(x2)X(x2) + ... p(xn)X(xn)
PLN entropía 3
Teoría de la Información 1
• Nos interesa asociar a cada evento la cantidad de información que contiene
• Shannon en los 40s• Maximizar la cantidad de información que puede
transmitirse por un canal de comunicación imperfecto.• Nivel de compresión de los datos (entropía)• Cantidad de información que se transmite (capacidad del
canal)
PLN entropía 4
Teoría de la Información 2
• Dos requisitos de tipo estadístico:• Significancia: cuanto más improbable es un evento más
información lleva
• P(x1) > P(x2) ==> I(x2) < I(x1)
• Aditividad: si x1 y x2 son eventos independentientes:
• I(x1x2) = I(x1) + I(x2)
PLN entropía 5
Teoría de la Información 3
• I(m) = 1/p(m) no los satisface• I(x) = - log p(x) si los satisface• Cantidad de información:
• I(X) = - log p(X)
PLN entropía 6
Entropía 1
• variable aleatoria X, descrita por p(X), cantidad de información I
• Entropía: Valor esperado de la cantidad de información
• La Entropía mide la cantidad de información de una variable aleatoria. Podemos considerarla como la longitud media del mensaje necesario para transmitir un valor de dicha variable usando una codificación óptima.
• La entropía mide el grado de desorden de la variable aleatoria.
p(x)p(x)logH(X)H(p)Xx
2
PLN entropía 7
Entropía 2
• Distribución uniforme de una variable X.• Cada valor xi X con |X| = M tiene la misma probabilidad pi = 1/M
• Si codificamos el valor xi en binario necesitaremos log2 M bits de información
• Distribución no uniforme. • por analogía
• Supongamos ahora que cada valor xi tiene la probabilidad pi
• Supongamos que las pi son independientes
• Haciendo Mpi = 1/ pi necesitaremos log2 Mpi = log2 (1/ pi ) = - log2 pi bits de información.
PLN entropía 8
¿X = a?
¿X = b?
¿X = c?
a
b
c a
si
si
si
no
no
no
Número medio de preguntas: 1.75
ejemplo de Entropía 1
Consideremos el caso X ={a, b, c, d} tal que pa = 1/2; pb = 1/4; pc = 1/8; pd = 1/8
entropía(X) = valor esperado de la cantidad de información necesaria para representarlo=-1/2 log2 (1/2) -1/4 log2 (1/4) -1/8 log2 (1/8) -1/8 log2 (1/8) = 7/4 = 1.75 bits
determinación del valor de X con el mínimo número de preguntas binarias
PLN entropía 9
ejemplo de Entropía 2
Supongamos ahora una distribución binomial de XX = 0 con probabilidad pX = 1 con probabilidad (1-p)
H(X) = -p log2 (p) -(1-p) log2 (1-p)
p = 0 => 1 - p = 1 H(X) = 0p = 1 => 1 - p = 0 H(X) = 0p = 1/2 => 1 - p = 1/2 H(X) = 1
0 1/2 1 p
1
0
H(Xp)
PLN entropía 10
Entropía 3
p(x)1
log E
p(x)1
p(x)log
p(x)p(x)logH(X)
2
Xx2
Xx2
1p(X)0H(X)
0H(X)
PLN entropía 11
Entropía 4
• La entropía conjunta (joint entropy) de 2 variables aleatorias, X, e Y, es la cantidad media de información necesaria en media para especificar los dos valores
Xx y
Y)y)logp(X,p(x,Y)H(X,Y
PLN entropía 12
Entropía 5
• La entropía condicional (conditional entropy) de una variable aleatoria Y dada otra X, expresa cuánta información extra se necesita comunicar Y en media cuando se supone que el receptor ya conoce X.
X)|logp(YE x)|y)logp(yp(x,
x)|x)logp(y|p(yp(x)
x)X|p(x)H(YX)|H(Y
Xx Yy
Xx Yy
Xx
PLN entropía 13
Entropía 6
P(A,B) = P(A|B)P(B) = P(B|A)P(A)
P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..)
Regla de la cadena para probabilidades
PLN entropía 14
Entropía 7
X)|H(YH(X) Y)H(X,
),...XX|H(X....)X|H(X)H(X)X...,H(X 1n1n121n1,
Regla de la cadena para entropía
PLN entropía 15
Información mutua 1
• I(X,Y) es la información mutua entre X e Y. • Mide la reducción de incertidumbre de una variable aleatoria
X al conocer el valor de otra• También mide la cantidad de información que una variable
posee de la otra
Y)I(X, X)|H(Y -H(Y) Y)|H(X-H(X)
Y)|H(XH(Y) X)|H(YH(X) Y)H(X,
PLN entropía 16
Información mutua 2
• I vale 0 sólo cuando X e Y son independientes:• H(X|Y)=H(X)
• H(X)=H(X)-H(X|X)=I(X,X) • La Entropía es la autoinformación (información mutua de
X y X)
X)|H(Y -H(Y) Y)|H(X-H(X) Y)I(X,
PLN entropía 17
Entropía y PLN 1
• La Entropía es una medida de incertidumbre. Cuanto más sabemos de un evento menor es su entropía.
• Si un LM captura más de la estructura de un lenguaje menor será su entropía.
• Podemos usar la entropía como una medida de la calidad de nuestros modelos.
PLN entropía 18
Entropía y PLN 2
• H: entropía de un languaje L• Desconocemos p(X)• Supongamos que nuestro LM es q(X) • ¿ Cómo de bueno es q(X) como estimación
de p(X) ?
p(x)p(x)logH(X)H(p)Xx
2
PLN entropía 19
Entropía y PLN 3
Xxp q(x)
1p(x)log
q(X)
1logE q) CH(p;
Cross Entropy
Media de la "sorpresa" de un modelo q cuando describe eventos sujetos a una distribución p
PLN entropía 20
Entropía y PLN 3
q(x)
p(x)p(x)log
q(X)
p(X)logEq) ||D(p
Xxp
Entropía Relativa o divergencia de Kullback-Leibler (KL)
H(p) q)CH(p;q) ||D(p
PLN entropía 21
Entropía y PLN 4
• Mide la diferencia entre dos distribuciones de probabilidad
• Número medio de bits que se desperdician codificando un evento que tiene una distribución p con un código basado en una distribución q aproximada.
• Objetivo: minimizar la entropía relativa D(p||q) para tener un modelo lo más preciso posible
Entropía Relativa o divergencia de Kullback-Leibler (KL)