Download - PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

PLN entropía 1

Teoría de la Información

• Teoría de la Información• Entropía• Información mutua• Entropía y PLN

PLN entropía 2

Valor esperado

• Dada una variable aleatoria X que toma valores x1, x2, ..., xn en un dominio de acuerdo con una distribución de probabilidad, podemos definir el valor esperado de X como la suma de los valores ponderados con su probabilidad

• E(X) = p(x1)X(x1) + p(x2)X(x2) + ... p(xn)X(xn)

PLN entropía 3

Teoría de la Información 1

• Nos interesa asociar a cada evento la cantidad de información que contiene

• Shannon en los 40s• Maximizar la cantidad de información que puede

transmitirse por un canal de comunicación imperfecto.• Nivel de compresión de los datos (entropía)• Cantidad de información que se transmite (capacidad del

canal)

PLN entropía 4


• Dos requisitos de tipo estadístico:• Significancia: cuanto más improbable es un evento más

información lleva

• P(x1) > P(x2) ==> I(x2) < I(x1)

• Aditividad: si x1 y x2 son eventos independentientes:

• I(x1x2) = I(x1) + I(x2)

PLN entropía 5


• I(m) = 1/p(m) no los satisface• I(x) = - log p(x) si los satisface• Cantidad de información:

• I(X) = - log p(X)

PLN entropía 6

Entropía 1

• variable aleatoria X, descrita por p(X), cantidad de información I

• Entropía: Valor esperado de la cantidad de información

• La Entropía mide la cantidad de información de una variable aleatoria. Podemos considerarla como la longitud media del mensaje necesario para transmitir un valor de dicha variable usando una codificación óptima.

• La entropía mide el grado de desorden de la variable aleatoria.

p(x)p(x)logH(X)H(p)Xx

2

PLN entropía 7

Entropía 2

• Distribución uniforme de una variable X.• Cada valor xi X con |X| = M tiene la misma probabilidad pi = 1/M

• Si codificamos el valor xi en binario necesitaremos log2 M bits de información

• Distribución no uniforme. • por analogía

• Supongamos ahora que cada valor xi tiene la probabilidad pi

• Supongamos que las pi son independientes

• Haciendo Mpi = 1/ pi necesitaremos log2 Mpi = log2 (1/ pi ) = - log2 pi bits de información.

PLN entropía 8

¿X = a?

¿X = b?

¿X = c?

a

b

c a

si

si

si

no

no

no

Número medio de preguntas: 1.75

ejemplo de Entropía 1

Consideremos el caso X ={a, b, c, d} tal que pa = 1/2; pb = 1/4; pc = 1/8; pd = 1/8

entropía(X) = valor esperado de la cantidad de información necesaria para representarlo=-1/2 log2 (1/2) -1/4 log2 (1/4) -1/8 log2 (1/8) -1/8 log2 (1/8) = 7/4 = 1.75 bits

determinación del valor de X con el mínimo número de preguntas binarias

PLN entropía 9

ejemplo de Entropía 2

Supongamos ahora una distribución binomial de XX = 0 con probabilidad pX = 1 con probabilidad (1-p)

H(X) = -p log2 (p) -(1-p) log2 (1-p)

p = 0 => 1 - p = 1 H(X) = 0p = 1 => 1 - p = 0 H(X) = 0p = 1/2 => 1 - p = 1/2 H(X) = 1

0 1/2 1 p

1

0

H(Xp)

PLN entropía 10

Entropía 3

p(x)1

log E

p(x)1

p(x)log

p(x)p(x)logH(X)

2

Xx2

Xx2

1p(X)0H(X)

0H(X)

PLN entropía 11

Entropía 4

• La entropía conjunta (joint entropy) de 2 variables aleatorias, X, e Y, es la cantidad media de información necesaria en media para especificar los dos valores

Xx y

Y)y)logp(X,p(x,Y)H(X,Y

PLN entropía 12

Entropía 5

• La entropía condicional (conditional entropy) de una variable aleatoria Y dada otra X, expresa cuánta información extra se necesita comunicar Y en media cuando se supone que el receptor ya conoce X.

X)|logp(YE x)|y)logp(yp(x,

x)|x)logp(y|p(yp(x)

x)X|p(x)H(YX)|H(Y

Xx Yy

Xx Yy

Xx

PLN entropía 14

Entropía 7

X)|H(YH(X) Y)H(X,

),...XX|H(X....)X|H(X)H(X)X...,H(X 1n1n121n1,

Regla de la cadena para entropía

PLN entropía 15

Información mutua 1

• I(X,Y) es la información mutua entre X e Y. • Mide la reducción de incertidumbre de una variable aleatoria

X al conocer el valor de otra• También mide la cantidad de información que una variable

posee de la otra

Y)I(X, X)|H(Y -H(Y) Y)|H(X-H(X)

Y)|H(XH(Y) X)|H(YH(X) Y)H(X,

PLN entropía 16

Información mutua 2

• I vale 0 sólo cuando X e Y son independientes:• H(X|Y)=H(X)

• H(X)=H(X)-H(X|X)=I(X,X) • La Entropía es la autoinformación (información mutua de

X y X)

X)|H(Y -H(Y) Y)|H(X-H(X) Y)I(X,

PLN entropía 17

Entropía y PLN 1

• La Entropía es una medida de incertidumbre. Cuanto más sabemos de un evento menor es su entropía.

• Si un LM captura más de la estructura de un lenguaje menor será su entropía.

• Podemos usar la entropía como una medida de la calidad de nuestros modelos.

PLN entropía 18

Entropía y PLN 2

• H: entropía de un languaje L• Desconocemos p(X)• Supongamos que nuestro LM es q(X) • ¿ Cómo de bueno es q(X) como estimación

de p(X) ?

p(x)p(x)logH(X)H(p)Xx

2

PLN entropía 19

Entropía y PLN 3

Xxp q(x)

1p(x)log

q(X)

1logE q) CH(p;

Cross Entropy

Media de la "sorpresa" de un modelo q cuando describe eventos sujetos a una distribución p

PLN entropía 20

Entropía y PLN 3

q(x)

p(x)p(x)log

q(X)

p(X)logEq) ||D(p

Xxp

Entropía Relativa o divergencia de Kullback-Leibler (KL)

H(p) q)CH(p;q) ||D(p

PLN entropía 21

Entropía y PLN 4

• Mide la diferencia entre dos distribuciones de probabilidad

• Número medio de bits que se desperdician codificando un evento que tiene una distribución p con un código basado en una distribución q aproximada.

• Objetivo: minimizar la entropía relativa D(p||q) para tener un modelo lo más preciso posible

Entropía Relativa o divergencia de Kullback-Leibler (KL)

Download - PLN entropía1 Teoría de la Información Entropía Información mutua Entropía y PLN

Top Related