modelos estadísticos del lenguaje

PLN Modelos del lenguaje 1

Modelos Estadísticos del lenguaje

• Modelos del lenguaje (Language Models, LM)• Noisy Channel model• Modelos simples de Markov• Smoothing


Language Models 1

• Modelos estadísticos• Modelos del lenguaje (LM)• Vocabulario (V), palabra

• w V

• Lenguaje (L), oración • s L

• L V* normalmente infinito

• s = w1,…wN

• Probabilidad de s• P(s)


Noisy Channel Model 1

• Mecanismo de modelado estadístico de un canal de comunicación de mensajes en presencia de ruido

• Se pretende optimizar la calidad de la comunicación de mensajes a través del canal en presencia de ruido

• Compresión (eliminación de la redundancia) y calidad de la transmisión (conseguida introduciendo redundancia de forma controlada de forma que se pueda recuperar el mensaje original en presencia de ruido)



W X W*Yencoder decoderChannel

p(y|x)message

input to channel

Output fromchannel

Attempt to reconstruct message based on output



• Capacidad del canal (C): Nivel al que se puede transmitir información con una probabilidad pequeña de ser incapaz de recuperar la entrada a partir de la salida

•

• Alcanzamos la capacidad del canal si logramos diseñar un input code X con distribución estadística p(X) que maximice la I (información mutua) entre entrada y salida.

Y)I(X;max Cp(X)



• En PLN no podemos actuar sobre la fase de codificación (encoding). El problema es decodificar la salida para lograr la entrada más verosimil

i)|p(i)p(oargmax p(o)

i)|p(i)p(oargmax o)|p(iargmax I

iii

ˆ

decoderNoisy Channel p(o|I)

I O I



i)|p(i)p(oargmax p(o)

i)|p(i)p(oargmax o)|p(iargmax I

iii

ˆ

Modelo del lenguaje Probabilidad del canal



noisy channel X Y

lenguaje real X

lenguaje observado Y

Deseamos recuperar X a partir de Y



texto correcto

errores

texto con errores

noisy channel X Y

lenguaje real X




texto correcto

eliminación de espacios

texto sinespacios

noisy channel X Y

lenguaje real X




texto

pronunciación

habla

language model

acoustic model noisy channel X Y

lenguaje real X




árbol

inserción determinales

texto

probabilistic CFG

noisy channel X Y

lenguaje real X




lengua f

traducción

lengua o

noisy channel X Y

lenguaje real X



Noisy Channel model 12

Cadena acústica Cadena de palabras

Modelo del lenguaje Modelo acústico

ejemplo: ASR Automatic Speech Recognizer


Noisy Channel model 13

Modelo del lenguaje objetivo Modelo de la traducción

ejemplo: Traducción Automática


Implementación de LM

• Implementación intuitiva• Enumerar s L

• Calcular las p(s)

• Parámetros del modelo |L|

• Simplificaciones

• historia• hi = { wi, … wi-1}

• Modelos de Markov



• n grande:• más información del contexto (más poder discriminativo)

• n pequeño:• más casos en el corpus de entrenamiento (más confianza)

• Selección de n: • ej. para |V| = 20.000

n num. parámetros

2 (bigrams) 400,000,000

3 (trigrams) 8,000,000,000,000

4 (4-grams) 1.6 x 1017



• Parámetros de un modelo de n-grama• |V|n

• Estimación MLE• a partir de un corpus

• Problema sparseness



• Modelo 1-gram

• Modelo 2-gram

• Modelo 3-gram

V

wCwPMLE

)()(

)(

)(),|(

12

1221

ii

iiiiiiMLE wwC

wwwCwwwP

)(

)()|(

1

11

i

iiiiMLE wC

wwCwwP



Distribución real de probabilidad



Los casos vistos están sobre estimados, los no vistos tienen probabilidad nula


Smoothing 1

• Métodos que actúan sobre el contaje de los n-gramas• Laplace, Lidstone, Jeffreys-Perks

• Métodos que actúan sobre las probabilidades:• Held-Out

• Good-Turing

• Descuento

• Métodos de combinación• Interpolación lineal

• Back Off


Smoothing 2

BN

)wC(w)w(wP n

nlaplace

11

1

P = probabilidad de un n-grama

C = contaje del n-grama en el corpus de entrenamiento

N = total n-gramas en el corpus de entrenamiento

B = parámetros del modelo (n-gramas posibles)

Laplace (add 1)


Smoothing 3

λBN

λ)wC(w)w(wP n

nLid

11

= número positivo pequeño

M.L.E: = 0Laplace: = 1Jeffreys-Perks: = ½

Lidstone (generalización de Laplace)


Smoothing 4

• Calcular qué porcentaje de la masa de probabilidad debe conservarse para los n-gramas no presentes en el corpus de entrenamiento

• Se reverva parte del corpus de entrenamiento como corpus de validación (otra parte es para test)

• Se calculan cuántos n-gramas ausentes del corpus de entrenamiento aparecen en el de validación

• Posibilidad de usar Cross-Validation

Held-Out


Smoothing 5

NN

TwwP

wwCT

r

rnho

rwwCwwnr

nn

)(

)(

1

})(:{12

111

Sea un n-grama w1… wn

r = C(w1… wn)

C1(w1… wn) frecuencia del n-grama en el training set

C2(w1… wn) frecuencia del n-grama en el held out set

Nr número de n-gramas con frecuencia r en el training set

Held-Out


Smoothing 6

r* = “frecuencia ajustada”

Nr = número de n-gram-types que aparecen r veces

E(Nr) = “valor esperado”

E(Nr+1) < E(Nr)

)(

)()1( 1*

r

r

NE

NErr NrPGT

*

Good-Turing


Smoothing 7

Primero se calcula la probabilidad de held-out.• Absolute discounting: Decrementar en una

pequeña constante la probabilidad de cada n-grama observado en el corpus de aprendizaje

• Linear discounting: Decrementar la probabilidad de cada n-grama observado en el corpus de aprendizaje multiplicándola por una cantidad.

Métodos de descuento


Smoothing 8

Combinación de métodos

• Combinación lineal de 1-grama, 2-grama, 3-grama, ...• Estimación de las mediante un corpus de validación

),|( 12 nnnli wwwP

),|()|()( 123112211 nnnnnn wwwPwwPwP


Smoothing 9

• Usar n-grama cuando hay suficientes casos en el corpus de entrenamiento, si no hacer back-off a n-1-grama

• Repetir en caso de necesidad

Katz’s Backing-Off


Structured Language Models

• Jelinek, Chelba, 1999• Inclusión de la estructura sintáctica en la historia

• Ti son las estructuras sintácticas • árboles binarios lexicalizados

modelos estadísticos del lenguaje

Documents