maxima verosimilitud

Trabajo de investigación acerca de una

aplicación real del cálculo vectorial o

multivariable, que en este caso se enfocó

a el uso de las derivadas parciales

aplicadas a la estadística Inferencial.

Trabajo Final

de Cálculo

Vectorial Método de Máxima

Verosimilitud

Universidad Autónoma de Querétaro Luis Angel Reyes Cruz

Introducción La estadística inferencial principalmente se divide en dos partes:

Conceptos clave Una Muestra Aleatoria Simple (m.a.s.) es la formada por Variables Aleatorias

Independientes e Idénticamente Distribuidas.

Se llama Estadístico a cualquier función de las observaciones muéstrales T = T ).

La distribución de la Variable Aleatoria T dependerá, en general, de los parámetros de la

población.

Un ejemplo de Estadístico es la media muestral x.

Los Estimadores, son Estadísticos, y por lo tanto Variables Aleatorias, utilizados para

estimar parámetros de las poblaciones.

En estadística se llama sesgo de un estimador a la diferencia entre su esperanza

matemática y el valor del parámetro que estima. Un estimador cuyo sesgo es nulo se

llama insesgado o centrado.

ESTIMACION DE

PARAMETROS

• Puntual • Por intervalos

de confianza

CONTRASTES DE HIPOTESIS

• Sobre parametros

• De bondad de ajuste

Estimación de parámetros1

El cálculo multivariable, específicamente las derivadas parciales tiene aplicaciones en esta

parte de la estadística inferencial, como es la estimación puntual de parámetros para

distribuciones que tienen una o más variables aleatorias.

Estimación de parámetros de una distribución: Elegir el valor de un parámetro de la

población.

La estimación puntual consiste en utilizar el valor de un estadístico para inferir el parámetro

de una población.

Esto quiere decir que usamos la muestra para estimar la media de una población µ, o

usamos la proporción de una muestra para estimar la proporción poblacional p.

Un estimador de un parámetro θ es un estadístico T = T(X₁, …, ) usado para estimar el valor

del parámetro θ de una población. El valor observado del estadístico t = T(X₁, …, ) es la

estimación de θ y la representaremos por .

Θ puede ser solo un parámetro o un conjunto de parámetros desconocidos θ = (θ₁, …, ).

Los estimadores son variables aleatorias.

Tiene una distribución de probabilidad, correspondiente a las distribuciones

muéstrales

Su distribución (media, varianza, etc.) le confiere una serie de propiedades

estadísticas (sesgo, mínima varianza, consistencia, eficiencia, suficiencia):

o Se puede definir la calidad del estimador

o Se puede comparar con otros estimadores

No hay ningún estimador perfecto: siempre habrá algún error en el proceso de

estimación.

Método de máxima verosimilitud para la estimación de parámetros2 Sea X una variable aleatoria discreta o continua cuya función de probabilidades f(x) o

densidad f(x), respectivamente, depende solo de un parámetro θ. Supóngase que efectuamos n

veces el experimento correspondiente, con lo que obtenemos una muestra de n números.

x₁, x₂, …, .

1 Control estadístico de calidad y Seis Sigma, Humberto Gutiérrez Pulido y Román de la Vara Salazar. Editorial: Mc Graw Hill, págs. 81-102. 2 Introducción A La Estadística Matemática: Principios y Métodos, E. Kreyszig. Editorial Limusa. Págs. 175-188.

Si suponemos independencia de los n ensayos, como antes, entonces, en el caso discreto, la

probabilidad de que una muestra de tamaño n conste precisamente de estos n valores está

dada por el producto.

) ) )

En el caso continuo la probabilidad de que la muestra conste de valores en pequeños

intervalos

dada por la expresión

) ) ) )

Los valores de ) ) depende del parámetro θ. Se tiene que l depende de x₁, x₂, …,

y θ. Imaginemos que los valores x₁, x₂, …, están dados y fijos. Entonces l es una función de θ,

que se llama vector de verosimilitud.

La idea básica del método de la máxima verosimilitud es muy sencilla. Escogemos la

aproximación para el valor desconocido de θ, para el que el valor l tenga un máximo (no en la

frontera) es que la primera derivada con respecto a θ sea cero, es decir,

En esta expresión escribimos derivadas parciales porque l depende también de las cantidades

x₁, x₂, …, que se mantienen constantes durante este proceso, a esto se le llama estimación

de máxima verosimilitud para el parámetro θ. Si en la solución remplazamos a x₁, x₂, …,

por las variables independientes X₁, X₂, …, , cada una de las cuales, tiene una distribución de

X, obtenemos una variable aleatoria que se llama estimador de máxima verosimilitud.

Si la distribución incluye varios parámetros desconocidos , entonces en lugar de

tener solo una ecuación a derivar, tendremos que obtener las r derivadas parciales para cada

parámetro

A partir de las cuales podemos obtener estimaciones para estos parámetros.

Puesto que ) es no negativa, un valor máximo de l será, en general, positivo. Como ln(l) es

una función monoatómicamente creciente de l, esta tiene un máximo precisamente en los

puntos en que l tiene un máximo. Por lo tanto, podemos usar ln(l) en lugar de l, y remplazar la

otra ecuación por.

)

Esto tiene importancia técnica. La ventaja es que la derivación de productos se ha remplazado

ahora por una derivación de sumas.

Sin embargo, puede ser difícil resolver las ecuaciones que resultan. En algunos casos

prácticos, se prefieren el método de momentos, porque es más sencillo.

Si para un parámetro existe un estimador eficiente, entonces es posible obtenerlo a por medio

de la última formula.

Implementación del método de máxima verosimilitud3

Se utiliza la función de masa p o densidad f de la muestra como una función de θ = (θ₁, …, )

(función de verosimilitud).

) | ) { ) ) ) )

Se maximiza la función de verosimilitud, es decir se obtienen las derivadas parciales de la

función, dependiendo del número de parámetros, se igualan a 0 las funciones obtenidas

para obtener los puntos críticos y de ahí sacar el máximo.

El EMV (Estimador de Máxima Verosimilitud) de θ es el formado por los valores ( , …, )

que maximizan la función de verosimilitud obtenida de la muestra (X₁, …, ) obtenida.

L(θ) expresa la probabilidad (o densidad) que los diferentes valores de θ dan a la muestra

obtenida (maximizamos dicha densidad o probabilidad).

El método permite construir buenos estimadores, de utilización universal, denominados

estimadores de máxima verosimilitud (EMV).

El estimador de máxima verosimilitud es siempre un valor del espacio paramétrico.

En la práctica, es frecuente considerar la función ) a la hora de maximizar, ya que

presenta los mismos máximos y mínimos y suele ser más fácil de manejar.

Interpretación propia del método de máxima verosimilitud La estadística inferencial nos permite manejar de datos reales o de muestras, las

características de la distribución o densidad que toma esa muestra dada y obtener datos a

parte de los que se pueden obtener con la estadística descriptiva. Con la estadística

descriptiva podemos encontrar de la muestra dada, los datos como: , S, , p, etc., en cambio,

con la estadística Inferencial principalmente se pueden estimar parámetros y probar

hipótesis, esto quiere decir que nos vamos a basar en la muestra dada o hecha pero para

encontrar no solo los datos de esa muestra, sino también los datos que pueden ser válidos

3 http://www.uam.es/personal_pdi/ciencias/atorrent/docencia/09-10/temas/2.2.estimadores.pdf

http://www.uam.es/personal_pdi/ciencias/atorrent/docencia/09-10/temas/2.2.estimadores.pdf

para toda su distribución o densidad y que podamos conocer los datos que va arrogar otro

muestreo en caso de realizar más eventos. Utilizamos distribuciones fijas para obtener esos

valores y en lo que corresponde al método de máxima verosimilitud el cual entra en

estimación de parámetros, este método realiza estimaciones puntuales.

Las estimaciones puntuales nos sirven para estimar parámetros de una muestra dada, y es

puntual porque obtenemos solamente un número, o que la estimación viene dada en solo un

valor para dicha estimación.

Los parámetros estadísticos que se pueden estimar son:

Para la estimación puntual hay dos métodos fundamentales: El método de momentos y el

Método de máxima verosimilitud, en el cual está enfocado este trabajo.

Para tener más claro el uso de la estadística inferencial y en especial la estimación de

parámetros puntual por el método de máxima verosimilitud tenemos este ejemplo:

Supongamos que tenemos una producción de un artículo “X” que en este caso será el grosor

de tornillos de ¼ de pulgada, donde este factor es controlado por una máquina que se puede

ajustar y que el estándar de calidad para saber si un tornillo está bien fabricado es una

(desviación estándar) de 10mm y que el grosor ideal es de 1cm o 100mm. Con esto quiero

decir que el grosor adecuado que debe tener un tornillo de 1cm pero que puede tener un

margen de error de y por lo tanto si un tornillo tiene un grosor de 90 a 110 mm

pasaría la prueba de calidad y podría ser vendido. Ahora que ya tenemos el lineamento que

hay que seguir y queremos saber si nuestra producción real sigue esos estándares,

tomaremos una muestra n de elementos X que es una variable aleatoria. Evaluaremos esa

muestra n y podemos obtener los parámetros de esa muestra solamente como es: , S, , p.

De ahí pasaremos para este ejemplo a calcular que es la que nos interesa y la que

compararemos con S y con sabremos si nuestra distribución sigue el estándar de calidad

propuesto, y de no ser así en el caso de que o podremos tomar una

decisión para ajustar la producción, que para este ejemplo, en el caso de que se

puede tomar la decisión de ajustar la máquina para que produzca tornillos más gruesos ya

que están saliendo más delgados de lo que el estándar de calidad sugiere. Para el otro caso en

el que los tornillos que se están produciendo están más gruesos de lo debido y la

maquina debe ser ajustada para que produzca tornillos más delgados.

Otra estimación que podemos hacer y que es muy común es la media y podríamos

compararla con la de la muestra que tomamos. En el caso de que nuestra línea de

producción sea nueva y no tenemos registro de la media de nuestra distribución, pero

sabemos que es una distribución normal, podríamos estimar la media que tendrá nuestra

distribución en base a la muestra n que tomamos y así conocer que grosor es el más probable

que tengan nuestros tornillos.

Las operaciones que tenemos que realizar para estimar dichos parámetros que en este caso

son dos, por lo tanto tendremos una función ) y debido a que es una distribución normal,

por lo tanto la función quedaría así:

)

√ )

Y como veremos en los ejemplos posteriores y ya que así lo indica, necesitamos sacar el

logaritmo natural de esa función, esto se expresa como )) y una vez hecho esto

procedemos a calcular las derivadas parciales de esta función, con respecto a y después con

respecto a . Después igualamos a 0 las dos ecuaciones resultantes y despejamos las variables

para obtener los puntos críticos que evaluaremos y los cuales son los resultados, y por ultimo

comprobamos si es un máximo aplicando la segunda derivada y aplicando la determínate de

esas derivadas en los puntos críticos obtenidos.

)

)

Y así es como estimaríamos esos dos parámetros de la muestra n y conoceríamos de forma

más detallada la distribución que tiene el grosor de los tornillos que producimos, esto es

importante porque nos ayuda en varias cosas en cuanto a la producción; primero, nos ayuda a

saber si los tornillos se están fabricando debidamente, ya que es inútil producir tornillos

inservibles o de mala calidad que no pasen nuestras pruebas de calidad y que pueda afectar al

cliente y provocar reclamos; y segunda, en el caso de que se estén produciendo tornillos más

gruesos de lo debido, esto implica que además de no estar fabricando tornillos correctamente,

se está gastando material de más que implica un mayor coste para nuestra producción lo cual

genera pérdidas, por lo que es necesario llevar un control de dicha producción para tener

siempre en forma los parámetros establecidos y tener tanto una producción correcta en la

fabricación del producto, como una producción que no genera pérdidas en cuanto al uso del

material.

Este ejemplo presentado fue con tornillos pero se puede hacer la analogía a cualquier proceso

de producción y al factor de producción que se quiera medir, como puede ser el espesor de la

leche en una fábrica de lácteos hasta los límites de fatiga que soporta alguna pieza o

estructura.

Ejemplos del uso del Método de Máxima Verosimilitud

Ejemplo 1

Suponga que en cierto experimento, un evento A tiene la probabilidad p. Suponga que en 100

ejecuciones independientes del experimento el evento A ocurre 63 veces. Estimar p

(Considerando que es una distribución binomial).

La variable aleatoria X = número de veces que ocurre A en una sola ejecución del experimento.

Por lo tanto es evidente que X solo puede tomar dos valores

X = 0 (A no ocurre) X = 1 (A si ocurre)

Por lo tanto la función de probabilidad de ) correspondiente, tiene los valores:

) ) ) )

Como la muestra de n= 100 valores, el evento A ocurre k = 63 veces, mientras que en los otros

ensayos no ocurre. En consecuencia nuestra función de verosimilitud es:

) )

Sacando el logaritmo natural a la función queda así:

( )) ) )

Y ahora podemos aplicar las derivadas parciales y las igualamos a 0

( ))

Para obtener a despejamos p de la ecuación resultante y quedaría así:

es la frecuencia relativa de A en la serie de experimentos(o la probabilidad de A en una

distribución). Solo falta sustituir los valores que son n = 100 y k = 63 de manera que el

resultado es:

Ejemplo 24

Un ejemplo más abstracto del uso del método de máxima verosimilitud pero ahora con dos

parámetros.

Supongamos que constituye una muestra aleatoria de una distribución normal

), de la que se desconoce la media y la varianza y se quieren estimar mediante el

método de máxima verosimilitud.

Nuestra función de densidad quedaría así:

)

√ )

Y por lo tanto la función de máxima verosimilitud dada será;

4 http://www.eui.upm.es/~rafami/Estadistica/Material/Tema6-Apuntes.pdf

http://www.eui.upm.es/~rafami/Estadistica/Material/Tema6-Apuntes.pdf

) ∏ )

Tomando el logaritmo de la función tenemos que:

( ))

)

)

∑ )

Deseamos obtener los parámetros que maximicen la función ln(l), así que obtendremos

las derivadas parciales de y las igualaremos a 0 para obtener los valores críticos.

))

))

Haciendo estas operaciones obtenemos el resultado que es:

∑

)

Con lo que podemos concluir que los Estimadores de Máxima Verosimilitud (EMV) son la

media y la varianza muéstrales, en otras palabras los estimadores de son de la

muestra que obtuvimos solo que para esto se han convertido en datos de una distribución

formal y no de una muestra.

Ejemplo 3

Calcularemos los estimadores de máxima verosimilitud de los parámetros a y b de la

siguiente función:

)

Y mediante esto obtenemos que:

) ) )

Sacando el logaritmo natural de la función anterior nos queda:

) ) ) )∑ ) )∑ )

Procedemos a calcular las derivadas parciales para a y para b respectivamente e igualarlos a 0

)

∑ )

Y

)

∑ )

Despejando de las ecuaciones para a y para b tenemos los valores finales que son estadísticos

de a y de b respectivamente:

∑ )

∑ )

Y así obtenemos dichos estadísticos.

Conclusión Podemos observar que el campo de aplicación del método de máxima verosimilitud puede

llegar a ser muy amplio ya que el campo de aplicación de la estadística es enorme.

Este método funciona muy bien para estimar parámetros puntuales, pero puede volverse muy

complicada su aplicación en cambio puede llegar a ser más fácil con una estimación mediante

intervalos de confianza. Pero la ventaja es que es de los mejores métodos que se pueden usar

cuando queremos conocer concisamente el valor de un parámetro. También se tendría que

abordar la manera en que se toma la muestra con la que se va a evaluar y que los factores que

influyen en ella sea hayan tomado en cuenta.

Aunque también es cierto que si se quieren calcular un gran número de parámetros, este

método es eficiente.

El uso de las derivadas parciales tiene su razón debido a que podemos ver los parámetros

como un vector de parámetros, donde en este punto es donde encontramos la relación con el

cálculo vectorial, y si bien la gráfica de una distribución no la podemos comparar del todo con

lo estudiado en el curso de cálculo vectorial, si podríamos encontrarlo en el uso de múltiples

variables o un vector de variables que se requieren saber. Y el mayor número de aplicaciones

que tiene este método se encuentra en procesos de producción.

Podemos ver como utilizamos lo aprendido en la primera parte del curso de cálculo vectorial

lo cual viene siendo: las derivadas parciales, puntos críticos y los tres puntos para saber si

esos puntos críticos son máximos, mínimos y punto de silla. Y al no ser un vector como tal que

se pueda graficar, no utilizamos el gradiente obtenido de hacer las derivadas parciales.

REFERENCIAS Y BIBLIOGRAFIA Introducción A La Estadística Matemática: Principios y Métodos, E. Kreyszig. Editorial

Limusa. Págs. 175-188.

Control Estadístico de Calidad y Seis Sigma, Humberto Gutiérrez Pulido y Román de la

Vara Salazar. Editorial: Mc Graw Hill, págs. 81-102.

http://benasque.org/benasque/2005tae/2005tae-talks/233s6.pdf

http://www.uam.es/personal_pdi/ciencias/atorrent/docencia/09-

10/temas/2.2.estimadores.pdf


http://www.uclm.es/profesorado/licesio/Docencia/mei/Tema9_guion.pdf

http://benasque.org/benasque/2005tae/2005tae-talks/233s6.pdf




http://www.uclm.es/profesorado/licesio/Docencia/mei/Tema9_guion.pdf

maxima verosimilitud

Documents