maxima verosimilitud
DESCRIPTION
Trabajo Final para la materia de Calculo Vectorial (Calculo Multivariable).TRANSCRIPT
Trabajo de investigación acerca de una
aplicación real del cálculo vectorial o
multivariable, que en este caso se enfocó
a el uso de las derivadas parciales
aplicadas a la estadística Inferencial.
Trabajo Final
de Cálculo
Vectorial Método de Máxima
Verosimilitud
Universidad Autónoma de Querétaro Luis Angel Reyes Cruz
Introducción La estadística inferencial principalmente se divide en dos partes:
Conceptos clave Una Muestra Aleatoria Simple (m.a.s.) es la formada por Variables Aleatorias
Independientes e Idénticamente Distribuidas.
Se llama Estadístico a cualquier función de las observaciones muéstrales T = T ).
La distribución de la Variable Aleatoria T dependerá, en general, de los parámetros de la
población.
Un ejemplo de Estadístico es la media muestral x.
Los Estimadores, son Estadísticos, y por lo tanto Variables Aleatorias, utilizados para
estimar parámetros de las poblaciones.
En estadística se llama sesgo de un estimador a la diferencia entre su esperanza
matemática y el valor del parámetro que estima. Un estimador cuyo sesgo es nulo se
llama insesgado o centrado.
ESTIMACION DE
PARAMETROS
• Puntual • Por intervalos
de confianza
CONTRASTES DE HIPOTESIS
• Sobre parametros
• De bondad de ajuste
Estimación de parámetros1
El cálculo multivariable, específicamente las derivadas parciales tiene aplicaciones en esta
parte de la estadística inferencial, como es la estimación puntual de parámetros para
distribuciones que tienen una o más variables aleatorias.
Estimación de parámetros de una distribución: Elegir el valor de un parámetro de la
población.
La estimación puntual consiste en utilizar el valor de un estadístico para inferir el parámetro
de una población.
Esto quiere decir que usamos la muestra para estimar la media de una población µ, o
usamos la proporción de una muestra para estimar la proporción poblacional p.
Un estimador de un parámetro θ es un estadístico T = T(X₁, …, ) usado para estimar el valor
del parámetro θ de una población. El valor observado del estadístico t = T(X₁, …, ) es la
estimación de θ y la representaremos por .
Θ puede ser solo un parámetro o un conjunto de parámetros desconocidos θ = (θ₁, …, ).
Los estimadores son variables aleatorias.
Tiene una distribución de probabilidad, correspondiente a las distribuciones
muéstrales
Su distribución (media, varianza, etc.) le confiere una serie de propiedades
estadísticas (sesgo, mínima varianza, consistencia, eficiencia, suficiencia):
o Se puede definir la calidad del estimador
o Se puede comparar con otros estimadores
No hay ningún estimador perfecto: siempre habrá algún error en el proceso de
estimación.
Método de máxima verosimilitud para la estimación de parámetros2 Sea X una variable aleatoria discreta o continua cuya función de probabilidades f(x) o
densidad f(x), respectivamente, depende solo de un parámetro θ. Supóngase que efectuamos n
veces el experimento correspondiente, con lo que obtenemos una muestra de n números.
x₁, x₂, …, .
1 Control estadístico de calidad y Seis Sigma, Humberto Gutiérrez Pulido y Román de la Vara Salazar. Editorial: Mc Graw Hill, págs. 81-102. 2 Introducción A La Estadística Matemática: Principios y Métodos, E. Kreyszig. Editorial Limusa. Págs. 175-188.
Si suponemos independencia de los n ensayos, como antes, entonces, en el caso discreto, la
probabilidad de que una muestra de tamaño n conste precisamente de estos n valores está
dada por el producto.
) ) )
En el caso continuo la probabilidad de que la muestra conste de valores en pequeños
intervalos
dada por la expresión
) ) ) )
Los valores de ) ) depende del parámetro θ. Se tiene que l depende de x₁, x₂, …,
y θ. Imaginemos que los valores x₁, x₂, …, están dados y fijos. Entonces l es una función de θ,
que se llama vector de verosimilitud.
La idea básica del método de la máxima verosimilitud es muy sencilla. Escogemos la
aproximación para el valor desconocido de θ, para el que el valor l tenga un máximo (no en la
frontera) es que la primera derivada con respecto a θ sea cero, es decir,
En esta expresión escribimos derivadas parciales porque l depende también de las cantidades
x₁, x₂, …, que se mantienen constantes durante este proceso, a esto se le llama estimación
de máxima verosimilitud para el parámetro θ. Si en la solución remplazamos a x₁, x₂, …,
por las variables independientes X₁, X₂, …, , cada una de las cuales, tiene una distribución de
X, obtenemos una variable aleatoria que se llama estimador de máxima verosimilitud.
Si la distribución incluye varios parámetros desconocidos , entonces en lugar de
tener solo una ecuación a derivar, tendremos que obtener las r derivadas parciales para cada
parámetro
A partir de las cuales podemos obtener estimaciones para estos parámetros.
Puesto que ) es no negativa, un valor máximo de l será, en general, positivo. Como ln(l) es
una función monoatómicamente creciente de l, esta tiene un máximo precisamente en los
puntos en que l tiene un máximo. Por lo tanto, podemos usar ln(l) en lugar de l, y remplazar la
otra ecuación por.
)
Esto tiene importancia técnica. La ventaja es que la derivación de productos se ha remplazado
ahora por una derivación de sumas.
Sin embargo, puede ser difícil resolver las ecuaciones que resultan. En algunos casos
prácticos, se prefieren el método de momentos, porque es más sencillo.
Si para un parámetro existe un estimador eficiente, entonces es posible obtenerlo a por medio
de la última formula.
Implementación del método de máxima verosimilitud3
Se utiliza la función de masa p o densidad f de la muestra como una función de θ = (θ₁, …, )
(función de verosimilitud).
) | ) { ) ) ) )
Se maximiza la función de verosimilitud, es decir se obtienen las derivadas parciales de la
función, dependiendo del número de parámetros, se igualan a 0 las funciones obtenidas
para obtener los puntos críticos y de ahí sacar el máximo.
El EMV (Estimador de Máxima Verosimilitud) de θ es el formado por los valores ( , …, )
que maximizan la función de verosimilitud obtenida de la muestra (X₁, …, ) obtenida.
L(θ) expresa la probabilidad (o densidad) que los diferentes valores de θ dan a la muestra
obtenida (maximizamos dicha densidad o probabilidad).
El método permite construir buenos estimadores, de utilización universal, denominados
estimadores de máxima verosimilitud (EMV).
El estimador de máxima verosimilitud es siempre un valor del espacio paramétrico.
En la práctica, es frecuente considerar la función ) a la hora de maximizar, ya que
presenta los mismos máximos y mínimos y suele ser más fácil de manejar.
Interpretación propia del método de máxima verosimilitud La estadística inferencial nos permite manejar de datos reales o de muestras, las
características de la distribución o densidad que toma esa muestra dada y obtener datos a
parte de los que se pueden obtener con la estadística descriptiva. Con la estadística
descriptiva podemos encontrar de la muestra dada, los datos como: , S, , p, etc., en cambio,
con la estadística Inferencial principalmente se pueden estimar parámetros y probar
hipótesis, esto quiere decir que nos vamos a basar en la muestra dada o hecha pero para
encontrar no solo los datos de esa muestra, sino también los datos que pueden ser válidos
3 http://www.uam.es/personal_pdi/ciencias/atorrent/docencia/09-10/temas/2.2.estimadores.pdf
para toda su distribución o densidad y que podamos conocer los datos que va arrogar otro
muestreo en caso de realizar más eventos. Utilizamos distribuciones fijas para obtener esos
valores y en lo que corresponde al método de máxima verosimilitud el cual entra en
estimación de parámetros, este método realiza estimaciones puntuales.
Las estimaciones puntuales nos sirven para estimar parámetros de una muestra dada, y es
puntual porque obtenemos solamente un número, o que la estimación viene dada en solo un
valor para dicha estimación.
Los parámetros estadísticos que se pueden estimar son:
Para la estimación puntual hay dos métodos fundamentales: El método de momentos y el
Método de máxima verosimilitud, en el cual está enfocado este trabajo.
Para tener más claro el uso de la estadística inferencial y en especial la estimación de
parámetros puntual por el método de máxima verosimilitud tenemos este ejemplo:
Supongamos que tenemos una producción de un artículo “X” que en este caso será el grosor
de tornillos de ¼ de pulgada, donde este factor es controlado por una máquina que se puede
ajustar y que el estándar de calidad para saber si un tornillo está bien fabricado es una
(desviación estándar) de 10mm y que el grosor ideal es de 1cm o 100mm. Con esto quiero
decir que el grosor adecuado que debe tener un tornillo de 1cm pero que puede tener un
margen de error de y por lo tanto si un tornillo tiene un grosor de 90 a 110 mm
pasaría la prueba de calidad y podría ser vendido. Ahora que ya tenemos el lineamento que
hay que seguir y queremos saber si nuestra producción real sigue esos estándares,
tomaremos una muestra n de elementos X que es una variable aleatoria. Evaluaremos esa
muestra n y podemos obtener los parámetros de esa muestra solamente como es: , S, , p.
De ahí pasaremos para este ejemplo a calcular que es la que nos interesa y la que
compararemos con S y con sabremos si nuestra distribución sigue el estándar de calidad
propuesto, y de no ser así en el caso de que o podremos tomar una
decisión para ajustar la producción, que para este ejemplo, en el caso de que se
puede tomar la decisión de ajustar la máquina para que produzca tornillos más gruesos ya
que están saliendo más delgados de lo que el estándar de calidad sugiere. Para el otro caso en
el que los tornillos que se están produciendo están más gruesos de lo debido y la
maquina debe ser ajustada para que produzca tornillos más delgados.
Otra estimación que podemos hacer y que es muy común es la media y podríamos
compararla con la de la muestra que tomamos. En el caso de que nuestra línea de
producción sea nueva y no tenemos registro de la media de nuestra distribución, pero
sabemos que es una distribución normal, podríamos estimar la media que tendrá nuestra
distribución en base a la muestra n que tomamos y así conocer que grosor es el más probable
que tengan nuestros tornillos.
Las operaciones que tenemos que realizar para estimar dichos parámetros que en este caso
son dos, por lo tanto tendremos una función ) y debido a que es una distribución normal,
por lo tanto la función quedaría así:
)
√ )
Y como veremos en los ejemplos posteriores y ya que así lo indica, necesitamos sacar el
logaritmo natural de esa función, esto se expresa como )) y una vez hecho esto
procedemos a calcular las derivadas parciales de esta función, con respecto a y después con
respecto a . Después igualamos a 0 las dos ecuaciones resultantes y despejamos las variables
para obtener los puntos críticos que evaluaremos y los cuales son los resultados, y por ultimo
comprobamos si es un máximo aplicando la segunda derivada y aplicando la determínate de
esas derivadas en los puntos críticos obtenidos.
)
)
Y así es como estimaríamos esos dos parámetros de la muestra n y conoceríamos de forma
más detallada la distribución que tiene el grosor de los tornillos que producimos, esto es
importante porque nos ayuda en varias cosas en cuanto a la producción; primero, nos ayuda a
saber si los tornillos se están fabricando debidamente, ya que es inútil producir tornillos
inservibles o de mala calidad que no pasen nuestras pruebas de calidad y que pueda afectar al
cliente y provocar reclamos; y segunda, en el caso de que se estén produciendo tornillos más
gruesos de lo debido, esto implica que además de no estar fabricando tornillos correctamente,
se está gastando material de más que implica un mayor coste para nuestra producción lo cual
genera pérdidas, por lo que es necesario llevar un control de dicha producción para tener
siempre en forma los parámetros establecidos y tener tanto una producción correcta en la
fabricación del producto, como una producción que no genera pérdidas en cuanto al uso del
material.
Este ejemplo presentado fue con tornillos pero se puede hacer la analogía a cualquier proceso
de producción y al factor de producción que se quiera medir, como puede ser el espesor de la
leche en una fábrica de lácteos hasta los límites de fatiga que soporta alguna pieza o
estructura.
Ejemplos del uso del Método de Máxima Verosimilitud
Ejemplo 1
Suponga que en cierto experimento, un evento A tiene la probabilidad p. Suponga que en 100
ejecuciones independientes del experimento el evento A ocurre 63 veces. Estimar p
(Considerando que es una distribución binomial).
La variable aleatoria X = número de veces que ocurre A en una sola ejecución del experimento.
Por lo tanto es evidente que X solo puede tomar dos valores
X = 0 (A no ocurre) X = 1 (A si ocurre)
Por lo tanto la función de probabilidad de ) correspondiente, tiene los valores:
) ) ) )
Como la muestra de n= 100 valores, el evento A ocurre k = 63 veces, mientras que en los otros
ensayos no ocurre. En consecuencia nuestra función de verosimilitud es:
) )
Sacando el logaritmo natural a la función queda así:
( )) ) )
Y ahora podemos aplicar las derivadas parciales y las igualamos a 0
( ))
Para obtener a despejamos p de la ecuación resultante y quedaría así:
es la frecuencia relativa de A en la serie de experimentos(o la probabilidad de A en una
distribución). Solo falta sustituir los valores que son n = 100 y k = 63 de manera que el
resultado es:
Ejemplo 24
Un ejemplo más abstracto del uso del método de máxima verosimilitud pero ahora con dos
parámetros.
Supongamos que constituye una muestra aleatoria de una distribución normal
), de la que se desconoce la media y la varianza y se quieren estimar mediante el
método de máxima verosimilitud.
Nuestra función de densidad quedaría así:
)
√ )
Y por lo tanto la función de máxima verosimilitud dada será;
4 http://www.eui.upm.es/~rafami/Estadistica/Material/Tema6-Apuntes.pdf
) ∏ )
Tomando el logaritmo de la función tenemos que:
( ))
)
)
∑ )
Deseamos obtener los parámetros que maximicen la función ln(l), así que obtendremos
las derivadas parciales de y las igualaremos a 0 para obtener los valores críticos.
))
))
Haciendo estas operaciones obtenemos el resultado que es:
∑
)
Con lo que podemos concluir que los Estimadores de Máxima Verosimilitud (EMV) son la
media y la varianza muéstrales, en otras palabras los estimadores de son de la
muestra que obtuvimos solo que para esto se han convertido en datos de una distribución
formal y no de una muestra.
Ejemplo 3
Calcularemos los estimadores de máxima verosimilitud de los parámetros a y b de la
siguiente función:
)
Y mediante esto obtenemos que:
) ) )
Sacando el logaritmo natural de la función anterior nos queda:
) ) ) )∑ ) )∑ )
Procedemos a calcular las derivadas parciales para a y para b respectivamente e igualarlos a 0
)
∑ )
Y
)
∑ )
Despejando de las ecuaciones para a y para b tenemos los valores finales que son estadísticos
de a y de b respectivamente:
∑ )
∑ )
Y así obtenemos dichos estadísticos.
Conclusión Podemos observar que el campo de aplicación del método de máxima verosimilitud puede
llegar a ser muy amplio ya que el campo de aplicación de la estadística es enorme.
Este método funciona muy bien para estimar parámetros puntuales, pero puede volverse muy
complicada su aplicación en cambio puede llegar a ser más fácil con una estimación mediante
intervalos de confianza. Pero la ventaja es que es de los mejores métodos que se pueden usar
cuando queremos conocer concisamente el valor de un parámetro. También se tendría que
abordar la manera en que se toma la muestra con la que se va a evaluar y que los factores que
influyen en ella sea hayan tomado en cuenta.
Aunque también es cierto que si se quieren calcular un gran número de parámetros, este
método es eficiente.
El uso de las derivadas parciales tiene su razón debido a que podemos ver los parámetros
como un vector de parámetros, donde en este punto es donde encontramos la relación con el
cálculo vectorial, y si bien la gráfica de una distribución no la podemos comparar del todo con
lo estudiado en el curso de cálculo vectorial, si podríamos encontrarlo en el uso de múltiples
variables o un vector de variables que se requieren saber. Y el mayor número de aplicaciones
que tiene este método se encuentra en procesos de producción.
Podemos ver como utilizamos lo aprendido en la primera parte del curso de cálculo vectorial
lo cual viene siendo: las derivadas parciales, puntos críticos y los tres puntos para saber si
esos puntos críticos son máximos, mínimos y punto de silla. Y al no ser un vector como tal que
se pueda graficar, no utilizamos el gradiente obtenido de hacer las derivadas parciales.
REFERENCIAS Y BIBLIOGRAFIA Introducción A La Estadística Matemática: Principios y Métodos, E. Kreyszig. Editorial
Limusa. Págs. 175-188.
Control Estadístico de Calidad y Seis Sigma, Humberto Gutiérrez Pulido y Román de la
Vara Salazar. Editorial: Mc Graw Hill, págs. 81-102.
http://benasque.org/benasque/2005tae/2005tae-talks/233s6.pdf
http://www.uam.es/personal_pdi/ciencias/atorrent/docencia/09-
10/temas/2.2.estimadores.pdf
http://www.eui.upm.es/~rafami/Estadistica/Material/Tema6-Apuntes.pdf
http://www.uclm.es/profesorado/licesio/Docencia/mei/Tema9_guion.pdf