estadistica unidad v
Post on 12-Jul-2015
197 Views
Preview:
TRANSCRIPT
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 1/14
INSTITUTO TECNOLOGICO
DE TUXTLA GUTIERREZ
INGENIERIA EN SISTEMAS COMPUTACIONALES
PROBABILIDAD Y ESTADÍSTICA
Ricardo Alfonso Castellanos
Unidad V
Estadística Aplicada
Aguilar Gómez Darvin de Jesús
Gutiérrez Gómez Mario
Pérez Gonzales Marco Antonio
Pérez Trujillo Carlos Adrian
Tuxtla Gutiérrez Chiapas a 5 de Diciembre del 2011
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 2/14
INFERENCIA ESTADISTICA
Comprende las técnicas con base únicamente en una muestra sometida aobservación, se toma decisiones sobre una población o proceso estadístico. Dadoestas decisiones se toma en condiciones de incertidumbres, suponiendo el
concepto de probabilidad. Las características de medidas de una muestra se lesllaman estadística muestral, a las características de medidas de una poblaciónestadística se les llama parámetros de población.
El procedimiento para la medición de las características de todos los miembros deuna población definida se llama censo. Cuando la inferencia estadística se usa enel control de procesos, al muestreo le interesa en particular el descubrimiento ycontrol de las fuentes de variación en la calidad de producción.
Ejemplo:
1.- Para estimar el voltaje requerido para provocar fallas en un dispositivoeléctrico, una muestra de estos dispositivos puede someterse a voltajes crecienteshasta que falle cada uno de ellos. Con base en estos resultados muéstrales puedeestimarse la probabilidad de falla a varios niveles de voltaje de los demásdispositivos de la población muestreada.
2.- indique cuál de los siguientes términos y operaciones se refieren a una muestrao muestreo (M) y cuales a una población (P):
a). medidas grupales llamadas parámetros.
b). uso de estadística inferencial.
c).realizar un censo.
d). juicio sobre la calidad de un embarque de fruta recién recibido mediante lainspección de varios de los huacales del gran número de ellos incluidos en elembarque.
Muestreo: b) y d).
Población: a) y c).
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 3/14
PRUEBA DE HIPOTESIS
El propósito de la prueba de hipótesis es determinar si el valor supuesto de unparámetro poblacional, como la media de una población, debe aceptarse comoverosímil con base en evidencias muéstrales.
Pasos básicos de la prueba de hipótesis con el método de valor crítico.
Paso 1: formule la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0)es el valor paramétrico hipotético que se compara con el resultado muestral. Lahipótesis alternativa (H1) se acepta solo si la hipótesis nula es rechazada.
Paso 2: especifique el nivel de significancia por aplicar. El nivel de significancia esel estándar estadístico que se especifica para rechazar la hipótesis nula.
Paso 3: seleccione les estadística de prueba. La estadística de prueba será ya sea
la estadística muéstralo una versión estandarizada de la estadística muestral.Paso 4: establezca el valor o valores críticos de la estadística de prueba.Habiendo establecido todo delo anterior entonces se establece los valores críticosde la estadística de prueba.
Paso 5: determine el valor de estadística de prueba.
Paso 6: tome la decisión.
Prueba de una hipótesis referente a la media usándola distribución normal.
La distribución normal de probabilidad puede usarse para probar un valorhipotético de la media de la población.
si n ≥ 30, por efecto al teorema central del límite.
Cuando n < 30 pero la población tiene una distribución normal y σ es conocida.
Una prueba bilateral se aplica cuando nos interesa una posible desviación encualquier dirección respecto del valor hipotético de la media. La fórmula se empleapara los valores críticos de la media muestral. Es similar a la fórmula para
determinar los límites de confianza para la estimación de la media dela población,acepto que el valor hipotético de la media poblacional µ 0 es en este caso el puntode referencia, en lugar de la media muestral.
Los valores críticos de la media muestral para una prueba de dos extremos, deacuewrdo9con el hecho de si σ se conoce o no, son:
CR = µ0 ± zσ o CR = µ0 ± zs
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 4/14
Ejemplo:
El representante de un grupo comunitario le informa al posible desarrollador de uncentro comercial que el ingreso promedio por hogar en la zona es de $45 000.Supongamos que puede asumirse que, para el tipo de zona de que se trata, el
ingreso del hogar tiene una distribución aproximadamente normal y que puedeaceptarse que la desviación estándar es igual a σ=$2 000, con base a un estudio
anterior. A partir de una muestra aleatoria de n=15 hogares, se determina que elingreso domestico es =$44 000. Pruebe la hipótesis nula de que µ=$45 000estableciendo los limites críticos de la media muestral en términos de dólares ycon un nivel de significancia de 5%.
Dado que H0: µ=$45 000 y H1 : µ≠$45 000, los limites críticos de (α=0.05) son
CR =µ0±zσ =µ0z (
)= 45 000 ±1,96(
) = 45 000 ± 1.96(
) =
45 000 ±1.96 (516.80) = $43 987 y $ 46 013.
Puesto que la media muestral de = $44 000 se halla entre los dos limites críticosy en la región de aceptación de la hipótesis nula, el argumento del representantecomunidad no puede rechazar al nivel de significancia de 5%.
Estimulación:
El proceso de estimulación en inferencia estadística puede ser descrito como elproceso de estimular un parámetro a partir del estadístico correspondiente, tal
como usar una media muestral (Estadístico) para estimular la media poblacional,(parámetro).
La estimulación de parámetro puede ser:
Puntual o por punto.
Por intervalo.
Estimulación Puntual
Objetivo: dar un valor numérico que se aproxime en forma muy cercana alparámetro poblacional.
La poblacional puntual de un parámetro de una población es un solo valornumérico de un estadístico que corresponde a este parámetro.
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 5/14
Estimulación sin sesgo
Si la media de las distribuciones de muestreo de un estadístico es igual que la delcorrespondiente parámetro de la población, el estadístico se llama un estimuladorsin sesgo del parámetro; si no, se llama un estimulador sesgado.
Ejemplo: La media de las distribuciones de muestreo de medias µ e µ, la media
de la población. Por tanto, la media es una estimulación sin sesgo de la mediade la población µ.
Estimulación EficienteSi las distribuciones de muestreo de dos estadístico tienen la misma media(oesperanza), el de menor varianza se llama un estimulador eficiente de la media.Mientras que el otro se llama un estimulador ineficiente. Los valorescorrespondientes de los estadísticos se llaman estimulación eficiente eestimulación ineficiente.
ESTIMACIÓN PUNTUAL
A partir de las observaciones de una muestra se calcula un solo valor como
estimación de un parámetro de la población desconocido, el procedimiento sedenomina estimación puntual.
Un estimador puntual T de un parámetro es cualquier estadística que nospermita a partir de los datos muéstrales obtener valores aproximados del
parámetro .Para indicar que T es un estimador del parámetro escribimos =T.Es muy probable que haya error cuando un parámetro es estimado.
Es cierto que si el número de observaciones al azar se hace suficientementegrande, éstas proporcionarían un valor que casi sería semejante al parámetro;
pero a menudo hay limitaciones de tiempo y de recursos y se tendrá que trabajarcon unas cuántas observaciones. Para poder utilizar la información que se tengade la mejor forma posible, se necesita identificar las estadísticas que sean“buenos” estimadores. Hay cuatro criterios que se suelen aplicar para determinar
si una estadística es un buen estimador: Insesgamiento (cuando su esperanzamatemática coincide con el valor real del parámetro a estimar θ, en caso de que
no coincidan a la diferencia entre la esperanza del estimador y el valor real delparámetro se le llama sesgo T-θ), eficiencia, consistencia y suficiencia.
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 6/14
PROPIEDADES:
Existe una propiedad que comprende conjuntamente las propiedades deanegamiento y eficiencia. Se trata del error cuadrático medio. Sea T un estimador
del parámetro . El error cuadrático medio de T, denotado ECM(T), se define
como el valor esperado de (T- )2 .
ECM (T) = E[(T- )2]
Teorema:
Si T es un estimador del parámetro , ECM (T) = V [T] – [ -E (T)]2
La diferencia -E (T) se llama sesgo del estimador.
Se dice que una estadística T es un estimador insesgado de , si se cumple que E(T)= para cualquier valor de . También podemos decir que un estimador
insesgado es aquel que tiene sesgo igual a cero.
Teorema:
Sea X1, X2,..., Xn una muestra aleatoria de cierta distribución de media y
varianza . Entonces:
a) T1= es un estimador insesgado de .
b) T2=S2 es un estimador insesgado de .
La propiedad de Insesgamiento nos garantiza que las estimaciones que hagamoscon el estimador se encuentran alrededor del parámetro en cuestión.
Los siguientes gráficos ilustran el significado de estimador insesgado y estimadorsesgado
Los estimadores de mayor uso como la media muestral, la varianza muestral y laproporción muestral son buenos estimadores.
El error estándar
Un mismo estimador ofrece distintos valores para distintas muestras del mismotamaño extraídas de la misma población. Por lo tanto deberíamos tener unamedida de la variabilidad del estimador respecto del parámetro que se trata deestimar. Esta variabilidad se mide en términos de la desviación estándar delestimador, la cual recibe el nombre de error estándar.
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 7/14
El error estándar de un estimador T de un parámetro es la desviación estándardel estimador. Error de estimación es el valor absoluto de la diferencia entre una
estimación particular y el valor del parámetro. Así por ejemplo, si tomamos
como estimador de , entonces el error estándar está dado por .
Ejemplo:
Un grupo de investigadores de Ecología midieron la concentración de células rojasen la sangre de 29 lagartos (Sceloporis occidentales ) capturados en el campo.También observaron si los lagartos estaban infectados por el parásito de MalariaPlasmodium . Los recuentos de células rojas proporcionaron los siguientes valores.
Animales infectados: 131n 1,972
1 X 1,2451 s
Animales no infectados: 162n 4,843
2 X 2,2512
s
Construye un intervalo de confianza al 99% para la diferencia entre laconcentración media de células rojas en la sangre de animales infectados y noinfectados (se supone normalidad).
¿Se podría afirmar que la malaria reduce el número de células rojas? Razona larespuesta.
Solución:
Se trata de comparar dos poblaciones: P1, lagartos infectados con el parásito, yP2, lagartos no infectados. Concretamente, nos interesa comparar las medias
poblacionales. En consecuencia, buscamos21
I .
Asumimos que las varianzas poblacionales NO son conocidas. Para verificar sipueden considerarse iguales o no, como
12 ss , calculamos
205,1
1,245
2,2512
2
2
1
2
2
s
sPor lo tanto, consideramos que 2
2
2
1 (caso b1).
7,1284,8431,97221 X X
Como 16,13 21 nn y %1 (0,01 en tanto por uno), 771,227,005,02,2 / 21
t t
nn
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 8/14
Finalmente
2
11
21
2
22
2
112
nn
snsns p ; operando se tiene 507,248 ps
Sustituyendo en la fórmula del intervalo de confianza, obtenemos
)82'385,424'128( I
Si el intervalo contuviera sólo números negativos, estaríamos diciendo que ladiferencia entre el número medio de células rojas de P1 y P2 es negativa, oequivalentemente que el número medio de células rojas de P1 (lagartos infectadoscon malaria) es inferior al de P2 (lagartos no infectados). En ese caso, se podríaafirmar que la malaria reduce el número de células rojas. Pero vemos que elintervalo contiene tanto números negativos como positivos, con lo cual tanaceptables es que sea mayor la media de los infectados, como la de los noinfectados. En consecuencia, no se puede afirmar que la malaria reduzca el
número de células rojas.
Estimulación por intervalos
Consiste en la obtención de un intervalo dentro del cual estará el valor delparámetro estimado con una cierta probabilidad. En la estimación por intervalos seusan los siguientes conceptos:
Intervalo de confianza El intervalo de confianza es una expresión del tipo [θ1, θ2] ó
θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar. Este intervalo contiene al parámetro estimado con una determinada certeza o nivel de confianza.
Variabilidad del parámetro Si no se conoce, puede obtenerse una aproximación enlos datos aportados por la literatura científica o en un estudio piloto. También haymétodos para calcular el tamaño de la muestra que prescinden de este aspecto.Habitualmente se usa como medida de esta variabilidad la desviación típicapoblacional y se denota σ.
Error de la estimación Es una medida de su precisión que se corresponde con laamplitud del intervalo de confianza. Cuanta más precisión se desee en laestimación de un parámetro, más estrecho deberá ser el intervalo de confianza y,
por tanto, menor el error, y más sujetos deberán incluirse en la muestra estudiada.Llamaremos a esta precisión E, según la fórmula E = θ2 - θ1.
Nivel de confianza Es la probabilidad de que el verdadero valor del parámetroestimado en la población se sitúe en el intervalo de confianza obtenido. El nivel deconfianza se denota por (1-α), aunque habitualmente suele expresarse con unporcentaje ((1-α)·100%). Es habitual tomar como nivel de confianza un 95% o un
99%, que se corresponden con valores α de 0,05 y 0,01, respectivamente.
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 9/14
Intervalo de Confianza
Se llama intervalo de confianza a un par de números entre los cuales se estimaque estará cierto valor desconocido con una determinada probabilidad de acierto.Formalmente, estos números determinan un intervalo, que se calcula a partir de
datos de una muestra, y el valor desconocido es un parámetro poblacional. Laprobabilidad de éxito en la estimación se representa con 1 - α y se denomina nivelde confianza. En estas circunstancias, α es el llamado error aleatorio o nivel designificación, esto es, una medida de las posibilidades de fallar en la estimaciónmediante tal intervalo.
Intervalo de confianza para la media de una población
De una población de media μ y desviación típica σ se pueden tomar muestras de nelementos. Cada una de estas muestras tiene a su vez una media ( ). Se puededemostrar que la media de todas las medias muéstrales coincide con la mediapoblacional:2
Pero además, si el tamaño de las muestras es lo suficientemente grande,3 la
distribución de medias muéstrales es, prácticamente, una distribución normal (ogaussiana) con media μ y una desviación típica dada por la siguiente expresión
. Esto se representa como sigue . Si
estandarizamos, se sigue qué .
Sea desconocida la media poblacional de una cierta variable que deseamosestudiar, sacamos una muestra y se trata de obtener un intervalo (L1, L2) de forma
que tengamos una probabilidad alta (1-alfa)% de que la media poblacional esté enese intervalo. El nivel de confianza del intervalo (1-alfa)% lo fijamos nosotros, esdecir, con la probabilidad de 0.05,0.01 o 0.1.
Si se cumple una de las siguientes hipótesis:
El tamaño de la muestra es mayor de 30 y la variable sigue un modelonormal.
El tamaño de la muestra es mayor de 100.
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 10/14
El intervalo de confianza para la media poblacional es:
Donde z es el valor que en la distribución N(0,1) deja a su derecha un área dealfa/2, es la media en la muestra, s la casi desviación típica (raíz cuadrada de lacasi varianza) o la desviación típica y n el tamaño de la muestra.
Estimulación por intervalos de confianza para la proporción
Sea p desconocida la proporción de elementos en la población pertenecientes a unacategoría C, sacamos una muestra y se trata de obtener un intervalo (L1,L2) de formaque tengamos una probabilidad alta (1-alfa)% de que la proporción esté en ese intervalo.
Si se cumple una de las siguientes hipótesis, y que habrá de comprobarlas en todos losproblemas son:
En estas condiciones se obtienen los siguientes intervalos según el tamaño de la muestra:
El tamaño de la muestra es mayor de 30 y menor o igual de 100.
El tamaño de la muestra es mayor de 100.
Donde , z es el valor que en ladistribución N(0,1) deja a su derecha un área de alfa/2, n el tamaño de la muestra.
Las técnicas de regresión y correlación cuantifican la asociación estadística entredos o más variables. La regresión lineal simple expresa la relación entre unavariable dependiente Y y una variable independiente X, en términos de lapendiente y la intersección de la línea que mejor se ajuste a las variables.
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 11/14
La correlación simple expresa el grado o la cercanía de la relación entre las dosvariables en términos de un coeficiente de correlación que proporciona unamedida indirecta de la variabilidad de los puntos alrededor de la mejor línea deajuste- Ni la regresión ni la correlación dan pruebas de relaciones causa – efecto.
Regresión: El modelo de regresión lineal simple toma la forma
Y = a + bx,
Dónde:
y = variable dependiente
x = variable independiente.
Los valores de la pendiente b y la intersección a se obtienen usando lasecuaciones normales escritas en la forma conveniente.
22 X n x
XY n xyb
xbY a
Regresión
La regresión como una técnica estadística, una de ellas la regresión lineal simple yla regresión multifactorial, analiza la relación de dos o mas variables continuas,cuando analiza las dos variables a esta se el conoce como variable bivariantesque pueden corresponder a variables cualitativas, la regresión nos permite elcambio en una de las variables llamadas respuesta y que corresponde a otraconocida como variable explicativa, la regresión es una técnica utilizada parainferir datos a partir de otros y hallar una respuesta de lo que puede suceder.
Siendo así la regresión una técnica estadística, por lo tanto para interpretarsituaciones reales, pero a veces se manipula de mala manera por lo que esnecesario realizar una selección adecuada de las variables que van a construir lasformulas matemática, que representen a la regresión, por eso hay que tomar encuenta variables que tiene relación, de lo contraria se estaría matematizando ungalimatías.
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 12/14
Se pueden encontrar varios tipos de regresión, por ejemplo:
Regresión lineal simple Regresión múltiple ( varias variables) Simple b) Múltiple, etc. Regresión logística
La regresión lineal técnica que usa variables aleatorias, continuas se diferencia delotro método analítica que es la correlación, por que esta última no distingue entrelas variables respuesta y la variable explicativa por que las trata en formasimétrica.
La mate matización nos da ecuaciones para manipular los datos, como porejemplo medir la circunferencia de los niños y niñas y que parece incrementarseentre las edades de 2 meses y 18 años, aquí podemos inferir o predecir que las
circunferencias del cráneo cambiara con la edad, en este ejercicio lacircunferencia de la cabeza es la respuesta y la edad la variable explicativa.
En la regresión tenemos ecuaciones que nos representan las diferentes clases deregresión:
Regresión Lineal: y = A + Bx
Regresión Logarítmica: y = A + BLn(x)
Regresión Exponencial: y = Ac (bx)
Regresión Cuadrática: y = A + Bx +Cx2
Desviación estándar de la regresión
Una línea de regresión describe la relación entre un valor dado de la variableindependiente X y la media µy.x de la distribución de probabilidad correspondientede la variable dependiente Y. El punto estimado, o pronóstico, es la media de ladistribución para un valor dado X.
La desviación estándar de la regresión S y.x es una medida de la dispersión de los
datos alrededor de la línea de regresión.
2
2
.
n
XY bY aY S X y
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 13/14
Estimación de intervalo
Se puede establecer una predicción de intervalo para un valor pronosticadoindividual de YC usando la expresión:
Intervalo de predicción = YC ± t SIND Donde t = valor de la tabla de la distribución t para el nivel de confianzaespecificado, y
2
2
.)(
)(11
X X
X X
nSS x y IND
Para muestras grandes (n≥100), la ecuación anterior puede ser aproximada.
Usando la distribución normal (Z) más que la , en la forma de YC ± ZSY.X Tambiénla significancia de la pendiente de la línea de regresión (b) puede ser probadausando la siguiente expresión.
b
calcS
bt
2.)(
1
X X SS X Y b
Dónde: Si el valor de t calc de la tabla t, la relación entre X y Y es estadísticamentesignificativa.
5/11/2018 Estadistica Unidad V - slidepdf.com
http://slidepdf.com/reader/full/estadistica-unidad-v 14/14
Correlación
El coeficiente de correlación lineal simple r es un número entre -1 y 1 que indicaqué tan bien describe la ecuación lineal la relación entre las dos variables. Comose muestra en la siguiente figura, r se designa como positiva si Y se incrementa
cuando lo hace X, y negativa si Y decrece al incrementarse X. Una r de cero indicauna ausencia de relación entre las dos variables.
Para obtener un modelo de regresión es suficiente establecer la regresión paraeso se hace uso del coeficiente de correlación: R.
R = Coeficiente de correlación, este método mide el grado de relación existenteentre dos variables, el valor de R varía de -1 a 1, pero en la práctica se traba conun valor absoluto de R.
El valor del coeficiente de relación se interpreta de modo que a media que R se
aproxima a 1, es más grande la relación entre los datos, por lo tanto R (coeficientede correlación) mide la aproximación entre las variables.
El coeficiente de correlación se puede clasificar de la siguiente manera:
CORRELACIÒN VALOR O RANGO
Perfecta 1) R = 1 Excelente 2) R = 0.9 < = R < 1 Buena 3) R = 0.8 < = R < 0.9 Regular 4) R = 0.5 < = R < 0.8 Mala 5) R < 0.5
top related