aplicaciones chi-cuadradro - estadistica · 2019. 12. 20. · aplicaciones chi‐cuadrado 4 y x 1 y...
Post on 06-Aug-2021
6 Views
Preview:
TRANSCRIPT
Gestión Aeronáutica: Estadística TeóricaFacultad Ciencias Económicas y EmpresarialesDepartamento de Economía AplicadaProfesor: Santiago de la Fuente Fernández
APLICACIONES CHI-CUADRADRO
Aplicaciones Chi‐cuadrado 1
Gestión Aeronáutica: Estadística TeóricaFacultad Ciencias Económicas y EmpresarialesDepartamento de Economía AplicadaProfesor: Santiago de la Fuente Fernández
CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS
En estadística paramétrica se trabaja bajo el supuesto de que las poblaciones poseendistribuciones conocidas, donde cada función de distribución teórica depende de uno o másparámetros poblacionales.
Sin embargo, en muchas situaciones, es imposible especificar la forma de la distribuciónpoblacional. El proceso de obtener conclusiones directamente de las observaciones muestrales,sin formar los supuestos con respecto a la forma matemática de la distribución poblacional sellama teoría no paramétrica.
En este tema se realizan procedimientos que no exigen ningún supuesto, o muy pocos acerca dela familia de distribuciones a la que pertenece la población, y cuyas observaciones pueden sercualitativas o bien se refieren a alguna característica que se pueda ordenar.Estos procedimientos reciben el nombre de Contrastes de hipótesis no paramétricos.
Así, uno de los objetivos es el estudio de contrates de hipótesis para determinar si unapoblación tiene una distribución teórica específica.
La técnica que introduce a estudiar esas cuestiones se llama Contraste de la Chi‐cuadrado parala Bondad de Ajuste. Una variación de este contraste se emplea para resolver los Contrastes deIndependencia. Tales contrastes pueden utilizarse para determinar si dos características estánrelacionadas o son independientes.
Por último, se estudia otra variación del contraste de la bondad de ajuste llamado Contraste deHomogeneidad. Tal contraste se utiliza para estudiar si diferentes poblaciones, son similares (uhomogéneas) con respecto a alguna característica.
ANÁLISIS DE DATOS CATEGÓRICOS: TABLAS DE CONTINGENCIA
Las variables categóricas o cualitativas son aquellas cuyos valores son un conjunto de cualidadesno cuantificables (no numéricas) que reciben el nombre de categorías o modalidades.
CLASIFICACIÓN DE VARIABLES CATEGÓRICAS:
VARIABLES CUALITATIVAS ORDINALES: Son aquellas en las que se pueden ordenar sus distintasmodalidades. Es decir, es posible establecer relaciones de orden entre las categoría. (Ejemplo: laclase social, el nivel de estudios).
VARIABLES CUALITATIVAS NOMINALES: Son aquellas en las que no se puede definir un ordennatural entre sus categorías. (Ejemplo: el color de los ojos, la raza, la religión).
VARIABLES CUALITATIVAS POR INTERVALO: Proceden de variables cuantitativas agrupadas enintervalos. Estas variables pueden tratarse como ordinales pero en éstas se pueden calculardistancias numéricas entre dos niveles de la escala ordinal. (Ejemplos de variables que sepueden agrupar por intervalos: el sueldo, la edad, el nivel de presión sanguínea).
Aplicaciones Chi‐cuadrado 2
Gestión Aeronáutica: Estadística TeóricaFacultad Ciencias Económicas y EmpresarialesDepartamento de Economía AplicadaProfesor: Santiago de la Fuente Fernández
PRINCIPALES APLICACIONES DE LA CHI‐CUADRADO
Al analizar en una población un carácter cualitativo o cuantitativo el estudio resulta muy tediosopor el gran número de elementos del que consta la población.
Generalmente, se examina una muestra tomada de la población, lo que lleva a tener una seriede datos, y ver hasta qué punto la muestra se pude considerar perteneciente a una distribuciónteórica conocida.
Siempre existirán desviaciones entre la distribución empírica u observada y la distribuciónteórica. Se plantea la cuestión de saber si estas desviaciones son debidas al azar o al habertomado una distribución teórica inadecuada.
CONTRASTE DE BONDAD DEL AJUSTE
El objetivo del contraste de bondad del ajuste es saber si una muestra procede de una poblaciónteórica con determinada distribución de probabilidad.
Sea una población, donde se analiza un carácter X con 1 2 k(x , x , , x ) modalidades
excluyentes, denotando por in es el número de elementos que presenta la modalidad ix
(frecuencia observada de ix ) , k
i
i 1
n n=
=∑
Por otra parte, sea i ie n .p= la frecuencia esperada o teórica de cada modalidad ix
Se origina la TABLA DE CONTINGENCIA:
X 1x 2x ix kx
Frecuencia observada 1n 2n in kn
Frecuencia esperada 1e 2e ie ke
Se plantea la hipótesis nula 0
La distribución teórica representa a H :
la distribución empírica u observada⎧⎨⎩
Para un nivel de significación (o riesgo) α
Se acepta 0H : k 2
i i 2, ( k 1 )
ii 1
estadísticoobservado estadístico
teórico(n e )
e α −=
−< χ∑ Se rechaza 0H :
k 2i i 2
, ( k 1 )ii 1
estadísticoobservado estadístico
teórico(n e )
e α −=
−≥ χ∑
El estadístico k 2 k 2
i i i
i ii 1 i 1
(n e ) nn
e e= =
−= −∑ ∑ (útil en el cálculo) ‐ demostración página 43 ‐
Aplicaciones Chi‐cuadrado 3
OBSERVACIONES DE LA APLICACIÓN
a) El test de la 2χ se puede aplicar en situaciones donde se desea decidir si una serie de datos(observaciones) se ajusta o no a una función teórica previamente determinada (Binomial,Poisson, Normal, etc.)
b) Es necesario que las frecuencias esperadas de las distintas modalidades no sea inferior acinco. Si alguna modalidad tiene una frecuencia esperada menor que cinco se agrupan dos o másmodalidades contiguas en una sola hasta conseguir que la frecuencia esperada sea mayor quecinco.
c) Los grados de libertad de la 2χ dependen del número de parámetros que se necesitan hallarpara obtener las frecuencias esperadas. En este sentido, si se requieren hallar p parámetros, losgrados de libertad son ( k p )− si las modalidades son independientes y ( k p 1 )− − cuando las
modalidades son excluyentes.
TABLAS CONTIGENCIA: CONTRASTE DE DEPENDENCIA O INDEPENDENCIA
Cuando se desea comparar dos caracteres (X, Y) en una misma población que admiten lasmodalidades: 1 2 i k 1 2 j mX (x , x , , x , , x ) , Y (y , y , , y , , y ) , se toma una muestra de
tamaño n, representando por i jn el número de elementos de la población que presentan la
modalidad ix de X e jy de Y.
Y X 1y 2y jy my
k
i
i 1
n •=∑
1x 11n 12n 1jn 1mn 1n •
2x 21n 22n 2jn 2mn 2n •
ix i 1n i 2n i jn imn in •
kx k 1n k 2n k jn kmn kn •
m
j
j 1
n•=∑ 1n• 2n• jn• mn• n
Se plantea la hipótesis nula 0
No existe diferencia entre las H :
distribuciones empíricas de X e Y⎧⎨⎩
Bajo la hipótesis nula, cada frecuencia observada i jn ( i 1, , k ; j 1, ,m )= = de la tabla de
contingencia x( k m ) hay una frecuencia esperada i j(e ) que se obtiene mediante la expresión:
xi j
i j i j
n ne p . n
n• •= = , donde x
i ji j
n np
n n• •=
Agrupando fecuencias observadas y esperadas en la tabla de contingencia x( k m ) :
Aplicaciones Chi‐cuadrado 4
Y X 1y 2y jy my
k
i
i 1
n •=∑
1x11n
11e12n
12e1jn
1je1mn
1me1n •
2x21n
21e22n
22e2jn
2je2mn
2me 2n •
ixi 1n
i 1ei 2n
i 2ei jn
i jeimn
imein •
kxk 1n
k 1ek 2n
k 2ek jn
k jekmn
kme kn •
m
j
j 1
n•=∑ 1n• 2n• jn• mn• n
Las condiciones necesarias para aplicar el test de la Chi‐cuadrado exige que al menos el 80% delos valores esperados de las celdas sean mayores que 5.
Cuando esto no ocurre hay que agrupar modalidades contiguas en una sola hasta lograr que lanueva frecuencia sea mayor que cinco.
En una tabla de contingencia de x2 2 será necesario que todas las celdas verifiquen esta
condición, si bien en la práctica suele permitirse que una de ellas tenga frecuencias esperadasligeramente por debajo de 5.
El estadístico de contraste observado: k m 2
ij i j 2( k 1 ) . (m 1)
i ji 1 j 1
( n e )
e − −= =
−= χ∑∑ que sigue
aproximadamente una Chi‐cuadrado con x( k 1 ) (m 1 )− − grados de libertad.
Para un nivel de significación α se puede contrastar la diferencia significativa entre las dosdistribuciones empíricas o la independencia de las distribuciones empíricas.
CONTRASTE DE HOMOGENEIDAD
Hipótesis nula 0H : Las distribuciones empíricas X e Y son homogéneas
Se acepta 0H si : k m 2
ij i j 2, ( k 1 ) . (m 1 )
i ji 1 j 1
estadístico observadoestadístico teórico
(n e )
e α − −= =
−< χ∑∑
Aplicaciones Chi‐cuadrado 5
Se rechaza 0H si : k m 2
ij i j 2, ( k 1 ) . (m 1 )
i ji 1 j 1
estadístico observadoestadístico teórico
(n e )
e α − −= =
−≥ χ∑∑
CONTRASTE DE INDEPENDENCIA
Hipótesis nula 0H : Las distribuciones empíricas X e Y son independientes
Se acepta oH si : k m 2
ij i j 2, ( k 1 ) . (m 1 )
i ji 1 j 1
estadístico observadoestadístico teórico
(n e )
e α − −= =
−< χ∑∑
Se rechaza oH si : k m 2
ij i j 2, ( k 1 ) . (m 1 )
i ji 1 j 1
estadístico observadoestadístico teórico
(n e )
e α − −= =
−≥ χ∑∑
TABLAS CONTIGENCIA 2 x 2 y 2 x 3
Para las tablas de contingencia 2 x 2 y 2 x 3 se obtienen fórmulas sencillas de la 2χ utilizandoúnicamente las frecuencias observadas
Y X 1y 2y
1x 11n 12n 1n •
2x 21n 22n 2n •
1n• 2n• n
x x x
x x x
211 22 12 212
11 2 1 2
n (n n n n )
n n n n• • • •
−χ =
Se acepta 0H sí 2 21 , 1αχ < χ Se rechaza 0H sí 2 2
1 , 1αχ ≥ χ
Y X 1y 2y 3y
1x 11n 12n 13n 1n •
2x 21n 22n 23n 2n •
1n• 2n• 3n• n
x x
2 2 2 2 2 211 12 13 21 22 232
21 1 2 3 2 1 2 3
n n n n n nn nn
n n n n n n n n• • • • • • • •
⎡ ⎤ ⎡ ⎤χ = + + + + + −⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
Se acepta 0H sí 2 22 , 2αχ < χ Se rechaza 0H sí 2 2
2 , 2αχ ≥ χ
Aplicaciones Chi‐cuadrado 6
COEFICIENTE DE CONTINGENCIA
Es una medida del grado de relación o dependencia entre dos caracteres en la tabla decontingencia, se define:
2
2Cn
χ=
χ + 0 C 1≤ ≤ o bien
GC
G n=
+ G razón de verosimilitud≡
Mayor valor de C indica un grado de dependencia mayor entre X e Y
FACTOR DE CORRECCIÓN DE YATES
Los valores calculados en la Prueba de la Chi‐cuadrado se basan en datos discretos, en tanto quela distribución de Chi‐cuadrado es una distribución continua. En definitiva, una distribucióncontinua esta siendo utilizada para representar una distribución discreta.
Cuando las frecuencias esperadas i je para las casillas no son pequeñas, este factor no es
importante considerando que la distribución estadística de prueba es aproximada por ladistribución Chi‐cuadrado.
El estadístico Yates demostró que como regla empírica, el factor de corrección tiene poco efectoy puede omitirse cuando (n 50 )≥ . Además, no debe aplicarse a ninguna casilla cuando
ij i j(n e ) 0,05− < .
Cuando la muestra (n 50 )< se hace aconsejable el uso de la Chi‐cuadrado con el factor de
corrección de continuidad de Yates para cualquier tabla de contingencia:
Factor corrección de Yates i j i j i j
i j i j i j
n e n 0,5
n e n 0,5
< → +⎧⎪⎨ > → −⎪⎩
Para una tabla de contingencia de x2 2 la corrección de Yates:
x x x
x x x
2
11 22 12 2121
1 2 1 2
nn n n n n
2n n n n• • • •
⎡ ⎤− −⎢ ⎥⎣ ⎦χ =
Expresión que se puede sintetizar:
22 2
ij ij21
iji 1 j 1
n e 0,5
e= =
⎡ ⎤− −⎣ ⎦χ = ∑∑
La corrección no es válida cuando x x11 22 12 21n
n n n n2
− ≤
La corrección de Yates se hace cuando el número de grados de libertad es 1.
Hay abundante bibliografía relativa a la conveniencia de la utilización de la corrección decontinuidad de Yates, destacando las aportaciones clásicas de Mantel y Greenhouse (1968),Mantel (1974), Fleiss (1973), Conover (1968, 1974), Haber (1980), Marín (2005), Haviland (2007)y Cochran (1942).
Aplicaciones Chi‐cuadrado 7
TEST G DE LA RAZÓN DE VEROSIMILITUD
El test de contraste de independencias por la razón de verosimilitudes ( test G ) es una pruebade hipótesis de la Chi‐cuadrado que presenta mejores resultados que el de Pearson.
Se distribuye asintóticamente con una variable aleatoria 2χ con x( k 1 ) (m 1 )− − grados de
libertad.
Se define el estadístico x
k mij
i ji ji 1 j 1
nG 2 n ln
e= =
⎛ ⎞= ⎜ ⎟⎜ ⎟
⎝ ⎠∑∑
Se acepta la hipótesis nula 0H sí x
k mij 2
i j , ( k 1 ) . (m 1 )i ji 1 j 1
nG 2 n ln
e α − −= =
⎛ ⎞= < χ⎜ ⎟⎜ ⎟
⎝ ⎠∑∑
PRUEBA DE BARTLETT : HOMOGENEIDAD DE LAS VARIANZAS
En muchas ocasiones es útil comparar más de dos varianzas para conocer si existe o no unadiferencia significativa entre ellas o, lo que es lo mismo, si varias muestras con unasdeterminadas varianzas se pueden considerar o no pertenecientes a una misma población.
Para ello se puede utilizar la F de Snedecor, pero para eso se necesitan tantas pruebas F comopares distintos de varianzas se pueden formar.
BARTLETT demostró que se podía utilizar la Chi‐cuadrado para comprobar la homogeneidad devarias varianzas.
Sean k muestras con 1 2 k(n , n , , n ) elementos, con varianzas 1 2 k
2 2 2x x x( , , , )σ σ σ ,
respectivamente.
Se establece la hipótesis nula 0H : Todas las varianzas son iguales
Lo que conduce a estimar que la varianza es: i
k2 2x x
i 1
1.
k =σ = σ∑
Entonces el estadístico: k k
2 2 2k 1 i i i
i 1 i 1
( ln ) . ( n 1 ) (n 1 ) . ln−= =
⎡ ⎤⎡ ⎤χ = σ − − − σ⎢ ⎥ ⎣ ⎦⎢ ⎥⎣ ⎦
∑ ∑
sigue aproximadamente una 2χ con ( k 1 )− grados de libertad ( k variables i
2xσ ,
i 1, 2, ... , k= menos un parámetro 2xσ obtenido de la muestra )
Si todas las muestras tuvieran los mismos elementos 1 2 k(n n n n)= = = = el
estadístico sería:
k
2 2 2k 1 i
i 1
(n 1 ) . k . ln ln−=
⎡ ⎤χ = − σ − σ⎢ ⎥
⎢ ⎥⎣ ⎦∑
Se acepta la hipótesis nula, con un nivel de significación α , cuando: 2 2k 1 , ( k 1 )− α −χ < χ
Se rechaza 0H sí 2 2k 1 , ( k 1 )− α −χ ≥ χ
Aplicaciones Chi‐cuadrado 8
CORRELACIONES
COEFICIENTE DE CORRELACIÓN DE PEARSON: Es una medida de asociación lineal especialmenteapropiada para estudiar la relación entre variables de intervalo o razón.
COEFICIENTE DE CORRELACIÓN DE SPEARMAN: Es una medida de asociación lineal paravariables ordinales.
Ambos coeficientes son de poca utilidad en el estudio de las pautas de relación presentes en unatabla de contingencia.
MEDIDAS DE ASOCIACIÓN DE VARIABLES CATEGÓRICAS
En caso de rechazar la hipótesis de independencia entre los dos factores de una tabla decontingencia, se plantea la necesidad de definir índices que describan no sólo la intensidad de laasociación, sino también su dirección.
Es decir si la asociación entre los factores es directa o inversa. El estudio de estos índices recibeel nombre de medidas de asociación.
Para detectar el grado y sentido de la asociación entre dos factores existen diferentes métodos.A continuación se exponen las medidas de asociación más empleadas en la práctica.
MEDIDAS DE ASOCIACIÓN EN ESCALA NOMINAL
Después de analizar si existe relación o no entre las variables objeto de estudio, surge lapregunta ¿cuál es la intensidad de esa relación?.
Entre las medidas utilizadas en escala nominal (variables en las que no se puede definir un ordennatural entre sus categorías), se distinguen:
Coeficiente Phi (φ )Coeficiente de contingencia o C de PearsonCoeficiente V de CramerCoeficiente Lambda (λ) de Goodman y KruskallCoeficiente de incertidumbreCoeficiente Q de Yule
MEDIDAS DE ASOCIACIÓN EN ESCALA ORDINAL
Las medidas de asociación en escala ordinal son una serie de medidas de asociación que permiteaprovechar la información ordinal que las medidas diseñadas para datos nominales no analizan.
Entre las medidas utilizadas en escala ordinal:
Coeficiente Gamma (γ) de Goodman y KruskalCoeficiente d de SomersCoeficiente de Concordancia TAU‐b de Kendall (τb)Coeficiente de Concordancia TAU‐c de Kendall (τc)
Aplicaciones Chi‐cuadrado 9
PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES
Estos contrastes, son la alternativa no paramétrica de los tests basados en el t de Student, seutilizan para comparar dos poblaciones independientes.Se comparan dos grupos de casos existentes en una variable y se comprueba si provienen de lamisma población (homogeneidad). SPSS dispone de cuatro pruebas para realizar este contraste.
Prueba U de Mann‐Whitney es la más conocida de las pruebas para dos muestrasindependientes. Es equivalente a la Prueba de la suma de rangos de Wilcoxon y a la Prueba deKruskal‐Wallis para dos grupos. Requiere que las dos muestras probadas sean similares en laforma y contrasta si dos poblaciones muestreadas son equivalentes en su posición.
La Prueba Z de Kolmogorov‐Smirnov y la Prueba de rachas de Wald‐Wolfowitz son pruebas másgenerales que detectan las diferencias entre las posiciones y las formas de las distribuciones.
La Prueba Z de Kolmogorov‐Smirnov se basa en la diferencia máxima absoluta entre lasfunciones de distribución acumulada observadas para ambas muestras. Cuando estadiferencia es significativamente grande, se consideran diferentes las dos distribuciones.
La Prueba de rachas de Wald‐Wolfowitz combina y ordena las observaciones de ambosgrupos. Si las dos muestras proceden de una misma población, los dos grupos debendispersarse aleatoriamente en la ordenación de los rangos.
La Prueba de reacciones extremas de Moses presupone que la variable experimental afectará aalgunos sujetos en una dirección y a otros en dirección opuesta. La prueba contrasta lasrespuestas extremas comparándolas con un grupo control.
PRUEBAS PARA DOS MUESTRAS RELACIONADAS
Estas pruebas comparan las distribuciones de dos poblaciones relacionadas. Se supone que ladistribución de población de las diferencias emparejadas es simétrica.
SPSS dispone de cuatro pruebas para realizar este contraste, la prueba de signos, la Prueba deWilcoxon de los rangos con signo, la Prueba de McNemar y la Prueba de homogeneidadmarginal.
Utilizar una u otra Prueba depende del tipo de datos:
DATOS CONTINUOS: Prueba de signos o la Prueba de Wilcoxon de los rangos con signo.
La Prueba de los signos calcula las diferencias entre las dos variable y clasifica las diferenciascomo positivas, negativas o empatadas. Si las dos variables tienen una distribución similar, elnúmero de diferencias positivas y negativas no difiere de forma significativa.
La Prueba de Wilcoxon de los rangos con signo tiene en cuenta la información del signo de lasdiferencias y de la magnitud de las diferencias entre los pares. Dado que esta pruebaincorpora más información acerca de los datos, es más potente que la Prueba de los signos.
Aplicaciones Chi‐cuadrado 10
DATOS BINARIOS: Prueba de McNemar, dicha prueba se usa normalmente cuando las medidasestán repetidas, es decir la respuesta de cada sujeto se obtiene dos veces, una antes y otradespués de que ocurra un evento especificado.Esta prueba determina si la tasa de respuesta inicial (antes del evento) es igual a la tasa derespuesta final (después del evento). Es útil para detectar cambios en la respuesta en los diseñosdel tipo antes‐después.
DATOS CATEGÓRICOS: Utiliza la Prueba de homogeneidad marginal. Es una extensión de laPrueba de McNemar a partir de la respuesta binaria a la respuesta multinomial. Contrasta loscambios de respuesta, utilizando la distribución de Chi‐cuadrado y es útil para detectar cambiosde respuesta en diseños antes‐después.
TEST DE RACHAS: CONTRASTE DE ALEATORIEDAD
La Prueba de Rachas contrasta si es aleatorio el orden de aparición de los valores de unavariable. Se puede utilizar para determinar si la muestra fue extraída de manera aleatoria.
Una racha se define como una secuencia de casos al mismo lado del punto de corte (sucesión desímbolos idénticos consecutivos).
El punto de corte puede ser la Mediana, Moda, Media o Personalizado.
En esta línea,
51 2 3 4 6
‐ ‐ ‐ ‐ ‐ ‐ ‐ ‐ + + + + + + + (6 rachas)
Una muestra con un número excesivamente grande o excesivamente pequeño de rachas sugiereque la muestra no es aleatoria.
COEFICIENTES EN DISTRIBUCIONES DICOTÓMICAS
Los coeficientes más utilizados en variables dicotómicas son los de correlación phi φ y Q deYule.
Estos coeficientes tienen algunas propiedades comunes de interés:
a) Están normalizados, las magnitudes no dependen del tamaño de la tabla.
b) Son muy sensibles a la distribución empírica observada, traduciendo concentraciones decasos en algunas celdas en magnitudes.
c) Tienen un recorrido teórico entre [ 1, 1]- indicando situaciones de asociación perfecta y de
independencia estadística.
Los coeficientes φ y Q de Yule se diferencian en la sensibilidad rinconal:
El coeficiente φ alcanza su máximo valor sólo cuando una de las dos diagonales se havaciado.
El coeficiente Q es muy sensible a la existencia de una celda que en términos relativos seestá vaciando. Su valor máximo se alcanza cuando en una celda no hay ningún caso, esto es loque se conoce como sensibilidad rinconal.
Aplicaciones Chi‐cuadrado 11
YX
+ −Total
+ a b a + b− c d c + d
Total a + c b + d n
Coeficiente Phi: ad bc
(a b) (c d) (a c) (b d)
−=
+ + + +φ 0 1≤ ≤φ
Coeficiente Q de Yule: ad bc
Qad bc
−=
− 0 Q 1≤ ≤
PRUEBA Q DE COCHRAN
La prueba Q de Cochran es una prueba estadística no paramétrica para verificar si ktratamientos tienen efectos idénticos.
La Prueba Q de Cochran asume que hay k 2> tratamientos experimentales y que las
observaciones están dispuestas en m bloques.
Cuando hay exactamente dos tratamientos es equivalente a la prueba de McNemar .
Hipótesis nula 0H : Los tratamientos son igualmente efectivos
Hipótesis alternativa: 0H : Existe diferencia en la eficacia de los tratamientos
Tratamientos
Bloques 1 2 j k
m
i
i 1
x •=∑
1 11x 12x 1jx 1kx 1x •
2 21x 22x 2jx 2kx 2x •
i i 1x i 2x i jx i kx ix •
m k 1x k 2x k jx mkx mx •
k
j
j 1
x •=∑ 1x • 2x • jx • kx • n
Se acepta la hipótesis nula cuando:
x x
x
2k
j
j 12 2Cochran ( k 1 ) , ( k 1 )m
i i
i 1
nx
kQ k (k 1)
x ( k x )
•
− −
• •
=
=
⎡ ⎤−⎢ ⎥⎣ ⎦= χ = − ≤ χ
−
∑
∑α
Aplicaciones Chi‐cuadrado 12
TEST DE McNemar
El test de McNemar se utiliza para decidir si se puede aceptar o no que determinado tratamientoinduce un cambio en la respuesta de los elementos sometidos al mismo, y es aplicable a losdiseños del tipo antes‐después en los que cada elemento actúa como su propio control.
Consisten en n observaciones de una variable aleatoria bidimensional (X,Y)
La escala de medición para X e Y es nominal con dos categorías, tales como positivo o negativo,hembra o macho, presencia o ausencia, que se pueden denominar 0 y 1.
YX
+ −Total
+ a b a + b− c d c + d
Total a + c b + d n
Los casos que muestran cambios entre la primera y segunda respuesta aparecen en las celdillasb y c
Un individuo es clasificado en la celdilla b si cambia de + a − , en la celdilla a cuando la
respuesta es + antes y después, en la celdilla d cuando la respuesta es − antes y después.
Hipótesis nula 0H : El tratamiento no induce cambios significativos en las respuestas
En el test de McNemar para la significación de cambios solamente interesa conocer las celdas b yc que presentan cambios.
Puesto que b + c es el número de individuos que cambiaron, bajo el supuesto de la hipótesisnula, se espera que (b + c ) / 2 casos cambien en una dirección y (b + c ) / 2 casos cambien enotra dirección.
Estadístico de contraste sí b c 20+ < :
2McNemar bχ = → Se acepta 0H sí 2 2
McNemar /2 , 1b αχ = < χ
Estadístico de contraste sí b c 20+ ≥ :
22 2McNemar 1
(b c )b c−
χ = χ = →+
Se acepta 0H sí 2
2 2 2McNemar 1 /2 , 1
(b c )b c α−
χ = χ = < χ+
La aproximación muestral a la distribución Chi‐cuadrado es más precisa si se realiza la correcciónde continuidad de Yates ( ya que se utiliza una distribución continua para aproximar unadistribución discreta ).
El estadístico corregido:
2
2 2McNemar 1
b c 1
b c
⎡ ⎤− −⎣ ⎦χ = χ =+
Aplicaciones Chi‐cuadrado 13
Se acepta 0H sí
2
2 2 2McNemar 1 /2 , 1
b c 1
b c α
⎡ ⎤− −⎣ ⎦χ = χ = < χ+
TEST EXACTO DE FISHER
Si las dos variables que se están analizando son dicotómicas, y la frecuencia esperada es menor
que 5 en más de una celda, no resulta adecuado aplicar el test de la 2χ aunque sí el test exactode Fisher.
El test exacto de Fisher permite analizar si dos variables dicotómicas están asociadas cuando lamuestra a estudiar es demasiado pequeña y no cumple las condiciones necesarias para que laaplicación del test de la Chi‐cuadrado sea idónea.
YX
+ −Total
+ a b a + b− c d c + d
Total a + c b + d n
Las condiciones necesarias para aplicar el test de la Chi‐cuadrado exige que al menos el 80% delos valores esperados de las celdas sean mayores que 5.
De este modo, en una tabla de contingencia de x2 2 será necesario que todas las celdas
verifiquen esta condición, si bien en la práctica suele permitirse que una de ellas tengafrecuencias esperadas ligeramente por debajo de 5.
El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una de las tablas x2 2
que se pueden formar manteniendo los mismos totales de filas y columnas que los de la tablaobservada.Cada uno de estas probabilidades se obtiene bajo la hipótesis de independencia de las dosvariables que se están analizando.
La probabilidad asociada a los datos que han sido observados viene dada por:
(a b)! (c d)! (a c)! (b d)!
pn! a! b! c! d!
+ + + +=
La fórmula general de la probabilidad descrita deberá calcularse para todas las tablas decontingencia que puedan formarse con los mismos totales de filas y columnas de la tablaobservada.
El valor de la p asociado al test exacto de Fisher puede calcularse sumando las probabilidades delas tablas que resulten menores o iguales a la probabilidad de la tabla que ha sido observada.
El planteamiento es bilateral, es decir, cuando la hipótesis alternativa asume la dependenciaentre las variables dicotómicas, pero sin especificar de antemano en qué sentido se producendichas diferencias, el valor de la p obtenido se multiplica por 2.
Aplicaciones Chi‐cuadrado 14
TABLAS DE CONTINGENCIA: COHORTES Y CASO‐CONTROL
Las frecuencias de una tabla de contingencia pueden obtenerse utilizando dos estrategiasbásicas de recogidas de datos.
En la estrategia habitual, los datos representan un corte temporal transversal: se recogen en elmismo o aproximadamente el mismo punto temporal.
Si, en lugar de esto, se miden una o más variables en una muestra de sujetos y se hace unseguimiento a estos sujetos para volver a tomar una medida de esas mismas variables o de otrasdiferentes, es una situación longitudinal: las medidas se toman en diferentes puntostemporales.
Los índices de riesgo que se estudian resultan especialmente útiles para diseños longitudinalesen los que se miden dos variables dicotómicas.
El seguimiento de los estudios longitudinales puede hacerse hacia adelante o hacia atrás.
En los diseños longitudinales hacia adelante, llamados diseños prospectivos o de cohortes, lossujetos son clasificados en dos grupos con arreglo a la presencia o ausencia de algún factordesencadenante (por ejemplo, el hábito de fumar, fumadores y no fumadores) y se les hace unseguimiento durante un espacio de tiempo hasta determinar la proporción de sujetos de cadagrupo en los que se da un determinado desenlace o incidencia objeto de estudio (por ejemplo,problemas vasculares).
En los diseños longitudinales hacia atrás, también denominados retrospectivos o decaso‐control: Se forman dos grupos a partir de la presencia o ausencia de una determinadacondición objeto del estudio (por ejemplo, sujetos sanos y pacientes con problemas vasculares)y se hace un seguimiento hacia atrás intentando encontrar información sobre la proporción enla que se encuentra presente en cada muestra un determinado factor desencadente (porejemplo, el hábito de fumar).
Lógicamente, cada diseño de recogida de datos permite dar respuesta a diferentes preguntas yrequiere la utilización de unos estadísticos particulares.
ESTADÍSTICOS SEGÚN DISEÑO
En el diseño de cohortes (longitudinal hacia adelante): En los que se establecen dos grupos desujetos a partir de la presencia o ausencia de una condición que se considera desencadente y sehace un seguimiento hacia adelante para determinar qué proporción de sujetos de cada grupoalcanza un determinado desenlace o incidencia, la medida de interés suele ser el riego relativo(RR): grado en que la proporción de desenlaces o incidencias es más alta en un grupo que en elotro.
En el diseño de caso‐control (longitudinal hacia atrás), tras formar dos grupos de sujetos a parirde alguna condición de interés, se va hacia atrás buscando la presencia de algún factordesencadenante ‐ Por ejemplo, en el estudio sobre el tabaquismo y problemas vasculares sepodría diseñar seleccionando dos grupos de sujetos diferenciados por la presencia de problemasvasculares y buscando en la historia clínica la presencia o no de fumar ‐.
Puesto que el tamaño de los grupos se fija a partir de la presencia o ausencia de un determinadodesenlace, no tiene sentido calcular un índice de riesgo basado en las proporciones dedesenlaces o incidencias, pues el número de fumadores y no fumadores no ha sido previamenteestablecido sino que es producto del muestreo.
Aplicaciones Chi‐cuadrado 15
Se puede calcular la ratio fumadores/no‐fumadores tanto en el grupo de sujetos con problemasvasculares como en el grupo de sujetos sin problemas, y utilizar el cociente de ambas ratioscomo una estimación del riesgo relativo.
ESTUDIOS TRANSVERSALES O DE PREVALENCIA
Estudian simultáneamente la exposición y una característica en un momento determinado. Laobtención de datos puede ser prolongada (semanas o meses).
El estudio transversal facilita información de gran utilidad para valorar el estado de lacaracterística en estudio y determinar sus necesidades.
Utiliza un formato de tabla para análisis bivariado de variables dicotómicas, donde la variableindependiente (exposición) se presenta en filas y la variable dependiente (característica enestudio) en columnas.
La Prevalencia corresponde a la probabilidad de la característica en estudio antes de realizar laprueba.
CaracterísticaFactor de riesgo Sí No TotalExpuestos a b a + bNo expuestos c d c + dTotal a + c b + d a + b + c + d
PREVALENCIAS DE LA CARACTERÍSTICA EN ESTUDIO
• Riesgo en expuestos: 1a
pa b
=+
• Riesgo en no expuestos: 2c
pc d
=+
• 1
2
pIncidencia en expuestosRazón prevalencia Riesgo relativo (RR)
Incidencia en no expuestos p≡ = =
El Riesgo Relativo (RR) expresa cuántas veces más aparece la característica en estudio en losexpuestos que en los no‐expuestos, o bien cuántas veces más riesgo tienen los expuestos enrelación con los no‐expuestos.
RR 1 No hay asociación
RR 1 Asociación al factor de riesgo
RR 1 Asociación al factor de protección
= →> →< →
• a c
Riesgo atribuible o diferencia de riesgos (RA)a b c d
= −+ +
El Riesgo Atribuible o diferencia de riesgos (RA) indica la cantidad adicional de incidencia detener una la característica en estudio (o exceso de riesgo) que tienen los expuestos a losno‐expuestos.
Aplicaciones Chi‐cuadrado 16
• Intervalo de confianza para la razón de prevalencia RR de la característica con distribuciónasintóticamente normal:
/2 /2 /2z . V( ln RR) z . V( ln RR) z . V( ln RR)IC(RR) RR . e RR . e , RR . eα α α± −⎛ ⎞= = ⎜ ⎟
⎝ ⎠
donde 1 1 1 1
V ln RRa a b c c d
= − + −⎡ ⎤⎣ ⎦ + +
PREVALENCIAS DE EXPOSICIÓN
• Riesgo en Sí característica: 1a
pa c
=+
• Riesgo en No característica: 2b
pb d
=+
1
2
pIncidencia Si característicaRazón prevalencia Riesgo relativo esperado (RR)
Incidencia No característica p≡ = =•
• Intervalo de confianza para la razón de prevalencia RR de exposición con distribuciónasintóticamente normal:
( )/2 /2 /2z . V( ln RR ) z . V( ln RR ) z . V( ln RR )IC(RR) RR . e RR . e , RR . eα α α± −= =
donde 1 1 1 1
V ln RRa a c b b d
= − + −⎡ ⎤⎣ ⎦ + +
MEDIDA DE ASOCIACIÓN: Odds Ratio (OR)
La medida de asociación que se utiliza en los estudios de casos y controles para evaluar la fuerzade la asociación ente el factor en estudio y el evento se conoce como Odds Ratio, medida queindica la frecuencia relativa de la exposición entre los casos y los controles.
Razón de Odds anticipado: x
x
1 2
2 1
p . (1 p ) a dOR
p . (1 p ) b c−
= =−
En el estudio de casos y controles no se puede estimar directamente la incidencia de lacaracterística en los expuestos y no expuestos, dado que los sujetos son seleccionadosbasándose en la presencia o ausencia del evento en estudio y no por el estatus de exposición (aexcepción de variantes del estudio como los anidados y caso‐cohorte).
Sin embargo, cuando la presencia de la enfermedad es baja, el Odds ratio puede ser unestimador no sesgado de la razón de tasas de incidencia o de riesgo relativo.
El Odds ratio indica cuantas veces es mayor, o menor si la exposición actúa como un factorprotector, la probabilidad de los casos que han estado expuestos al factor en estudio encomparación con los controles: 0 OR≤ < ∞
OR 1= → Indica que la exposición analizada no se asocia con la característica.
OR 1< → La exposición disminuye la probabilidad de desarrollar el evento.
OR 1> → La exposición aumenta la probabilidad de desarrollar el evento.
Aplicaciones Chi‐cuadrado 17
El Odds ratio es una estimación puntual de la magnitud de asociación entre un determinadofactor y la característica analizada, para encontrar una medida de variabilidad de estaestimación se recurre al Intervalo de confianza.
Cuanto más amplio sea el Intervalo de confianza menor es la precisión de la estimación. UnIntervalo de confianza que incluya el valor 1 indica que la asociación no es significativa.
INCONVENIENTES DE OR (Razón de ventajas SPSS)
Es más susceptible a sesgos que otros diseños, posibilidad que disminuye si el estudioconsidera el uso de datos recogidos con anterioridad a la ocurrencia de la enfermedad.
El riesgo o la incidencia de la característica no se puede medir directamente.
VENTAJAS DE OR (Razón de ventajas SPSS)
Es económico en términos de recursos y tiempo debido al menor tamaño de muestrarequerido.
Es más adecuado para características con largo período de investigación. La elección de undiseño prospectivo no resultaría eficiente pues para detectar los casos se tendría que seguir a lapoblación completa durante un largo período.
Puede evaluar simultáneamente la exposición a múltiples factores etiológicos
• Intervalo de confianza para OR (Método de Woolf)
( )/2 /2 /2z . V( ln OR) z . V( ln OR) z . V( ln OR)IC(OR) OR . e OR . e , OR . eα α α± −= =
donde 1 1 1 1
V ln ORa b c d
= + + +⎡ ⎤⎣ ⎦
⊕ Cuando el tamaño de la muestra es inferior a 30 se introduce la corrección:
x
x
(a 0,5) (d 0,5)OR
(b 0,5) (c 0,5)+ +
=+ +
TAMAÑO MUESTRAL
Siendo, x
x
1 2
2 1
p . (1 p ) a dOR
p . (1 p ) b c−
= =−
con 1a
pa c
=+
, 2b
pb d
=+
, se expresa:
21
22
pp
(1 p )p
OR
=−
+ y 1
21
1
pp
(1 p )p
OR
=−
+
en este caso, 2 1 1 2 2/2 2
1 1p . (1 p ) p . (1 p )
n z .ln (1 )α
+− −
=− ∈
precisión relativa∈ ≡
Aplicaciones Chi‐cuadrado 18
COMBINACIÓN DE TABLAS: COCHRAN Y MANTEL‐HAENSZEL
Hay situaciones donde se analizan diseños de cohortes y de caso‐control. Estas situaciones seproducen cuando se desea evaluar el efecto de una variable sobre una determinada respuestautilizando distintos grupos de sujetos.
En general, se trata de estudiar si existe o no asociación entre la variable factor y una variablerespuesta, ambas dicotómicas, cuando se dispone de información referida a varios estratos.
En estas situaciones, utilizar el estadístico Chi‐cuadrado de Pearson sobre el conjunto de datosagrupados puede conducir resultados equivocados. Por otra parte, analizar separadamente cadaestrato no proporciona una idea global del efecto de la variable factor.
Se obtiene información más ajustada utilizando los estadísticos de Cochran y Mantel‐Haenszelpara contrastar la hipótesis de independencia condicional , es decir, la hipótesis deindependencia entre las variables factor y respuesta una vez que se ha controlado el efecto delos estratos.
Característica Factor de riesgo Caso Control Total
Expuestos ia ib 1in •
No expuestos ic id 2in •
Total 1in • 2in • in
CHI‐CUADRADO DE COCHRAN:
x
x x x
x
2 2k k
1i 1ii i i
ii 1 i 12 2Cochran 1k k
1i 2i 1i 2ii 2
i ii 1 i 1
n na E(a ) a
nestrato k‐ésimo
n n n nV(a )
n (n 1)
• •
• • • •
= =
= =
⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟− −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠χ = = = χ
−
∑ ∑
∑ ∑
CHI‐CUADRADO DE MANTEL‐HAENSZEL:
x
x x x
x
2 2k k
1i 1ii i i
ii 1 i 12 2MH 1k k
1i 2i 1i 2ii 2
i ii 1 i 1
n na E(a ) 0,5 a 0,5
nestrato k‐ésimo
n n n nV(a )
n (n 1)
• •
• • • •
= =
= =
⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟− − − −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠χ = = = χ
−
∑ ∑
∑ ∑
(Ejercicio página 77)
Aplicaciones Chi‐cuadrado 19
CONTRASTE NO PARAMÉTRICO DE BONDAD DE AJUSTE
1. Para comprobar si los operarios encontraban dificultades con una prensa manual de imprimir,se hizo una prueba a cuatro operarios anotando el número de atascos sufridos al introducir elmismo número de hojas, dando lugar a la siguiente tabla:
Operario A B C D TotalObstrucciones 6 7 9 18 40
Con un nivel de significación del 5%, ¿existe diferencia entre los operarios?
Solución:
Estableciendo la hipótesis nula :H0 'No existe diferencia entre los operarios'
La probabilidad de que se atascase una hoja sería 1 / 4 para todos los operarios.De este modo, el número de atascos esperados para cada uno de ellos sería i i 1, , 4(e 10) == .
Se tiene la tabla de contingencia 1 x 4:
Operario A B C D Total
Obstrucciones610
710
910
1810
4040
Se acepta la hipótesis nula, a un nivel de significación α sí
2 2k ki i i2 2
k 1 , k 1i ii 1 i 1 estadístico teórico
estadístico contraste
( n e ) nn
e e− α −= =
−χ = = − < χ∑ ∑ número intervalosk ≡
o bien, la región de rechazo de la hipótesis nula: 2k
i i 2, k 1
ii 1
(n e )R
e α −=
⎧ ⎫−⎪ ⎪= ≥ χ⎨ ⎬⎪ ⎪⎩ ⎭∑
con lo cual, 24 2 2 2 2i2
3ii 1
n 6 7 9 18n 40 9
e 10 10 10 10=
χ = − = + + + − =∑
Con el nivel de significación ( 0,05α = ), el estadístico teórico: 20, 05 , 3 7,815χ =
siendo 223 0, 05 , 39 7,815χ = > = χ se verifica la región de rechazo.
En consecuencia, se rechaza la hipótesis nula, concluyendo que existe diferencia significativaentre los operarios respecto al número de atascos en la prensa de imprimir.
Aplicaciones Chi‐cuadrado 20
CONTRASTE NO PARAMÉTRICO DE BONDAD DE AJUSTE A UNA POISSON CONPARÁMETRO DESCONOCIDO.
2. En un laboratorio se observó el número de partículas α que llegan a una determinada zonaprocedentes de una sustancia radiactiva en un corto espacio de tiempo siempre igual,obteniéndose los siguientes resultados:
Número partículas 0 1 2 3 4 5Número períodos de tiempo 120 200 140 20 10 2
¿Se pueden ajustar los datos obtenidos a una distribución de Poisson, con un nivel designificación del 5%?
Solución:
Se establece la hipótesis nula 0H : 'La distribución empírica se ajusta a laPoisson'
La hipótesis nula se acepta, a un nivel de significación α sí
2 2k ki i i2 2
k p 1 , k p 1i ii 1 i 1 estadístico teórico
estadístico contraste
(n e ) nn
e e− − α − −= =
−χ = = − < χ∑ ∑
número intervalos
númeroparámetros aestimar
k
p
≡≡
o bien, la región de rechazo de la hipótesis nula: 2k
i i 2, k p 1
ii 1
(n e )R
e α − −=
⎧ ⎫−⎪ ⎪= ≥ χ⎨ ⎬⎪ ⎪⎩ ⎭∑
La distribución de Poisson se caracteriza porque sólo depende del parámetro λ que coincidecon la media.
Sea la variable aleatoria X = 'Número de partículas' y in = 'Número de períodos de tiempo'
ix in i ix n. i iP(x k) p= =
0 120 0 0,3012
1 200 200 0,3614
2 140 280 0,2169
3 20 60 0,0867
4 10 40 0,0260
5 2 10 0,0062
i ix .n 590
x 1,2n 492
= λ = = =∑ 1,2λ = en consecuencia,
k
1,2i
1,2P(x k) e
k!−= = k 0, , 5=
n = 492 590
Las probabilidades con que llegan las partículas k 0, 1, , 5= se obtienen sustituyendo los
valores de k en k
1,2i
1,2P(x k) e
k!−= = , o bien en las tablas con 1,2λ =
Aplicaciones Chi‐cuadrado 21
Para verificar si el ajuste de los datos a una distribución de Poisson se acepta o no, mediante una2χ , hay que calcular las frecuencias esperadas i i( e n . p )=
ix 0 1 2 3 4 5
Frecuencias120
1e 148,2=200
2e 177,8=140
3e 106,7=20
4e 42,7=10
5e 12,8=2
6e 3,05=
1e = 492.0,3012 = 148,2 2e = 492.0,3614 = 177,8 3e = 492.0,2169 = 106,7
4e = 492.0,0867 = 42,7 5e = 492.0,0260= 12,8
6e = 492.0,0062 = 3,05
dando lugar a una tabla de contingencia 1 x 6, en donde hay que agrupar las dos últimascolumnas por tener la última columna frecuencias esperadas menores que cinco.
Por tanto, se tiene la tabla de contingencia 1 x 5 :
ix 0 1 2 3 4 y 5
Frecuencias120
1e 148,2=200
2e 177,8=140
3e 106,7=20
4e 42,7=12
5e 15,85=
Así, los grados de libertad son tres ( k p 1 5 1 1 3 )− − = − − =
♦ El estadístico de contraste:
2 25 5 2 2 2 2 2i i i2
3i ii 1 i 1
(n e ) n 120 200 140 20 12n 492 32,31
e e 148,2 177,8 106,27 42,7 15,8= =
−χ = = − = + + + + − =∑ ∑
♦ El estadístico teórico: 20,05 , 3 7,815χ =
El estadístico de contraste (bondad de ajuste) es mayor que el estadístico teórico (7,815) ,
rechazándose la hipótesis nula, es decir, la distribución NO se puede ajustar a una distribuciónde Poisson a un nivel de significación del 5%.
Se verifica la región de rechazo: { }2k
i i 2, k p 1
ii 1
(n e )R 32,31 7,815
e α − −=
⎧ ⎫−⎪ ⎪= ≥ χ ≡ >⎨ ⎬⎪ ⎪⎩ ⎭∑
Aplicaciones Chi‐cuadrado 22
0H : 'La distribución empírica se ajusta auna distribución de Poisson'
Valor experimental del estadístico decontraste: z 1,225=
p_valor (Sig. asintótica bilateral) 0,100=
Siendo p_valor 0,1 0,05= > = α se
acepta la hipótesis nula.
Aplicaciones Chi‐cuadrado 23
CONTRASTE NO PARAMÉTRICO DE BONDAD DE AJUSTE A UNA NORMAL CONPARÁMETROS DESCONOCIDOS.
3. Para una muestra aleatoria simple de 350 días, el número de urgencias tratadas diariamenteen un hospital A queda reflejado en la siguiente tabla:
Nº urgencias 0 – 5 5 – 10 10 – 15 15 – 20 20 – 25 25 ‐ 30 Total días
Nº días 20 65 100 95 60 10 350
Contrastar, con un nivel de significación del 5%, si la distribución del número de urgenciastratadas diariamente en el hospital A se ajusta a una distribución normal.
Solución:
Para decidir si los datos se distribuyen normalmente es necesario calcular la media y desviacióntípica.
Se establece la hipótesis nula 0H : 'La distribución empírica se ajusta a lanormal'
Se acepta la hipótesis nula, a un nivel de significación α si
2ki i2
k p 1ii 1
estadístico contraste
(n e )
e− −=
−χ = ∑
número intervalos
númeroparámetros aestimar
k
p
≡≡
Se obtiene la media y la desviación típica:
Intervalos ix in i ix n.ix n2
i .
0 ‐ 5 2,5 20 50 125
5 ‐ 10 7,5 65 487,5 3.656,25
10 ‐ 15 12,5 100 1250 1.5625
15 ‐ 20 17,5 95 1662,5 29.093,75
20 ‐ 25 22,5 60 1350 30.375
25 ‐ 30 27,5 10 275 7.562,56
i
i 1=
n = n = 350∑6
i i
i 1=
x n 5075=∑6
2i i
i 1
x . n 86.437,5=
=∑6
i i
i 1
x . n
x 14,5350
== =∑
6 62 2
i i i i
i 1 i 1 22x
(x x) . n x .n
(x ) 36,71350 250
= =
−
σ = = − =∑ ∑
x 6,06σ =
Se procede al ajuste de una distribución normal N (14,5 , 6,06) , hallando las
probabilidades de cada uno de los intervalos:
Aplicaciones Chi‐cuadrado 24
Intervalos in ip i ie p . n= 2i i(n e )− 2
i i i(n e ) / e−
0 ‐ 5 20 0,0498 17,43 6,6 0,38
5 ‐ 10 65 0,1714 59,99 25,1 0,42
10 ‐ 15 100 0,3023 105,81 33,76 0,32
15 ‐ 20 95 0,2867 100,35 28,62 0,29
20 ‐ 25 60 0,1396 48,86 124,1 2,54
25 ‐ 30 10 0,0366 12,81 7,9 0,62
n 350=6
2i i i
i 1
(n e ) / e 4,57=
− =∑
⎡ ⎤⎢ ⎥⎣ ⎦
0 ‐ 14,5 x ‐ 14,5 5 ‐ 14,5P(0 < x < 5) = P < < = P(‐2,39 < z < ‐1,57) =
6,06 6,06 6,06
= P(1,57 < z < 2,39) = P(z > 1,57) ‐ P(z > 2,39) = 0, 0582 ‐ 0, 00842 = 0, 04978
⎡ ⎤⎢ ⎥⎣ ⎦
5 ‐ 14,5 x ‐ 14,5 10 ‐ 14,5P(5 < x < 10) = P < < = P(‐1,57 < z < ‐ 0,74) =
6,06 6,06 6,06
= P(0,74 < z < 1,57) = P(z > 0,74) ‐ P(z > 1,57) = 0,2296 ‐ 0, 0582 = 0,1714
⎡ ⎤⎢ ⎥⎣ ⎦
10 ‐ 14,5 x ‐ 14,5 15 ‐ 14,5P(10 < x < 15) = P < < = P(‐0,74 < z < 0,08) =
6,06 6,06 6,06
= P(0,08 < z < 0,74) = 1 ‐ P(z > 0,74) ‐ P(z > 0,08) = 1 ‐ 0,4681 ‐ 0,2296 = 0,3023
⎡ ⎤⎢ ⎥⎣ ⎦
15 ‐ 14,5 x ‐ 14,5 20 ‐ 14,5P(15 < x < 20) = P < < = P( 0,08 < z < 0,91) =
6,06 6,06 6,06
= P(z > 0,08) ‐ P(z > 0,91) = 0,4681 ‐ 0,1814 = 0,2867
⎡ ⎤⎢ ⎥⎣ ⎦
20 ‐ 14,5 x ‐ 14,5 25 ‐ 14,5P(20 < x < 25) = P < < = P( 0,91 < z < 1,73) =
6,06 6,06 6,06
= P(z > 0,91) ‐ P(z > 1,73) = 0,1814 ‐ 0,0418 = 0,1396
⎡ ⎤⎢ ⎥⎣ ⎦
25 ‐ 14,5 x ‐ 14,5 30 ‐ 14,5P(25 < x < 30) = P < < = P( 1,73 < z < 2,56) =
6,06 6,06 6,06
= P(z > 1,73) ‐ P(z > 2,56) = 0,0418 ‐ 0,0052 = 0,0366
Se calculan las frecuencias esperadas, multiplicando las probabilidades por el número totalde datos i ie p . n=
Se calcula el estadístico de contraste 2χ , donde el número de grados de libertad esk p 1 (nº intervalos) (nº parámetros a estimar) 1 6 2 1 3− − = − − = − − = , con lo cual,
26
i i23
ii 1
(n e )4,57
e=
−χ = =∑
Aplicaciones Chi‐cuadrado 25
Adviértase que las modalidades son independientes, con lo que el número de grados de libertadson ( k p 1 )− − . Se han tenido que calcular dos parámetros: yμ σ
Por otra parte, el estadístico teórico 20,05 , 3 7,815χ =
Como 2 23 0,05 , 34,57 7,815χ = < χ = , se acepta la hipótesis nula a un nivel de significación del
5%. En consecuencia, la variable aleatoria número de urgencias en el hospital A sigue unadistribución N (14,5 , 6,06) .
4. En un examen final de estadística teórica los estudiantes recibieron las siguientescalificaciones:
80 70 90 75 55 80 50 65 100 75 60 60
75 95 50 80 90 85 70 95 75 70 85 50
50 65 65 50 60 70 85 85 90 70
Comprobar si las calificaciones fueron o no distribuidas según una ley normal a un nivel designificación 0,05
Solución:
El método de aplicación de la Prueba de ajuste para la normalidad de la distribución defrecuencias es:
Número de intervalos 34 6= ≈
Amplitud del intervalo máx mínX X 100 5010
n 6− −
= = ≈
Utilizando intervalos de clase convenientes, se clasifican los datos en una distribución defrecuencias:
Intervalos ix in i ix n.ix n2
i .
45 ‐ 55 50 5 250 12.500
55 ‐ 65 60 4 240 14.400
65 ‐ 75 70 8 560 39.200
75 ‐ 85 80 7 560 44.800
85 ‐ 95 90 7 630 56.700
95 ‐ 105 100 3 300 30.000
n 34=6
i i
i 1=
x .n 2.540=∑6
2i i
i 1
x . n 197.600=
=∑
Se calculan la media y la desviación típica:
Aplicaciones Chi‐cuadrado 26
6
i i
i 1
x . n2.540
x 74,734 34
== = =∑
62i i
i 1 22 2x x
x .n197.600
(x ) 74,7 231,67 231,67 15,234 34
=σ = − = − = σ = =∑
Se calculan las probabilidades de cada uno de los intervalos tipificando con una N(74,7, 15,2)
Intervalos in ip i ie p . n= 2i i(n e )− 2
i i i(n e ) / e−
45 ‐ 55 5 0,0729 2,4786 6,3575 2,5649
55 ‐ 65 4 0,1626 5,5284 2,3360 0,4225
65 ‐ 75 8 0,2469 8,3946 0,1557 0,0185
75 ‐ 85 7 0,2437 8,2858 1,6533 0,1995
85 ‐ 95 7 0,1582 5,3788 2,6283 0,4886
95 ‐ 105 3 0,0673 2,2882 0,5067 0,2214
3,9156
Mediante la tabla normal se hallan las probabilidades de cada uno de los intervalos:
[ ] [ ]45 74,7 x 74,7 55 74,7P 45 x 55 P P 1,95 z 1,29
15,2 15,2 15,2− − −⎡ ⎤< < = < < = − < < − =⎢ ⎥⎣ ⎦
[ ] [ ] [ ]P 1,29 z 1,95 P z 1,25 P z 1,95 0,0985 0,0256 0,0729= < < = > − > = − =
[ ] [ ] [ ]P 55 x 65 P 1,29 z 0,64 P 0,64 z 1,29< < = − < < − = < < =
[ ] [ ]P z 0,64 P z 1,29 0,2611 0,0985 0,1626= > − > = − =
[ ] [ ] [ ] [ ]P 65 x 75 P 0,64 z 0,02 P z 0,64 P z 0,02< < = − < < = > − − > =
[ ] [ ]1 P z 0,64 P z 0,02 1 0,2611 0,4920 0,2469= − > − > = − − =
[ ] [ ] [ ] [ ]P 75 x 85 P 0,02 z 0,68 P z 0,02 P z 0,68 0,4920 0,2483 0,2437< < = < < = > − > = − =
[ ] [ ]P 85 x 95 P 0,68 z 1,34 0,2483 0,0901 0,1582< < = < < = − =
[ ] [ ]P 95 x 105 P 1,34 z 2 0,0901 0,0228 0,0673< < = < < = − =
Las condiciones necesarias para aplicar el test de la Chi‐cuadrado exigen que al menos el 80% delos valores esperados de las celdas sean mayores que 5. Cuando esto no ocurre hay que agruparmodalidades contiguas en una sola hasta lograr que la nueva frecuencia sea mayor que cinco.
Aplicaciones Chi‐cuadrado 27
Se agrupan las modalidades que presentan una frecuencia esperada menor que 5 con sucorrespondiente modalidad continua, se tiene:
Intervalos in ip i ie p . n= 2i i(n e )− 2
i i i(n e ) / e−
45 ‐ 65 9 0,2355 8,0070 0,9860 0,1231
65 ‐ 75 8 0,2469 8,3946 0,1557 0,0185
75 ‐ 85 7 0,2437 8,2858 1,6533 0,1995
85 ‐ 105 10 0,2255 7,6670 5,4429 0,7100
1,0511
Se establece la hipótesis nula:
0H : Las calificaciones se distribuyen según una ley normal
El número de grados de libertad: k p 1 4 2 1 1− − = − − = , se han perdido dos grados de
libertad, ya que se han calculado dos parámetros: yμ σ
El estadístico de contraste 6 2
2 2i i1 0,05 , 1
ii 1
(n e )1,0511 3,814
e=
−χ = = < = χ∑
En consecuencia, se acepta la hipótesis nula afirmando puede considerarse que lascalificaciones se distribuyen normalmente a un nivel 0,05α =
0H : Las calificaciones se distribuyen según una ley normal
Aplicaciones Chi‐cuadrado 28
Valor experimental del estadístico decontraste: z 0,558=
P_valor (Sig. asintótica bilateral) 0,914=
Siendo p_valor 0,914 0,05= > = α se
acepta la hipótesis nula. En consecuencia,las calificaciones se distribuyen según unaley normal.
Aplicaciones Chi‐cuadrado 29
CONTRASTE DE HOMOGENEIDAD.
5. Para conocer la opinión de los ciudadanos sobre la actuación del alcalde de una determinadaciudad, se realiza una encuesta a 404 personas, cuyos resultados se recogen en la siguientetabla:
Desacuerdo De acuerdo No contestan
Mujeres 84 78 37
Varones 118 62 25
Contrastar, con un nivel de significación del 5%, que no existen diferencias de opinión entrehombres y mujeres ante la actuación del alcalde.
Solución:
Se trata de un contraste de homogeneidad en el que se desea comprobar si las muestrasproceden de poblaciones distintas.
Se tienen dos muestras clasificadas en tres niveles, donde se desea conocer si los hombres ymujeres proceden de la misma población, es decir, si se comportan de manera semejanterespecto a la opinión de la actuación del alcalde.
La hipótesis nula: 0H : 'No existe diferencia entre hombres y mujeres respecto a la opinión'
Región de rechazo de la hipótesis nula: { }2 2rechazo ( k 1 ) . (m 1 ) , ( k 1 ) . (m 1 )R α− − − −= χ ≥ χ
Se forma una tabla de contingencia 2 x 3 :
En cada frecuencia observada i j i 1 , , k , j 1 , , m(n ) = = en la tabla de contingencia se tiene una
frecuencia teórica o esperada i je que se calcula mediante la expresión: i ji j i j
xn ne p . n
n• •= = ,
donde i jp son las probabilidades de que un elemento tomado de la muestra presente las
modalidades ix de X e jy de Y.
Desacuerdo De acuerdo No contestan i•n
Mujeres84
11e 99, 50=78
12e 68, 96=37
13e 30, 53= 199
Varones118
21e 102, 50=62
22e 71, 03=25
23e 31, 46= 205
• jn 202 140 62 n 404=
=11
199 . 202e = 99,5
404 12
199 . 140e = = 68,96
404 13
199 . 62e = = 30,53
404
21
205 . 202e = = 102,5
404 22
205 . 140e = = 71,03
404 23
205 . 62e = = 31,46
404
Aplicaciones Chi‐cuadrado 30
Estadístico de contraste: 22 3
ij i j 2 2( 2 1 ) . ( 3 1 ) 2
i ji 1 j 1
(n e )
e − −= =
−= χ = χ∑∑ , con lo que,
22 3 2 2 2 2ij i j2
2iji 1 j 1
2 2
= =
(n e ) (84 99,5) (78 68,96) (37 30,53) (118 102,5)χ + + + +
e 99,5 68,96 30,53 102,5
(62 71,03) (25 31,46) + + 9,76
71,03 31,46
− − − − −= =
− −=
∑∑
sigue una 2χ con dos grados de libertad si es cierta la hipótesis nula con i je 5> i, j∀ ; en caso
contrario sería necesario agrupar filas o columnas contiguas.
♦ Estadístico de contraste: 2 2k m k m
ij ij i j2( k 1 ) . (m 1)
ij iji 1 j 1 i 1 j 1
(n e ) nn
e e− −= = = =
−= χ = −∑∑ ∑∑
22 3 2 2 2 2 2 2ij
iji 1 j 1
n 84 78 37 118 62 25n 404 9,76
e 99,5 68,96 30,53 102,5 71,03 31,46= =
− = + + + + + − =∑∑
El estadístico teórico 20,05 , 2 5,991χ =
Como 2 22 0,05 , 29, 76 5,991χ = > χ = se cumple la región de rechazo, concluyendo que las
muestras no son homogéneas, es decir, no proceden de la misma población, hombres y mujeresno opinan lo mismo.
Aplicaciones Chi‐cuadrado 31
CONTRASTE DE INDEPENDENCIA.
6. Novecientos cincuenta escolares se clasificaron de acuerdo a sus hábitos alimenticios y a sucoeficiente intelectual:
Coeficiente Intelectual
< 80 80 ‐ 90 90 ‐ 99 ≥ 100Total
Nutrición buena 245 228 177 219 869
Nutrición pobre 31 27 13 10 81
Total 276 255 190 229 950
A un nivel de significación del 10%, ¿hay relación entre las dos variables tabuladas?
Solución:
Se trata de un contraste de independencia entre el coeficiente intelectual y los hábitosalimenticios.
Se establecen las hipótesis: 0
1
H : 'Las dos variables estudiadas son independientes'
H : 'Existe dependencia entre las dos variables' ⎧⎨⎩
Estadístico de contraste: 2 2k m k m
i j i j i j2( k 1 ) . (m 1)
i j i ji 1 j 1 i 1 j 1
( n e ) nn
e e− −= = = =
−= χ = −∑∑ ∑∑
Siendo la región de rechazo de la hipótesis nula: { }2 2rechazo ( k 1 ) . (m 1 ) , ( k 1 ) . (m 1 )R α− − − −= χ ≥ χ
En la tabla de contingencia 2 x 4 para cada frecuencia observada i j i 1 , , k , j 1 , , m(n ) = = se
tiene una frecuencia teórica o esperada i je que se calcula mediante la expresión: xi j
i j
n ne
n• •=
Coeficiente Intelectual< 80 80 ‐ 90 90 ‐ 99 ≥ 100 i•n
Nutrición buena245
11e 252, 46=228
12e 233, 25=177
13e 173, 80=219
14e 209, 47= 869
Nutrición pobre31
21e 23, 53=27
22e 21, 74=13
23e 16, 20=10
24e 19, 52= 81
• jn 276 255 190 229 950
11
869 . 276e = = 252, 46
950 12
869 . 255e = = 233,25
950 13
869 . 190e = = 173,8
950 14
869 . 229e = = 209, 47
950
21
81 . 276e = = 23,53
950 22
81 . 255e = = 21,74
950 23
81 . 190e = = 16,2
950 24
81 . 229e = = 19,52
950
Aplicaciones Chi‐cuadrado 32
Estadístico de contraste:
22 4 2 2 2 2 2 2 2ij2
3iji 1 j 1
2
= =
n 245 228 177 219 31 27 13χ n + + + + + + +
e 252,46 233,25 173,8 209,47 23,53 21,74 16,2
10 + 950 9,75
19,52
= − =
− =
∑∑
ó bien,
22 4 2 2 2ij i j2
3iji 1 j 1
2 2 2 2 2
= =
(n e ) (245 252,46) (228 233,25) (177 173,8)χ + + +
e 252,46 233,25 173,8
(219 209,47) (31 23,53) (27 21,74) (13 16,2) (10 19,52) + + + + + 9,75
209,47 23,53 21,74 16,2 19,52
− − − −= =
− − − − −=
∑∑
sigue una 2χ con tres grados de libertad si es cierta la hipótesis nula con 5eij > j,i∀ ; en caso
contrario sería necesario agrupar filas o columnas contiguas.
El estadístico teórico 20,10 , 3 6,251χ =
Como 2 23 0,10 , 39, 75 6,251χ = > χ = se cumple la región de rechazo, concluyendo que se
rechaza la independencia, habiendo por tanto dependencia estadística entre el coeficienteintelectual y la alimentación.
7. Tres métodos de empaquetado de tomates fueron probados durante un período de cuatromeses; se hizo un recuento del número de kilos por 1000 que llegaron estropeados,obteniéndose los siguientes datos:
Meses A B C Total
1 6 10 10 26
2 8 12 12 32
3 8 8 14 30
4 9 14 16 39
Total 31 44 52 127
a) Observando simplemente los datos, ¿qué se puede inferir sobre el experimento?
b) Con un nivel de significación de 0,05, comprobar que los tres métodos tienen la misma eficacia.
Solución:
a) Con la simple observación de los datos, el empaquetado A parece ser el mejor, ya que es elque menos kilos de tomates estropeados tuvo. Ahora bien, esta situación puede ser engañosa,ya que hay que tener en cuenta el número de kilos que se empaquetaron.
Para tomar una decisión sobre si hay diferencia entre los diferentes métodos de empaquetado,se contrasta la hipótesis nula
Aplicaciones Chi‐cuadrado 33
0H : 'No existe diferencia entre los métodos de empaquetado'
b) Se acepta 0H sí 2 2k m k m
ij ij i j2 2( k 1 ) . (m 1) , ( k 1 ) . (m 1 )
ij iji 1 j 1 i 1 j 1
( n e ) nn
e e− − α − −= = = =
−χ = = − < χ∑∑ ∑∑
Se forma la tabla de contingencia 3 x 4 , donde xi j
i j
n ne
n• •=
EmpaquetadoMeses
A B C Total
16
11e 6, 35=10
12e 9, 01=10
13e 10, 62=2626
28
21e 7, 81=12
22e 11, 09=12
23e 13, 10=3232
38
31e 7, 32=8
32e 10, 39=14
33e 12, 28=3030
49
41e 9, 52=14
42e 13, 51=16
43e 15, 97=3939
Total 31 44 52 127
11
26 . 31e 6, 35
127= = 21
32 . 31e 7, 81
127= = 31
30 . 31e 7, 32
127= = 41
39 . 31e 9, 52
127= =
12
26 . 44e 9, 01
127= = 22
32 . 44e 11, 09
127= = 32
30 . 44e 10, 39
127= = 42
39 . 44e 13, 51
127= =
13
26 . 52e 10, 65
127= = 23
32 . 52e 13, 10
127= = 33
30 . 52e 12, 28
127= = 43
39 . 52e 15, 97
127= =
Estadístico de contraste: 23 4i j2 2
( 3 1 ) . ( 4 1 ) 6i ji 1 j 1
nn 128,24 127 1,24
e− −= =
χ = χ = − = − =∑∑
Estadístico teórico o esperado: 20,05 , 6 12,592χ =
Siendo 2 26 0,05 , 61, 24 12,592χ = < χ = , el estadístico observado es menor que el
estadístico teórico o esperado. Por tanto, no se cumple la región de rechazo,concluyendo que los tres métodos de empaquetado tienen la misma eficiencia.
Aplicaciones Chi‐cuadrado 34
0H : 'No existe diferencia entre los métodos de empaquetado'
Aplicaciones Chi‐cuadrado 35
Como p_valor (Sig. asintótica) 0,975 0,05= > = →α Se acepta la hipótesis nula. Se
concluye que no existe diferencia entre los métodos de empaquetado
Aplicaciones Chi‐cuadrado 36
8. Una empresa multinacional desea conocer si existen diferencias significativas entre sustrabajadores en distintos países en el grado de satisfacción en el trabajo‐ Para ello se tomanmuestran aleatorias simples de trabajadores, obteniendo los siguientes resultados:
Satisfacción en el trabajo
Muy satisfecho Satisfecho Insatisfecho Muy insatisfecho
España 200 300 300 100
Francia 300 400 350 150
Italia 350 300 250 150
¿Puede admitirse con un nivel de significación del 5% que la satisfacción en el trabajo es similaren los tres países?
Solución:
La hipótesis nula 0H : 'Las proporciones de los trabajadores con los distintos grados de
satisfacción son iguales en los tres países'
Se acepta 0H sí 2 2k m k m
ij ij i j2 2( k 1 ) . (m 1) , ( k 1 ) . (m 1 )
ij iji 1 j 1 i 1 j 1
( n e ) nn
e e− − α − −= = = =
−χ = = − < χ∑∑ ∑∑
Región de rechazo de la hipótesis nula: { }2 2rechazo ( k 1 ) . (m 1 ) , ( k 1 ) . (m 1 )R α− − − −= χ ≥ χ
Se forma la tabla de contingencia 3 x 4 , cada frecuencia observada i j i 1 , , k , j 1 , , m(n ) = =
tiene una frecuencia teórica o esperada xi j
i j
n ne
n• •=
Satisfacción en el trabajo
Muy satisfecho Satisfecho Insatisfecho Muy insatisfechoTotal
España200
11e 242, 86=300
12e 285, 71=300
13e 257, 14=100
14e 114, 29=900900
Francia300
21e 323, 81=400
22e 380, 95=350
23e 342, 86=150
24e 152, 38=1.2001.200
Italia350
31e 283, 33=300
32e 333, 33=250
33e 300=150
34e 133,33=1.0501.050
Total 850 1.000 900 400 3.150
Estadístico observado:
2 23 4 3 4i j i j i j2
( 3 1 ) . ( 4 1 )i j i ji 1 j 1 i 1 j 1
2 2 2 2 2 2 2 2
2 2
( n e ) nn
e e
200 300 300 100 300 400 350 150
242,86 285,71 257,14 114,29 323,81 380,95 342,86 152,38
350 300 250
283,33 333,33
− −= = = =
−χ = = − =
= + + + + + + + +
+ + +
∑∑ ∑∑
2 21503150 49,55
300 133,33+ − =
Aplicaciones Chi‐cuadrado 37
Estadístico teórico: 2 20,05 , ( 3 1 ) . ( 4 1 ) 0,05 , 6 12,592− −χ = χ =
Siendo 226 0,05 , 649,55 12,592χ = > = χ se rechaza la hipótesis nula de homogeneidad de las
tres muestras.Es decir, la satisfacción en el trabajo de los empleados de los tres países es significativamentedistinta.
9. Las compañías de seguros de automóviles suelen penalizar en sus primas a los conductoresmás jóvenes, con el criterio que éstos son más propensos a tener un mayor número deaccidentes. En base a la tabla adjunta, con un nivel de significación del 5%, contrastar si elnúmero de accidentes es independiente de la edad del conductor.
Número de accidentes al año Edad del conductor
0 1 2 3 4
25 o menos 10 10 20 40 70
26 ‐ 35 20 10 15 20 30
más de 36 60 50 30 10 5
Solución:
Hipótesis nula 0H : 'El número de accidentes sufridos por los conductores no depende
de la edad del conductor'
Se acepta 0H sí 2 2k m k m
ij ij i j2 2( k 1 ) . (m 1) , ( k 1 ) . (m 1 )
ij iji 1 j 1 i 1 j 1
( n e ) nn
e e− − α − −= = = =
−χ = = − < χ∑∑ ∑∑
Región de rechazo de la hipótesis nula: { }2 2rechazo ( k 1 ) . (m 1 ) , ( k 1 ) . (m 1 )R α− − − −= χ ≥ χ
En la tabla de contingencia 3 x 5 cada frecuencia observada i j i 1 , , k , j 1 , , m(n ) = = tiene una
frecuencia teórica o esperada en caso de independencia xi j
i j
n ne
n• •=
Número de accidentes por añoEdad delconductor
0 1 2 3 4
3
i
i 1
n •=∑
25 o menos10
11e 33, 75=10
12e 26, 25=20
13e 24, 37=40
14e 26, 25=70
15e 39, 37=150150
26 ‐ 3520
21e 21, 37=10
22e 16, 62=15
23e 15,44=20
24e 16,62=30
25e 24,94=9595
más de 3660
31e 34,87=50
32e 27,12=30
33e 25,19=10
34e 27,12=5
35e 40,69=155155
5
j
j 1
n•=∑ 90 70 65 70 105 400
Aplicaciones Chi‐cuadrado 38
11
150 . 90e 33,75
400= = 12
150 . 70e 26,25
400= = 13
150 . 65e 24,37
400= = 14
150 . 70e 26,25
400= = 15
150 . 105e 39,37
400= =
21
95 . 90e 21,37
400= =
22
95 . 70e 16,62
400= =
23
95 . 65e 15, 44
400= =
24
95 . 70e 16,62
400= = 25
95 . 105e 24,94
400= =
31
155 . 90e 34,87
400= = 32
155 . 70e 27,12
400= = 33
155 . 65e 25,19
400= = 34
155 . 70e 27,12
400= = 35
155 . 105e 40,69
400= =
Estadístico observado:2 23 5 3 5
i j i j i j2 2( 3 1 ) . ( 5 1 ) 8
i j i ji 1 j 1 i 1 j 1
2 2 2 2 2 2 2 2 2 2
2 2 2
(n e ) nn
e e
10 10 20 40 70 20 10 15 20 30
33,75 26,25 24,37 26,25 39,37 21,37 16,62 15,44 16,62 24,94
60 50 30
34,87 27,12 2
− −= = = =
−χ = χ = = − =
⎛ ⎞ ⎛ ⎞= + + + + + + + + + +⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠
+ + +
∑∑ ∑∑
2 210 5400 143,51
5,19 27,12 40,69
⎛ ⎞+ + − =⎜ ⎟
⎝ ⎠
Estadístico teórico: 2 20,05 , ( 3 1 ) . ( 5 1 ) 0,05 , 8 15,507− −χ = χ =
Como 228 0,05 , 8143,51 15,507χ = > = χ se rechaza la hipótesis nula de independencia entre la
edad del conductor y el número de accidentes.
En consecuencia, la edad influye significativamente en el número de accidentes al año.
10. En dos ciudades, A y B, se observó el color del pelo y de los ojos de sus habitantes,encontrándose las siguientes tablas:
Ciudad A Ciudad BPelo
Ojos Rubio No RubioPelo
Ojos Rubio No Rubio
Azul 47 23 Azul 54 30
No azul 31 93 No azul 42 80
a) Hallar los coeficientes de contingencia de las dos ciudades.
b) ¿En cuál de las dos ciudades podemos afirmar que hay mayor dependencia entre el color delpelo y de los ojos?
Solución:
a) Se calculan los valores de la 2χ correspondientes a las dos observaciones, siendo la
frecuencia esperada xi j
i j
n ne
n• •=
Aplicaciones Chi‐cuadrado 39
Ciudad A
PeloOjos
Rubio No Rubio Total
Azul47
11e 28,14=23
12e 41,85=7070
No azul31
21e 49,85=93
22e 74,14=124124
Total 78 116 194
11
70 . 78e 28,14
194= = 12
70 . 116e 41,85
194= =
21
124 . 78e 49,85
194= = 22
124 . 116e 74,14
194= =
Estadístico de contraste:
22 2 2 2 2 2i j2 2
( 2 1 ) . ( 2 1 ) 1i ji 1 j 1
n 47 23 31 93n 194 33,05
e 28,14 41,85 49,85 74,14− −= =
χ = χ = − = + + + − =∑∑O bien,
x x x x x x
x x x x x x
2 211 22 12 212
11 2 1 2
n (n n n n ) 194 ( 47 93 23 31)33,05
n n n n 70 124 78 116• • • •
− −χ = = =
Coeficiente de contingencia: A33,05
C 0,381533,05 194
= =+
En la población B, la tabla de contingencia 2 x 2 :
Ciudad B
PeloOjos
Rubio No Rubio Total
Azul54
11e 39,15=30
12e 44,85=8484
No azul42
21e 56,85=80
22e 65,15=122122
Total 96 110 206
11
84 . 96e 39,15
206= = 12
84 . 110e 44,85
206= =
21
96 . 122e 56,85
206= = 22
110 . 122e 65,15
206= =
Estadístico de contraste:
22 2 2 2 2 2i j2 2
( 2 1 ) . ( 2 1 ) 1i ji 1 j 1
n 54 30 42 80n 206 17,82
e 39,15 44,85 56,85 65,15− −= =
χ = χ = − = + + + − =∑∑O bien,
x x x x x x
x x x x x x
2 211 22 12 212
11 2 1 2
n (n n n n ) 206 ( 54 80 30 42)17,82
n n n n 84 122 96 110• • • •
− −χ = = =
Coeficiente de contingencia: B17,82
C 0,28217,82 206
= =+
Aplicaciones Chi‐cuadrado 40
b) Como el coeficiente de contingencia mide el grado de relación o dependencia entre lasvariables, se afirma que en la población A hay mayor dependencia entre el color de los ojos ydel pelo.
11. En una muestra aleatoria de personas se analizan algunos hábitos de la vida, habiendorecogido datos de las siguientes variables:
1X Estado general de salud: muy bueno (3), bueno (2), regular (1), malo (0)≡
2X Sexo: mujer (1), hombre (0)≡
3X Nivel del ejercicio diario: intenso (2), moderado (1), ninguno (0)≡
Realizadas las tablas de contingencia correspondientes, se calcularon los siguientes estadísticospara contrastar la asociación:
2 2 21 2 2 3 1 3a) ( X , X ) 8 b) ( X , X ) 4,5 c) ( X , X ) 6,1χ = χ = χ =
Con la información facilitada, a un nivel de significación del 5%, elaborar un diagnóstico paracada una de las parejas de variables.
Solución:
Calculando los p‐valor ( pα ) de cada estadístico se obtiene:
a) 0 1 2H : X e X son independientes
En 21 2( X , X ) 8χ = el número de grados de libertad es x( 4 1 ) ( 2 1 ) 3− − =
2p p , 3P( 8 )α = χ ≥ − Interpolando en la tabla Chi‐cuadrado:
0,05 pα 0,025
7,815 8 9,348
p
0,05 0,025 7,815 9,348
0,025 8 9,348
− ⎯⎯→ −
α − ⎯⎯→ −
x xp p( 0,025 ) ( 7,815 9,348 ) ( 0,05 0,025) ( 8 9,348 ) 0,0469α − − = − − → α =
Siendo p 0,0469 0,05α = < se rechaza la hipótesis nula, concluyendo que el estado general de
salud está asociado al sexo.
b) 0 2 3H : X e X son independientes
En 22 3( X , X ) 4,5χ = el número de grados de libertad es x( 2 1 ) ( 3 1 ) 2− − =
2p p , 2P( 4,5 )α = χ ≥ − Interpolando en la tabla Chi‐cuadrado:
0,90 pα 0,10
0,211 4,5 4,605
p
0,90 0,10 0,211 4,605
0,10 4,5 4,605
− ⎯⎯→ −
α − ⎯⎯→ −
p px x( 0,10 ) ( 0,211 4,605 ) ( 0,90 0,10 ) ( 4,5 4,605 ) 0,119α − − = − − → α =
Aplicaciones Chi‐cuadrado 41
Siendo p 0,119 0,05α = > se acepta la hipótesis nula, concluyendo que el sexo esindependiente del nivel del ejercicio diario.
c) 0 1 3H : X e X son independientes
En 21 3( X , X ) 6,1χ = el número de grados de libertad es x( 4 1 ) ( 3 1) 6− − =
2p p , 6P( 6,1 )α = χ ≥ − Interpolando en la tabla Chi‐cuadrado:
0,90 pα 0,10
2,204 6,1 10,645
p
0,90 0,10 2,204 10,645
0,10 6,1 10,645
− ⎯⎯→ −
α − ⎯⎯→ −
x xp p( 0,10 ) ( 2,204 10,645 ) ( 0,90 0,10 ) ( 6,1 10,645 ) 0,530α − − = − − → α =
Siendo p 0,530 0,05α = > se acepta la hipótesis nula, concluyendo que el estado general de
salud es independiente del nivel del ejercicio diario.
12. Para curar cierta enfermedad se sabe que existen cuatro tratamientos diferentes. Aplicadospor separado a un grupo distinto de enfermos, se han observado los siguientes resultados:
EnfermoTratamientos
Curados No curados Total
A 60 23 83
B 46 10 56
C 70 17 87
D 54 30 84
¿Se puede considerar que la eficacia de los cuatro tratamientos es la misma con un nivel deconfianza del 95 por 100?
Solución 1:
Se trata de un contraste de homogeneidad de cuatro muestras, con 83, 56, 87 y 84 personas, delas cuales hay, respectivamente, 60, 46, 70 y 54 personas curadas.
Se establece la hipótesis nula:
0H : Los cuatro tratamientos (muestrales) son de la misma eficacia
Lo que lleva a afirmar que la proporción de personas curadas en cada muestra esp 230 / 310 0,742= = y las no curadas q 1 0,742 0,258= − = , donde xi ie n p• •=
Aplicaciones Chi‐cuadrado 42
EnfermoTratamientos
Curados
i 1( n ) No curados in •
A 60 2383
x1e 83 0,742 61,58• = =
B 46 1056
x2e 56 0,742 41,55• = =
C 70 1787
x3e 87 0,742 64,55• = =
D 54 3084
x4e 84 0,742 62,32• = =
4 2 2 2 2 2i 1 i
ii 1
( n e ) ( 60 61,58 ) ( 46 41,55 ) ( 70 64,55 ) ( 54 62,32 )1,55
n 83 56 87 84•
•=
− − − − −= + + + =∑
x xx x
4 2i 1 i2 2
k 1 4 1ii 1
( n e )1 11,55 8,09
p q n 0,742 0,258•
− −•=
−⎛ ⎞ ⎛ ⎞χ = χ = = =⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
∑
Siendo 2 23 0,05 , 38,09 7,815χ = > = χ se rechaza la hipótesis nula. Es decir, los tratamientos a
efectos de curar a los pacientes tienen diferente eficacia, con un nivel de significación 0,05α =
Solución 2:
Se establece la hipótesis nula:
0H : Los cuatro tratamientos (muestrales) son de la misma eficacia
Es una tabla de contingencia 4 x 2, con una frecuencia teórica x
xi j
i j i j
n ne p n
n• •= =
EnfermoTratamientos
Curados No curados in •
A60
11e 61,58=23
12e 21,42=8383
B46
21e 41,55=10
22e 14,45=5656
C70
31e 64,55=17
32e 22,45=8787
D54
41e 62,32=30
42e 21,68=8484
jn • 230 80 310
11x83 230
e 61,58310
= = 21x56 230
e 41,55310
= = 31x87 230
e 64,55310
= = 41x84 230
e 62,32310
= =
Aplicaciones Chi‐cuadrado 43
12x83 80
e 21,42310
= = 22x56 80
e 14,45310
= = 32x87 80
e 22,45310
= = 42x84 80
e 21,68310
= =
4 2 2 2 2 2ij i j2
( 4 1 ) . ( 2 1 )i j
i 1 j 1
2 2 2 22
(n e ) ( 60 61,58 ) ( 23 21,4 2) ( 46 41,55)e 61,58 21,42 41,55
( 70 64,55 ) (17 22,45 ) ( 54 62,32 ) ( 30 21,68 )(10 14,45)8,09
14,45 64,55 22,45 62,32 21,68
− −
= =
− − − −χ = = + + +
− − − −−+ + + + + =
∑∑
La expresión anterior se podía haber realizado de forma más sencilla con la igualdad:
4 2 4 22 2 2 2 2 2ij i j i j2
( 4 1 ) . ( 2 1 )i j i j
i 1 j 1 i 1 j 1
2 2 2 2
(n e ) n 60 23 46 10n
e e 61,58 21,42 41,55 14.45
70 17 54 30 3
64,55 22,45 62,32 21,68
− −
= = = =
−χ = = − = + + + +
+ + + + −
∑∑ ∑∑10 8,09=
Como 2 23 0,05 , 38,09 7,815χ = > = χ se rechaza la hipótesis nula. Los tratamientos a efectos de
curar a los pacientes tienen diferente eficacia, a un nivel 0,05α =
13. Demostrar que el estadístico k 2 k 2
i i i
i ii 1 i 1
(n e ) nn
e e= =
−= −∑ ∑
Solución:
k 2 k 2 2 k 2i ii i i i i i i
i i ii 1 i 1 i 1
n . e(n e ) n 2 .n . e e n2 .
e e e= = =
− − += = −∑ ∑ ∑
ie
k 2i
i 1
e
=
+∑ie
k
i 1
k 2 k k k 2 ki i
i i i ii ii 1 i 1 i 1 i 1 i 1
k 2 k k 2 k 2i i i
ii i ii 1 i 1 i 1 i 1
n n 2 . n e 2 .n n .p
e e
n n n 2 .n n . p 2 .n n n
e e e
=
= = = = =
= = = =
=
= − + = − + =
= − + = − + = −
∑
∑ ∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
Aplicaciones Chi‐cuadrado 44
14. En el gráfico se presenta la evaluación del estado general de salud de una muestra depersonas adultas mayores, según sea su peso normal o sobrepeso.
Con los datos del gráfico, con un nivel de significación del 5%, analizar la existencia de unarelación significativa entre el peso y el estado general de salud en el adulto mayor.
Solución:
a) Se trata de dos variables dicotómicas, con datos de frecuencia, pudiéndose aplicar unaprueba de contraste de asociación con la Chi‐cuadrado.
Hipótesis nula 0H : El estado de salud y el peso son independientes
Llevando la información a una tabla de contingencia de x2 2
PesoEstado de Salud
Normal SobrepesoTotal
Bueno12
11e 9,41=8
12e 10,59=2020
Malo4
21e 6,59=10
22e 7,41=1414
Total 16 18 34
La frecuencia observada 21n 4= es menor que lo aconsejable en cada celda ( 5≥ ), lo que
podría hacer pensar en una inestabilidad del cálculo.
Como la frecuencia esperada 21e 6,59= , todas las celdas cumplen con el mínimo aconsejable
de 5 en su valor esperado. En la práctica se acepta hasta un 20% de las celdas que no cumplencon el requisito de que la frecuencia esperada sea 5≥
Se calculan los valores de la 2χ correspondientes a las dos observaciones, siendo la frecuencia
esperada x
xi j
i j i j
n ne p n
n• •= =
1120 . 16
e 9, 4134
= = 1220 . 18
e 10,5934
= = 2114 . 16
e 6,5934
= = 2214 . 18
e 7, 4118
= =
Aplicaciones Chi‐cuadrado 45
Estadístico de contraste:
22 2 2 2 2 2ij2 2
( 2 1 ) . ( 2 1 ) 1iji 1 j 1
n 12 8 4 10n 34 3,27
e 9,41 10,59 6,59 7,41− −= =
χ = χ = − = + + + − =∑∑
Se podría haber calculado con la fórmula sencilla:
x x x x x x
x x x x x x
2 211 22 12 212
11 2 1 2
n (n n n n ) 34 (12 10 8 4)3,27
n n n n 20 14 16 18• • • •
− −χ = = =
Estadístico teórico: 20,05 , 1 3,841χ =
Como 2 21 0,05, 13,27 3,841χ = < = χ se acepta la hipótesis nula, concluyendo que el estado
general de salud del adulto mayor no está asociado a su peso.
Adviértase que como la muestra n 50< se hace aconsejable el uso de la Chi‐cuadrado con
el factor de corrección de continuidad de Yates:
Factor corrección de Yates: i j i j i j
i j i j i j
n e n 0,5
n e n 0,5
< → +⎧⎨ > → −⎩
Expresión que se puede sintetizar:
22 2
ij ij21
iji 1 j 1
n e 0,5
e= =
⎡ ⎤− −⎣ ⎦χ = ∑∑
PesoEstado de Salud
Normal SobrepesoTotal
Bueno11,5
11e 9,41=8,5
12e 10,59=2020
Malo4,5
21e 6,59=9,5
22e 7,41=1414
Total 16 18 34
2 2 22 2ij ij2
1iji 1 j 1
2 2
n e 0,5 12 9,41 0,5 8 10,59 0,5
e 9,41 10,59
4 6,59 0,5 10 7,41 0,5 2,13
6,59 7,41
= =
⎡ ⎤− − ⎡ ⎤ ⎡ ⎤− − − −⎣ ⎦ ⎣ ⎦ ⎣ ⎦χ = = + +
⎡ ⎤ ⎡ ⎤− − − −⎣ ⎦ ⎣ ⎦+ + =
∑∑
O bien,
x x x x x x
x x x x x x
2 211 22 12 212
11 2 1 2
n (n n n n ) 34 (11,5 9,5 8,5 4,5)2,13
n n n n 20 14 16 18• • • •
− −χ = = =
Para una tabla de contingencia de x2 2 la corrección de Yates, caso general de aplicación:
Aplicaciones Chi‐cuadrado 46
x x x
x x x
2
11 22 12 2121
1• 2• •1 •2
nn n n n n
2n n n n
⎡ ⎤− −⎢ ⎥⎣ ⎦χ = Corrección no es válida cuando
x x11 22 12 21n
n n n n2
− ≤
En el caso, x x x
x x x
2
21
3434 12 10 8 4
22,13
20 14 16 18
⎡ ⎤− −⎢ ⎥⎣ ⎦χ = =
Como 2 21 0,05, 12,13 3,841χ = < = χ se acepta la hipótesis nula.
La validez del contraste también se puede hacer con el p‐valor ( pα ) :
( )2p p , 1P 2,13 0,271α = χ > =
0,90 pα 0,10
0,0158 2,13 2,706
p
0,90 0,10 0,0158 2,706
0,10 2,13 2,706
− ⎯⎯→ −
α − ⎯⎯→ −
x xp p( 0,10 ) ( 0,0158 2,706 ) ( 0,90 0,10 ) ( 2,13 2,706 ) 0,271α − − = − − → α =
Al ser p 0,271 0,05α = > = α se rechaza la hipótesis nula, afirmando que el estado general de
salud del adulto mayor es independiente de su peso.
15. Un experimento para investigar el efecto de vacunación de animales de laboratorio reflejala siguiente tabla:
Animal laboratorioVacuna
Enfermo No Enfermo
Vacunado 9 42
No Vacunado 18 28
Con un nivel de significación de 0,05, ¿Es conveniente vacunar?.
Solución:
Hipótesis nula 0H : Es independiente la vacuna de los animales enfermos
Animal laboratorioVacuna
Enfermo No EnfermoTotal
Vacunado 9 42 51
No Vacunado 18 28 46
Total 27 70 97
En una tabla de contingencia de x2 2 Chi‐cuadrado se puede calcular de una forma sencilla
recurriendo a las frecuencias observadas.
Aplicaciones Chi‐cuadrado 47
Estadístico observado:
x x x x x x
x x x x x x
2211 22 12 212
11 2 1 2
n (n n n n ) 97 9 28 42 185,5570
n n n n 51 46 27 70• • • •
− −⎡ ⎤⎣ ⎦χ = = = =
El número de grados de libertad es x( 2 1 ) ( 2 1) 1− − =
Estadístico teórico: 20,05 , 1 3,841χ =
Siendo 2 21 0,05 , 15,5570 3,841χ = > = χ se rechaza la hipótesis nula, es decir, la vacuna afecta a
la enfermedad, con un nivel de significación 0,05α =
El grado de relación o dependencia viene determinado por el coeficiente de contingencia:
3,841C 0,195 (19,5%)
3,841 97= =
+
16. Se desea analizar si los estudiantes de universidades privadas preferentemente son de losestratos económicos altos del país. Para ello, se ha tomado la siguiente muestra:
Grupos socioeconómicos Universidades
Alto Medio alto Medio bajo Bajo
Estado 13 17 4 3
Privadas 38 19 2 2
a) Para validar el análisis con un nivel de confianza del 95%, realizar un contraste por la razón deverosimilitud (test G).
b) Estudiar el grado de dependencia entre el tipo de universidad y el estrato socioeconómico.
Solución:
a) El test de contraste de independencias por la razón de verosimilitudes (test G) es una pruebade hipótesis de la Chi‐cuadrado que presenta mejores resultados que el de Pearson. Se
distribuye asintóticamente como una variable aleatoria 2χ con x( k 1 ) (m 1 )− − grados de
libertad.
El estadístico . .
k mij
i ji ji 1 j 1
nG 2 n ln
e= =
⎛ ⎞= ⎜ ⎟⎜ ⎟
⎝ ⎠∑∑
Se acepta la hipótesis nula 0H sí . .
k mij 2
i j , ( k 1 ) . (m 1 )i ji 1 j 1
nG 2 n ln
e α − −= =
⎛ ⎞= < χ⎜ ⎟⎜ ⎟
⎝ ⎠∑∑
Hipótesis nula 0H : El tipo de universidad es independiente del grupo socioecónomico
En un principio, la tabla presenta un 50% de celdas que no verifican que las frecuencias seanmayores que 5, teniendo que agrupar modalidades contiguas en una sola hasta lograr que lanueva frecuencia sea mayor que cinco.
Aplicaciones Chi‐cuadrado 48
Grupos socioeconómicosUniversidades
Alto Medio alto Medio bajo ‐ Bajo
Estado 13 17 7
Privadas 38 19 4
Se calculan los valores esperados de cada celda, donde x
xi j
i j i j
n ne p n
n• •= =
Grupos socioeconómicosUniversidades
Alto Medio alto Medio bajo ‐ BajoTotal
Estado13
11e 19,26=17
12e 13,59=7
13e 4,15=3737
Privadas38
21e 31,74=19
22e 22,41=4
23e 6,85=6161
Total 51 36 11 98
1137 . 51
e 19,2698
= = 1237 . 36
e 13,5998
= = 1337 . 11
e 4,1598
= =
2161 . 51
e 31,7498
= = 2261 . 36
e 22, 4198
= = 2361 . 11
e 6,8598
= =
La frecuencia observada 23n 4= es menor que lo aconsejable en cada celda ( 5≥ ), lo que
podría hacer pensar en una inestabilidad del cálculo. Como la frecuencia esperada 23e 6,85=se confirma la estabilidad de la prueba.
Todas las celdas, excepto 13e 4,15 5= < , cumplen con el mínimo aconsejable de 5 en su valor
esperado. En la práctica se acepta hasta un 20% de las celdas que no cumplen con el requisitode que la frecuencia esperada sea 5≥
En cada celda se calcula el valor de xij
i ji j
nn ln
e
⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠
Grupos socioeconómicosUniversidades
Alto Medio alto Medio bajo ‐ BajoTotal
Estado
13
11e 19,26=
11g 5,11= −
17
12e 13,59=
12g 3,80=
7
13e 4,15=
13g 3,66=
37372,35
Privadas
38
21e 31,74=
21g 6,84=
19
22e 22,41=
22g 3,14= −
4
23e 6,85=
23g 2,15= −
61611,55
Total511,73
360,66
111,51
983,9
x13
13 ln 5,1119,26
⎛ ⎞ = −⎜ ⎟⎝ ⎠
x17
17 ln 3,8013,59
⎛ ⎞ =⎜ ⎟⎝ ⎠
x7
7 ln 3,664,15
⎛ ⎞ =⎜ ⎟⎝ ⎠
Aplicaciones Chi‐cuadrado 49
x38
38 ln 6,8431,74
⎛ ⎞ =⎜ ⎟⎝ ⎠
x19
19 ln 3,1422,41
⎛ ⎞ = −⎜ ⎟⎝ ⎠
x4
4 ln 2,156,85
⎛ ⎞ = −⎜ ⎟⎝ ⎠
Estadístico observado: . . x
2 3i j
i ji ji 1 j 1
nG 2 n ln 2 3,9 7,8
e= =
⎛ ⎞= = =⎜ ⎟⎜ ⎟
⎝ ⎠∑∑
Número de grados de libertad: x( 2 1 ) ( 3 1) 2− − =
Estadístico teórico: 20,05, 2 5,991χ =
Como 20,05, 2G 7,8 5,991= > = χ , se rechaza la hipótesis nula de independencia, concluyendo
que el tipo de universidad está asociado al grupo socioeconómico.
La validez del contraste también se puede hacer con el p‐valor ( pα ):
( )2p p , 2P 7,8 0,02α = χ > =
0,025 pα 0,02
7,378 7,8 7,824
p
0,025 0,02 7,378 7,824
0,02 7,8 7,824
− ⎯⎯→ −
α − ⎯⎯→ −
x xp p( 0,02 ) ( 7,378 7,824 ) ( 0,025 0,02 ) ( 7,8 7,824) 0,02026α − − = − − → α =
Al ser p 0,02026 0,05α = < = α se acepta la hipótesis nula, afirmando que el tipo de
universidad depende del estrato socioeconómico.
b) El grado de contingencia mide el grado de relación o dependencia:
G 7,8
C 0,2715G n 7,8 98
= = =+ +
, hay una dependencia del 27,15%.
0H : El tipo de universidad es independiente del grupo socioecónomico
Aplicaciones Chi‐cuadrado 50
Aplicaciones Chi‐cuadrado 51
La 2χ de Pearson se podía calcular con una fórmula sencilla sin tener que calcular lasfrecuencias esperadas:
Grupos socioeconómicosUniversidades Alto Medio alto Medio bajo ‐ Bajo
2
i
i 1
n •=∑
Estado 13 17 7 37
Privadas 38 19 4 61
3
j
j 1
n•=∑ 51 36 11 98
x x
2 2 2 2 2 211 12 13 21 22 232
21 1 2 3 2 1 2 3
n n n n n nn nn
n n n n n n n n• • • • • • • •
⎡ ⎤ ⎡ ⎤χ = + + + + + −⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
x x
2 2 2 2 2 222
98 9813 17 7 38 19 498 7,78
37 51 36 11 61 51 36 11
⎡ ⎤ ⎡ ⎤χ = + + + + + − =⎢ ⎥ ⎢ ⎥
⎣ ⎦ ⎣ ⎦
17. Un agricultor desea saber si existe diferencia entre diez abonos en el cultivo del plátano enuna determinada zona. Para ello abona seis matas con cada abono, observa el número de kilosy obtiene los siguientes resultados:
Abonos 1x 2x 3x 4x 5x 6x 7x 8x 9x 10x
i
2xσ 9 3 4 3 5 4 2 4 5 3
¿Existe diferencia entre los abonos a un nivel 0,01α = ?
Solución:
Se desea comprobar si todos los abonos tienen o no la misma varianza. Para ello se establece lahipótesis nula 0H : Todas las varianzas son iguales
Lo que equivale a decir que no hay diferencia entre los abonos.
Como todas las muestras tienen los mismos elementos 1 2 10(n n n 6)= = = = , se acepta
la hipótesis nula sí:
k
2 2 2 2k 1 i , ( k 1 )
i 1
(n 1 ) . k . ln ln− α −=
⎡ ⎤χ = − σ − σ < χ⎢ ⎥
⎢ ⎥⎣ ⎦∑
Abonos 1x 2x 3x 4x 5x 6x 7x 8x 9x 10x TOTAL
i
2xσ 9 3 4 3 5 4 2 4 5 3 42
i
2xln σ 2,20 1,10 1,39 1,10 1,61 1,39 0,69 1,39 1,61 1,10 13,56
i
102 2x x
i 1
1 42. 4,2
10 10=σ = σ = =∑
Aplicaciones Chi‐cuadrado 52
210 1 ( 6 1 ) . 10 . ln 4,2 13,56 3,9542−χ = − − =⎡ ⎤⎣ ⎦
Siendo 2 29 0,01, 9 03,9542 21,6660 Se acepta H (todas las varianzas son iguales)χ = < = χ →
En consecuencia, no hay diferencia entre los abonos, pudiendo considerar las seis matas deplátanos pertenecientes a la misma población.
18. Para analizar la repercusión que tienen los debates televisivos en la intención de voto, unequipo de investigación recogió datos entre 240 individuos antes y después del debate,resultando la siguiente tabla:
Después del debate(candidatos)Antes del debate
(candidatos)A B
Total
A 46 50 96
B 85 59 144
Total 131 109 240
Se desea saber si el debate televisivo cambió la intención de voto, con un nivel de significacióndel 5%.
Solución:
Se trata de una muestra pareada en una situación antes‐después, con lo que es idóneo uncontraste estadístico Chi‐cuadrado de McNemar.
Después del debate (candidatos)Antes del debate(candidatos) A B
Total
A 46 (a) 50 (b) 96 (a b)+
B 85 (c) 59 (d) 144 (c d)+
Total 131 (a c)+ 109 (b d)+ 240 n
Sea la hipótesis nula 0H : La intención de voto es la misma antes y después del debate
Siendo b c 50 85 135 20+ = + = ≥
El estadístico de contraste es: 2
2 2McNemar 1
(b c )b c−
χ = χ =+
Estadístico muestral: 2
2McNemar
( 85 50 )9,074
85 50−
χ = =+
Estadístico teórico: 2 2/ 2 , 1 0,025, 1 5,024αχ = χ =
Como 2 2McNemar 0,025, 19,074 5,024χ = > = χ se rechaza la hipótesis nula, concluyendo que la
intención de voto cambió significativamente después del debate, con un nivel de significacióndel 5%.
Aplicaciones Chi‐cuadrado 53
Hipótesis nula 0H : La intención de voto es la misma antes y después del debate
Aplicaciones Chi‐cuadrado 54
p_valor (Sig. bilateral) 0,003 0,05= <Por tanto, se rechaza la hipótesis nula
Aplicaciones Chi‐cuadrado 55
19. En un ensayo experimental se administran cuatro tratamientos diferentes a cincoindividuos, se refleja 1 ó 0 dependiendo si hay o no mejoría, respectivamente. Los resultadosobtenidos se reflejan en la tabla adjunta. Con un nivel de significación de 0,05, ¿existe diferencia en los tratamientos?
Tratamientos
Individuos 1 2 3 4
5
i
i 1
x •=∑
1 1 1 1 0 3
2 0 0 0 1 1
3 1 1 0 1 3
4 1 0 0 0 1
5 0 0 1 0 14
j
j 1
x •=∑ 3 2 2 2 9
Solución:
Sea la variable dicotómica X = resultado en el tratamiento
Hipótesis nula 0H : Los tratamientos son igualmente efectivos
Hipótesis alternativa: 0H : Existe diferencia en la eficacia de los tratamientos
x x x x
x
24
j
j 12Cochran ( 4 1 ) 5
i i
i 1
nx
k 0,75Q 4 (4 1) 4 3 0,6
15x ( k x )
•
−
• •
=
=
⎡ ⎤−⎢ ⎥⎣ ⎦= χ = − = =
−
∑
∑24 2 2 2 2
j
j 1
n 9 9 9 9x 3 2 2 2 0,75
k 4 4 4 4•=
⎡ ⎤ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞− = − + − + − + − =⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎢ ⎥⎣ ⎦ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠∑
x
5
i i
i 1
x (k x ) 3 . ( 4 3 ) 1 . ( 4 1 ) 3 . ( 4 3 ) 1 . ( 4 1 ) 1 . ( 4 1 ) 15• •=
− = − + − + − + − + − =∑
Como 2 23 0,05, 30,6 7,8147χ = < = χ → Se acepta la hipótesis nula, concluyendo que los
tratamientos con igualmente efectivos.
Aplicaciones Chi‐cuadrado 56
Hipótesis nula 0H : Los tratamientos son igualmente efectivos
p_valor (Sig. asintótica) 0,896 0,05= >Por tanto, se admite la hipótesis nula
Aplicaciones Chi‐cuadrado 57
20. Se ha realizado un estudio sobre la situación laboral de las mujeres y su estado civil, losdatos obtenidos fueron:
Estado civil Trabajoremunerado Casada Soltera
Total
Si No Total 45 35 80
Los resultados obtenidos en el análisis de la tabla de contingencia fueron:
Estadísticos Valor p‐valorChi‐cuadrado Pearson 5,634361 0,0175Chi‐cuadrado de Yates 4,154897 0,0357Test G 5,789645 0,0189Chi‐cuadrado NcNemar 2,94 0,0978Correlación Phi ‐0,685643 0,0178Q de Yule ‐0,812345
Con un nivel de significación 0,05α = , se pide:
a) ¿Se encuentra asociada la situación laboral de la mujer a su estado civil?
b) ¿Generalmente, las mujeres que realizan un trabajo remunerado con solteras?
Solución:
a) Para analizar la dependencia o no de la situación laboral de la mujer con su estado civil
(asociación entre variables categóricas en una tabla de x2 2 ) se utiliza el test de la 2χ de
Pearson, con o sin corrección de Yates, el test G de razón de verosimilitudes.
El test de McNemar no se puede utilizar en este caso por no tratarse de muestras pareadas(antes‐después).
Estableciendo las hipótesis:
0H : La situación laboral de la mujer es independiente de su estado civil. 1H La situación laboral de la mujer depende de su estado civil.:
Los tres estadísticos primeros, basados en la 2χ , presentan un p‐valor 0,05α =< , con lo que se
rechaza la hipótesis nula 0H , concluyendo que la situación laboral de la mujer está asociada a su
estado civil.
b) Partiendo de que la situación laboral de la mujer se encuentra asociada a su estado civil, faltapor determinar la dirección de dicha asociación, para lo que se recurre al coeficiente decorrelación Phi y la Q de Yule.
Ambos estadísticos son negativos, con un p‐valor 0,05α =< , pudiendo afirmar que la
correlación entre la situación laboral y el estado civil de las mujeres es inversa y significativa al5%.
Se puede concluir que la situación laboral de la mujer (sí esta trabajando) esta asociada a lassolteras, con un nivel de significación del 5%.
Aplicaciones Chi‐cuadrado 58
21. La tabla adjunta refleja un análisis de la obesidad en 14 sujetos. Con un nivel de significaciónde 0,05, se desea analizar si existen diferencias en la prevalencia de obesidad entre hombres ymujeres o si, por el contrario, el porcentaje de obesos no varía entre sexos.
Obesidad Sexo
Sí NoTotal
Mujeres 1 (a) 4 (b) 5 ( a b )+
Hombres 7 (c) 2 (d) 9 ( c d )+
Total 8 ( a c )+ 6 (b d )+ 14 n
Solución:
El test exacto de Fisher permite analizar si dos variables dicotómicas están asociadas cuando lamuestra a estudiar es demasiado pequeña y no cumple las condiciones necesarias para que laaplicación del test de la Chi‐cuadrado sea idónea.
Las condiciones necesarias para aplicar el test de la Chi‐cuadrado exige que al menos el 80% delos valores esperados de las celdas sean mayores que 5. De este modo, en una tabla decontingencia de x2 2 será necesario que todas las celdas verifiquen esta condición, si bien en la
práctica suele permitirse que una de ellas tenga frecuencias esperadas ligeramente por debajode 5.
Si las dos variables que se están analizando son dicotómicas, y la frecuencia esperada es menor
que 5 en más de una celda, no resulta adecuado aplicar el test de la 2χ aunque sí el test exactode Fisher.
El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una de las tablas x2 2
que se pueden formar manteniendo los mismos totales de filas y columnas que los de la tablaobservada. Cada uno de estas probabilidades se obtiene bajo la hipótesis de independencia delas dos variables que se están analizando.
La probabilidad asociada a los datos que han sido observados viene dada por:
( a b )! ( c d )! ( a c )! (b d )!
pn! a! b! c! d!
+ + + +=
La fórmula general de la probabilidad descrita deberá calcularse para todas las tablas decontingencia que puedan formarse con los mismos totales de filas y columnas de la tablaobservada.
El valor de la p asociado al test exacto de Fisher puede calcularse sumando las probabilidades delas tablas que resulten menores o iguales a la probabilidad de la tabla que ha sido observada.
Cuando el planteamiento es bilateral, es decir, cuando la hipótesis alternativa asume ladependencia entre las variables dicotómicas, pero sin especificar de antemano en qué sentido seproducen dichas diferencias, el valor de la p se multiplica por 2.
En este caso, planteando la hipótesis nula 0H : El sexo y ser obeso son independientes
Aplicaciones Chi‐cuadrado 59
ObesidadSexo
Sí NoTotal
Mujeres 1 (a) 4 (b) 5 ( a b )+
Hombres 7 (c) 2 (d) 9 ( c d )+
Total 8 ( a c )+ 6 (b d )+ 14 n
p 0,0599=
( a b )! ( c d )! ( a c )! (b d )! 5! 9! 8! 6!p 0,0599
n! a! b! c! d! 14! 1! 4! 7! 2!+ + + +
= = =
Las siguientes tablas muestran todas las posibles combinaciones de frecuencias que se puedenobtener con los mismos totales de filas y columnas:
ObesidadSexo
Sí NoTotal
Mujeres 4 (a) 1 (b) 5 ( a b )+
Hombres 4 (c) 5 (d) 9 ( c d )+
Total 8 ( a c )+ 6 (b d )+ 14 n
p 0,2098=
( a b )! ( c d )! ( a c )! (b d )! 5! 9! 8! 6!p 0,2098
n! a! b! c! d! 14! 4! 1! 4! 5!+ + + +
= = =
ObesidadSexo
Sí NoTotal
Mujeres 2 (a) 3 (b) 5 ( a b )+
Hombres 6 (c) 3 (d) 9 ( c d )+
Total 8 ( a c )+ 6 (b d )+ 14 n
p 0,2797=
ObesidadSexo
Sí NoTotal
Mujeres 3 (a) 2 (b) 5 ( a b )+
Hombres 5 (c) 4 (d) 9 ( c d )+
Total 8 ( a c )+ 6 (b d )+ 14 n
p 0,4196=
( a b )! ( c d )! ( a c )! (b d )! 5! 9! 8! 6!p 0,4196
n! a! b! c! d! 14! 3! 2! 5! 4!+ + + +
= = =
ObesidadSexo
Sí NoTotal
Mujeres 0 (a) 5 (b) 5 ( a b )+
Hombres 8 (c) 1 (d) 9 ( c d )+
Total 8 ( a c )+ 6 (b d )+ 14 n
p 0,0030=
Aplicaciones Chi‐cuadrado 60
ObesidadSexo
Sí NoTotal
Mujeres 5 (a) 0 (b) 5 ( a b )+
Hombres 3 (c) 6 (d) 9 ( c d )+
Total 8 ( a c )+ 6 (b d )+ 14 n
p 0,0280=
Sumando las probabilidades de las tablas que son menores o iguales a la probabilidad de la tablaobservada (p 0,0599= ) se tiene:
p 0,0599 0,0030 0,0280 0,0909= + + =
Siendo p valor 0,0909 0,05− = > se acepta la hipótesis nula, concluyendo que el sexo y el
hecho de ser obeso son independientes, es decir, no existe asociación entre las variables enestudio, con un nivel de significación 0,05α =
Para calcular el p valor− unilateral se suman las probabilidades asociadas a aquellas tablas quesean más favorables a la hipótesis alternativa de los datos observados.
La tabla extrema de los datos observados es la que no se observa ninguna mujer obesa,
p 0,0030=
p 0,0599 0,0030 0,0629= + =
0H : El sexo y ser obeso son independientes
Aplicaciones Chi‐cuadrado 61
Aplicaciones Chi‐cuadrado 62
Siendo p_valor (Sig. exacta bilateral) 0,090909 0,05= > = →α Se acepta la hipótesis nula,
concluyendo que la obesidad es independiente del sexo.
Aplicaciones Chi‐cuadrado 63
22. Entre los pacientes con cáncer de pulmón, el 90% o más muere generalmente en el espaciode tres años. Se cree que un tratamiento experimental reduce esta tasa. En un reciente estudiosobre 150 pacientes diagnosticados de cáncer de pulmón, 125 murieron en el espacio de tresaños. ¿Se puede afirmar, con un nivel de confianza del 95%, que realmente ha disminuido la tasade mortalidad?
Solución:
En la muestra: 125ˆ ˆp 0,833 q 0,167 n 150150
= = = = X B(150 , 0,833)∼
Se trata de un contraste unilateral a la izquierda para el parámetro p de una distribuciónbinomial:
0 1H : p 0,90 H : p 0,90≥ <
Se acepta 0H sí 0p̂ pz
ˆ ˆp . qn
α−
≤ −
0,833 0,900,03
0,833 . 0,167150
−= − ≤ 0,051,645 z− = −
En consecuencia, se rechaza la hipótesis nula, el nuevo tratamiento reduce la tasa demortalidad
0 1H : p 0,90 H : p 0,90≥ <
Aplicaciones Chi‐cuadrado 64
El p_valor del contraste (Sig. asintót. unilateral) 0,008 0,05= < = α que indica que debe
rechazarse la hipótesis nula. En consecuencia, se puede afirmar que ha disminuido la tasa demortalidad.
23. En unos grandes almacenes se realiza un estudio sobre el rendimiento de ventas de loscomerciales. Durante 10 días se observa el número de ventas de dos comerciales. Con un nivelde significación 0,05α = , ¿existe diferencia sobre las ventas de los dos comerciales?
Comercial A: 10 40 60 15 70 90 30 32 22 13
Comercial B: 45 60 35 30 30 15 50 20 32 9
Solución:
Se comparan las ventas de los dos Comerciales (dos Grupos) en una variable y se comprueba siprovienen de la misma población (homogeneidad).
Se utiliza la Prueba U de Mann‐Whitney, que es la más conocida de las pruebas para dosmuestras independientes. Es equivalente a la Prueba de la suma de rangos de Wilcoxon y a laPrueba de Kruskal‐Wallis para dos grupos. Requiere que las dos muestras probadas seansimilares en la forma y contrasta si dos poblaciones muestreadas son equivalentes en suposición.
0H : No existe diferencia en las ventas de los dos comerciales
Aplicaciones Chi‐cuadrado 65
Las ventas de los dos comerciales (grupos) secombinan para formar una sola muestra, seordenan linealmente y se les asigna unrango, asignándose el rango promedio encaso de producirse empate, conservando suidentidad como grupo.
Si las diferencias entre los comerciales se deben al azar, el rango promedio de los doscomerciales (grupos) debería ser aproximadamente igual.
En la salida de SPSS se detecta que hay una diferencia de alrededor de 125 (el rango promediode Ventas del Comercial 1 es 412,03 y el del Comercial 2 es 287,09), siendo mayor el promediodel Comercial 1.
Aplicaciones Chi‐cuadrado 66
SPSS calcula dos estadísticos: U de Mann‐Whitney y W deWilcoxon, muestra un único valor de p_valor (Sig asintóticabilateral) al ser los dos estadísticos equivalentes. En el cálculodel p_valor se aplica una aproximación a la distribuciónnormal, sólo válida para muestras grandes.
♦ El estadístico U de Mann‐Whitney, como el de W de Wilcoxon, dependen de las ventas delos dos comerciales linealmente ordenadas.
El estadístico U es el número de veces que un valor del número de ventas del Comercial 2precede al del Comercial 1. El estadístico U es grande si la población de ventas delComercial 2 está situada por encima de la población ventas del Comercial 1 y será pequeñosi sucede lo contrario.
♦ El estadístico W de Wilcoxon es la suma de los rangos asociados con las ventas queoriginariamente constituyen la muestra menor (Comercial 2).
Se realiza está elección porque si la población de número de ventas del Comercial 2 quedapor debajo de la población número de ventas del Comercial 1, entonces los rangos menorestenderán a asociarse con los valores del número de ventas del Comercial 2. Ello generaráun valor pequeño para el estadístico W de Wilcoxon.
Si ocurre lo contrario, la población número de ventas del Comercial 2 queda por encima dela población número de ventas del Comercial 1, los rangos mayores se encontrarán entre elnúmero de ventas del Comercial 2, dando lugar a un valor grande del estadístico W deWilcoxon.
En esta línea, se rechaza la hipótesis nula 0H si el valor observado W de Wilcoxon es
demasiado pequeño o demasiado grande para que se debiera al azar.
El p_valor (Sig asintótica bilateral) 0,000 0,05= < = α , concluyendo que se rechaza la
hipótesis nula. En consecuencia, el número de ventas del Comercial 1 es mayor que el númerode ventas del Comercial 2.
Aplicaciones Chi‐cuadrado 67
24. Se realiza un estudio sobre la práctica deportiva y la sensación de bienestar. La prácticadeportiva se clasifica en (Poca, Moderada, Alta y Muy Alta) y la sensación de bienestar seclasifica en (Poca, Moderada y Alta). Para dicho estudio se selecciona una muestra aleatoria de500 sujetos. Los datos se muestran en la siguiente tabla.
Sensación bienestarPrácticaDeportiva
Poca Moderada Alta
Poca 75 35 40
Moderada 60 70 50
Alta 20 30 40
Muy Alta 15 25 40
Se desea saber si hay asociación entre ambas variables realizando los contrastes necesarios, conun nivel de significación de 0,05.
Solución:
Se realiza primero el contraste de independencia sobre la Práctica Deportiva y la Sensación debienestar.
0H : La Práctica Deportiva y la Sensación de binestar son independientes
1H : La Práctica Deportiva y la Sensación de binestar no son independientes
Aplicaciones Chi‐cuadrado 68
Aplicaciones Chi‐cuadrado 69
El estadístico observado 26 40,049χ = tiene asociado un p_valor (Sig. asintótica bilateral) =
0,000 0,05= < = α por lo que se rechaza la hipótesis nula de independencia, concluyendo que
las variables Práctica Deportiva y Sensación de bienestar se encuentran relacionadas.
El estadístico G de la razón de verosimilitud G 39,693= tiene un p_valor 0,000 0,05= < = α ,
rechazando la hipótesis nula de independencia.
Señalar que cuando los dos estadísticos tienen distinto p_valor se elige el estadístico con menorp_valor.
Aplicaciones Chi‐cuadrado 70
En el análisis de Medidas Direccionales se encuentran las medidas Nominales (Lambda, Tau deGoodman y Kruskal, Coeficiente de incertidumbre), medidas Ordinales (d de Somers).
• Las medidas Nominales permiten contrastar la independencia sin decir nada sobre la fuerzade asociación entre las variables, informan únicamente del grado de asociación existente, no dela dirección o de la naturaleza de tal asociación.
En esta línea, cada medida Nominal en la tabla (Lambda, Tau de Goodman‐Kruskall, Coeficientede incertidumbre) se encuentra asociada a un p_valor (Signatura aproximada) de0,002 , 0,000 , 0,000 , respectivamente, que al ser menores que 0,05 , conduce a rechazar la
hipótesis nula de independencia, concluyendo que las variables en estudio (Práctica deportiva ySensación de bienestar) están relacionadas.
Al lado del valor adoptado por cada medida de asociación Nominal por nominal:0,108 , 0,027 , 0,033 , respectivamente, aparece su valor estandarizado (T aproximada), que se
obtiene dividiendo el valor de la medida entre su error típico (calculado éste suponiendoindependencia entre las variables.
También aparece el error típico de cada medida calculado sin suponer independencia (Errortípico asintótico).
• Las medidas Ordinales recogen la dirección de la asociación de las variables: Una relaciónpositiva indica que los valores altos de una variable se asocian con los valores altos de la otravariable, y los valores bajos con los valores bajos. Una relación negativa indica que los valoresaltos de una variable se asocian con los valores bajos de la otra variable, y los valores bajos conlos valore altos.
En el análisis de Medidas Simétricas se encuentran las medidas Nominales y medidas Ordinales.
Las medidas Nominales medidas basadas en el estadístico Chi‐cuadrado: Phi, V de Cramer y elCoeficiente de Contingencia.
Las medidas Ordinales (Tau‐b de Kendall, Tau‐c de Kendall y Gamma) se basan en el concepto deconcordancias (o inversión) y discordancias ( o no inversión).Utilizan en el numerador la diferencia entre el número de concordancias o inversiones ydiscordancias o no‐inversiones resultantes de comparar cada caso con otro, diferenciándose enel tratamiento dado a los empates.
Cada coeficiente de asociación se muestra con su p_valor ( Sig. aproximada, cada uno 0,000 ) ,puesto que estos niveles críticos son menores que 0,05 se rechaza la hipótesis nula de
Aplicaciones Chi‐cuadrado 71
independencia, afirmando que las variables (Práctica deportiva y Sensación de bienestar) estánrelacionadas.
Como el valor concreto adoptado por estas medidas: 0,283, 0,2, 0,272, 0,216, 0,225 y 0,307 ,respectivamente, es positivo (relación positiva entre Práctica deportiva y Sensación debienestar). Se puede interpretar que a una mayor Práctica deportiva corresponde una mejorSensación de bienestar. El grado de asociación entre las variables es bajo.
25. Se quiere estudiar si el número de bacterias que aparecen en un determinado cultivo alcabo de una semana es aleatorio o por el contrario habría que suponer que hay algo en elcultivo que propicia el desarrollo de tales bacterias.Para ello, se sometió el cultivo a 10 semanas de observación y se obtuvieron los siguientesresultados: 498, 490, 510, 505, 495, 496, 497, 501, 502, 520
Solución:
Para comprobar si el número de bacterias que aparecen en un determinado cultivo al cabo deuna semana es aleatorio, se realiza un contraste no paramétrico de aleatoriedad.
0 1H : Hay aleatoriedad H : No hay aleatoriedad
Valor de la prueba 500= Punto de corte para dicotomizar la
variable. El punto de corte es la Mediana.
Número de rachas 4=
p_valor (Sig. Asintótica bilateral) 0,314 0,05= > = α →Se acepta la hipótesis nula. En consecuencia, hayaleatoriedad en la muestra.
Aplicaciones Chi‐cuadrado 72
26. Considerando los datos de la tabla referidos a un estudio sobre la relación entre el hábito defumar, tabaquismo, y la presencia de problemas vasculares en una muestra de 240 sujetos.
Problemas vascularesCon problemas Sin problemas
Total
Fuman 23 81 104Tabaquismo
No Fuman 9 127 136
Total 32 208 240
Calcular los índices de riesgo, con un nivel de significación 0,05.
Solución:
Problemas vascularesCon problemas Sin problemas
Total
Fuman 23 (a) 81 (b) 104 (a + b)Tabaquismo
No Fuman 9 (c) 127 (d) 136 (c + d)
Total 32 (a + c ) 208 (b + d) 240 (a + b + c + d)
Razón de Odds Ratio: x x
x x
a d 23 127OR 4,007
b c 81 9= = =
Intervalo de confianza para OR:
( ) ( )/2z . V( ln OR) 1,96 . 0,1748 1,96 . 0,1748IC(OR) OR . e 4,007 . e , 4,007 . e 1,766 , 9,093α± −= = =
1 1 1 1 1 1 1 1V ln OR 0,1748
a b c d 23 81 9 127= + + + = + + + =⎡ ⎤⎣ ⎦
1
2
p 0,221Cohorte Problemas vasculares: Riesgo relativo (RR) 3,342
p 0,066= = =
Riesgo en Fumadores: 1a 23
p 0,221a b 104
= = =+
Riesgo en No Fumadores: 2c 9
p 0,066c d 136
= = =+
Intervalo de confianza para la Cohorte con Problemas Vasculares:
( ) ( )/2z . V( ln RR ) 1,96 . 0,0197 1,96 . 0,0197IC(RR) RR . e 3,342 . e , 3,342 . e 1,615 , 6,915α± −= = =
1 1 1 1 1 1 1 1V ln RR 0,0197
a a b c c d 23 104 9 136= − + − = − + − =⎡ ⎤⎣ ⎦ + +
1
2
p 0,779Cohorte sin Problemas vasculares: Riesgo relativo (RR) 0,834
p 0,934= = =
Riesgo en Fumadores: 1b 81
p 0,779a b 104
= = =+
Aplicaciones Chi‐cuadrado 73
Riesgo en No Fumadores: 2d 127
p 0,934c d 136
= = =+
Intervalo de confianza para la Cohorte sin Problemas Vasculares:
( ) ( )/2z . V( ln RR ) 1,96 . 0,0033 1,96 . 0,0033IC(RR) RR . e 0,834 . e , 0,834 . e 0,746 , 0,933α± −= = =
1 1 1 1 1 1 1 1V ln RR 0,0033
b a b d c d 81 104 127 136= − + − = − + − =⎡ ⎤⎣ ⎦ + +
Índices de riesgo entre Tabaquisno y Problemas Vasculares, nivel de significación 0,05.
Aplicaciones Chi‐cuadrado 74
♦ La primera fila indica el riesgo estimado de fumadores sobre no fumadores (Fuman/NoFuman). El valor es de 4,007, se interpreta que entre los sujetos con problemas vasculares laprobabilidad (el riesgo) de encontrar fumadores es 4 veces mayor que la de no encontrarfumadores.
Aplicaciones Chi‐cuadrado 75
En un diseño de caso‐control (Razón de las ventajas) puede interpretarse como una estimación del valor relativo (en especial cuando la proporción de desenlaces es pequeña): El riesgo de padecer problemas vasculares es 4 veces más entre fumadores que entre no fumadores.
Los límites del intervalo de confianza al 95% indican que el riesgo obtenido es mayor que 1.
♦ Las dos filas siguientes ofrecen dos índices de riesgo para un diseño de cohortes (dos índicesporque el desenlace que interesa evaluar puede encontrarse en cualquiera de las doscategorías de la variable).
Si el desenlace que interesa analizar es la presencia del problema vascular, la probabilidad o riesgo de encontrar tal desenlace entre los fumadores es 3,342 veces mayor que la de encontrarlo entre los no fumadores. Es decir, por cada sujeto con problema vascular entre los no fumadores se encuentran 3,342 sujetos con problema vascular entre los fumadores.
Si el desenlace que interesa estudiar es la ausencia del problema vascular, la probabilidad o riesgo de encontrar tal desenlace entre los fumadores es menor que entre los no fumadores: Por cada sujeto sin problema vascular entre los no fumadores se encuentran 0,834 sujetos sin problema vascular entre los fumadores.
Aplicaciones Chi‐cuadrado 76
27. Se quiere analizar si existe o no relación entre los datos de la variable Tabaquismo yProblemas vasculares en dos estratos (varones y mujeres), con la información recogida en latabla y un error de significación de 0,05.
Problemas vascularesCon problemas Sin problemas
Total
Fuman 22 103 125 Varones Tabaquismo
No Fuman 17 151 168
Fuman 23 81 104 Mujeres Tabaquismo
No Fuman 9 127 136
Total 71 462 533
Solución:
En el ejercicio anterior se han analizado los diseños de cohortes y de caso‐control. Estassituaciones se producen cuando se desea evaluar el efecto de una variable sobre unadeterminada respuesta utilizando distintos grupos de sujetos.
En general, se trata de estudiar si existe o no asociación entre la variable factor y una variablerespuesta, ambas dicotómicas, cuando se dispone de información referida a varios estratos.
Aplicaciones Chi‐cuadrado 77
0H : Las variables Tabaquismo y Problemas vasculares son independientes
Tabla de contingencia Tabaquismo * Problemas Vasculares
Problemas vasculares
Sí NoTotal
Fuman 45 ia= 184 ib= 229 1in •=Tabaquismo
No Fuman 26 ic= 278 id= 304 2in •=
Total 71 1in •= 462 2in •= 533 in=
xx
x x xx x x
xx
2 2k k 21i 1i
i i iii 1 i 12
Cochran k k1i 2i 1i 2i
2i 2i ii 1 i 1
n n229 71a E(a ) a 45n 533
13,932229 304 71 462n n n n
V(a )533 (533 1)n (n 1)
• •
• • • •
= =
= =
⎛ ⎞ ⎛ ⎞⎛ ⎞⎜ ⎟ ⎜ ⎟− − −⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠ ⎝ ⎠χ = = = =
−−
∑ ∑
∑ ∑
x
x x x
x
2 2k k
1i 1ii i i
ii 1 i 12MH k k
1i 2i 1i 2ii 2
i ii 1 i 1
n na E(a ) 0,5 a 0,5
n12,963
n n n nV(a )
n (n 1)
• •
• • • •
= =
= =
⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟− − − −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠χ = = =
−
∑ ∑
∑ ∑
Aplicaciones Chi‐cuadrado 78
Razón de Odds Ratio: x x
x x
a d 45 278OR 2,615
b c 184 26= = =
OR 1> → El tabaquismo aumenta la probabilidad de tener problemas vasculares.
Intervalo de confianza para OR:
( ) ( )/2z . V( ln OR) 1,96 . 0,068 1,96 . 0,068IC(OR) OR . e 2,615 . e , 2,615 . e 1,559 , 4,387α± −= = =
1 1 1 1 1 1 1 1V ln OR 0,068
a b c d 45 184 26 278= + + + = + + + =⎡ ⎤⎣ ⎦
1
2
p 0,1965Cohorte Problemas vasculares: Riesgo relativo (RR) 2,298
p 0,086= = =
Riesgo en Fumadores: 1a 45
p 0,1965a b 229
= = =+
Riesgo en No Fumadores: 2c 26
p 0,086c d 304
= = =+
1
2
p 0,803Cohorte sin Problemas vasculares: Riesgo relativo (RR) 0,879
p 0,914= = =
Riesgo en Fumadores: 1b 184
p 0,803a b 229
= = =+
Riesgo en No Fumadores: 2d 278
p 0,914c d 304
= = =+
La primera fila indica el riesgo estimado de fumadores sobre no fumadores (Fuman/NoFuman). El valor es de 2,615, se interpreta que entre los sujetos con problemas vasculares laprobabilidad (el riesgo) de encontrar fumadores es 2,6 veces mayor que la de no encontrarfumadores.Los límites del intervalo de confianza al 95% indican que el riesgo obtenido es mayor que 1.
Las dos filas siguientes ofrecen dos índices de riesgo para un diseño de cohortes (dos índicesporque el desenlace que interesa evaluar puede encontrarse en cualquiera de las dos categoríasde la variable).
Si el desenlace que interesa analizar es la presencia del problema vascular, la probabilidad oriesgo de encontrar tal desenlace entre los fumadores es 2,298 veces mayor que la deencontrarlo entre los no fumadores. Por cada sujeto con problema vascular entre losno fumadores se encuentran 2,298 sujetos con problema vascular entre los fumadores.
Aplicaciones Chi‐cuadrado 79
Si el desenlace que interesa estudiar es la ausencia del problema vascular, la probabilidad oriesgo de encontrar tal desenlace entre los fumadores es menor que entre los no fumadores:Por cada sujeto sin problema vascular entre los no fumadores se encuentran 0,879 sujetos sinproblema vascular entre los fumadores
El estadístico de Cochran 2Cochran 13,932χ = con un p_valor (Sig. asint. bilateral) 0 0,05= < = α
rechazando la hipótesis nula de independencia condicional y, concluyendo que las variablesTabaquismo y Problemas vasculares están relacionadas.Idéntica conclusión se obtiene con el estadístico de Mantel‐Haenszel.
Se contrasta la hipótesis nula de independencia condicional: Independencia entre factor(Tabaquismo) y respuesta (Problemas vasculares) cuando se introduce la variable control (Sexo).
Se estratifica por la variable control (Sexo)
Aplicaciones Chi‐cuadrado 80
La hipótesis de homogeneidad de la razón de varianzas (Odds Ratio) se contrasta con losestadísticos de Breslow‐Day (1980, 1987) y de Tarone (1983), se observa que el p_valor (Sig.asintótica bilateral) de ambos estadísticos es 0,167 0,05> = α , por lo que se mantiene la
hipótesis nula de homogeneidad.
El estadístico de Cochran 2Cochran 13,932χ = con un p_valor (Sig. asint. bilateral) 0 0,05= < = α
rechazando la hipótesis nula de independencia condicional y se concluye que, una vezcontrolada la variable Sexo, las variables Tabaquismo y Problemas vasculares estánrelacionadas.
Idéntica conclusión se obtiene con el estadístico de Mantel‐Haenszel.
Como se puede asumir que el riesgo es homogéneo en todos los estratos, tiene sentido obteneruna estimación común del riesgo. En la tabla aparece una solución basada en un estadísticodebido a Mantel‐Haenszel (1959).
Aplicaciones Chi‐cuadrado 81
El valor del riesgo común (Estimación) es 2,608, con un intervalo de confianza 1,555, 4,373⎡ ⎤⎣ ⎦ ,
intervalo que no cubre el 1, con lo que se puede concluir que el riesgo común de todos losestratos tomados juntos es significativamente mayor que 1.
28. Niños de un barrio pobre de una ciudad que asisten a una guardería padecen deenfermedades respiratorias.
a) Se recogieron datos de 1.000 niños para averiguar si, con un 95% de confianza, asistir a laguardería esta relacionado con la infección respiratoria.
Infección respiratoria
Guardería Sí NoTotal
Sí 37 72 109
No 43 848 891
Total 80 920 1.000
Se considero que aunque ir a la guardería estuviera relacionado con la infección respiratoria, talasociación podía ser confundida con otro factor, la infección respiratoria podía estar originadapor un agente que estuviera relacionado con los niños que van a la guardería.
En otras palabras, asistir a la guardería podría ser un marcador de una exposición que causainfección respiratoria. En caso de ser así, la asociación entre ir a la guardería e infecciónrespiratoria está confundida.
b) Ante la posibilidad de que el hacinamiento en casa fuera un factor de riesgo para la infecciónrespiratoria y, en consecuencia, un potencial confusor de la asociación entre la asistencia a laguardería y la infección respiratoria, se introdujo el factor de hacinamiento en casa como factorde asociación, resultando las tablas estratificadas:
Con una confianza del 95%,introduciendo el efecto delhacinamiento, ¿existe unaasociación entre la infecciónrespiratoria y la asistencia ala guardería?.
Solución:
Aplicaciones Chi‐cuadrado 82
a) Para analizar la posible asociación entre la Guardería y la Infección respiratoria de los niñosse plantea un estudio por cohortes (longitudinal hacia adelante) calculando el riesgo(proporción) y la razón de estos riegos (razón de prevalencia o riesgo relativo) RR≡
El Riesgo Relativo (RR) expresa cuántas veces más aparece la característica en estudio (Infecciónrespiratoria) en los niños que van a la Guardería que en los niños que no van a la Guardería. Esdecir, cuántas veces más riesgo tienen los niños que van a la Guardería en relación con los niñosque no van a la Guardería
RR 1 No hay asociación
RR 1 Asociación al factor de riesgo
RR 1 Asociación al factor de protección
= →> →< →
Riesgo de Infección respiratoria de niños que van a la Guardería: 1a 37
p 0,339a b 109
= = =+
Riesgo de Infección respiratoria de niños que no van a la Guardería: 2c 43
p 0,048c d 891
= = =+
Riesgo relativo: 1
2
p 0,339RR 7,034
p 0,048= = =
Infección respiratoria
Guardería Sí NoTotal
Sí 37 (a) 72 (b) 109 (a + b)
No 43 (c) 848 (d) 891 (c + d)
Total 80 (a + c) 920 (b + d) 1.000 (n)
Intervalo de confianza para el riesgo relativo RR de infección respiratoria:
( )/2 /2 /2z . V( ln RR ) z . V( ln RR ) z . V( ln RR )IC(RR) RR . e RR . e , RR . eα α α± −= =
1 1 1 1 1 1 1 1V ln RR 0,04
a a b c c d 37 109 43 891= − + − = − + − =⎡ ⎤⎣ ⎦ + +
( ) ( )1,96 . 0,04 1,96 . 0,04IC(RR) 7,034 . e , 7,034 . e 4,753 , 10,409−= =
Intervalo de confianza para el riesgo relativo RR de no Infección respiratoria:
Riesgo no Infección respiratoria de niños que van a la Guardería: 1b 72
p 0,661a b 109
= = =+
Riesgo no Infección respiratoria de niños que no van a la Guardería: 2d 848
p 0,952c d 891
= = =+
Riesgo relativo: 1
2
p 0,661RR 0,694
p 0,952= = =
Aplicaciones Chi‐cuadrado 83
( )/2 /2z . V( ln RR ) z . V( ln RR )IC(RR) RR . e , RR . eα α−=
1 1 1 1 1 1 1 1V ln RR 0,0048
b a b d c d 72 109 848 891= − + − = − + − =⎡ ⎤⎣ ⎦ + +
( ) ( )1,96 . 0,0048 1,96 . 0,0048IC(RR) 0,694 . e , 0,694 . e 0,606 , 0,795−= =
La medida de asociación para evaluar la asociación entre la Guardería y la Infecciónrespiratoria es el Odss Ratio (OR):
x x
x x
a d 37 848OR 10,134
b c 72 43= = =
OR 1= → Indica que ir a la Guardería no se asocia con la Infección respiratoria.
OR 1< → Ir a la Guardería disminuye la probabilidad tener Infección respiratoria.
OR 1> → Ir a la Guardería aumenta la probabilidad de tener Infección respiratoria.
Intervalo de confianza para OR (Método de Woolf)
( )/2 /2 /2z . V( ln OR) z . V( ln OR) z . V( ln OR)IC(OR) OR . e OR . e , OR . eα α α± −= =
1 1 1 1 1 1 1 1V ln OR 0,065
a b c d 37 72 43 848= + + + = + + + =⎡ ⎤⎣ ⎦
( ) ( )1,96 . 0,065 1,96 . 0,065IC(OR) 10,134 . e , 10,134 . e 6,140 , 16,726−= =
Aplicaciones Chi‐cuadrado 84
Aplicaciones Chi‐cuadrado 85
La primera fila de la tabla indica el riesgo estimado entre los niños que van a la Guardería y losniños que no van (Guardería/No Guardería) en un diseño de caso‐control (Razón de lasventajas).
El valor de 10,134 indica que, entre los niños que van a la guardería, la probabilidad (el riesgo)de encontrar niños con infección respiratoria es 10,134 veces mayor que la de no encontrarniños con infección respiratoria.
La Razón de ventajas (OR) también puede interpretarse como una estimación del RiesgoRelativo (RR): El riesgo de tener infección respiratoria es 10,134 veces mayor entre los niños quevan a la guardería que entre los niños que no van a la guardería.
Entre los límites del intervalo de confianza calculado 6,140 , 16,726⎡ ⎤⎣ ⎦ no se encuentra el valor
1, indicando que el riesgo es significativo.
Las dos filas siguientes ofrecen dos índices de riesgo para un diseño de cohortes (dos índicesporque el desenlace que interesa evaluar puede encontrarse en cualquiera de las dos categoríasde la variable).
Si el desenlace que interesa evaluar es la presencia de la infección respiratoria (Tener Infecciónrespiratoria), la probabilidad o riesgo de encontrar el problema entre los niños que van a laguardería es 7,034 veces mayor que la de encontrarlo entre los niños que no van a la guardería.En otras palabras, por cada niño con infección respiratoria que no va a la guardería, seencuentran 7,034 niños con infección respiratoria que van a la guardería.
Si el desenlace que interesa analizar es la ausencia de la infección respiratoria (No tenerInfección respiratoria), la probabilidad o riesgo de encontrar tal desenlace entre los niños quevan a la guardería es 0,694 veces menor que entre los niños que no van a la guardería: Por cadaniño sin infección respiratoria entre los que no van a la guardería, se encuentran 0,694 niños sininfección respiratoria entre los que van a la guardería.
b) Si se introduce un agente (Hacinamiento en casa) que puede estar relacionado con lainfección respiratoria de los niños que van a la guardería, pudiera ocurrir que la asociación entreir a la guardería y la infección respiratoria se encontrase afectada.
Para evaluar al potencial confusor de la asociación calculada, se ajusta la nueva variable(Hacinamiento), estratificando la tabla de contingencia anterior. Es decir:
1. La tabla original se divide en estratos definidos por la variable Hacinamiento.
2. Se divide la muestra en dos grupos (Hacinamiento y No Hacinamiento), donde en cadagrupo el status de Hacinamiento es el mismo.
Aplicaciones Chi‐cuadrado 86
El objetivo es encontrar si la asistencia a la guardería está asociada con la infección respiratoriacuando se analizan niños dentro de la misma categoría de hacinamiento.
Aplicaciones Chi‐cuadrado 87
211 22
k 1Común 2
12 21
k 1
n .nn
ORn .n
n
=
=
= =∑
∑61 . 21 10 . 861101 899 27,83114 . 5 24 . 4101 899
+= =
+
Mientras que el Riesgo Relativo (RR 7,034= ) de la tabla original (sin incorporar el efecto de la
variable hacinamiento en casa) muestra una fuerte relación entre asistencia a guardería einfección respiratoria, expresando que los niños que van a la guardería tienen 7,034 más riesgode tener infección respiratoria que los niños que no van a la guardería.
Aplicaciones Chi‐cuadrado 88
Cuando se incorpora la variable con hacinamiento en casa, el Riesgo Relativo manifiesta unamenor relación entre asistencia a guardería e infección respiratoria, expresando que los niñosque van a la guardería tienen 4,229 más riesgo de tener infección respiratoria que los niños queno van a la guardería.
De otra parte, incorporando el efecto de la variable hacinamiento en casa, la primera fila de latabla indica el riesgo estimado entre los niños que van a la Guardería y los niños que no van(Guardería/No Guardería) en un diseño de caso‐control (Razón de las ventajas).
El valor de 18,300 indica que, entre los niños que van a la guardería, la probabilidad (el riesgo)de encontrar niños con infección respiratoria es 18,300 veces mayor que la de no encontrarniños con infección respiratoria.Se observa que la Razón de ventajas (OR) ha aumentado con el efecto de la variablehacinamiento en casa.
Entre los límites del intervalo de confianza calculado 5,881 , 56,943⎡ ⎤⎣ ⎦ no se encuentra el valor
1, indicando que el riesgo es significativo.
Se analizan los diseños de cohortes y de caso‐control controlando el efecto de una terceravariable (Hacinamiento en casa). Se estudia si existe asociación entre una variable factor (asistira la guardería) y una variable respuesta (infección respiratoria), ambas dicotómicas, cuando sedispone de información referidas a dos estratos (hacinamiento o no hacinamiento en casa).
En estas situaciones, utilizar el estadístico Chi‐cuadrado de Pearson sobre el conjunto de datosagrupados, puede arrojar resultados equívocos. De otra parte, analizar separadamente cadaestrato no proporciona una idea global del efecto de la variable factor ( guardería).
Los estadísticos de Cochran y de Mantel‐Haenszel proporcionan una información más ajustadapara contrastar la hipótesis de independencia condicional, es decir, la hipótesis nula deindependencia entre la variable factor (guardería) y la variable respuesta (infección respiratoria)una vez que se ha controlado el efecto de los estratos (variable hacinamiento).
El estadístico de Cochran como el de Mantel‐Haenszel se distribuyen según el modelo de 21χ .
En este caso, ambos estadísticos tienen asociados un p_valor (Signatura asintótica bilateral)menor que 0,05 , por lo que se rechaza la independencia condicional y se concluye que, una vezcontrolado el efecto del hacinamiento en casa, las variables guardería e infección respiratoriaestán asociadas.
CHI‐CUADRADO DE COCHRAN:
x
x x x
x
2 22 2
1i 1ii i i
ii 1 i 12Cochran 2 2
1i 2i 1i 2ii 2
i ii 1 i 1
n na E(a ) a
n
n n n nV(a )
n (n 1)
• •
• • • •
= =
= =
⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟− −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠χ = = =
−
∑ ∑
∑ ∑
Aplicaciones Chi‐cuadrado 89
x x
x x x x x x
x x
2
2 2
75 66 34 1461 10
101 899 94,502
75 26 66 35 34 865 14 885
101 (101 1) 899 (899 1)
⎡ ⎤⎛ ⎞ ⎛ ⎞− + −⎜ ⎟ ⎜ ⎟⎢ ⎥⎝ ⎠ ⎝ ⎠⎣ ⎦= =⎡ ⎤ ⎡ ⎤
+⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦
CHI‐CUADRADO DE MANTEL‐HAENSZEL:
x
x x x
x
2 22 2
1i 1ii i i
ii 1 i 12MH 2 2
1i 2i 1i 2ii 2
i ii 1 i 1
n na E(a ) 0,5 a 0,5
n89,338
n n n nV(a )
n (n 1)
• •
• • • •
= =
= =
⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟− − − −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠χ = = =
−
∑ ∑
∑ ∑
Si se rechaza la hipótesis de independencia condicional, el interés se centra en cuantificar elgrado de relación existente entre la variable factor (guardería) y la variable respuesta (infecciónrespiratoria). Para ello, se requiere una estimación del riesgo (Odds ratio) común para los dosestratos.
Esta estimación común solo tiene sentido si no existe interacción triple, es decir, si la relacióndetectada es homogénea en los dos estratos analizados.
La hipótesis de homogeneidad de las Odds ratio puede contrastarse utilizando los estadísticosde Breslow‐Day y de Tarone.
El estadístico de Tarone presenta un p_valor 0,066 0,05= > = α , pudiendo mantener la
hipótesis de homogeneidad. Asumiendo que el riesgo es homogéneo en los dos estratos, tienesentido obtener una estimación común del riesgo ComúnOR .
211 22
k 1Común 2
12 21
k 1
n .nn
OR 27,831n .n
n
=
=
= =∑
∑
Aplicaciones Chi‐cuadrado 90
Siendo homogéneo el riesgo en los estratos (Hacinamiento / No Hacinamiento), la estimacióncomún del riesgo es de 27,831. Es decir, entre los niños que van a la guardería, la probabilidad(riesgo) de encontrar niños con infección respiratoria es 27,831 veces mayor que la de noencontrar niños con infección respiratoria.
Como el intervalo de confianza del riesgo común (OR): 11,138 , 69,544⎡ ⎤⎣ ⎦ no cubre el 1, indica
que el riesgo es significativo.
Aplicaciones Chi‐cuadrado 91
Aplicaciones Chi‐cuadrado 92
Gestión Aeronáutica: Estadística TeóricaFacultad Ciencias Económicas y EmpresarialesDepartamento de Economía AplicadaProfesor: Santiago de la Fuente Fernández
top related