Apuntes estadística P á g i n a | 1
Estadística 1.-VARIABLES ALEATORIAS
1. Conceptos previos
Dada una serie de números: x1,……..xn se llama
MEDIA ARITMÉTICA:
�̅� =𝑥1+⋯+𝑥𝑛
𝑛=
∑ 𝑥𝑖𝑛1=1
𝑛
Se trata de una medida de centralización, que representa “el valor
más característico “de la serie.
VARIANZA
𝑠2 =(𝑥1 − �̅�)2 + ⋯ + (𝑥𝑛 − �̅�)2
𝑛=
∑ (𝑥𝑖 − �̅�)2𝑛1=1
𝑛
Es una medida de dispersión, que muestra la agrupación de los
datos en torno a la media.
DESVIACIÓN TÍPICA
Es la raíz cuadrada de la varianza. s=√𝑠2
2. Variables aleatorias
DEF: Es una función definida en el espacio muestral de un
experimento aleatorio que asocia a cada elemento del espacio, un nº
real.
DEF: Una variable aleatoria puede ser
DISCRETA, si toma un nº finito de valores .P. ej: Binomial
Apuntes estadística P á g i n a | 2
CONTINUA: si toma, al menos teóricamente un nº infinito de
valores. P.ej : normal
NOTA: La probabilidad de una variable aleatoria se calcula mediante
Función de probabilidad: En variables discretas .Se asocia a valores
Función de densidad: En variables continuas .Se asocia a intervalos.
3. Distribución Binomial
Se asocia a experimentos en los que:
Sólo hay dos posibles resultados: éxito o fracaso
El resultado obtenido es independiente de los anteriores.
La probabilidad es constante en todas las pruebas
Entonces , si :p : probabilidad éxito , q : probabilidad fracaso , n: nº pruebas y
r : nº éxitos en n pruebas ,m la variable se llama binomial B(n,p) y la función
de probabilidad es :
P( r éxitos ) = (𝑛𝑟
) 𝑝𝑟𝑞𝑛−𝑟
NOTA : La media de una variable aleatoria es = np , mientras que la
varianza es 2=npq=np(1-p)
4. Distribución normal
DEF: Se designa por N(siendosu mediaysu desviación típica.
NOTA: Se designa así porque se creía que todas las variables aleatorias
continuas eran de este tipo .
NOTA : La más importante y la única que se encuentra tabulada es la
N(0,1) , que designa por Z ( normal estándar)
NOTA : La probabilidad se calcula mediante la función de densidad , que
es : f(x) = 1
𝜎√2𝜋∙ 𝑒
−1
2(
𝑥−𝜇
𝜎)., de modo que p(a<x<b)=∫ 𝑓(𝑥)𝑑𝑥
𝑏
𝑎
Apuntes estadística P á g i n a | 3
NOTA: Como es imposible calcular la probabilidad en todos los casos
posibles , obtendremos mediante un cambio de variable, el área equivalente
en la normal N(0,1) .Este proceso se llama TIPIFICAR LA VARIABLE.
El cambio a realizar es Z=𝑋−𝜇
𝜎
NOTA: Es muy importante reseñar que la
función de densidad de la N(0,1) , es una
gráfica simétrica respecto a OY , cuya área
debajo de la curva de -∞ a ∞ es 1 .
5. Uso de la tabla de la normal N(0,1)
Una vez tipificada la variable, para averiguar la información deberemos ,
consultar la tabla . Se deben dominar dos procesos:
BÚSQUEDA DIRECTA : En la que te dan un valor de la Z ( en
intervalo ) y debes calcular la probabilidad :Distinguimos tres casos :
a) p(Z≤a)
i) si a>0 →se busca en la tabla
EJEMPLO:Hallar la probabilidad p ( z ≤ 0,45 )
a. En la 1ª columna buscamos el valor de las unidades y las décimas.
b. En la 1ª fila el valor de las centésimas. c. Basta buscar 0,4 en la columna y 0,05 en la fila. Su
intersección nos da la probabilidad. d. Leemos y nos da 0,6736. La probabilidad p ( z ≤
0,45 ) = 0,6736
ii) si a<0→ p(Z≤a)= p(Z>-a) =1-p(Z≤-a)
Apuntes estadística P á g i n a | 4
b) p(Z>a)
i) si a>0 →p(Z>a)=1-p(Z≤a)
ii) si a <0 →p(Z>a)=p(Z≤-a)
c) p(a≤Z≤b)=p(Z≤b)-p(Z≤a) y se aplican los casos anteriores
deendiendo del signo de a y b
BÚSQUEDA INVERSA : Especialmente útil para la obtención de
intervalos de confianza en la que se te da un determinado valor de
probabilidad y debes averiguar el valor de Z
Apuntes estadística P á g i n a | 5
EJEMPLO : P(Z≤k)=0,7019 →k=0,53
6. Aproximación de la binomial por la normal
Existen situaciones en los que, con valores altos de n el cálculo de la
probabilidad de un valor en una distribución binomial resulta
particularmente difícil.
Por ello, el resultado obtenido por De Moivre resulta especialmente,
útil. Consiste que en ciertas condiciones y con un nº de repeticiones
alto, una binomial (variable discreta) se puede aproximar mediante una
variable normal ( variable continua)
Teorema de De Moivre .
Si np≥5,nq≥5, una variable binomial B(n,p) se puede aproximar con un
variable normal N(np,√𝑛𝑝𝑞)
NOTA: Pero esto tiene un problema , que es que la binomial es una
variable discreta en la que todos los valores tienen probabilidad (
aunque sea poca ) y la normal es una variable continua , con lo que la
probabilidad de un valor es 0 .
Esto se resuelve, haciendo la llamada corrección de Yates que se
resume en estos tres puntos ( X es binomial y X´ es normal)
P(X=a)=P(a-0,5≤X’≤a+0,5)
• P(X≤a)=P(X’≤a+0,5) (para que contenga al punto a)
Apuntes estadística P á g i n a | 6
• P(X<a)= P(X’≤a-0,5) (para que no contenga al punto a)
EJERCICIOS
DISTRIBUCIÓN BINOMIAL
1) Se sabe que la tercera parte de los niños varones de 2º de ESO dan
positivo en una prueba de agresividad. Escogida al azar una muestra de
10 chicos, halla las probabilidades de los siguientes sucesos:
a) Encontrar dos con inventario de agresividad.
b) Más de tres.
c) A lo sumo, cinco.
d) Así mismo, halla la media y la desviación típica de esta
distribución.
2) Un examen consta de 10 preguntas a las que hay que contestar SI o NO.
Suponiendo que a las personas que se les aplica no saben contestar a
ninguna de las preguntas, y en consecuencia contestan al azar, halla:
a) La probabilidad de obtener cinco aciertos.
b) La probabilidad de obtener algún acierto.
c) La probabilidad de obtener al menos cinco aciertos.
3) La probabilidad de que un estudiante obtenga el título de licenciado en
geografía e historia es 0’3. Halla la probabilidad de que un grupo de siete
estudiantes matriculados en primer curso:
a) Ninguno de los siete finalice la carrera.
b) La finalicen todos.
c) Al menos dos acaben la carrera.
DISTRIBUCIÓN NORMAL
Apuntes estadística P á g i n a | 7
4) Sea Z una variable aleatoria N(0,1). Calcula:
a) 1,32p Z b) 2,17p Z
c) 1,52 2,03p Z
d) 1,32p Z e) 2,17p Z
f 2,03 1,52p Z
g) 0 0,25p Z h) 2p Z
i 2,23 1,15p Z
5) Las tallas de los individuos de una población se distribuyen
normalmente con media igual a 175 cm y desviación típica igual a 8 cm.
Calcula la probabilidad de que un individuo tenga una talla:
a) Mayor que 180 cm. b) Menor que 170 cm. c) Entre 170 y 180
cm.
6) Los opositores que se presentan a unas plazas de un organismo
autonómico se distribuyen normalmente con una puntuación media
igual a 70’5 y con una desviación típica igual a 9. ¿Cuántas plazas se
adjudicarán en la oposición de este año, si el tribunal ha decidido de
antemano dejar sin plaza a todos aquellos que obtengan una puntuación
inferior a 80?.
7) En un examen de psicometría, la media de las calificaciones es 6 y la
varianza 1,44. Calcula la probabilidad de que un alumno tenga una
calificación:
a) Mayor que 7. b) Menor que 5. c) Entre 5,5 y 7.
8) Las edades del profesorado de Educación Especial se distribuye
normalmente con media 38 años y desviación típica 6. De un total de
500 profesores, halla:
Apuntes estadística P á g i n a | 8
a) ¿Cuántos profesores hay con edades menores o iguales a 35
años?.
b) ¿Cuántos mayores de 55 años?.
9) El peso teórico de una tableta de aspirina es de 324 mg. Si suponemos
que los pesos de las tabletas de aspirina siguen una normal de desviación
típica 10 mg por tableta, calcula:
a) ¿Cuál será el porcentaje de tabletas con peso menor o igual a
310 mg?.
b) ¿Cuál será el porcentaje de tabletas con peso superior a 330
mg?.
10) La duración media de un televisor es de ocho años con una desviación
típica de medio año. Si la vida útil del televisor se distribuye
normalmente, halla la probabilidad de que un televisor dure más de 9
años.
11) Por estudios realizados sobre una multitud de niñas al nacer, se ha
determinado que la talla se distribuye según una normal de media 50 cm
y desviación típica 1’8 cm.
a) Halla la probabilidad de que una niña al nacer tenga una talla
superior a 54 cm.
b) Si durante un mes en una maternidad nacen 100 niñas, ¿cuántas
tendrán al nacer una talla entre 48’2 y 51’8?.
12) En una distribución N(163,12),
a) ¿Dónde se sitúan el 10P y el 90P ?.
b) Halla el primer y tercer cuartil.
13) En una distribución, N(0,1) ¿entre qué valores está el 94% de los valores
centrales?.
Apuntes estadística P á g i n a | 9
14) Se ha aplicado un test de fluidez verbal a 500 alumnos de un centro
escolar. Se supone que las puntuaciones obtenidas se distribuyen según
una normal de media 80 y desviación típica 12.
a) ¿Qué puntuación separa el 25% de los alumnos con menor
fluidez verbal?.
b) ¿A partir de qué puntuación se encuentra el 25% de alumnos
con mayor fluidez verbal?.
APROXIMACIÓN DE LA BINOMIAL POR LA NORMAL
15) El 2.5%. de los tornillos fabricados por una maquina presentan
defectos. Si tenemos un lote de 200 tornillos, ¿cual es la probabilidad de
que haya más de 20 defectuosos?
16) Si lanzamos un dado 1,000 veces, ¿cuál es la probabilidad de que el
número tres se haya obtenido menos de 100 veces?
17) Un saco que contiene 400 monedas es vaciado sobre una mesa. Calcula
la probabilidad de que:
1. Aparezcan más de 210 caras.
2. De que el número de caras sea menor que 180.
3. De que el número de caras este comprendido entre 190 y 210 ambos
inclusive.
18) Después de realizar varios sondeos sobre una población con escasa
cultura, se ha conseguido averiguar que únicamente el 15 % de la misma
es favorable a los tratamientos de psicoterapia. Elegida al azar una
muestra de 50 personas de dicha población, se desea
saber:
A) La probabilidad de que haya más de 5 personas favorables a
dichos tratamientos.
B) La probabilidad de que a lo sumo haya 6 personas favorables.
Apuntes estadística P á g i n a | 10
2.Teoría de muestras 1.- Primeras definiciones
DEF: Se llama POBLACIÖN al conjunto de elementos que poseen una
determinada característica. Supondremos que la población es muy grande
DEF: Se llama MUESTRA a cualquier subconjunto de la población y
MUERSTREO al proceso mediante el cual se escoge una muestra .
NOTA : Aunque existen varios tipos de muestreo , nosotros
supondremos que usamos un muestreo aleatorio simple , en el que todos
los elementos de la población tienen la misma probabilidad de ser
elegidos.
2.- Distribución en el muestreo de una proporción
La variable aleatoria �̂� tiene como media p y como desviación
√𝑝(1−𝑝)
𝑛 siendo p el porcentaje .
A medida que n crece la distribución de �̂� se aproxima a la normal
siempre que p no se acerque ni a 0 ni a 1
Ejemplo: El 3% de las piezas producidas por una máquina son
defectuosas. Se toma una muestra de 100 piezas . Hallar la
probabilidad de que en la muestra haya menos de 28 piezas
defectuosas.
• Como p=0,03 �̂� se aproxima a una normal N(0,03 ,
3.- Distribución en el muestreo de la media
La variable aleatoria �̅� tiene como media µ y como desviación 𝜎
√𝑛
A medida que n crece la distribución de �̅� se aproxima a la normal.
Apuntes estadística P á g i n a | 11
Si no se conoce y n≥30 se puede sustituir por �̂�
Ejemplo : Se supone que la distribución de la temperatura del cuerpo humano en la población sigue una ley normal de media 37º y de desviación típica 0,85. Se elige una muestra de tamaño 105. Hallar la probabilidad de que la media sea menor o igual que 36,9º.
4.-Distribución de las sumas muestrales
La variable aleatoria 𝑇 tiene como media nµ y como desviación
𝜎√𝑛
A medida que n crece la distribución de �̅� se aproxima a la normal
5.- Distribución en el muestreo de la diferencia de medias
La variable aleatoria �̅�1 − �̅�2 tiene como media µ1-µ2 y como desviación
típica √𝜎1
2
𝑛1−
𝜎22
𝑛2
A medida que n1 y n2 crecen , la distribución de �̅�1 − �̅�2 se aproxima a
una normal
6.- Teorema central del límite
Toda variable que represente un parámetro de las muestras , se puede aproximar por una variable normal sea la variable de partida normal o no siempre que el tamaño de la muestra sea suficientemente grande ( consideraremos n≥30)
EJERCICIOS :
1)El cociente intelectual de unos universitarios se distribuye normalmente con media 100 y desviación típica 11.
a) Se elige una persona al azar. Halla la probabilidad de que si C.I esté entre 100 y 103.
b) Se elige al azar una muestra de 25 personas. Halla la probabilidad de
que la media de sus cocientes intelectuales está entre 100 y 103.
Apuntes estadística P á g i n a | 12
3.-INTERVALOS DE CONFIANZA
NOTA PREVIA : En el epígrafe anterior , hemos obtenido
probabilidades asociadas a los elementos muestrales ( como media
,proporción....) a partir de datos de la población .Esto , es poco habitual ,
siéndolo mucho más la operación inversa , es decir obtener datos
poblacionales a partir de los parámetros muestrales . Como es lógico,
cuanto mayor sea el tamaño de la muestra , mejor será la inferencia.
1. Estimación puntual
DEF : Consiste en usar el estadístico para estimar el parámetro
poblacional .
o P.ej : Usar �̅� ( media muestral ) para estimar µ ( media
poblacional ) ó �̂� ( proporción muestral ) para estimar p (
proporción poblacional).
2. Estimación por intervalo .Definiciones
DEF: Consiste en dar un intervalo en el que podemos asegurar que el
parámetro poblacional va a estar en un porcentaje alto de las veces.
DEF: Se llama COEFICIENTE DE CONFIANZA a la probabilidad de
que un estimador por intervalo cubra al verdadero valor del parámetro . ES
1-.
DEF: Se llama NIVEL DE SIGNIFICACIÓN a la diferencia entre la
certeza (1) y el coeficiente de confianza .( 1-) .Por tanto .
DEF: Se llama VALOR CRÍTICO al valor de la abscisa que deja a su
derecha un área igual a 𝛼
2.Se representa por 𝑍𝛼
2
Apuntes estadística P á g i n a | 13
1- 0,8 0,9 0,95 0,99
0,2 0,1 0,05 0,01
𝛼
2
0,1 0,05 0,025 0,005
𝑍𝛼2 1,28 1,64 1,96 2,58
DEF : Se llama MARGEN DE ERROR o amplitud del intervalo a la
diferencia entre el extremo superior e inferior del intervalo de confianza .
Es 2E . siendo E el error cometido .
3. Intervalo de confianza para la media muestral .Modo de cálculo .
Sea una población de distribución N(𝜇, 𝜎) y queremos estimar mediante
un intervalo el parámetro .
Para ello , elegimos una muestra de tamaño n y calculamos la media
muestral. Como ya se vio, �̅� se distribuye como una N(µ, 𝜎
√𝑛) .Se sabe
además que : p(−𝑍𝛼
2< 𝑍 ≤ 𝑍𝛼
2) = 1 − 𝛼 .
Tipificando : Z=�̅�−𝜇
𝜎
√𝑛
, con lo que : p(−𝑍𝛼
2<
�̅�−𝜇𝜎
√𝑛
≤ 𝑍𝛼
2) = 1 − 𝛼 .
p(−𝑍𝛼
2∙
𝜎
√𝑛< �̅� − 𝜇 ≤ 𝑍𝛼
2∙
𝜎
√𝑛) = 1 − 𝛼 , . si despejamos :
p( �̅� − 𝑍𝛼
2∙
𝜎
√𝑛< 𝜇 ≤ �̅� + 𝑍𝛼
2∙
𝜎
√𝑛) = 1 − 𝛼.
Como �̅� es un valor particular de �̅�, obtenemos que :
El intervalo de confianza para el parámetro de una población N(𝜇, 𝜎) al
nivel de confianza 1- viene dado por:
(�̅� − 𝑍𝛼
2∙
𝜎
√𝑛, �̅� + 𝑍𝛼
2∙
𝜎
√𝑛) siempre que sea conocida .
Apuntes estadística P á g i n a | 14
(�̅� − 𝑍𝛼
2∙
�̂�
√𝑛, �̅� + 𝑍𝛼
2∙
�̂�
√𝑛) si no es conocida siendo �̂�2 =
∑(𝑥𝑖−�̅�)2
𝑛−1 , la cuasi varianza muestral .
4. Intervalo de confianza para la proporción poblacional .Modo de
cálculo
Sea una población que se distribuye según una binomial B(n,p) .Si el
parámetro poblacional p ( probabilidad éxito) , usaremos una muestra
aleatoria de tamaño n .
Sabemos que �̂� =𝑥
𝑛 siendo x el nº de éxitos en las n pruebas de la
muestra .
También sabemos que si n es suficientemente grande �̂� es una variable
aleatoria normal N(𝑝. √𝑝(1−𝑝)
𝑛) .
Si procedemos igual que en el apartado anterior se deduce que :
Si n es muy grande ( np≥5 , nq≥5 ) ,el intervalo de confianza para p viene
dado por :(�̂�−𝑍𝛼
2∙ √
𝑝(1−𝑝)
𝑛, �̂�+𝑍𝛼
2∙ √
𝑝(1−𝑝)
𝑛)
5. Intervalo de confianza para la diferencia de medias .Modo de cálculo
Sea dos poblaciones N(1,1) , N(2,2) , se hacen una muestra de cada
una de tamaños n1 y n2 Si �̅�1 es la media muestral de la primera oblación y
�̅�2 la de la segunda el intervalo de confianza para el parámetro 1-2
viene dado por (�̅�1 − �̅�2 ± 𝑍𝛼
2∙ √
𝜎12
𝑛1−
𝜎22
𝑛2)
6. Tamaño de la muestra
Es evidente, que un procedimiento para aumentar la confianza del
intervalo es aumentar el tamaño de la muestra
Apuntes estadística P á g i n a | 15
Veamos con un ejemplo cómo proceder :
El peso (en gramos) de las naranjas de un agricultor es aleatorio, con
distribución normal de desviación típica igual a 30 gramos. Queremos
construir un intervalo de confianza para la media del peso de las
naranjas del agricultor.
Determinar el tamaño de la muestra para que el intervalo de confianza
del 98% tenga una amplitud menor o igual que 10 gramos.
Respuesta : La amplitud viene dada por E = 𝑍𝛼
2∙
𝜎
√𝑛 .
Tenemos que del enunciado sabemos que : 𝜎 = 30 ,2𝐸 = 10 y al 98%
𝑍𝛼
2= 2,33
Despejamos n = (2,33∙30
10)
2= 48,86 por lo que el tamaño de la muestra
debe ser 49 naranjas.