Download - Esta Di Stica
1
Universidad Técnica de Ambato
Profesor: Ing. Mg. Luciano Valle V.
Facultad de Ciencia Agropecuaria
MODULO: Estadística y Diseño Experimental
FASES TRABAJO ESTADISTICO
1. DEFINICIÓN DEL PROBLEMA
Es importante la formulación correcta del problemaa ser estudiado, que con exactitud se quiereinvestigar.
2. PLANEAMIENTO
Es necesario delinear el trabajo que se quiererealizar a fin de producir datos, de los cuales, sepodrán obtener resultados significativos o no, sinperder de vista los objetivos pretendidos.
12
3. TOMA DE DATOS
Es un trabajo esencialmente operacional, más degran importancia porque constituye la base de todotrabajo estadístico.
4. PRESENTACIÓN DE DATOS
Los datos deben ser reunidos y condensados deforma de ser fácilmente usados. La presentaciónpuede ser gráfica y/o tabular.
13
5. DESCRIPCIÓN DE LOS DATOS
La descripción de los datos se realiza por medio demedidas estadísticas, que son escogidas de acuerdo
con la finalidad de la investigación.
6. ANÁLISIS E INTERPRETACIÓN DE DATOS
Son técnicas apropiadas, para probar o rechazarhipótesis de las que el investigador hace uso para
resolver su problema que está estudiando.
14
De las cinco primeras fases, que se ocupan de
organizar y describir los datos experimentales,
constituyen una parte de la ciencia estadística que
llamamos ESTADÍSTICA DESCRIPTIVA, en cuanto a
la última, que cuida del análisis e interpretación de
datos, es llamada ESTADÍSTICA DEDUCTIVA O
INFERENCIA ESTADÍSTICA.
15
Presentación de la Información
DISTRIBUCION DE TABLAS DE FRECUENCIAS
Muestra el número de veces que ocurre cada observación
Ejemplo: Se elaboró una encuesta en un jardín de niños y
ésta informó que las frutas que más les gusta son
manzanas, peras, duraznos, fresas
16
A continuación se muestra la distribución de frecuencias absolutas, relativas y
porcentuales de las frutas mas comunes de los niños
17
Frutas Frecuencia absoluta Frecuencia relativa Frecuencia porcentaje
Manzana 7 0.35 35 %
Pera 4 0.20 20 %
Durazno 4 0.20 20 %
Fresa 5 0.25 25 %
Cuadros
Estos datos se pueden representar en una gráfica de barras o
en una gráfica de pastel:
0
1
2
3
4
5
6
7
Manzana Pera Durazno Fresa 18
Gráfica de barras Gráfica de pastel
35%
20%
20%
25%
Manzana
Pera
Durazno
Fresa
Gráficos o Figuras
NOTA :Para calcular:..
Frecuencia absoluta (fi): se cuenta la cantidad de veces
que ocurre el evento, en este caso, las frutas.
Frecuencia relativa (fr): se divide la frecuencia absoluta
de cada evento entre el total de eventos.
Frecuencia porcentual (f%): se multiplica la frecuencia
relativa por 100.
19
Distribución agrupada de frecuencias:
Distribución de frecuencias en la que los valores de la
variable se han agrupado en clases. Esto se debe
principalmente a la disposición de gran número de datos.
Las razones por las que se elaboran este tipo de agrupación
de datos es por economía, practicidad, tiempo y baja
frecuencia de algunos puntajes.
20
Agrupación de datos: para elaborar las tablas estadísticas,
se debe seguir el siguiente procedimiento:
1. Toma de datos.- es la obtención de una colección de datos
por medio de encuestas, preguntas, sondeos etc. Que no
han sido ordenados numéricamente y que dicha
información se extrae al azar, es decir, de tal forma que
cada miembro de la población tenga la misma oportunidad
de ser elegida o seleccionada.
21
Estos son algunos métodos para obtener datos:
Censo: Se entiende por censo aquella numeración que se efectúa a
todos y cada uno de los caracteres componentes de una población.
Los censos se utilizan rara vez porque a menudo su compilación es
bastante difícil, consume mucho tiempo por lo que resulta demasiado
costoso.
Encuesta: Se entiende por encuesta las observaciones realizadas por
muestreo, es decir son observaciones parciales.
Se efectúa a través de cuestionarios verbales o escritos que son
aplicados a un gran número de personas.
Proyectos de Investigación. Datos medidos y observados por el
investigador en campo. 22
2. Ordenación de datos: es una colocación de los datos
numéricos tomados en orden creciente a decreciente
de magnitud.
La diferencia entre el mayor y el menor de los
números se llama RANGO o recorrido de datos.
23
3. Cálculo de tamaño de clase: para calcular el tamaño de
clase es necesario calcular primeramente el número de
clases utilizando la regla de Sturges y después se obtiene
el tamaño de clase dividiendo el rango entre el número de
clases.
*No. De clases (Regla de Sturges): 1 + 3.332 log N
√n
*Tamaño de clase = Rango / No. de clases
24
4. Marca de clase: Es el punto medio de la clase y se
obtiene sumando los LI y LS de la clase y
dividiendo entre 2.
La marca de clase también se llama punto medio de
la clase
25EJERCICIO
MEDIDAS DE TENDENCIA CENTRAL
Son medidas estadísticas que se usan para describir comose puede resumir la localización de los datos. Ubican eidentifican el punto alrededor del cual se centran losdatos. Las medidas de tendencia central nos indican haciadonde se inclinan o se agrupan más los datos. Las másutilizadas son: la media, la mediana y la moda.
MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRAL
MEDIA
MEDIANA
MODA
PERCENTILES
CUARTILES
La media o media aritmética, usualmente se le llamapromedio. Se obtiene sumando todos los valores de losdatos y dividiendo el resultado entre la cantidad de datos.Si los datos proceden de una muestra, el promedio serepresenta con X. Si los datos proceden de la población, seutiliza la letra griega µ.
LA MEDIA
La fórmula matemática para calcular la media opromedio es la siguiente:
donde;
= promedio
= signo de sumatoria
N = número de datos
Veamos como se emplea la media o promedio con elsiguiente ejemplo:
CONTINUACIÓN
N
xx
X
A continuación se presenta una muestra de las puntuacionesen un examen de un curso de estadística:
70 90 95 74
58 70 98 72
75 85 95 74
80 85 90 65
90 75 90 69
Podemos calcular el promedio de las puntuaciones paraconocer cuántos estudiantes obtuvieron puntuaciones porencima y por debajo del promedio . Veamos
EJEMPLO
CONTINUACIÓN
Primero, sumamos todos los valores de los datos y el resultado lodivide entre el total de datos o tamaño de la muestra. Al sumartodas las puntuaciones en el ejemplo anterior obtendrás un total de1600, que dividido por 20(total de datos), es igual a 80. Siempleamos la fórmula obtenemos:
N
xx
8020
1600x
La segunda medida de tendencia central que analizaremoses la mediana, en ocasiones se le llama media posicional,porque queda exactamente en la mitad de un grupo dedatos, luego de que los datos se han colocado de formaordenada. En este caso la mitad (50%) de los datos estarápor encima de la mediana y la otra mitad (50%) estará pordebajo de ella. La mediana es el valor intermedio cuandolos valores de los datos se han ordenado.
LA MEDIANA
Existen dos formas para obtener la mediana.Primero, si la cantidad de los datos es impar, lamediana es el valor que se encuentra en la posición(n+1)÷2 donde, n es el número de datos. Porejemplo, se tiene una muestra de tamaño 5 con lossiguientes valores: 46, 54, 42, 48 y 32. Veamoscomo se determina la mediana.
CONTINUACIÓN
Primer paso, ordenar los datos:
32 42 46 48 54
Como la cantidad de datos es impar
(5 datos), la mediana es el valor del dato que se encuentraubicado en la posición (5+1)÷2=3, la mediana es 46.Segundo, si la cantidad de datos es par, la mediana es elvalor promedio de los datos que se encuentran en lasposiciones (n÷2) y (n÷2) + 1. Veamos el siguienteejemplo:
PASOS PARA CALCULAR LA MEDIANA
EJEMPLO
Se ha obtenido una muestra con los valores de datos: 27, 25, 27, 30, 20y 26. ¿cómo se determina la mediana en este caso?.
Primer paso, ordenar los datos de forma ascendente:
20 25 26 27 27 30
Como el número de datos es par (6), la mediana es el promedio de los
datos que se encuentran en las posiciones (6÷2) = 3 y (6÷2) +1 = 4.
por lo tanto la mediana es:
Me = =2
2726 26.5
La moda es el dato que más se repite o el dato queocurre con mayor frecuencia. En el ejemplo anterior lamoda es el . Un grupo de datos puede tener más deuna moda. Veamos el siguiente ejemplo: se tiene unamuestra con valores 20, 23, 20, 24, 25, 25, 26 y 30. El20 y 25 son la moda entonces, se dice que es bimodal.
LA MODA
27
Un percentil nos provee información de comose distribuyen los valores de los datos desde elmenor hasta el mayor. El percentil divide losdatos en cien partes.
PERCENTILES
PASOS PARA CACULAR EL PERCENTIL
Para calcular el percentil debe seguir lossiguientes pasos:
Paso 1. Ordene los datos de manera ascendente.
Paso 2. Calcule un índice (i)
en donde (p) es el percentil de interés y (n) es el número dedatos u observaciones.
nP
i
100
Paso 3.
a) Si (i) no es entero, utilizando las reglas de redondeo, selleva al próximo numero entero. El valor entero inmediatomayor que (i) indica la posición donde se encuentra elpercentil. Estosignifica que si (i) = 3.5, el percentil seencuentra en la posición 4 de los datos.
b) Si (i) es entero, el percentil es el promedio de los valores delos datos ubicados en los lugares i e (i + 1). Veamos comose aplica
COTINUACIÓN
Como ejemplo de este procedimiento, determina el percentil 75de los datos sobre las edades del siguiente un grupo deciudadanos: 25, 20, 26, 21, 19, 23, 22, 30, 28, 27.
Paso 1. Ordene los datos en orden ascendente:
19 20 21 22 23 25 26 27 28 30
EJEMPLO
EJEMPLO
Paso 2. Calcule el índice (i):
Paso 3. Como (i) no es entero, redondeamos al próximo entero mayor que 7.5, o
sea, el lugar 8. Al referirnos a los datos del ejemplo, vemos que el percentil 75 es
el valor del dato ubicado en la posición número 8, que en este caso es 27.
19 20 21 22 23 25 26 27 28 30
Nota. Recuerda que (i) nos indica el lugar del dato donde se encuentra el
percentil que estamos buscando.
nP
i
1005.710
100
75
i
Significa que el 75% de las edades son menores de 27 años
y el 25% restante es mayor de 27 años.
¿CÓMO SE INTERPRETA EL PERCENTIL EN ESTE EJEMPLO?
Los cuartiles dividen los datos en cuatro partes. Cada una
de las partes representa una cuarta parte, o el 25% de las
observaciones. Los cuartiles son percentiles específicos;
por consiguiente, los pasos para calcular los percentiles
los podemos emplear para calcular los cuartiles.
CUARTILES
Los cuartiles se definen de la siguiente manera:
Q1 = primer cuartil, o percentil 25
Q2 = segundo cuartil, o percentil 50
(también la mediana)
Q3 = tercer cuartil, o percentil 75
CONTINUACIÓN
PASOS PARA CALCULAR LOS CUARTILES
A continuación se presenta un conjunto de datos con los siguientesvalores; 5, 12, 8, 14, 11, 15, 20, 18, 30 y 25.
¿ Cómo identificamos los cuartiles en este ejemplo?
Utilizarás los mismos pasos para identificar los percentiles:
Primero, ordenamos los datos
5 8 11 12 14 15 18 20 25 30
Segundo, determinamos (i) para cada cuartil:
Q1 = primer cuartil, o percentil 25
Q2 = segundo cuartil, o percentil 50
(también la mediana)
Q3 = tercer cuartil, o percentil 75
CONTINUACIÓN
Cuartiles:
Q1 = primer cuartil, o percentil 25
= 2.5
Como(i) no es un número entero, se redondea al próximo entero mayorque 2.5, o sea 3. Al referirnos a los datos vemos que el primer cuartil estáubicado en la posición 3 de los datos que este caso es 11. El primer cuartilen los datos se divide de la siguiente forma:
5 8 11 12 14 15 18 20 25 30
Q1=11
10100
25
i
CONTINUACIÓN
Segundo cuartil:
Q2 = segundo cuartil, o percentil 50
(también la mediana)
= 5
Como (i) es un número entero, el segundo cuartil es el promedio delos valores de los datos que están en las posiciones i e (i+1), que eneste caso es, (14+15)÷2=14.5, entonces, el segundo cuartil enlos datos se divide así:
5 8 11 12 14 15 18 20 25 30
Q1=11 Q2=14.5
10100
50
i
CONTINUACIÓN Tercer cuartil:
Q3 = tercer cuartil, o percentil 75
= 7.5
Como (i) no es un número entero, se redondea al próximo entero mayorque 7.5, o sea 8. Al referirnos a los datos , vemos que el tercer cuartilestá ubicado en posición 8 de los datos que en este caso es el 20.Finalmente, los cuartiles en este caso se presentan de la siguiente forma:
5 8 11 12 14 15 18 20 25 30
Q1=11 Q2=14.5 Q3=20
10100
75
i
Resuelve los siguientes ejercicios:
Se ha obtenido una muestra del salario de los Bomberos delCantón Ambato. Los datos recopilados fueron los siguientes:
1500 1400 1600 2100
1200 1300 1900 1800
2000 1200 1200 1500
2200 2300 1500 1400
a. determine el salario promedio
b. calcule la mediana y la moda.
EJERCICIO DE PRÁCTICA
c. Con los datos del ejercicio anterior conteste lo siguiente:
c.1. calcule el percentil 65. Explique el resultado.
c.2. determine los cuartiles.
CONTINUACIÓN
56
MUESTREO
El muestreo es una técnica
de investigación estadística,
que consiste en extraer la
información de una parte
representativa de una
población.
POBLACION
MUESTRAS
57
POBLACION
A la población estadística se ledenomina también universo, es elconjunto de elementos que tienencaracterísticas comunes en unespacio y tiempo determinado.
El tamaño de la población es elnúmero de elementos que laintegran.
58
POBLACION FINITA
Es el que tiene delimitado el número de elementos que la
integran
59
POBLACION INFINITA
Es la que no tiene
delimitado el número
de elementos que la
integran.
También se considera
población infinita la
que tiene un número
muy grande de
elementos.
60
MUESTRA ESTADISTICA
Es una parte de la población estadística que la
representa. Para que una muestra sea
representativa debe tener las características de
tamaño y representatividad.
61
TAMAÑO
Debe ser lo suficientemente grande para que
permita realizar extrapolaciones e inferencias
adecuadas y no caer en errrores de muestreo.
62
REPRESENTATIVIDAD
Los elementos que componen la muestra deben
representar resultados semejantes a los que se
obtendría investigando a toda la población a un
costo menor y en menor tiempo.
63
TAMAÑO DE LA MUESTRA
Es el número concreto de unidades
muestrales que se han seleccionado del
universo para integrar la muestra.
64
FACTORES
Grado de homogeneidad de los datos, lo que se manifiestapor la varianza, si son más homogéneos la varianza serápequeña, si son muy heterogéneos la varianza serágrande.
Nivel de confianza: si queremos un 99% de confianza eltamaño será mayor que si necesitamos un 95% deconfianza.
Disponibilidad de recursos económicos, materiales yhumanos para destinarlos a la investigación de la muestra.
65
TIPOS DE MUESTREO
PROBABILISTICO
Es probabilístico cuando los elementos son
seleccionados en forma individual y directa.
NO PROBABILÍSTICO
La selección se hace sobre la base del criterio del
investigador
MUESTREO PROBABILÍSTICO
67
1. Muestreo aleatorio simple
Permiten obtener muetras aleatorias simples.
FORMAS:
Numerando los elementos de la población
Tabla de números aleatorios.
ALEATORIO SIMPLE SIN REEMPLAZO
ALEATORIO SIMPLE CON REEMPLAZO
68
2. Muestreo Estratificado Uniforme y
Proporcional
Consiste en seleccionar muestras al azar de los estratos enlos que previamente se han dividido la población.
Dichos estratos deben tener características comunes.
FRACCION MUESTRAL
n
Fm=
N
n= Tamaño de la muestra
N= Tamaño de la población
69
EJERCICIO
Supongamos que tenemos una población de
360 animales (ganado bovino), de los cuales
180 son terneros, 140 vacas vientre y 40
toros. Se ha determinado que el tamaño de
la muestra es de 90.
Distribuya proporcionalmente el tamaño de
la muestra en los distintos estratos.
70
3. Muestreo Sistemático
Consiste en enumerar en forma consecutiva a todos
los elementos de la población del 1 al n, luego
dividimos el tamaño de la población para el tamaño
de la muestra para obtener la razón de maestro
(R.M = N/n).
Luego se toma un valor al azar que se encuentre
dentro de la razón de muestreo y que viene a
constituir el primer elemento de la muestra, los
otros elementos se calculan así:
N = 200 n = 8
RM = 200/8
RM = 25
Se toma al azar el 14
14
14 + 25 = 39
39 + 25 = 64
64 + 25 = 89
89 + 25 = 114
114 + 25 = 139
139 + 25 = 164
164 + 25 = 189
MUESTREO NO PROBABILÍSTICO
1. Muestreo intencional.- Se tiene en cuenta el criterio del investigador,
que es quien decide, en forma justificada, quienes conforman la
muestra.
2. Muestreo por cuotas.- Con los elementos del universo se conforman
grupos o categorías. El investigador determina en forma razonada los
individuos que conforman la muestra en cada uno de los grupos o
categorías.
Ejemplo: al investigar a hombres y mujeres; el número y a quiénes
se investiga, queda a criterio de quien conforma la muestra
3. Muestreo por decisión de expertos.- Se conforma la muestra por
sugerencia de personas conocedoras del problema de investigación,
son las autoridades en la materia y saben a quienes deben ser
investigados.
4. Muestreo casual.- Los elementos que conforman la muestra y quienes
van a ser investigados son aquellos que son de fácil acceso, es decir,
se los puede encontrar en cualquier momento y lugar (por ejemplo: se
investiga a los que pasan por la calle, los que se encuentran en el
mercado)
DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA
Es importante determinar el tamaño adecuado de una
muestra y no se debe actuar con ligereza, por cuanto si
tomamos una muestra grande de lo necesario es un
desperdicio de recursos, y muestras muy pequeñas a
menudo nos lleva a tener resultados sin uso práctico, nada
confiable.
PARA DETERMINAR EL TAMAÑO DE LA MUESTRA HAY QUE TENER EN CUENTA
LO SIGUIENTE:
El Objeto y el Objetivo de la investigación
El nivel de confiabilidad con que se desea trabajar (se recomienda entre 95%
y el 99%)
Las probabilidades reales de que ciertas características a investigar estén
presentes (P) el universo, frente a las probabilidades de que no estén (Q)
P = 0,5
Q = 1-0,5 = 0,5
P + Q = 1
El error de muestreo puede fluctuar, según criterio de algunos investigadores,
entre 1% y el 8%; lo aconsejable es entre 1% y 5%
Aplicar la fórmula adecuada para universos finitos e infinitos considerando los
datos de la información.
ejemplos
DISTRIBUCION NORMAL
En estadística la más importante distribución de frecuencias es la
normal o estándar, y la mayoría de los procedimientos estadísticos
se basan en ella.
Fue descubierta y publicada por primera vez en 1733 por De
Moivre. A la misma llegaron, de forma independiente, Laplace
(1812) y Gauss (1809), en relación con la teoría de los errores de
observación astronómica y física .
Pierre Simon de Laplace
(1749-1827)
Karl F. Gauss
(1777-1855)
La localización y forma de la curva normal están dados
por los valores u y o
El valor de u establece el centro de la curva, en forma
simétrica, es decir 50% de las observaciones se hallan a
la derecha de u y el 50% a su izquierda.
50%50%
El valor de o determina el grado de dispersión de los datos
En la gráfica podemos apreciar tres curvas normales, todas con igual media, pero con diferente desviación estándar.
La curva A es la que menos grado de dispersión presenta.
La curva B es intermedia, y,
La curva C tiene las mayor dispersión de los datos.
En todas las curvas, el área total, o sea el total de las observaciones oindividuos, es equivalente a 100% o uno.
La distribución normal estándar tiene una media
aritmética de 0 y una desviación estándar de 1, y su
área bajo la curva es igual a 1.00 o el 100% de los casos
de la población que se estudia.
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4u
g(u
)
µ - 3s µ + 3s
µ - s µ + s
68,26 %µ - 2s µ + 2s
95,44 %
99,73 %
Hay varios tipos de tablas de la distribución normal
La que se explica aquí representa las áreas para los
diferentes valores de z desde 0 hasta +.
0+
Los valores
negativos de z NO
están tabulados, ya
que la distribución
es simétrica
0.0
0.1
0.2
0.3
0.4
0.5
0 1 2 3 4 5 6 7 8 9
.0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
.0398 .0438 .0478 .0517 .0557 .0596 .0363 .0675 .0675 .0754
.0793 .0832 .0871 .0910 .0948 .0987 .1026 .... ...... ......
.1179 ..... ...... ...... ......
.1554 .... ..... ....
.1915 ....
La tabla consta de:*Margen izquierdo : Los enteros de z y
su primer decimal.* Margen superior: segundo decimal* Cuerpo de la tabla: áreas correspondientes,
acumuladas, desde 0
hasta 3.99
Ejemplos de aplicación
Halle el área bajo la curva normal estándar desde -infinito hasta
Z=0.83
Encuentre el área bajo la curva normal estándar desde Z=-2 y Z=1.5
Encuentre el área bajo la curva normal estándar desde Z= 1.6
Encuentre el área bajo la curva normal estándar desde Z= <-2.08
HIPÓTESIS
Se define a la hipótesis como una teoría
tentativa o una suposición adoptada
provisionalmente para explicar ciertos
hechos y guiar la investigación de otros.
HIPOTESIS
HIPOTESIS NULA (Ho). No existe diferencia entrelas variables o tratamientos. u1=u2
HIPOTESIS ALTERNATIVA (Ha). Existe diferenciaentre las variables o tratamientos.
Ha: < 0
Ha: > 0
Ha: < 0 > 0
PRUEBAS DE HIPOTESIS Y NIVEL DE SIGNIFICACION
Los procedimientos que nos permiten aceptar o rechazar hipótesis, sellaman pruebas de hipótesis o pruebas de significación
Generalmente, los investigadores usan los niveles de significación de0.05 o 0.01, aun cuando pueden usarse otros niveles, de acuerdo a lanaturaleza del problema.
El nivel de 0.05, 5% o 95%, quiere decir que, de repetirse un evento100 veces, existe 95 posibilidades de que obtengamos los mismosresultados iniciales, en otras palabras, existen 95 posibilidades entre100, de que estemos en lo cierto y 5 de estar equivocados.
El nivel de 0.01, 1% o 99%, quiere decir que existe una posibilidadentre 100 de estar equivocados al tomar una decisión cualquiera.
PRUEBAS DE HIPÓTESIS
La prueba a realizar dependerá del tamaño
de las muestras, la homogeneidad de las
varianzas y de la dependencia o no de las
variables. Así:
Pruebas que se aplican a dos muestras
1. Cuando las muestras a probar involucran a más de 30observaciones
EJEMPLO:
La altura promedio de 50 palmas que tomaron parte de un ensayo es
de 78 cm. con una desviación estándar de 2.5 cm.; mientras que otras
50 palmas que no forman parte del ensayo tienen media y desviación
estándar igual a 77.3 y 2.8 cm.
Se desea probar la hipótesis de que las palmas que participan
en el ensayo son más altas que las otras.
Consultando el valor z de la tabla a 95% de probabilidad se
tiene que es 1.65, por lo consiguiente, el valor z calculado no
fue mayor al valor de la tabla y entonces se declara la prueba
no significativa, aceptando la Ho.
Conclusión: Las alturas promedio de los 2 grupos de palmas
son iguales y la pequeña diferencia observada en favor al
primer grupo se debe al azar
2. Caso de número igual de observaciones y varianzas
homogéneas
Ejemplo:
Se plantó cierto experimento en 24 parcelas para probar el efecto de la
presencia o ausencia de K en el rendimiento de maíz forrajero.
Rendimiento (Kg.)
n a b a2 b2
1 20.0 24.0 400.00 576.00
2 24.0 28.0 576.00 784.00
3 21.0 25.0 441.00 625.00
4 22.0 25.0 484.00 625.00
5 23.0 27.0 529.00 729.00
6 24.0 27.5 576.00 756.25
7 22.5 28.0 506.25 784.00
8 22.0 26.0 484.00 576.00
9 21.5 26.0 462.25 676.00
10 20.0 24.5 400.00 600.25
11 22.0 26.5 484.00 702.25
12 24.0 28.5 576.00 812.25
Suma 266 316 5918.5 8346
Promedio 22.16 26.33
s2a = 5918.5 - (266)2/12 = 2.02
11
s2b = 8346 - (316)2/12 = 2.24
11
Se busca en la tabla de t de student con 2(n-1) grados
de libertad o sea 22, y se encuentra que el valor
tabular es de 2.074 al 95% de probabilidad, el cual es
menor que la t calculada y por lo tanto se declara la
prueba significativa.
3. Caso de igual número de observaciones y varianzas
heterogéneas
Ejemplo:
Se plantó cierto experimento en 24 parcelas con dos clases de
semillas: semilla mezclada y semilla seleccionada. Se desea saber
si el rendimiento observado por la semilla seleccionada difiere a la
otra
Producción de palma: TM/ha/año
n Semilla mezclada
SemillaSeleccionada
a2 b2
1 10.0 18.0 100.00 324.00
2 13.5 14.2 182.25 201.64
3 12.4 22.5 153.76 506.25
4 11.3 13.0 127.69 169.00
5 12.8 15.0 163.84 225.00
6 12.0 16.5 144.00 272.25
7 11.5 19.5 132.25 380.25
8 12.5 17.0 156.25 289.00
9 12.4 19.5 153.76 380.25
10 11.6 21.0 134.56 441.00
11 12.0 22.5 144.00 506.25
12 12.5 17.5 156.25 306.25
Sumas 144.5 216.2 1748.61 4001.14
Promedio 12.04 18.01
s2a = 1748.61 - (144.5)2/12 = 0.78
11
s2b = 4001.14 - (216.2)2/12 = 9.63
11
Consultando la tabla de t con (n-1)+2 grados de libertad
(13) se encuentra un valor de 2.160, por lo tanto, la
diferencia se declara significativa
Conclusión: El rendimiento observado por las plantas de
semilla seleccionada fue significativamente superior a las
otras
4. Caso de diferente número de observaciones y varianzas
homogéneas
Ejemplo:
Se tomó una área de terreno distribuida en 22 parcelas y a 13 de ellas
se les aplicó un fertilizante nitrogenado para medir el efecto del N en
el crecimiento
Área foliar de la hoja # 17 en m2
n Con N
(a)
Sin N
(b)
a2 b2
1 8.0 6.0 64.00 36.00
2 9.0 6.5 81.00 42.25
3 8.5 7.0 72.25 49.00
4 9.4 6.5 88.36 42.25
5 9.3 6.4 86.49 40.96
6 8.4 7.1 70.56 50.41
7 8.5 7.2 72.25 51.84
8 8.6 6.2 73.96 38.44
9 8.0 6.3 64.00 39.69
10 8.5 72.25
11 9.0 81.00
12 8.5 72.25
13 8.4 70.56
Sumas 112.1 59.2 968.93 390.84
Promedio:
8.62 6.57
s2a = 968.93 - (112.1)2/13 = 0.19
12
s2b = 390.84 - (59.2)2/9 = 0.18
8
s2c = 12(0.19) + 8(0.18) = 0.19
20
Consultando la tabla con (na-1) + (nb-1) o sea (20) grados
de libertad, se obtiene el valor tabular de 2.086, el cual
es menor que la t calculada, por lo tanto la diferencia se
declara significativa
Conclusión: La diferencia detectada en estas dos
muestras es atribuible a la aplicación del fertilizante
nitrogenado
5. Caso de diferente número de observaciones y varianzas
heterogéneas
En este caso, la tc es comparada con la tg (t generada), que a
diferencia de los casos anteriores, hay que calcularla
Donde: ta y tb son los valores de la tabla con n-1 grados de
libertad para a y b respectivamente
Ejemplo:
Se tomaron 2 muestras de palma comercial de orígenes diferentes y se midió
el porcentaje de almendra en el racimo en ambas muestras, el objeto es probar
si las muestras son diferentes genéticamente o no
Porcentaje de almendra
n a b a2 b2
1 3.2 4.5 10.24 20.25
2 3.5 4.2 12.25 17.64
3 3.4 4.1 12.56 16.81
4 3.6 4.6 12.96 21.16
5 3.7 4.7 13.69 22.09
6 3.4 4.2 11.56 17.64
7 3.3 4.1 10.89 16.81
8 8.5 4.5 72.25 20.25
9 3.4 4.5 11.56 20.25
10 3.4 4.4 11.5 6 19.36
11 3.6 12.96
12 3.7 13.69
13 3.2 10.24
14 3.1 9.61
Sumas 53.0 43.8 225.02 192.26
Promedio
3.79 4.38
s2a =225.02-(53)2/14=1.88
3s2b=192.26-(43.80)2/10=0.05
9
En este caso la t generada (tg), reemplaza la t de la tabla
y como la tc es menor que la tg, la diferencia se declara
No significativa
Conclusión: La diferencia observada entre promedios es
atribuible únicamente a errores de muestreo o
variabilidad natural, y no a diferencias genéticas
6. Caso de muestras pareadas (de variables dependientes)
En este caso, se asume que las muestras han sido distribuidas
por pares
Ejemplo:
Se tomaron 12 foliolos de palma joven y a cada uno se le trató la
mitad con Benlate para medir la inhibición del crecimiento de
hongos
n Sinbenlate
x
Conbenlate
y
D= x-y
D2
1 113.5 120.5 -7.00 49
2 118.5 90.5 28.00 784
3 120.5 105.5 15.00 225
4 132.5 110.5 22.00 484
5 124.5 90.5 34.00 1156
6 134.5 112.5 22.00 484
7 135.5 140.5 -5.00 25
8 145.5 105.5 40.00 1600
9 160.5 130.4 30.10 906.01
10 170.5 150.5 20.00 400
11 146.5 135.5 11.00 121
12 174.5 165.5 9.00 81
Sumas 1677 1457 219.10 6315.01
Promedio 139.75 121.49 18.26
Consultando la tabla con n-1 grados de libertad se obtiene
el valor tabular de 2.201, por lo tanto, la diferencia se
declara significativa
Conclusión: De la prueba se desprende que el
tratamiento con benlate redujo significativamente la
incidencia de hongos
Prueba de “t”
No Pareada
Se usa cuando las observaciones o muestras no se
corresponden en parejas de manera directa
Pareada
Los dos grupos de datos tienen correspondencia estricta en parejas de
muestras
Para una sola
muestra
Cuando se quiere comparar un valor
muestral como la media vs. el correspondiente parámetro poblacional
Para muestras
de tamaño < 30
Prueba de “t” para una sola muestra
Un fabricante de cigarrillos afirma que, el promedio de nicotina
de sus productos es cuando mucho 5 mg por cigarrillo fumado.
Para comprobar esta aseveración, se sacó una muestra aleatoria
de 28 cigarrillos y se encontró un promedio X = 5.4 mg de
nicotina, con una desviación estándar S = 0.35 mg
Probar la hipótesis nula de que el promedio se ajusta al valor
máximo de 5 mg, con niveles de significación α = 0.01
Ho: = 5 mg
Ha: > 5 mg
……Prueba de “t” para una sola muestra
t =
t = = 6.05
Prueba de la hipótesis Ho: = 5 mg
Valor de “t” tabular de una sola cola (unilateral) con 27 g.l.
nivel α 0.01 = 2.473
Por lo tanto se rechaza la hipótesis Ho tanto al 1%
Conclusión: Con un nivel de confianza del 99% se puede afirmar
que los cigarrillos analizados contienen más nicotina que lo
reportado por el fabricante.
Ejercicio
Se quiere conocer el grado de contaminación del aire en una determinada
ciudad, para lo cual se midió las partículas atmosféricas en ppm en 15
muestras aleatorias. El parámetro promedio de contaminación del aire es
34.5 ppm
Probar Ho: X = = 34.5Ha: X ≠ ≠ 34.5
Utilice la prueba de “t” con nivel α de 0.05
Muestra ppm Muestra ppm Muestra ppm
1 33.38 6 34.34 11 33.46
2 32.15 7 33.95 12 34.13
3 33.39 8 33.85 13 34.45
4 34.10 9 34.23 14 34.19
5 33.97 10 32.73 15 34.05
Prueba de “t” para Observaciones no Pareadas
No es necesario que el número de observaciones de cada grupo o muestra sea el
mismo
Tampoco es necesario conocer previamente la varianza poblacional
Se asume homogeneidad de varianzas
Para el cálculo del valor de “t” se procede:
1. Varianza Combinada Sc2 =
2. Desviación estándar de las diferencias: Sd
Sd =
3. Valor de “t” =
Ejercicio: prueba de “t” no pareada
Para proteger las tuberías de agua y drenaje se utiliza un forro flexible
alrededor del tubo, el cual se coloca con dos métodos: con fusión (A) y sin
fusión (B). Los siguientes son los datos de resistencia a la tensión en libras
por pulgada cuadrada (psi) medida en varias tuberías en que se usó uno de
los dos métodos:
a) Compruebe las
hipótesis
estadísticas:
Ho: A = B
Ha: A ≠ B
b) Niveles de
significación α 0.05 y
0.01
Muestra Método A
(psi)
Muestra Método B
(psi)
1 2728 1 3124
2 2705 2 3451
3 2745 3 3514
4 2812 4 3318
5 2415 5 3219
6 3258 6 2898
7 3356 7 3014
8 3124 8 3116
9 3240
10 2651
….Ejercicio: prueba de “t” no pareada
1. XiA = 29.034 XiB= 25.654
2. XA = 2.903,40 XB = 3.206,75
3. XiA2 = 85 195.680 XiA
2 = 82 580.114
4. SCXiA = 898.364,40 SCXiA = 314.149,50
5. Sc2 = 75.782,12
6. Sd = 130,58
7. t = -2,32*
Para la prueba de la Ho se compara el valor de “t”calculado con el valor de “t” tabular al nivel designificación escogido (α) y con (nA-1) +(nB-1) grados delibertad:
El valor tabular con 16 g.l. , al 5 y 1% es: 2,120 y 2,921
Conclusión: se rechaza la Ho a nivel del 5%, pero no al 1%
Prueba de “t” para Observaciones Pareadas
Se utiliza para probar la diferencia entre dos grupos de datos que tienen estricta correspondencia en parejas de muestras
El número de observaciones debe ser el mismo para los dos grupos de datos
Para el cálculo del valor de “t” se procede:
1. Cálculo de la diferencia entre las medias de los dos grupos
2. Cálculo de las diferencias (D) entre las parejas de observaciones
3. Cálculo del cuadrado de las diferencias (D2)
4. Cálculo de la desviación estándar de las diferencias (Sd)
5. Cálculo del valor de t =
Ejercicio: prueba de “t” pareada
Cinco muestras de una sustancia ferrosa se usan para determinar si hay
diferencias entre un análisis de fluorescencia de rayos X (A) y un
análisis químico de laboratorio (B) del contenido de hierro. Cada
muestra se divide en dos submuestras y se aplican los dos tipos de
análisis, obteniéndose los siguientes contenidos de hierro:
Probar la Ho: A = B y Ha: A ≠ B con nivel α del 5%
Muestra Rayos X (A) Análisis Químico (B)
1 2.0 2.2
2 2.0 1.9
3 2.3 2.5
4 2.1 2.3
5 2.1 2.4
….Ejercicio: prueba de “t” pareada
Muestra Método A Método B D D2
1 2.0 2.2 -0.2 0.04
2 2.0 1.9 0.1 0.01
3 2.3 2.5 -0.2 0.04
4 2.1 2.3 -0.2 0.04
5 2.1 2.4 -0.3 0.09
Suma 10.5 11.3 -0.8 0.22
Promedio 2.1 2.26
S2d = = 0.0046
Sd = S2d = 0.0046 = 0.0678
t = = = -2.36
Prueba de hipótesis Ho: A = B
“t” tab (4g.l.; 0.05) = 2.776
Dado que “t” calculada es menor que
“t” tabular, se acepta Ho. Es decir los
dos métodos dan resultados similares
EJERCICIO
Muestra Método A Método B
1 55 60
2 41 45
3 27 29
4 36 39
5 48 51
6 74 80
7 65 70
8 47 51
9 49 52
10 63 67
11 38 41
12 44 46
En 12 muestras de suelo se realizó la determinación del contenido de
nitrógeno utilizando dos métodos diferentes (A y B): Los resultados
están expresados en microgramos por mililitro de suelo :
Determinar mediante “t”:
a. Si los resultados presentados son
iguales (Ho) o difieren significativamente
(Ha), considerando que las muestras
corresponden a suelos de 12 sectores
diferentes (muestras en parejas)
b. Asuma que las muestras son
independientes (no pareadas), calcule el
valor de “t” correspondiente y
establezca las diferencias con los
resultados del literal anterior
Prueba de “z” para dos muestrasSe utilizan dos métodos (A y B) para determinar el contenido de calorías por
Kg de 30 muestras de raciones alimenticias. Se quiere conocer si los dos
métodos entregan resultados similares (Ho) o diferentes (Ha)
Muestra A B Muestra A B Muestra A B
1 335 347 11 330 329 21 345 349
2 362 359 12 325 338 22 334 351
3 338 359 13 338 346 23 323 348
4 329 334 14 336 345 24 344 346
5 333 341 15 334 340 25 344 348
6 371 391 16 331 348 26 348 350
7 356 334 17 327 356 27 350 352
8 341 341 18 328 352 28 349 347
9 334 347 19 329 338 29 339 340
10 335 314 20 340 329 30 340 338
………Prueba de “z”
1. Cálculo de XA = 10.168
2. Cálculo de XB = 10.357
3. Promedio XA = 338,93
4. Promedio XB = 345,23
5. XA2 = 3 449.726
6. XB2 = 3 580.369
5. Suma de Cuadrados de XA = 3.451,87
6. Suma de Cuadrados de XB = 4.787,37
7. Varianza de XA = 119,03
8. Varianza de XB =165,08
9. Valor de “z” = = = -2.05
………Prueba de “z”
Comprobación de la hipótesis:
Ho: Método A = Método B
Ha: Método A ≠ Método B
Valor calculado de z = -2.05
Valor tabular para z (2.05) = 0.4798
Probabilidad = (0.500 – 0.4798) x 2 = 0.0404 4.04%
De manera que se rechaza la hipótesis Ho a nivel del 5%, es decir los dos
métodos son diferentes con un nivel de confianza del 95%
Para niveles de significación del 5% siempre que z calculada sea mayor a
|1.96| se rechaza la Ho
Para niveles de significación del 1% siempre que z calculada sea mayor a
|2.57| se rechaza la Ho
EJERCICIO
Muestra D N Muestra D N Muestra D N
1 58 53 13 65 66 25 57 56
2 59 57 14 57 63 26 70 58
3 65 59 15 58 53 27 58 68
4 66 65 16 59 58 28 59 63
5 59 50 17 69 57 29 54 62
6 54 53 18 67 54 30 65 66
7 58 59 19 58 59 31 66 65
8 64 68 20 68 56 32 67 59
9 66 67 21 67 65 33 61 58
10 65 66 22 66 62 34 60 64
11 63 59 23 65 63 35 63 60
12 62 58 24 64 60 36 62 66
Se quiere probar la eficiencia de dos equipos de trabajo (D y N) que laboran en
diferentes horarios (diurno y nocturno), para lo cual se toma al azar 36 muestras
de la producción por hora de cierto producto. Usando la prueba de z comprobar
al 95% de confianza, Ho: D = N y Ha: D ≠ N a partir de los siguientes datos:
Prueba de Ji
Cuadrado (X2)
Bondad de Ajuste
Comprueba el ajuste entre
valores observados y
esperados
IndependenciaComprueba la
independencia de variables
Ji Cuadrado (X2)
La prueba de X2 se usa también para probar la
independencia de variables.
Con los valores observados se construyen tablas de
contingencia, que son tablas de doble entrada en
las que se presentan las diferentes combinaciones
de las variables que se analizan.
Se calculan los valores esperados de la siguiente
manera:
Valor esperado =
Ejemplo de X2
Se realizó una encuesta al azar en la universidad a un grupo de 250
estudiantes, para conocer su preferencia por ciencias exactas (CE),
sociales (CS) o humanas (CH), obteniéndose los siguientes resultados:
Se quiere probar la Ho: no existe preferencia de género para escoger
las carreras en las tres áreas muestreadas de la universidad
Género CE CS CH Total
Femenino 21 64 45 130
Masculino 34 38 48 120
Total 55 102 93 250
Ejemplo de X2 para Independencia
1. Cálculo de las frecuencias esperadas:
2. Cálculo de X2:
X2 =
X2 = 2.02 + 2.26 + 0.23 + 2.19 + 2.45 + 0.25 = 9.40
Género CE CS CH Total
Femenino = 28.60 = 53.04 = 48.36 130
Masculino = 26.40 = 48.96 =44.64 120
Total 55 102 93 250
Prueba de Hipótesis para X2
Para probar Ho: no existe preferencia de género para escoger
las carreras, se procede:
El valor calculado de X2 debe ser contrastado con el valor
tabular de la distribución de X2 al nivel de significación α
escogido y con (r filas – 1) * (c columnas -1)
X2 tab 0.05, 2 gl = 5.99
Dado que X2 calculado (9.40) > X2 tabular (5.99) se rechaza la
Ho , consecuentemente se acepta Ha: si existe preferencia de
género para escoger las carreras
124
Análisis de
Regresión y Correlación
125
Muchas veces las decisiones se basan en la relación entre
dos o más variables. Ejemplos
• Dosis de fertilizantes aplicadas y rendimiento del cultivo.
• La relación entre la radiación que reciben los sensores con
la que se predicen los rendimientos por parcelas con los
rendimientos reales observados en dichas parcelas.
• Relación entre tamaño de un lote de producción y horas –
hombres utilizadas para realizarlo.
Distinguiremos entre relaciones funcionales y relaciones
estadísticas
Introducción
126
Análisis de Regresión: Es un procedimiento estadístico que estudiala relación funcional entre variables. Con el objeto de predecir unaen función de la/s otra/s.
Análisis de Correlación: Un grupo de técnicas estadísticas usadaspara medir la intensidad de la relación entre dos variables
Diagrama de Dispersión: Es un gráfico que muestra la intensidad y elsentido de la relación entre dos variables de interés.
Variable dependiente (respuesta, predicha, endógena): es lavariable que se desea predecir o estimar
Variables independientes (predictoras, explicativas exógenas). Sonlas variables que proveen las bases para estimar.
Regresión simple: interviene una sola variable independiente
Regresión múltiple: intervienen dos o más variables independientes.
Regresión lineal: la función es una combinación lineal de losparámetros.
Conceptos básicos
127
Coeficiente de correlación lineal
El Coeficiente de Correlación (r) requiere
variables medidas en escala de intervalos o de
proporciones
Varía entre -1 y 1.
Valores de -1 ó 1 indican correlación perfecta.
Valor igual a 0 indica ausencia de correlación.
Valores negativos indican una relación lineal inversa y
valores positivos indican una relación lineal directa
128
Correlación Negativa Perfecta
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
129
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Correlación Positiva Perfecta
130
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Ausencia de Correlación
131
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Correlación Fuerte y Positiva
132
Fórmula para el coeficente de correlación
(r) Pearson
[ ] ( ) ( )[ ]2222 YYn)X()X(n
)Y)(X()XY(n=r
ΣΣΣΣ
ΣΣΣ
133
Análisis de Regresión
Objetivo: determinar la ecuación de regresión para
predecir los valores de la variable dependiente (Y)
en base a la o las variables independientes (X).
Procedimiento: seleccionar una muestra a partir de
la población, listar pares de datos para cada
observación; dibujar un diagrama de puntos para
dar una imagen visual de la relación; determinar la
ecuación de regresión.
134
Líneas posibles de regresión en la
regresión lineal simple
xx
Ey
Sección A
Relación lineal positiva
Línea de regresión
La pendiente 1
es positiva
*
x
Ey
Sección B
Relación lineal negativa
Línea de regresión
La pendiente 1
es negativa*
Sección C
No hay relación
Ey
Línea de regresión
La pendiente 1
es 0
*
Ordenada al origen 0*
135
Estimación de la ecuación de Regresión Simple
Y’= a + bX, donde:
Y’ es el valor estimado de Y para distintos X.
a es la intersección o el valor estimado de Y cuando X=0
b es la pendiente de la línea, o el cambio promedio de Y’
para cada cambio en una unidad de X
el principio de mínimos cuadrados es usado para obtener a
y b:
bn XY X Y
n X X
aY
nb
X
n
( ) ( )( )
( ) ( )
2 2
136
Coeficiente de Determinación
Coeficiente de Determinación, R2 - es la proporción
de la variación total en la variable dependiente Y
que es explicada o contabilizada por la variación en
la variable independiente X.
El coeficiente de determinación es el cuadrado
del coeficiente de correlación, y varia entre 0 y 1.
137
2
2
2
)yy(
)yy(R
o
c
Cálculo del R2 a través de la siguiente fórmula
Ejemplo Se realizó un estudio para conocer la influencia de la precipitación en
la disminución de la cantidad de contaminación atmosférica, en diez
localidades:
Localidad Precipitación mm
Disminución de Contaminación, ppm
1 18 55
2 7 17
3 14 36
4 31 85
5 21 62
6 5 18
7 11 33
8 16 41
9 26 63
10 29 87