esta di stica

1

Universidad Técnica de Ambato

Profesor: Ing. Mg. Luciano Valle V.

Facultad de Ciencia Agropecuaria

MODULO: Estadística y Diseño Experimental

FASES TRABAJO ESTADISTICO

1. DEFINICIÓN DEL PROBLEMA

Es importante la formulación correcta del problemaa ser estudiado, que con exactitud se quiereinvestigar.

2. PLANEAMIENTO

Es necesario delinear el trabajo que se quiererealizar a fin de producir datos, de los cuales, sepodrán obtener resultados significativos o no, sinperder de vista los objetivos pretendidos.

12

3. TOMA DE DATOS

Es un trabajo esencialmente operacional, más degran importancia porque constituye la base de todotrabajo estadístico.

4. PRESENTACIÓN DE DATOS

Los datos deben ser reunidos y condensados deforma de ser fácilmente usados. La presentaciónpuede ser gráfica y/o tabular.

13

5. DESCRIPCIÓN DE LOS DATOS

La descripción de los datos se realiza por medio demedidas estadísticas, que son escogidas de acuerdo

con la finalidad de la investigación.

6. ANÁLISIS E INTERPRETACIÓN DE DATOS

Son técnicas apropiadas, para probar o rechazarhipótesis de las que el investigador hace uso para

resolver su problema que está estudiando.

14

De las cinco primeras fases, que se ocupan de

organizar y describir los datos experimentales,

constituyen una parte de la ciencia estadística que

llamamos ESTADÍSTICA DESCRIPTIVA, en cuanto a

la última, que cuida del análisis e interpretación de

datos, es llamada ESTADÍSTICA DEDUCTIVA O

INFERENCIA ESTADÍSTICA.

15

Presentación de la Información

DISTRIBUCION DE TABLAS DE FRECUENCIAS

Muestra el número de veces que ocurre cada observación

Ejemplo: Se elaboró una encuesta en un jardín de niños y

ésta informó que las frutas que más les gusta son

manzanas, peras, duraznos, fresas

16

A continuación se muestra la distribución de frecuencias absolutas, relativas y

porcentuales de las frutas mas comunes de los niños

17

Frutas Frecuencia absoluta Frecuencia relativa Frecuencia porcentaje

Manzana 7 0.35 35 %

Pera 4 0.20 20 %

Durazno 4 0.20 20 %

Fresa 5 0.25 25 %

Cuadros

Estos datos se pueden representar en una gráfica de barras o

en una gráfica de pastel:

0

1

2

3

4

5

6

7

Manzana Pera Durazno Fresa 18

Gráfica de barras Gráfica de pastel

35%

20%

20%

25%

Manzana

Pera

Durazno

Fresa

Gráficos o Figuras

NOTA :Para calcular:..

Frecuencia absoluta (fi): se cuenta la cantidad de veces

que ocurre el evento, en este caso, las frutas.

Frecuencia relativa (fr): se divide la frecuencia absoluta

de cada evento entre el total de eventos.

Frecuencia porcentual (f%): se multiplica la frecuencia

relativa por 100.

19

Distribución agrupada de frecuencias:

Distribución de frecuencias en la que los valores de la

variable se han agrupado en clases. Esto se debe

principalmente a la disposición de gran número de datos.

Las razones por las que se elaboran este tipo de agrupación

de datos es por economía, practicidad, tiempo y baja

frecuencia de algunos puntajes.

20

Agrupación de datos: para elaborar las tablas estadísticas,

se debe seguir el siguiente procedimiento:

1. Toma de datos.- es la obtención de una colección de datos

por medio de encuestas, preguntas, sondeos etc. Que no

han sido ordenados numéricamente y que dicha

información se extrae al azar, es decir, de tal forma que

cada miembro de la población tenga la misma oportunidad

de ser elegida o seleccionada.

21

Estos son algunos métodos para obtener datos:

Censo: Se entiende por censo aquella numeración que se efectúa a

todos y cada uno de los caracteres componentes de una población.

Los censos se utilizan rara vez porque a menudo su compilación es

bastante difícil, consume mucho tiempo por lo que resulta demasiado

costoso.

Encuesta: Se entiende por encuesta las observaciones realizadas por

muestreo, es decir son observaciones parciales.

Se efectúa a través de cuestionarios verbales o escritos que son

aplicados a un gran número de personas.

Proyectos de Investigación. Datos medidos y observados por el

investigador en campo. 22

2. Ordenación de datos: es una colocación de los datos

numéricos tomados en orden creciente a decreciente

de magnitud.

La diferencia entre el mayor y el menor de los

números se llama RANGO o recorrido de datos.

23

3. Cálculo de tamaño de clase: para calcular el tamaño de

clase es necesario calcular primeramente el número de

clases utilizando la regla de Sturges y después se obtiene

el tamaño de clase dividiendo el rango entre el número de

clases.

*No. De clases (Regla de Sturges): 1 + 3.332 log N

√n

*Tamaño de clase = Rango / No. de clases

24

4. Marca de clase: Es el punto medio de la clase y se

obtiene sumando los LI y LS de la clase y

dividiendo entre 2.

La marca de clase también se llama punto medio de

la clase

25EJERCICIO

EJERCICIO FRECUENCIA.xlsx


MEDIDAS DE TENDENCIA CENTRAL

Son medidas estadísticas que se usan para describir comose puede resumir la localización de los datos. Ubican eidentifican el punto alrededor del cual se centran losdatos. Las medidas de tendencia central nos indican haciadonde se inclinan o se agrupan más los datos. Las másutilizadas son: la media, la mediana y la moda.



MEDIA

MEDIANA

MODA

PERCENTILES

CUARTILES

La media o media aritmética, usualmente se le llamapromedio. Se obtiene sumando todos los valores de losdatos y dividiendo el resultado entre la cantidad de datos.Si los datos proceden de una muestra, el promedio serepresenta con X. Si los datos proceden de la población, seutiliza la letra griega µ.

LA MEDIA

La fórmula matemática para calcular la media opromedio es la siguiente:

donde;

= promedio

= signo de sumatoria

N = número de datos

Veamos como se emplea la media o promedio con elsiguiente ejemplo:

CONTINUACIÓN

N

xx

X

A continuación se presenta una muestra de las puntuacionesen un examen de un curso de estadística:

70 90 95 74

58 70 98 72

75 85 95 74

80 85 90 65

90 75 90 69

Podemos calcular el promedio de las puntuaciones paraconocer cuántos estudiantes obtuvieron puntuaciones porencima y por debajo del promedio . Veamos

EJEMPLO

CONTINUACIÓN

Primero, sumamos todos los valores de los datos y el resultado lodivide entre el total de datos o tamaño de la muestra. Al sumartodas las puntuaciones en el ejemplo anterior obtendrás un total de1600, que dividido por 20(total de datos), es igual a 80. Siempleamos la fórmula obtenemos:

N

xx

8020

1600x

La segunda medida de tendencia central que analizaremoses la mediana, en ocasiones se le llama media posicional,porque queda exactamente en la mitad de un grupo dedatos, luego de que los datos se han colocado de formaordenada. En este caso la mitad (50%) de los datos estarápor encima de la mediana y la otra mitad (50%) estará pordebajo de ella. La mediana es el valor intermedio cuandolos valores de los datos se han ordenado.

LA MEDIANA

Existen dos formas para obtener la mediana.Primero, si la cantidad de los datos es impar, lamediana es el valor que se encuentra en la posición(n+1)÷2 donde, n es el número de datos. Porejemplo, se tiene una muestra de tamaño 5 con lossiguientes valores: 46, 54, 42, 48 y 32. Veamoscomo se determina la mediana.

CONTINUACIÓN

Primer paso, ordenar los datos:

32 42 46 48 54

Como la cantidad de datos es impar

(5 datos), la mediana es el valor del dato que se encuentraubicado en la posición (5+1)÷2=3, la mediana es 46.Segundo, si la cantidad de datos es par, la mediana es elvalor promedio de los datos que se encuentran en lasposiciones (n÷2) y (n÷2) + 1. Veamos el siguienteejemplo:

PASOS PARA CALCULAR LA MEDIANA

EJEMPLO

Se ha obtenido una muestra con los valores de datos: 27, 25, 27, 30, 20y 26. ¿cómo se determina la mediana en este caso?.

Primer paso, ordenar los datos de forma ascendente:

20 25 26 27 27 30

Como el número de datos es par (6), la mediana es el promedio de los

datos que se encuentran en las posiciones (6÷2) = 3 y (6÷2) +1 = 4.

por lo tanto la mediana es:

Me = =2

2726 26.5

La moda es el dato que más se repite o el dato queocurre con mayor frecuencia. En el ejemplo anterior lamoda es el . Un grupo de datos puede tener más deuna moda. Veamos el siguiente ejemplo: se tiene unamuestra con valores 20, 23, 20, 24, 25, 25, 26 y 30. El20 y 25 son la moda entonces, se dice que es bimodal.

LA MODA

27

Un percentil nos provee información de comose distribuyen los valores de los datos desde elmenor hasta el mayor. El percentil divide losdatos en cien partes.

PERCENTILES

PASOS PARA CACULAR EL PERCENTIL

Para calcular el percentil debe seguir lossiguientes pasos:

Paso 1. Ordene los datos de manera ascendente.

Paso 2. Calcule un índice (i)

en donde (p) es el percentil de interés y (n) es el número dedatos u observaciones.

nP

i

100

Paso 3.

a) Si (i) no es entero, utilizando las reglas de redondeo, selleva al próximo numero entero. El valor entero inmediatomayor que (i) indica la posición donde se encuentra elpercentil. Estosignifica que si (i) = 3.5, el percentil seencuentra en la posición 4 de los datos.

b) Si (i) es entero, el percentil es el promedio de los valores delos datos ubicados en los lugares i e (i + 1). Veamos comose aplica

COTINUACIÓN

Como ejemplo de este procedimiento, determina el percentil 75de los datos sobre las edades del siguiente un grupo deciudadanos: 25, 20, 26, 21, 19, 23, 22, 30, 28, 27.

Paso 1. Ordene los datos en orden ascendente:

19 20 21 22 23 25 26 27 28 30

EJEMPLO

EJEMPLO

Paso 2. Calcule el índice (i):

Paso 3. Como (i) no es entero, redondeamos al próximo entero mayor que 7.5, o

sea, el lugar 8. Al referirnos a los datos del ejemplo, vemos que el percentil 75 es

el valor del dato ubicado en la posición número 8, que en este caso es 27.

19 20 21 22 23 25 26 27 28 30

Nota. Recuerda que (i) nos indica el lugar del dato donde se encuentra el

percentil que estamos buscando.

nP

i

1005.710

100

75

i

Significa que el 75% de las edades son menores de 27 años

y el 25% restante es mayor de 27 años.

¿CÓMO SE INTERPRETA EL PERCENTIL EN ESTE EJEMPLO?

Los cuartiles dividen los datos en cuatro partes. Cada una

de las partes representa una cuarta parte, o el 25% de las

observaciones. Los cuartiles son percentiles específicos;

por consiguiente, los pasos para calcular los percentiles

los podemos emplear para calcular los cuartiles.

CUARTILES

Los cuartiles se definen de la siguiente manera:

Q1 = primer cuartil, o percentil 25

Q2 = segundo cuartil, o percentil 50

(también la mediana)

Q3 = tercer cuartil, o percentil 75

CONTINUACIÓN

PASOS PARA CALCULAR LOS CUARTILES

A continuación se presenta un conjunto de datos con los siguientesvalores; 5, 12, 8, 14, 11, 15, 20, 18, 30 y 25.

¿ Cómo identificamos los cuartiles en este ejemplo?

Utilizarás los mismos pasos para identificar los percentiles:

Primero, ordenamos los datos

5 8 11 12 14 15 18 20 25 30

Segundo, determinamos (i) para cada cuartil:





CONTINUACIÓN

Cuartiles:


= 2.5

Como(i) no es un número entero, se redondea al próximo entero mayorque 2.5, o sea 3. Al referirnos a los datos vemos que el primer cuartil estáubicado en la posición 3 de los datos que este caso es 11. El primer cuartilen los datos se divide de la siguiente forma:

5 8 11 12 14 15 18 20 25 30

Q1=11

10100

25

i

CONTINUACIÓN

Segundo cuartil:



= 5

Como (i) es un número entero, el segundo cuartil es el promedio delos valores de los datos que están en las posiciones i e (i+1), que eneste caso es, (14+15)÷2=14.5, entonces, el segundo cuartil enlos datos se divide así:

5 8 11 12 14 15 18 20 25 30

Q1=11 Q2=14.5

10100

50

i

CONTINUACIÓN Tercer cuartil:


= 7.5

Como (i) no es un número entero, se redondea al próximo entero mayorque 7.5, o sea 8. Al referirnos a los datos , vemos que el tercer cuartilestá ubicado en posición 8 de los datos que en este caso es el 20.Finalmente, los cuartiles en este caso se presentan de la siguiente forma:

5 8 11 12 14 15 18 20 25 30

Q1=11 Q2=14.5 Q3=20

10100

75

i

Resuelve los siguientes ejercicios:

Se ha obtenido una muestra del salario de los Bomberos delCantón Ambato. Los datos recopilados fueron los siguientes:

1500 1400 1600 2100

1200 1300 1900 1800

2000 1200 1200 1500

2200 2300 1500 1400

a. determine el salario promedio

b. calcule la mediana y la moda.

EJERCICIO DE PRÁCTICA

c. Con los datos del ejercicio anterior conteste lo siguiente:

c.1. calcule el percentil 65. Explique el resultado.

c.2. determine los cuartiles.

CONTINUACIÓN

EJERCICIO



56

MUESTREO

El muestreo es una técnica

de investigación estadística,

que consiste en extraer la

información de una parte

representativa de una

población.

POBLACION

MUESTRAS

57

POBLACION

A la población estadística se ledenomina también universo, es elconjunto de elementos que tienencaracterísticas comunes en unespacio y tiempo determinado.

El tamaño de la población es elnúmero de elementos que laintegran.

58

POBLACION FINITA

Es el que tiene delimitado el número de elementos que la

integran

59

POBLACION INFINITA

Es la que no tiene

delimitado el número

de elementos que la

integran.

También se considera

población infinita la

que tiene un número

muy grande de

elementos.

60

MUESTRA ESTADISTICA

Es una parte de la población estadística que la

representa. Para que una muestra sea

representativa debe tener las características de

tamaño y representatividad.

61

TAMAÑO

Debe ser lo suficientemente grande para que

permita realizar extrapolaciones e inferencias

adecuadas y no caer en errrores de muestreo.

62

REPRESENTATIVIDAD

Los elementos que componen la muestra deben

representar resultados semejantes a los que se

obtendría investigando a toda la población a un

costo menor y en menor tiempo.

63

TAMAÑO DE LA MUESTRA

Es el número concreto de unidades

muestrales que se han seleccionado del

universo para integrar la muestra.

64

FACTORES

Grado de homogeneidad de los datos, lo que se manifiestapor la varianza, si son más homogéneos la varianza serápequeña, si son muy heterogéneos la varianza serágrande.

Nivel de confianza: si queremos un 99% de confianza eltamaño será mayor que si necesitamos un 95% deconfianza.

Disponibilidad de recursos económicos, materiales yhumanos para destinarlos a la investigación de la muestra.

65

TIPOS DE MUESTREO

PROBABILISTICO

Es probabilístico cuando los elementos son

seleccionados en forma individual y directa.

NO PROBABILÍSTICO

La selección se hace sobre la base del criterio del

investigador

MUESTREO PROBABILÍSTICO

67

1. Muestreo aleatorio simple

Permiten obtener muetras aleatorias simples.

FORMAS:

Numerando los elementos de la población

Tabla de números aleatorios.

ALEATORIO SIMPLE SIN REEMPLAZO

ALEATORIO SIMPLE CON REEMPLAZO

68

2. Muestreo Estratificado Uniforme y

Proporcional

Consiste en seleccionar muestras al azar de los estratos enlos que previamente se han dividido la población.

Dichos estratos deben tener características comunes.

FRACCION MUESTRAL

n

Fm=

N

n= Tamaño de la muestra

N= Tamaño de la población

69

EJERCICIO

Supongamos que tenemos una población de

360 animales (ganado bovino), de los cuales

180 son terneros, 140 vacas vientre y 40

toros. Se ha determinado que el tamaño de

la muestra es de 90.

Distribuya proporcionalmente el tamaño de

la muestra en los distintos estratos.

70

3. Muestreo Sistemático

Consiste en enumerar en forma consecutiva a todos

los elementos de la población del 1 al n, luego

dividimos el tamaño de la población para el tamaño

de la muestra para obtener la razón de maestro

(R.M = N/n).

Luego se toma un valor al azar que se encuentre

dentro de la razón de muestreo y que viene a

constituir el primer elemento de la muestra, los

otros elementos se calculan así:

N = 200 n = 8

RM = 200/8

RM = 25

Se toma al azar el 14

14

14 + 25 = 39

39 + 25 = 64

64 + 25 = 89

89 + 25 = 114

114 + 25 = 139

139 + 25 = 164

164 + 25 = 189

MUESTREO NO PROBABILÍSTICO

1. Muestreo intencional.- Se tiene en cuenta el criterio del investigador,

que es quien decide, en forma justificada, quienes conforman la

muestra.

2. Muestreo por cuotas.- Con los elementos del universo se conforman

grupos o categorías. El investigador determina en forma razonada los

individuos que conforman la muestra en cada uno de los grupos o

categorías.

Ejemplo: al investigar a hombres y mujeres; el número y a quiénes

se investiga, queda a criterio de quien conforma la muestra

3. Muestreo por decisión de expertos.- Se conforma la muestra por

sugerencia de personas conocedoras del problema de investigación,

son las autoridades en la materia y saben a quienes deben ser

investigados.

4. Muestreo casual.- Los elementos que conforman la muestra y quienes

van a ser investigados son aquellos que son de fácil acceso, es decir,

se los puede encontrar en cualquier momento y lugar (por ejemplo: se

investiga a los que pasan por la calle, los que se encuentran en el

mercado)

DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA

Es importante determinar el tamaño adecuado de una

muestra y no se debe actuar con ligereza, por cuanto si

tomamos una muestra grande de lo necesario es un

desperdicio de recursos, y muestras muy pequeñas a

menudo nos lleva a tener resultados sin uso práctico, nada

confiable.

PARA DETERMINAR EL TAMAÑO DE LA MUESTRA HAY QUE TENER EN CUENTA

LO SIGUIENTE:

El Objeto y el Objetivo de la investigación

El nivel de confiabilidad con que se desea trabajar (se recomienda entre 95%

y el 99%)

Las probabilidades reales de que ciertas características a investigar estén

presentes (P) el universo, frente a las probabilidades de que no estén (Q)

P = 0,5

Q = 1-0,5 = 0,5

P + Q = 1

El error de muestreo puede fluctuar, según criterio de algunos investigadores,

entre 1% y el 8%; lo aconsejable es entre 1% y 5%

Aplicar la fórmula adecuada para universos finitos e infinitos considerando los

datos de la información.

ejemplos

EJEMPLO TAMAÑO DE LA MUESTRA.docx

EJEMPLO TAMAÑO DE LA MUESTRA.docx

DISTRIBUCION NORMAL

En estadística la más importante distribución de frecuencias es la

normal o estándar, y la mayoría de los procedimientos estadísticos

se basan en ella.

Fue descubierta y publicada por primera vez en 1733 por De

Moivre. A la misma llegaron, de forma independiente, Laplace

(1812) y Gauss (1809), en relación con la teoría de los errores de

observación astronómica y física .

Pierre Simon de Laplace

(1749-1827)

Karl F. Gauss

(1777-1855)

La localización y forma de la curva normal están dados

por los valores u y o

El valor de u establece el centro de la curva, en forma

simétrica, es decir 50% de las observaciones se hallan a

la derecha de u y el 50% a su izquierda.

50%50%

El valor de o determina el grado de dispersión de los datos

En la gráfica podemos apreciar tres curvas normales, todas con igual media, pero con diferente desviación estándar.

La curva A es la que menos grado de dispersión presenta.

La curva B es intermedia, y,

La curva C tiene las mayor dispersión de los datos.

En todas las curvas, el área total, o sea el total de las observaciones oindividuos, es equivalente a 100% o uno.

La distribución normal estándar tiene una media

aritmética de 0 y una desviación estándar de 1, y su

área bajo la curva es igual a 1.00 o el 100% de los casos

de la población que se estudia.

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-4 -3 -2 -1 0 1 2 3 4u

g(u

)

µ - 3s µ + 3s

µ - s µ + s

68,26 %µ - 2s µ + 2s

95,44 %

99,73 %

Hay varios tipos de tablas de la distribución normal

La que se explica aquí representa las áreas para los

diferentes valores de z desde 0 hasta +.

0+

Los valores

negativos de z NO

están tabulados, ya

que la distribución

es simétrica

0.0

0.1

0.2

0.3

0.4

0.5

0 1 2 3 4 5 6 7 8 9

.0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359

.0398 .0438 .0478 .0517 .0557 .0596 .0363 .0675 .0675 .0754

.0793 .0832 .0871 .0910 .0948 .0987 .1026 .... ...... ......

.1179 ..... ...... ...... ......

.1554 .... ..... ....

.1915 ....

La tabla consta de:*Margen izquierdo : Los enteros de z y

su primer decimal.* Margen superior: segundo decimal* Cuerpo de la tabla: áreas correspondientes,

acumuladas, desde 0

hasta 3.99

Ejemplos de aplicación

Halle el área bajo la curva normal estándar desde -infinito hasta

Z=0.83

Encuentre el área bajo la curva normal estándar desde Z=-2 y Z=1.5

Encuentre el área bajo la curva normal estándar desde Z= 1.6

Encuentre el área bajo la curva normal estándar desde Z= <-2.08

HIPÓTESIS

Se define a la hipótesis como una teoría

tentativa o una suposición adoptada

provisionalmente para explicar ciertos

hechos y guiar la investigación de otros.

HIPOTESIS

HIPOTESIS NULA (Ho). No existe diferencia entrelas variables o tratamientos. u1=u2

HIPOTESIS ALTERNATIVA (Ha). Existe diferenciaentre las variables o tratamientos.

Ha: < 0

Ha: > 0

Ha: < 0 > 0

PRUEBAS DE HIPOTESIS Y NIVEL DE SIGNIFICACION

Los procedimientos que nos permiten aceptar o rechazar hipótesis, sellaman pruebas de hipótesis o pruebas de significación

Generalmente, los investigadores usan los niveles de significación de0.05 o 0.01, aun cuando pueden usarse otros niveles, de acuerdo a lanaturaleza del problema.

El nivel de 0.05, 5% o 95%, quiere decir que, de repetirse un evento100 veces, existe 95 posibilidades de que obtengamos los mismosresultados iniciales, en otras palabras, existen 95 posibilidades entre100, de que estemos en lo cierto y 5 de estar equivocados.

El nivel de 0.01, 1% o 99%, quiere decir que existe una posibilidadentre 100 de estar equivocados al tomar una decisión cualquiera.

PRUEBAS DE HIPÓTESIS

La prueba a realizar dependerá del tamaño

de las muestras, la homogeneidad de las

varianzas y de la dependencia o no de las

variables. Así:

Pruebas que se aplican a dos muestras

1. Cuando las muestras a probar involucran a más de 30observaciones

EJEMPLO:

La altura promedio de 50 palmas que tomaron parte de un ensayo es

de 78 cm. con una desviación estándar de 2.5 cm.; mientras que otras

50 palmas que no forman parte del ensayo tienen media y desviación

estándar igual a 77.3 y 2.8 cm.

Se desea probar la hipótesis de que las palmas que participan

en el ensayo son más altas que las otras.

Consultando el valor z de la tabla a 95% de probabilidad se

tiene que es 1.65, por lo consiguiente, el valor z calculado no

fue mayor al valor de la tabla y entonces se declara la prueba

no significativa, aceptando la Ho.

Conclusión: Las alturas promedio de los 2 grupos de palmas

son iguales y la pequeña diferencia observada en favor al

primer grupo se debe al azar

2. Caso de número igual de observaciones y varianzas

homogéneas

Ejemplo:

Se plantó cierto experimento en 24 parcelas para probar el efecto de la

presencia o ausencia de K en el rendimiento de maíz forrajero.

Rendimiento (Kg.)

n a b a2 b2

1 20.0 24.0 400.00 576.00

2 24.0 28.0 576.00 784.00

3 21.0 25.0 441.00 625.00

4 22.0 25.0 484.00 625.00

5 23.0 27.0 529.00 729.00

6 24.0 27.5 576.00 756.25

7 22.5 28.0 506.25 784.00

8 22.0 26.0 484.00 576.00

9 21.5 26.0 462.25 676.00

10 20.0 24.5 400.00 600.25

11 22.0 26.5 484.00 702.25

12 24.0 28.5 576.00 812.25

Suma 266 316 5918.5 8346

Promedio 22.16 26.33

s2a = 5918.5 - (266)2/12 = 2.02

11

s2b = 8346 - (316)2/12 = 2.24

11

Se busca en la tabla de t de student con 2(n-1) grados

de libertad o sea 22, y se encuentra que el valor

tabular es de 2.074 al 95% de probabilidad, el cual es

menor que la t calculada y por lo tanto se declara la

prueba significativa.

3. Caso de igual número de observaciones y varianzas

heterogéneas

Ejemplo:

Se plantó cierto experimento en 24 parcelas con dos clases de

semillas: semilla mezclada y semilla seleccionada. Se desea saber

si el rendimiento observado por la semilla seleccionada difiere a la

otra

Producción de palma: TM/ha/año

n Semilla mezclada

SemillaSeleccionada

a2 b2

1 10.0 18.0 100.00 324.00

2 13.5 14.2 182.25 201.64

3 12.4 22.5 153.76 506.25

4 11.3 13.0 127.69 169.00

5 12.8 15.0 163.84 225.00

6 12.0 16.5 144.00 272.25

7 11.5 19.5 132.25 380.25

8 12.5 17.0 156.25 289.00

9 12.4 19.5 153.76 380.25

10 11.6 21.0 134.56 441.00

11 12.0 22.5 144.00 506.25

12 12.5 17.5 156.25 306.25

Sumas 144.5 216.2 1748.61 4001.14

Promedio 12.04 18.01

s2a = 1748.61 - (144.5)2/12 = 0.78

11

s2b = 4001.14 - (216.2)2/12 = 9.63

11

Consultando la tabla de t con (n-1)+2 grados de libertad

(13) se encuentra un valor de 2.160, por lo tanto, la

diferencia se declara significativa

Conclusión: El rendimiento observado por las plantas de

semilla seleccionada fue significativamente superior a las

otras

4. Caso de diferente número de observaciones y varianzas

homogéneas

Ejemplo:

Se tomó una área de terreno distribuida en 22 parcelas y a 13 de ellas

se les aplicó un fertilizante nitrogenado para medir el efecto del N en

el crecimiento

Área foliar de la hoja # 17 en m2

n Con N

(a)

Sin N

(b)

a2 b2

1 8.0 6.0 64.00 36.00

2 9.0 6.5 81.00 42.25

3 8.5 7.0 72.25 49.00

4 9.4 6.5 88.36 42.25

5 9.3 6.4 86.49 40.96

6 8.4 7.1 70.56 50.41

7 8.5 7.2 72.25 51.84

8 8.6 6.2 73.96 38.44

9 8.0 6.3 64.00 39.69

10 8.5 72.25

11 9.0 81.00

12 8.5 72.25

13 8.4 70.56

Sumas 112.1 59.2 968.93 390.84

Promedio:

8.62 6.57

s2a = 968.93 - (112.1)2/13 = 0.19

12

s2b = 390.84 - (59.2)2/9 = 0.18

8

s2c = 12(0.19) + 8(0.18) = 0.19

20

Consultando la tabla con (na-1) + (nb-1) o sea (20) grados

de libertad, se obtiene el valor tabular de 2.086, el cual

es menor que la t calculada, por lo tanto la diferencia se

declara significativa

Conclusión: La diferencia detectada en estas dos

muestras es atribuible a la aplicación del fertilizante

nitrogenado

5. Caso de diferente número de observaciones y varianzas

heterogéneas

En este caso, la tc es comparada con la tg (t generada), que a

diferencia de los casos anteriores, hay que calcularla

Donde: ta y tb son los valores de la tabla con n-1 grados de

libertad para a y b respectivamente

Ejemplo:

Se tomaron 2 muestras de palma comercial de orígenes diferentes y se midió

el porcentaje de almendra en el racimo en ambas muestras, el objeto es probar

si las muestras son diferentes genéticamente o no

Porcentaje de almendra

n a b a2 b2

1 3.2 4.5 10.24 20.25

2 3.5 4.2 12.25 17.64

3 3.4 4.1 12.56 16.81

4 3.6 4.6 12.96 21.16

5 3.7 4.7 13.69 22.09

6 3.4 4.2 11.56 17.64

7 3.3 4.1 10.89 16.81

8 8.5 4.5 72.25 20.25

9 3.4 4.5 11.56 20.25

10 3.4 4.4 11.5 6 19.36

11 3.6 12.96

12 3.7 13.69

13 3.2 10.24

14 3.1 9.61

Sumas 53.0 43.8 225.02 192.26

Promedio

3.79 4.38

s2a =225.02-(53)2/14=1.88

3s2b=192.26-(43.80)2/10=0.05

9

En este caso la t generada (tg), reemplaza la t de la tabla

y como la tc es menor que la tg, la diferencia se declara

No significativa

Conclusión: La diferencia observada entre promedios es

atribuible únicamente a errores de muestreo o

variabilidad natural, y no a diferencias genéticas

6. Caso de muestras pareadas (de variables dependientes)

En este caso, se asume que las muestras han sido distribuidas

por pares

Ejemplo:

Se tomaron 12 foliolos de palma joven y a cada uno se le trató la

mitad con Benlate para medir la inhibición del crecimiento de

hongos

n Sinbenlate

x

Conbenlate

y

D= x-y

D2

1 113.5 120.5 -7.00 49

2 118.5 90.5 28.00 784

3 120.5 105.5 15.00 225

4 132.5 110.5 22.00 484

5 124.5 90.5 34.00 1156

6 134.5 112.5 22.00 484

7 135.5 140.5 -5.00 25

8 145.5 105.5 40.00 1600

9 160.5 130.4 30.10 906.01

10 170.5 150.5 20.00 400

11 146.5 135.5 11.00 121

12 174.5 165.5 9.00 81

Sumas 1677 1457 219.10 6315.01

Promedio 139.75 121.49 18.26

Consultando la tabla con n-1 grados de libertad se obtiene

el valor tabular de 2.201, por lo tanto, la diferencia se

declara significativa

Conclusión: De la prueba se desprende que el

tratamiento con benlate redujo significativamente la

incidencia de hongos

Prueba de “t”

No Pareada

Se usa cuando las observaciones o muestras no se

corresponden en parejas de manera directa

Pareada

Los dos grupos de datos tienen correspondencia estricta en parejas de

muestras

Para una sola

muestra

Cuando se quiere comparar un valor

muestral como la media vs. el correspondiente parámetro poblacional

Para muestras

de tamaño < 30

Prueba de “t” para una sola muestra

Un fabricante de cigarrillos afirma que, el promedio de nicotina

de sus productos es cuando mucho 5 mg por cigarrillo fumado.

Para comprobar esta aseveración, se sacó una muestra aleatoria

de 28 cigarrillos y se encontró un promedio X = 5.4 mg de

nicotina, con una desviación estándar S = 0.35 mg

Probar la hipótesis nula de que el promedio se ajusta al valor

máximo de 5 mg, con niveles de significación α = 0.01

Ho: = 5 mg

Ha: > 5 mg

……Prueba de “t” para una sola muestra

t =

t = = 6.05

Prueba de la hipótesis Ho: = 5 mg

Valor de “t” tabular de una sola cola (unilateral) con 27 g.l.

nivel α 0.01 = 2.473

Por lo tanto se rechaza la hipótesis Ho tanto al 1%

Conclusión: Con un nivel de confianza del 99% se puede afirmar

que los cigarrillos analizados contienen más nicotina que lo

reportado por el fabricante.

Ejercicio

Se quiere conocer el grado de contaminación del aire en una determinada

ciudad, para lo cual se midió las partículas atmosféricas en ppm en 15

muestras aleatorias. El parámetro promedio de contaminación del aire es

34.5 ppm

Probar Ho: X = = 34.5Ha: X ≠ ≠ 34.5

Utilice la prueba de “t” con nivel α de 0.05

Muestra ppm Muestra ppm Muestra ppm

1 33.38 6 34.34 11 33.46

2 32.15 7 33.95 12 34.13

3 33.39 8 33.85 13 34.45

4 34.10 9 34.23 14 34.19

5 33.97 10 32.73 15 34.05

Prueba de “t” para Observaciones no Pareadas

No es necesario que el número de observaciones de cada grupo o muestra sea el

mismo

Tampoco es necesario conocer previamente la varianza poblacional

Se asume homogeneidad de varianzas

Para el cálculo del valor de “t” se procede:

1. Varianza Combinada Sc2 =

2. Desviación estándar de las diferencias: Sd

Sd =

3. Valor de “t” =

Ejercicio: prueba de “t” no pareada

Para proteger las tuberías de agua y drenaje se utiliza un forro flexible

alrededor del tubo, el cual se coloca con dos métodos: con fusión (A) y sin

fusión (B). Los siguientes son los datos de resistencia a la tensión en libras

por pulgada cuadrada (psi) medida en varias tuberías en que se usó uno de

los dos métodos:

a) Compruebe las

hipótesis

estadísticas:

Ho: A = B

Ha: A ≠ B

b) Niveles de

significación α 0.05 y

0.01

Muestra Método A

(psi)

Muestra Método B

(psi)

1 2728 1 3124

2 2705 2 3451

3 2745 3 3514

4 2812 4 3318

5 2415 5 3219

6 3258 6 2898

7 3356 7 3014

8 3124 8 3116

9 3240

10 2651

….Ejercicio: prueba de “t” no pareada

1. XiA = 29.034 XiB= 25.654

2. XA = 2.903,40 XB = 3.206,75

3. XiA2 = 85 195.680 XiA

2 = 82 580.114

4. SCXiA = 898.364,40 SCXiA = 314.149,50

5. Sc2 = 75.782,12

6. Sd = 130,58

7. t = -2,32*

Para la prueba de la Ho se compara el valor de “t”calculado con el valor de “t” tabular al nivel designificación escogido (α) y con (nA-1) +(nB-1) grados delibertad:

El valor tabular con 16 g.l. , al 5 y 1% es: 2,120 y 2,921

Conclusión: se rechaza la Ho a nivel del 5%, pero no al 1%

Prueba de “t” para Observaciones Pareadas

Se utiliza para probar la diferencia entre dos grupos de datos que tienen estricta correspondencia en parejas de muestras

El número de observaciones debe ser el mismo para los dos grupos de datos

Para el cálculo del valor de “t” se procede:

1. Cálculo de la diferencia entre las medias de los dos grupos

2. Cálculo de las diferencias (D) entre las parejas de observaciones

3. Cálculo del cuadrado de las diferencias (D2)

4. Cálculo de la desviación estándar de las diferencias (Sd)

5. Cálculo del valor de t =

Ejercicio: prueba de “t” pareada

Cinco muestras de una sustancia ferrosa se usan para determinar si hay

diferencias entre un análisis de fluorescencia de rayos X (A) y un

análisis químico de laboratorio (B) del contenido de hierro. Cada

muestra se divide en dos submuestras y se aplican los dos tipos de

análisis, obteniéndose los siguientes contenidos de hierro:

Probar la Ho: A = B y Ha: A ≠ B con nivel α del 5%

Muestra Rayos X (A) Análisis Químico (B)

1 2.0 2.2

2 2.0 1.9

3 2.3 2.5

4 2.1 2.3

5 2.1 2.4

….Ejercicio: prueba de “t” pareada

Muestra Método A Método B D D2

1 2.0 2.2 -0.2 0.04

2 2.0 1.9 0.1 0.01

3 2.3 2.5 -0.2 0.04

4 2.1 2.3 -0.2 0.04

5 2.1 2.4 -0.3 0.09

Suma 10.5 11.3 -0.8 0.22

Promedio 2.1 2.26

S2d = = 0.0046

Sd = S2d = 0.0046 = 0.0678

t = = = -2.36

Prueba de hipótesis Ho: A = B

“t” tab (4g.l.; 0.05) = 2.776

Dado que “t” calculada es menor que

“t” tabular, se acepta Ho. Es decir los

dos métodos dan resultados similares

EJERCICIO

Muestra Método A Método B

1 55 60

2 41 45

3 27 29

4 36 39

5 48 51

6 74 80

7 65 70

8 47 51

9 49 52

10 63 67

11 38 41

12 44 46

En 12 muestras de suelo se realizó la determinación del contenido de

nitrógeno utilizando dos métodos diferentes (A y B): Los resultados

están expresados en microgramos por mililitro de suelo :

Determinar mediante “t”:

a. Si los resultados presentados son

iguales (Ho) o difieren significativamente

(Ha), considerando que las muestras

corresponden a suelos de 12 sectores

diferentes (muestras en parejas)

b. Asuma que las muestras son

independientes (no pareadas), calcule el

valor de “t” correspondiente y

establezca las diferencias con los

resultados del literal anterior

Prueba de “z” para dos muestrasSe utilizan dos métodos (A y B) para determinar el contenido de calorías por

Kg de 30 muestras de raciones alimenticias. Se quiere conocer si los dos

métodos entregan resultados similares (Ho) o diferentes (Ha)

Muestra A B Muestra A B Muestra A B

1 335 347 11 330 329 21 345 349

2 362 359 12 325 338 22 334 351

3 338 359 13 338 346 23 323 348

4 329 334 14 336 345 24 344 346

5 333 341 15 334 340 25 344 348

6 371 391 16 331 348 26 348 350

7 356 334 17 327 356 27 350 352

8 341 341 18 328 352 28 349 347

9 334 347 19 329 338 29 339 340

10 335 314 20 340 329 30 340 338

………Prueba de “z”

1. Cálculo de XA = 10.168

2. Cálculo de XB = 10.357

3. Promedio XA = 338,93

4. Promedio XB = 345,23

5. XA2 = 3 449.726

6. XB2 = 3 580.369

5. Suma de Cuadrados de XA = 3.451,87

6. Suma de Cuadrados de XB = 4.787,37

7. Varianza de XA = 119,03

8. Varianza de XB =165,08

9. Valor de “z” = = = -2.05

………Prueba de “z”

Comprobación de la hipótesis:

Ho: Método A = Método B

Ha: Método A ≠ Método B

Valor calculado de z = -2.05

Valor tabular para z (2.05) = 0.4798

Probabilidad = (0.500 – 0.4798) x 2 = 0.0404 4.04%

De manera que se rechaza la hipótesis Ho a nivel del 5%, es decir los dos

métodos son diferentes con un nivel de confianza del 95%

Para niveles de significación del 5% siempre que z calculada sea mayor a

|1.96| se rechaza la Ho

Para niveles de significación del 1% siempre que z calculada sea mayor a

|2.57| se rechaza la Ho

EJERCICIO

Muestra D N Muestra D N Muestra D N

1 58 53 13 65 66 25 57 56

2 59 57 14 57 63 26 70 58

3 65 59 15 58 53 27 58 68

4 66 65 16 59 58 28 59 63

5 59 50 17 69 57 29 54 62

6 54 53 18 67 54 30 65 66

7 58 59 19 58 59 31 66 65

8 64 68 20 68 56 32 67 59

9 66 67 21 67 65 33 61 58

10 65 66 22 66 62 34 60 64

11 63 59 23 65 63 35 63 60

12 62 58 24 64 60 36 62 66

Se quiere probar la eficiencia de dos equipos de trabajo (D y N) que laboran en

diferentes horarios (diurno y nocturno), para lo cual se toma al azar 36 muestras

de la producción por hora de cierto producto. Usando la prueba de z comprobar

al 95% de confianza, Ho: D = N y Ha: D ≠ N a partir de los siguientes datos:

Prueba de Ji

Cuadrado (X2)

Bondad de Ajuste

Comprueba el ajuste entre

valores observados y

esperados

IndependenciaComprueba la

independencia de variables

Ji Cuadrado (X2)

La prueba de X2 se usa también para probar la

independencia de variables.

Con los valores observados se construyen tablas de

contingencia, que son tablas de doble entrada en

las que se presentan las diferentes combinaciones

de las variables que se analizan.

Se calculan los valores esperados de la siguiente

manera:

Valor esperado =

Ejemplo de X2

Se realizó una encuesta al azar en la universidad a un grupo de 250

estudiantes, para conocer su preferencia por ciencias exactas (CE),

sociales (CS) o humanas (CH), obteniéndose los siguientes resultados:

Se quiere probar la Ho: no existe preferencia de género para escoger

las carreras en las tres áreas muestreadas de la universidad

Género CE CS CH Total

Femenino 21 64 45 130

Masculino 34 38 48 120

Total 55 102 93 250

Ejemplo de X2 para Independencia

1. Cálculo de las frecuencias esperadas:

2. Cálculo de X2:

X2 =

X2 = 2.02 + 2.26 + 0.23 + 2.19 + 2.45 + 0.25 = 9.40

Género CE CS CH Total

Femenino = 28.60 = 53.04 = 48.36 130

Masculino = 26.40 = 48.96 =44.64 120

Total 55 102 93 250

Prueba de Hipótesis para X2

Para probar Ho: no existe preferencia de género para escoger

las carreras, se procede:

El valor calculado de X2 debe ser contrastado con el valor

tabular de la distribución de X2 al nivel de significación α

escogido y con (r filas – 1) * (c columnas -1)

X2 tab 0.05, 2 gl = 5.99

Dado que X2 calculado (9.40) > X2 tabular (5.99) se rechaza la

Ho , consecuentemente se acepta Ha: si existe preferencia de

género para escoger las carreras

124

Análisis de

Regresión y Correlación

125

Muchas veces las decisiones se basan en la relación entre

dos o más variables. Ejemplos

• Dosis de fertilizantes aplicadas y rendimiento del cultivo.

• La relación entre la radiación que reciben los sensores con

la que se predicen los rendimientos por parcelas con los

rendimientos reales observados en dichas parcelas.

• Relación entre tamaño de un lote de producción y horas –

hombres utilizadas para realizarlo.

Distinguiremos entre relaciones funcionales y relaciones

estadísticas

Introducción

126

Análisis de Regresión: Es un procedimiento estadístico que estudiala relación funcional entre variables. Con el objeto de predecir unaen función de la/s otra/s.

Análisis de Correlación: Un grupo de técnicas estadísticas usadaspara medir la intensidad de la relación entre dos variables

Diagrama de Dispersión: Es un gráfico que muestra la intensidad y elsentido de la relación entre dos variables de interés.

Variable dependiente (respuesta, predicha, endógena): es lavariable que se desea predecir o estimar

Variables independientes (predictoras, explicativas exógenas). Sonlas variables que proveen las bases para estimar.

Regresión simple: interviene una sola variable independiente

Regresión múltiple: intervienen dos o más variables independientes.

Regresión lineal: la función es una combinación lineal de losparámetros.

Conceptos básicos

127

Coeficiente de correlación lineal

El Coeficiente de Correlación (r) requiere

variables medidas en escala de intervalos o de

proporciones

Varía entre -1 y 1.

Valores de -1 ó 1 indican correlación perfecta.

Valor igual a 0 indica ausencia de correlación.

Valores negativos indican una relación lineal inversa y

valores positivos indican una relación lineal directa

128

Correlación Negativa Perfecta

0 1 2 3 4 5 6 7 8 9 10

10

9

8

7

6

5

4

3

2

1

0

X

Y

129

0 1 2 3 4 5 6 7 8 9 10

10

9

8

7

6

5

4

3

2

1

0

X

Y

Correlación Positiva Perfecta

130

0 1 2 3 4 5 6 7 8 9 10

10

9

8

7

6

5

4

3

2

1

0

X

Y

Ausencia de Correlación

131

0 1 2 3 4 5 6 7 8 9 10

10

9

8

7

6

5

4

3

2

1

0

X

Y

Correlación Fuerte y Positiva

132

Fórmula para el coeficente de correlación

(r) Pearson

[ ] ( ) ( )[ ]2222 YYn)X()X(n

)Y)(X()XY(n=r

ΣΣΣΣ

ΣΣΣ

133

Análisis de Regresión

Objetivo: determinar la ecuación de regresión para

predecir los valores de la variable dependiente (Y)

en base a la o las variables independientes (X).

Procedimiento: seleccionar una muestra a partir de

la población, listar pares de datos para cada

observación; dibujar un diagrama de puntos para

dar una imagen visual de la relación; determinar la

ecuación de regresión.

134

Líneas posibles de regresión en la

regresión lineal simple

xx

Ey

Sección A

Relación lineal positiva

Línea de regresión

La pendiente 1

es positiva

*

x

Ey

Sección B

Relación lineal negativa


La pendiente 1

es negativa*

Sección C

No hay relación

Ey


La pendiente 1

es 0

*

Ordenada al origen 0*

135

Estimación de la ecuación de Regresión Simple

Y’= a + bX, donde:

Y’ es el valor estimado de Y para distintos X.

a es la intersección o el valor estimado de Y cuando X=0

b es la pendiente de la línea, o el cambio promedio de Y’

para cada cambio en una unidad de X

el principio de mínimos cuadrados es usado para obtener a

y b:

bn XY X Y

n X X

aY

nb

X

n

( ) ( )( )

( ) ( )

2 2

136

Coeficiente de Determinación

Coeficiente de Determinación, R2 - es la proporción

de la variación total en la variable dependiente Y

que es explicada o contabilizada por la variación en

la variable independiente X.

El coeficiente de determinación es el cuadrado

del coeficiente de correlación, y varia entre 0 y 1.

137

2

2

2

)yy(

)yy(R

o

c

Cálculo del R2 a través de la siguiente fórmula

Ejemplo Se realizó un estudio para conocer la influencia de la precipitación en

la disminución de la cantidad de contaminación atmosférica, en diez

localidades:

Localidad Precipitación mm

Disminución de Contaminación, ppm

1 18 55

2 7 17

3 14 36

4 31 85

5 21 62

6 5 18

7 11 33

8 16 41

9 26 63

10 29 87

esta di stica

Documents