dr. carlos mantilla parra. m.sc. estadÍstica para ciencias...

89

Upload: dangminh

Post on 17-Oct-2018

242 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo
Page 2: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo
Page 3: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

1

INTRODUCCIÓN

Este libro esta destinado para valorar los diferentes métodos estadísticos que pueden ser

aplicados en forma cuantitativa y cualitativa de los datos en las investigaciones educativas,

modelar problemas que exijan a la utilización de los métodos de la Estadística Descriptiva

e Inferencial y Aplicar paquetes de programas estadísticos e interpretar cuantitativamente

los resultados.

Los sistemas de conocimiento abordados corresponden a la Estadística Descriptiva,

tratada como Univariada, en donde se estudia las escalas de medición, Distribuciones de

frecuencias, Indicadores de posición y de dispersión, Gráficos, Diagramas de caja y bigote.

La Estadística Descriptiva Bivariada con el tratamiento de la Correlación, el Coeficiente de

correlación de Pearson, la Regresión lineal, Aplicándolo al campo educativo, la predicción,

así como también el Coeficiente de determinación.

Para terminar con la Inferencia estadística, el Muestreo, las Distribuciones muestrales, la

Estimación de parámetros como parte fundamental a la estimación puntual y estimación

por intervalos, buscándo siempre las Aplicaciones en el contraste de hipótesis, Pruebas

paramétricas y no paramétricas y a los elementos de Estadística multivariada.

Serán herramientas útiles en la profesionalización del ingeniero de Medio Ambiente,

buscándo demostrar el manejo y sistematización de datos.

Page 4: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

2

ContenidoESTADÍSTICA CIENCIAS AMBIENTALES.................................................................................................4

ESTADÍSTICA ...................................................................................................................................4

Elementos de la Estadística ............................................................................................................4

TIPOS DE VARIABLES ......................................................................................................................5

PROBLEMAS ...............................................................................................................................5

ORDENAR DATOS ...........................................................................................................................6

DATOS NO AGRUPADOS .................................................................................................................6

Simbología estadística ................................................................................................................6

ESTADÍSTICOS .................................................................................................................................7

ESTADISTICA CON EXCEL ................................................................................................................8

PROBLEMAS .............................................................................................................................12

DATOS AGRUPADOS .....................................................................................................................16

CLASES E INTERVALOS DE CLASE ..............................................................................................16

TABLA ESTADÍSTICA ......................................................................................................................17

Para qué la Tabla ......................................................................................................................18

GRÁFICAS .....................................................................................................................................19

ESTADÍSTICOS ...............................................................................................................................19

PROBLEMAS .............................................................................................................................22

DISTRIBUCIÓN NORMAL ...................................................................................................................29

CARACTERÍSTICAS DE LA CURVA NORMAL ...................................................................................29

PUNTUACIÓN ESTÁNDAR (Z) ........................................................................................................30

PROBLEMAS VALORES Z ...........................................................................................................34

PROBLEMAS PARA SPSS ...........................................................................................................35

REGRESIÓN LINEAL Y CORRELACIÓN ............................................................................................36

Forma general de la ecuación de regresión lineal ....................................................................37

EJERCICIOS................................................................................................................................39

PROBLEMAS .............................................................................................................................40

Un panorama de conceptos probabilísticas .................................................................................42

Algunas Reglas de Probabilidad ................................................................................................43

Ejemplos. ..................................................................................................................................44

EJERCICIOS................................................................................................................................47

PRUEBAS DE HIPÓTESIS ................................................................................................................50

Page 5: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

3

PRUEBAS PARA MUESTRAS GRANDES ..........................................................................................50

PRUEBA Z DE UNA MUESTRA DE LA DESVIACIÓN ESTÁNDAR CONOCIDA ....................................51

Decisión ........................................................................................................................................61

Resumen acerca del uso de la Prueba Ji Cuadrada ...................................................................66

EJERCICIOS................................................................................................................................69

PROBLEMAS .............................................................................................................................70

INTRODUCCIÓN AL DISEÑO DE EXPERIMENTOS ...........................................................................72

CONCEPTOS BÁSICOS EN EL DISEÑO EXPERIMENTAL...................................................................72

ANÁLISIS DE VARIANZA PARAMÉTRICO DE UNA VÍA. ...................................................................74

El ANOVA ..................................................................................................................................74

FASES EN EL ANÁLISIS DE VARIANZA. .......................................................................................75

Page 6: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

4

Para una investigación entonces se deben definir las preguntas, que en estadística se las llaman

variables y responden a dos preguntas ¿de dónde? Y ¿cómo obtengo los datos?

A la primera pregunta se la responde claro está que en la población, pero para armarla se debe

elegir a una muestra.

ES

TA

DÍS

TIC

A D

ES

CR

IPT

IVA

ESTADÍSTICA CIENCIAS AMBIENTALESESTADÍSTICA

Para la mayoría de personas involucradas en las Ciencias, nos parecerá común utilizar la estadísticacomo herramienta más que necesaria, pero en aquellas personas que aparentemente nonecesitan de la estadística resulta difícil entenderla y aplicarla y buscan ayuda. Para enmendareste desconocimiento pongo a vuestra consideración estos apuntes de estadística para mejoraresos conocimientos y fortalezcan sus intereses investigativos.

Definición.- La estadística es la ciencia que se encarga de recolectar, ordenar, presentar los datos y

convertirlos en información necesaria para la toma de decisiones.

Elementos de la EstadísticaPoblación.- Parte constitutiva de la investigación.

Parámetro.- Es la característica de la población, en otras palabras es lo que se va a estudiar de la

población.

Muestra.- Es una parte representativa de la población.

Estadístico.- Es la característica de la muestra, es lo que se va a calcular en la investigación y

generalizar los resultados en la población.

Datos.- Son las respuestas a las preguntas sobre el tema que se desea investigar.

Información.- Es el análisis de los datos obtenidos en una investigación.

Ejemplo: En una investigación realizada en la Universidad Técnica de Cotopaxi para conocer la

estatura de los estudiantes que ingresan a primer ciclo en la especialidad de Medio Ambiente

periodo febrero-agosto 2009.

Población Estudiantes de la UTCParámetro Estatura de los estudiantes de la UTCMuestra Estudiantes del primer ciclo, carrera de Medio AmbienteEstadístico Promedio de la estaturaDato Registro de la estaturaInformación Porcentaje de altos, bajo, medianos

Page 7: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

5

A la segunda pregunta se la relaciona con las técnicas empíricas de la estadística es decir se puede

hacer una encuesta, entrevista, test, experimento.

TIPOS DE VARIABLES

Para nuestros intereses se definen tres tipos de variables, a saber:

Escala.- Son de tipo numérico y pueden ser exactos (discretos) o con decimales (continuos).

Ordinales.- Son opciones de respuesta que tienen orden.

Nominales.- Son opciones de respuesta que no tienen prioridad.

Ejemplo:

La estadística cumple hasta aquí la parte de recolección de datos.

PROBLEMAS 1. Clasificar las variables siguientes, con los tipos que correspondan: salario, nacionalidad,

antigüedad en el trabajo, peso de un libro, tema de un libro, calificación de una prueba, precio de

un libro, motivo por el que se adquiere un libro, lugar donde se encuentra ubicada una biblioteca,

número de fojas de un expediente, criterio para archivo.

2. Clasificar las siguientes variables en discretas o continuas: número de pedidos en una biblioteca,

ventas en un CIBERCAFÉ, páginas de un libro, temperatura del estudiante, tiempo empleado en

llegar a CAREN, número de libros prestados a docentes, cantidad de memos por día en la carrera

de Medio Ambiente, cantidad de portafolios archivados.

3. Indicar si es una muestra o una población en los siguientes casos: trabajamos con el 12% del

curso; preferencia por cierta lectura de Microbiología preguntando a las personas que entran a la

Biblioteca entre las 10 y las 12 horas; la ocupación de los estudiantes de la generación 2007 a

través de los datos de Secretaría; ingreso de las personas que viven en salache bajo.

4. Clasificar los siguientes datos en variables o atributos, discretas y continuas, ordinales y

nominales.

Page 8: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

6

a) Marca de cerveza.

b) Rapidez en km/h.

c) Peso en lb.

d) Signo del zodíaco.

e) Nivel educativo (primario, secundario, superior, posgrado)

f) Años de estudio completados.

g) Tipo de enseñanza ( pública, privada)

h) Número de empleados en CEDAL.

i) Clase social (baja, media, alta)

ORDENAR DATOS

La estadística, una vez obtenido los datos, se encarga de organizarlos, si son numéricos en forma

ascendente, descendente, o en grupos.

Si el número de datos es relativamente pequeño (menor a 30), se los puede ordenar, ascendente o

descendentemente. Si el número de datos es considerable se los ordena en grupos.

DATOS NO AGRUPADOS

Simbología estadística Va a ser de utilidad el conocer la nomenclatura que utiliza la estadística

Sea una investigación referente a la estatura de 7 estudiantes de la UTC en cm

167, 173, 160, 170, 167, 182, 154

Formamos una tabla de presentación de los datos y los ordenamos en forma ascendente (del

menor al mayor)

Page 9: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

7

Para efectos de investigación daremos una ponderación a los datos

Colocaremos un casillero que registre la suma y la multiplicación

ESTADÍSTICOS

Con esto se puede determinar medidas que tienden al centro y medidas que registran el grado de

su dispersión, éstas medidas son:

Tendencia central: Media aritmética o promedio, mediana, moda, media geométrica, media

ponderada.

Dispersión: Varianza, desviación típica o desviación estándar.

La media aritmética se la halla

iXx

n

1173

7x

167.57x

Media Ponderada

i

W

X Wx

W

3936

24Wx

164Wx

Page 10: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

8

Media Geométrica

nG ix X

7 153.678 10Gx

167.36Gx

Mediana

En datos no agrupados, esta medida de tendencia central se ubica en la mitad de los datos

ordenados, se lo ubica dependiendo si el número de datos es par, es el promedio de los datos que

rodean el centro

y si el número de datos es impar su ubicación es (n+1)/2

Varianza

2

2

1

iX xs

n

2 485.71

6s

2 80.95s

Desviación Típica

Es la raíz cuadrada de la varianza

2s s

8.99s

ESTADISTICA CON EXCEL

Podríamos utilizar la hoja electrónica de Excel para automatizar los cálculos, para ordenar los

datos y hacer operaciones matemáticas conocidas las fórmulas para las medidas de tendencia

central y dispersión.

Page 11: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

9

Digitamos los datos en una columna

Después copiamos los datos en la columna contigua y lo ordenamos de menor a mayor

Page 12: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

10

Para nuestro análisis estadístico habíamos considerado las ponderaciones a los datos

Ahora usaremos las fórmulas para multiplicar, sumar, restar y elevar al cuadrado, como también

copiar las fórmulas a otras celdas.

Debería quedar

Page 13: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

11

Para la secuencia de la fórmula =(C5-$E$15)^2, la condición $E$15 significa que para cuando

copiemos la fórmula a las otras celdas C5, será secuencial a las celdas, C6, C7, C8,…, C11; mientras

que la celda donde está la media aritmética no será secuencial, sino permanece fija.

Entonces para las restantes medidas, formaremos un cuadro de resumen

La automatización sería

Es importante notar la utilización de los paréntesis en las fórmulas

Page 14: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

12

PROBLEMAS 1. En una encuesta efectuada en una determinada localidad, se obtuvo la siguiente información

con referencia al número de hijos.

No. de hijos No. de familias

2 5

3 20

4 10

5 8

6 4

8 2

12 1

a) Indicar cual es la variable y cual la frecuencia.

b) Calcular la frecuencia acumulada.

c) Determinar el número mediano de hijos

d) Determinar 1er. y 3er. cuartil.

e) Calcular la moda y el promedio de hijos.

2. Con la finalidad de investigar la cantidad de libros en préstamo que hay en una biblioteca, se

tomaron 100 fichas y se ordenó en la tabla:

Número de libros en

préstamo

Cantidad

de estudiantes

0 8

1 11

2 16

3 20

4 15

5 13

6 12

7 5

a) Calcular las frecuencias relativa y representarla graficamente

b) Calcular la frecuencia acumulada

c) Calcular todas las medidas de posición y dispersión.

d) Interpretar los resultados

3. Ante la necesidad de conocer el movimiento de préstamos a domicilio de los libros a los

docentes de CAREN, se eligieron 20 semanas y se observó la cantidad de libros prestados en cada

una de ellas:

35, 20, 30, 25, 25, 25, 40, 20,50, 40, 30, 25, 20, 30, 30, 35, 45, 45, 40, 35

Page 15: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

13

a) Indicar cual es la variable y cuales son las frecuencias.

b) Calcular la moda y mediana.

c) Se conoce que el promedio prestado semanalmente en otras bibliotecas es 32, indicar

como es en CAREN.

d) El coeficiente de variación de las otras bibliotecas es 0.30. Indicar si coincide con el de

nuestra biblioteca e interpretar el resultado.

4. Se realizó una encuesta a 50 bibliotecas para conocer la cantidad de funcionarios que trabajan

en ella. Los resultados se resumen en la tabla:

Cantidad de

funcionarios

Cantidad de

bibliotecas

6 5

8 8

10 20

15 11

16 5

18 1

calcular todas las medidas de posición.

Indicar el porcentaje de bibliotecas con menos de 10 funcionarios, con 15 o menos y con

más de 10.

Representar graficamente las frecuencias acumuladas.

5. Durante la última semana de enero 2015, 2 librerías han vendido los libros que ocupan los tres

primeros puestos en la lista de ventas a los precios siguientes:

IMPRENTA ANDRADE IMPRENTA CARRILLO

Precio Número de

ejemplares Precio

Número de

ejemplares

1800 10 1500 25

2100 13 1900 18

2300 15 2000 25

a) Calcular el Rango de la distribución del precio en cada uno de los establecimientos. ¿Existe

mucha o poca distinción entre los precios pagados por los clientes en la imprenta

Andrade? ¿Y en la imprenta Carrillo?

b) Que establecimiento ha presentado en la última semana una cobro medio más

representativo.

c) Si durante una promoción ambos establecimientos rebajan sus precios en $ 200, explique

como afectaría este cambio al rango y a la representatividad del precio medio

correspondiente a las ventas de los tres éxitos.

Page 16: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

14

6. Teniendo en cuenta que de acuerdo al número de citas que se hacen de un autor se puede

conocer la importancia o utilidad de su producción literaria, se tomó una muestra de 20 artículos

relacionados al tema “Metodología de la Matemática” y se observó las veces que fue citado el

autor “Tenorio M.” en cada uno de los artículos:

1, 3, 5, 7, 1, 3, 8, 9, 6, 6, 5,1, 2, 2, 5, 2, 3, 3, 2, 2

a) Calcular la cantidad promedio de citas del autor “Tenorio M.” por artículo.

b) Calcular la cantidad de citas que se presenta más frecuentemente en cada artículo.

c) Analizar si en cada artículo existe una cantidad similar de citas de ese autor, mediante

la medida que crea más conveniente.

7. Se dispone de la información relativa a la cantidad de horas que permanecen en la biblioteca

personas en la MATRIZ

Horas Personas

1 300

2 500

3 1500

4 700

5 300

6 200

a) Calcular la cantidad de horas promedio que se permanece en la biblioteca, la moda, la

mediana y el coeficiente de variación.

b) Que porcentaje permanece más de cuatro horas en la biblioteca y cuantos menos de

cinco horas pero más de dos.

8. En la biblioteca de CAREN existen libros sobre temas de “Medio Ambiente” se ubicaron 120

artículos sobre “Deforestación” cuya distribución, de acuerdo al número de páginas es la siguiente:

Xi n( xi )

10 20

12 35

15 40

18 15

20 10

a) Calcular el promedio de páginas por artículo.

b) Calcular la mediana y moda.

c) Calcular el coeficiente de variación.

d) Indicar cuántos artículos tienen más de doce páginas y cuantos tienen más de quince

pero menos de veinte

Page 17: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

15

e) Si la hoja está escrita de ambos lados, (2 páginas por hoja), calcular el promedio de

hojas, la varianza y el coeficiente de variación correspondiente.

9. Se dispone de sesenta artículos sobre el tema “Análisis de datos”, los cuales presentan

características similares en relación a la cantidad de palabras que cada uno posee. Si contamos la

cantidad de veces que se repite la palabra “frecuencia”, obtenemos la siguiente distribución:

Xi N ( xi )

3 10

4 23

5 16

6 8

7 3

a) Calcular el promedio de repeticiones por artículo de la palabra “ frecuencia”

b) Calcular el número más común de repeticiones

c) Coeficiente de variación y coeficiente de simetría (con los datos dados)

d) Cuántos artículos tienen cuatro veces mencionada dicha palabra y cuántos artículos la

tienen menos de cinco veces.

10. Un profesor de Matemática desea conocer el nivel de conocimientos de sus dos grupos de

estudiantes del paralelo A y paralelo B, para planificar sus clases de acuerdo con dicho nivel. Para

ello elige al azar 15 estudiantes de cada paralelo y les aplica una prueba elaborada para este fin,

obteniéndose los resultados:

A B A B

4 8 5 2

3 9 6 2

7 1 7 10

5 2 7 7

6 8 3 8

4 8 4 2

5 4 5 1

4 3

a) En cuál de los dos paralelos le será más fácil la planificación de la Matemática.

b) Cuál es el nivel medio de cada paralelo.

c) Cuál es la mediana de las puntuaciones del paralelo B.

d) Qué valor tiene la desviación típica de la distribución del paralelo A.

Page 18: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

16

DATOS AGRUPADOS

Cuando los datos son mayores de 25 su tratamiento estadístico se lo realiza en base a grupos

llamados clases y conformados por intervalos de clase.

CLASES E INTERVALOS DE CLASE Para conocer cuántos grupos (c = grupos o clases) se pueden formar, se utilizan varios métodos:

Por ejemplo

4

5

6

7

2 4 grupos para comparar 16

2 5 grupos para comparar 32

2 6 grupos para comparar 64

2 7 grupos para comparar 128

n

n

n

n

Una vez establecido los grupos a formar, según el número de datos, se debe registrar el valor

mayor y el valor menor de los datos, para con esto obtener el ancho de la clase (C = ancho de

clase) el mismo que dará paso a la construcción de los intervalos de clase.

valor mayor valor menor

número de clases

M m

C

V VC

c

CLASES

Límite inferior Límite superior

Límite inferior Límite superior

Límite inferior Límite superior

Límite inferior Límite superior

Límite inferior Límite superior

CLASES

Valor menor Valor menor + ancho de clase

Valor obtenido + unidad de separación Límite inferior + ancho de clase

Idem Idem

Idem Idem

Idem Idem

Page 19: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

17

Ejemplo:

Vm = 50

C = 26

CLASES

50 76

77 103

104 130

131 157

158 184

Vm = 101.4

C = 76

CLASES

101.4 177.4

177.5 253.5

253.6 329.6

329.7 405.7

405.8 481.8

TABLA ESTADÍSTICA

Los elementos principales en una tabla estadística son los siguientes

frecuencia Marca de

clase

Frecuencia acumulada

+

Frecuencia acumulada

-

Frecuencia relativa

Frecuencia relativa

porcentual

Frecuencia por la Marca

Frecuencia por la

marca al cuadrado

En simbología

f M F fa- fr fr% fM fM2

Frecuencia (f).- Número de datos que se encuentran en el intervalo de clase

Marca de Clase (M).- Es el punto medio del intervalo de clase M = (Linf + Lsup)/2

Frecuencia Acumulada (F).- Se la forma sumando las frecuencias

Frecuencia acumulada menos (fa-).- Se la forma restando las frecuencias del total de datos.

Frecuencia relativa (fr).- es el cociente entre cada frecuencia y el número de datos fr = f/n

Page 20: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

18

Frecuencia relativa porcentual (fr%).- Es la frecuencia relativa por el 100%

Para qué la Tabla

El sentido de la Tabla es para presentar gráficas estadísticas y medidas de tendencia central y

dispersión.

Las clases y las frecuencias forman el HISTOGRAMA

Las Marcas y las frecuencias hacen EL POLÍGONO

Las marcas y las frecuencias acumuladas forman LA OJIVA

La frecuencia relativa porcentual forma el pastel o el gráfico circular

La suma del producto de la frecuencia por la marca de clase (fM) sirve para determinar la media

aritmética.

fMx

n

La suma del producto de la frecuencia por la marca de clase al cuadrado (fM2) nos sirve para

determinar la varianza

22

2

1

fM n xs

n

La mediana se determina en base a la frecuencia acumulada (F) en relación a la primera frecuencia

acumulada mayor a n/2

inf2

ant

r

nF

x L Cf

La moda se encuentra con la referencia de la mayor frecuencia (f)

infˆ a

r

a b

Dx L C

D D

Page 21: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

19

Por ejemplo sea la tabla estadística

Clases f M F fa- fr fr% fM fM2

14 41 14 27,5 14 60 0,23 23,33 385 10587,5

42 69 8 55,5 22 46 0,13 13,33 444 24642

70 97 12 83,5 34 38 0,20 20,00 1002 83667

98 125 11 111,5 45 26 0,18 18,33 1226,5 136754,75

126 153 5 139,5 50 15 0,08 8,33 697,5 97301,25

154 181 10 167,5 60 10 0,17 16,67 1675 280562,5

60

1 100 5430 633515

GRÁFICAS

ESTADÍSTICOS

Para determinar las medidas de tendencia central

La media aritmética

Page 22: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

20

543090.5

60x

La Mediana

n/2 = 30

Clases f M F fa- fr fr% fM fM2

14 41 14 27,5 14 60 0,23 23,33 385 10587,5

42 69 8 55,5 22 46 0,13 13,33 444 24642

70 97 12 83,5 34 38 0,20 20,00 1002 83667

98 125 11 111,5 45 26 0,18 18,33 1226,5 136754,75

126 153 5 139,5 50 15 0,08 8,33 697,5 97301,25

154 181 10 167,5 60 10 0,17 16,67 1675 280562,5

60

1 100 5430 633515

30 2270 28 88.67

12x

La Moda

La mayor frecuencia es 14

Clases f M F fa- fr fr% fM fM2

14 41 14 27,5 14 60 0,23 23,33 385 10587,5

42 69 8 55,5 22 46 0,13 13,33 444 24642

70 97 12 83,5 34 38 0,20 20,00 1002 83667

98 125 11 111,5 45 26 0,18 18,33 1226,5 136754,75

126 153 5 139,5 50 15 0,08 8,33 697,5 97301,25

154 181 10 167,5 60 10 0,17 16,67 1675 280562,5

60

1 100 5430 633515

(14 0)

ˆ 14 28 33.614 0 (14 8)

x

Para calcular la Varianza y desviación típica

2

2

2

633515 60 90.52408.47

59

49.08

s

s s

Page 23: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

21

Coeficiente de Variación

100%s

Cvx

Su interpretación se lo hace con respecto a la tabla

Valor del coeficiente de variación (%) Interpretación del coeficiente

Variabilidad Estabilidad

Igual a 0 Nula Muy Alta

Mayor de 0 hasta 20 Baja Alta

Mayor de 20 hasta 60 Moderada Moderada

Mayor de 60 hasta 90 Alta Baja

Mayor de 90 Muy Alta Nula

49.08100% 54.23%

90.5Cv en nuestro ejemplo la variabilidad y la estabilidad son moderadas.

Coeficiente de Asimetría de Pearson

3 x xCs

s

En donde el signo nos indica el sesgo que presenta la distribución normal, si es positivo será

sesgada a la derecha y si es negativo será sesgada a la izquierda.

Page 24: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

22

PROBLEMAS 1. Una encuesta es colocada a los estudiantes graduados del Colegio Victoria Vásconez Cuvi con la

finalidad de conocer el tipo de ocupación al cual aspiran dichos estudiantes. Los resultados fueron:

OCUPACION NÚMERO PONDERACIÓN

BIÓLOGO 5 0.05

BANQUERO 8 0.08

EMPRESARIO 22 0.22

QUÍMICO 7 0.07

MEDICO 10 0.10

CORREDOR DE SEGUROS 6 0.06

PERIODISTA 9 0.09

ABOGADO 14 0.14

PROFESOR 9 0.09

INGENIERO 5 0.05

OTROS 5 0.05

TOTAL 100 1.00

En la categoría "OTROS" se registran las observaciones que de una u otra forma, logran hacer

significativa dicha clasificación.

Graficar los resultados con un pastel o circular, barras y líneas

2. A continuación se tiene el nivel de instrucción de la población de siete años y más edad, según

el censo de población de 1980 de un país de latinoamérica. Elabore una gráfica de barras y de

pastel para representar los datos.

NIVEL DE INSTRUCCIÓN PORCENTAJE

Ningún grado 12.5

Algún grado de primaria 54.3

Algún grado de secundaria 27.3

Algún año universitario 5.9

Total 100.0

Nota: En 1980 la población con siete años y más edad ascendía a 1 426 300 personas.

3. Un inspector de calidad quiere estimar el peso promedio de llenado para las cajas de cereal

empacadas. El cereal esta en paquetes que contienen doce cajas cada una. El inspector selecciona

aleatoriamente cinco paquetes y registra el peso de llenado de cada caja, de los paquetes

seleccionados. Con los resultados en onzas, elabore una tabla de frecuencias.

Page 25: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

23

PAQUETE ONZAS DE LLENADO

1 16.1 15.9 16.1 16.2 15.9 15.8 16.1 16.2 16.0 15.9 15.8 16.0

2 15.9 16.2 15.8 16.0 16.3 16.1 15.8 15.9 16.0 16.1 16.1 15.9

3 16.2 16.0 15.7 16.3 15.8 16.0 15.9 16.0 16.1 16.0 15.9 16.1

4 15.9 16.1 16.2 16.1 16.1 16.3 15.9 16.1 15.9 15.9 16.0 16.0

5 16.0 15.8 16.3 15.7 16.1 15.9 16.0 16.1 15.8 16.0 16.1 15.9

4. Elabore una distribución de frecuencias para los siguientes datos obtenidos en una encuesta,

sobre el ingreso promedio anual de las familias que habitan en el sector de Locoa, cantón

Latacunga.

INGRESOS ANUALES EN DOLARES

1000 1110 1010 1070 1030 1000

1150 990 1090 1080 1150 1200

1050 1030 1120 1050 1030 1150

1230 1170 1180 1110 1160 1100

1100 1060 1130 1105 935 1210

Determine los estadísticos: Media Aritmética, mediana, moda, desviación estándar, coeficiente de

variación y emita comentarios del análisis.

5. En el siguiente conjunto de números, se proporcionan los pesos (redondeados en libras) de los

bebés nacidos en el último mes en el Hospital General de Latacunga:

4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11, 8, 7, 10, 8, 5,

7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5.

a) Construir una distribución de frecuencias.

b) Encontrar las frecuencias relativas.

c) Encontrar las frecuencias acumuladas.

d) Encontrar las frecuencias relativas acumuladas.

e) Dibujar un histograma.

f) Calcular las medidas de tendencia central.

g) Calcular las medidas de dispersión.

h) Calcular el sesgo.

6. A continuación se dan los resultados muestrales de universitarios. La característica es el tiempo

de reacción a un estímulo auditivo:

0.110 0.110 0.126 0.112 0.117 0.113 0.135 0.107 0.122

0.113 0.098 0.122 0.105 0.103 0.119 0.100 0.117 0.113

0.124 0.118 0.132 0.108 0.115 0.120 0.107 0.123 0.109

Page 26: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

24

0.117 0.111 0.112 0.101 0.112 0.111 0.119 0.103 0.100

0.108 0.120 0.099 0.102 0.129 0.115 0.121 0.130 0.134

0.118 0.106 0.128 0.094 0.1114

a) ¿Cuál es la dispersión de la distribución de los datos?

b) Obtenga la distribución de frecuencias.

c) Calcular la media y la varianza

d) Dibuje el polígono de frecuencias relativas.

e) Dibuje el polígono de frecuencias relativas acumuladas.

7. Con el fin de observar la relación entre la inteligencia y el nivel socioeconómico, se tomaron dos

grupos, uno formado con sujetos de cociente intelectual inferior a 95 y otro formado por los

demás; De cada sujeto se anotó el salario mensual familiar. Teniendo en cuenta los resultados que

se indican en la tabla:

Nivel socioeconómico Sujetos con CI menor a 95 Sujetos con CI mayor o igual a 95

Intervalos Frecuencia Frecuencia

100 o menos 75 19

100 - 160 35 26

160 - 220 20 25

220 - 280 30 30

280 - 340 25 54

más de 340 15 46

a) Dibuje un gráfico que permita comparar ambos grupos.

b) Calcule las medidas de tendencia central para aquellos sujetos con CI menor a 95.

c) Calcular las medidas de dispersión para aquellos sujetos con CI mayor o igual a 95.

8. La tabla muestra la composición por edad, género y trabajo de un grupo de personas con

tuberculosis pulmonar en la provincia de los Ríos en el año 1979:

Edad Trabajadores No trabajadores Totales

Varón Mujer Total Varón Mujer Total Varón Mujer Total

14-19 2 1 3 25 40 65 27 41 68

19-24 10 4 14 20 36 56 30 40 70

24-29 32 10 42 15 50 65 47 60 107

29-34 47 12 59 13 34 47 60 46 106

34-39 38 8 46 10 25 35 48 33 81

39-44 22 4 26 7 18 25 29 22 51

Page 27: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

25

a) Representar gráficamente la distribución de frecuencias de aquellas personas trabajadoras

que padecen tuberculosis.

b) Representar gráficamente la distribución de frecuencias de los varones no trabajadores

que padecen tuberculosis.

c) Representar gráficamente la distribución de frecuencias del número total de mujeres que

padecen tuberculosis.

d) ¿Cuál es la edad en la que se observa con mayor frecuencia que no trabajan los varones?

¿Y las mujeres? Determinar asimismo la edad más frecuente (sin distinción de género ni

ocupación).

e) Obtener la media, mediana y desviación típica de la distribución de las edades de la

muestra total.

f) Estudiar la asimetría de las tres distribuciones.

9. En una epidemia de ESCARLATINA, se ha recogido el número de muertos en un país,

obteniéndose:

Número de muertos 0 1 2 3 4 5 6 7

Ciudades 7 11 10 7 1 2 1 1

a) Representar gráficamente estos datos.

b) Obtener la distribución acumulada y representarla.

c) Calcular media aritmética, mediana y moda.

d) Calcular la varianza y la desviación típica.

e) Porcentaje de ciudades con al menos dos muertos.

f) Porcentaje de ciudades con más de tres muertos.

g) Porcentaje de ciudades con a lo sumo cinco muertos.

10. Se desea conocer cuál es la modalidad más frecuente en la solicitud de un libro (S = consulta

en sala; D = préstamo a domicilio; F= fotocopia), disponiendo de la información del 10% de la

población estudiantil de ingeniería en Medio Ambiente. Los datos proporcionados son los

siguientes:

S, S , D, S ,D ,F ,F ,S ,F ,S ,S ,S, D, D, D ,F ,S, S, F ,D

Realizar un estudio estadístico con estos datos disponibles, utilizando para ello cuadros, gráficos e

interpretación de los mismos

11. Representar gráficamente, utilizando gráfico de barra y circular, la cantidad de bibliotecas por

zonas de Latacunga (datos no reales)

Zona A B C D E

Biblioteca 50 120 70 43 17

Page 28: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

26

12. El número de descargas de un archivo durante una semana del Aula virtual de Matemática, es

el siguiente:

Lunes 55

Martes 40

Miércoles 45

Jueves 38

Viernes 25

Sábado 12

Representar gráficamente esta información, de acuerdo al gráfico más conveniente.

13. Se realiza una encuesta para conocer los medios utilizados para calefacción en un hogar,

haciéndose la siguiente pregunta: ¿utiliza algún medio de calefacción su vivienda?

La respuesta fue:

10 contestaron “estufa a leña”

20 contestaron “estufa a gas“

6 contestaron “estufa a queroseno”

12 contestaron “panel radiante “

5 contestaron “acondicionador”

7 contestaron “losa radiante”

a) Determinar la distribución de frecuencias.

b) Representar gráficamente con barras y circular.

14. Se realiza una encuesta para conocer los productos utilizados para la limpieza del hogar,

haciéndose la siguiente pregunta: ¿qué producto de limpieza utiliza frecuentemente en su

vivienda?

La respuesta fue:

25 contestaron “productos ambientales “

35 contestaron “detergentes “

7 contestaron “amoníaco “

40 contestaron “hipoclorito “

6 contestaron “ otros “

a) Determinar la distribución de frecuencias.

b) Representar gráficamente en barras y circular.

15. Recurriendo a los expedientes archivados en el hospital público de Pujilí, se ha obtenido la

siguiente información sobre el tiempo de espera de los pacientes antes de ser operados.

Page 29: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

27

Tiempo de espera

Número de pacientes

hasta 1 mes 20

de 1 a 2 meses 35

de 2 a 4 meses 20

de 4 a 6 meses 10

mas de 6 meses 5

a) Construir una tabla estadística.

b) Qué porcentaje corresponde a las personas que han esperado dos meses o menos.

c) Qué porcentaje de pacientes han esperado entre dos y seis meses.

d) Cuántas personas han esperado más de tres meses.

16. En la entrada de la Casa de Cultura núcleo de Cotopaxi, un encuestador recoge información de

las personas que llegan a la misma preguntándoles sobre el número de visitas que realizan en el

mes. Cuando ha entrevistado a 60 personas entrega la información recopilada:

2 8 5 6 1 3 2 8 5 3 2 4 1 3 4

4 3 5 2 6 1 7 6 2 5 3 8 4 6 2

8 7 6 4 3 2 6 1 1 1 2 2 4 7 6

2 1 3 4 5 8 2 2 6 5 3 2 3 4 3

a) Determinar el campo de variación de la variable.

b) Representar en una tabla estadística.

c) Construir el gráfico de barra y una ojiva.

d) Realizar la representación numérica mediante una tabla estadística con datos agrupados

en intervalos de amplitud tres.

e) Graficar el histograma y la distribución de frecuencias acumuladas.

17. Medimos la altura de los niños de la Unidad Educativa Jean Piaget y se resumen en la tabla.

Alumno Estatura Alumno Estatura Alumno Estatura

1 1.25 11 1.23 21 1.21

2 1.28 12 1.26 22 1.29

3 1.27 13 1.30 23 1.26

4 1.21 14 1.21 24 1.22

5 1.22 15 1.28 25 1.28

6 1.29 16 1.30 26 1.27

7 1.30 17 1.22 27 1.26

8 1.24 18 1.25 28 1.23

9 1.27 19 1.20 29 1.22

10 1.29 20 1.28 30 1.21

Page 30: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

28

a) Indicar si es necesario agrupar en intervalos o no, explicar.

b) Tabular la información, presentándola en una tabla de frecuencias y representarla

gráficamente

c) Calcular la función de distribución acumulada y representarla gráficamente.

18. Se registra la estatura en metros de treinta personas que bajan del bus urbano y los

resumimos en la tabla siguiente:

Persona Estatura Persona Estatura Persona Estatura

1 1.15 11 1.53 21 1.21

2 1.48 12 1.16 22 1.59

3 1.57 13 1.60 23 1.86

4 1.71 14 1.81 24 1.52

5 1.92 15 1.98 25 1.48

6 1.39 16 1.20 26 1.37

7 1.40 17 1.42 27 1.16

8 1.64 18 1.45 28 1.73

9 1.77 19 1.20 29 1.62

10 1.49 20 1.98 30 1.01

a) Indicar si es necesario agrupar en intervalos o no, explicar.

b) Tabular la información, presentándola en una tabla de frecuencias y representarla

gráficamente

c) Calcular la función de distribución acumulada y representarla gráficamente.

19. En un estudio de los valores de colesterol, realizado a 460 estudiantes de la Universidad

Técnica de Cotopaxi, seleccionados al azar, se encuentra lo siguiente:

Colesterol Número de estudiantes

150 a 179 50

180 a 199 200

200 a 219 100

220 a 249 50

250 a 299 50

300 a 349 10

a) Representar la distribución con un gráfico adecuado

b) Indicar que porcentaje de la población presenta valores iguales o mayores de 220

c) Indicar que porcentaje de la población presenta valores iguales o menores de 210. Que

supuesto se debe realizar para este cálculo.

d) Cuál es el límite superior de colesterol del 10% de los estudiantes que tienen valores más

bajos y cuál es el valor limite inferior de los individuos que tienen valores más altos.

Page 31: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

29

DISTRIBUCIÓN NORMAL

Puesto que los procedimientos estadísticos implican el manejo de diversa información y el

conocimiento de algunos conceptos, es importante que inicie el estudio haciendo una revisión de

las definiciones de algunos términos que serán utilizados en lo posterior.

CARACTERÍSTICAS DE LA CURVA NORMAL

El estudio de la distribución normal que se encuentra dentro de una gran diversidad de

distribuciones de frecuencia, su gráfica es la curva normal. La curva normal, también llamada

distribución Gaussiana, tiene una importancia fundamental en estadística por la gran cantidad de

fenómenos que se explican con ella.

Entre las principales utilidades que se puede tener con la distribución normal son:

* La interpretación de la desviación estándar

* En la toma de decisiones

* Generalizar los resultados de una muestra a una población con un manejo adecuado de las

probabilidades.

Para la curva normal estándar, simplemente hacemos

0 y 1

se obtiene la gráfica para la variable z en lugar de x.

La curva normal tiene las siguientes características:

Es simétrica con respecto de la media aritmética y tiene forma de campana.

La media, la mediana y la moda tienen el mismo valor.

Se extiende en ambas direcciones infinitamente sin tocar el eje horizontal.

El área bajo la curva es igual a 1 que corresponde al 100% de los datos.

ES

TA

DÍS

TIC

A I

NF

ER

EN

CIA

L

Page 32: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

30

PUNTUACIÓN ESTÁNDAR (Z)

Con frecuencia podemos encontrar que dos o más variables tienen medias y desviaciones estándar

diferentes, lo cual se puede solucionar “transformando los datos de modo que todas las variables

tengan medias idénticas y las mismas desviaciones estándar, es decir “estandarizando” los

parámetros de las distribuciones”. (Kenet Hopkins, 1997, p.74)

Nos permite determinar la dirección y el grado en que cualquier puntaje X se aleja de la media de

una distribución en una escala de desviación estándar.

La calificación o puntuación Z se utiliza para comparar datos u observaciones que tienen distintas

unidades de medida, por ejemplo: peso, longitud, edad, entre otras; y comparar medidas que

corresponden a diferentes características u observaciones; por ello es adimensional. Las unidades

de medida de la puntuación Z son desviaciones estándar (DE).

Esta calificación estándar viene dada por la ecuación:

valor x - media aritmética

desviación típicaz

x xz

S

Una vez determinado el valor Z, se debe interpretar el área bajo la curva, la misma que se ubica de

dos maneras:

Mediante Tabla de valores Z

Mediante el programa PQRS

En tabla, por ejemplo para el valor Z = 2.24

Page 33: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

31

Se debe ubicar en la columna izquierda el 2.2 y luego en la fila se completa el 0.04 que falta,

entonces el áea encontrada medida desde el centro de la campana a la derecha (por ser Z positivo)

de 0.0125, es decir el 1.25% si le multiplicamos por 100%.

Utilizando el Programa PQRS se debe registrar el valor Z en la parte central y dando enter nos

indica el área total a la izquierda y a la derecha (ya no desde el centro).

Page 34: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

32

En los problemas se puede solicitar que porcentaje:

Es mayor;

Es menor

Entre dos valores

Por ejemplo: ¿Qué porcentaje en un estudio estadístico es mayor que 25, si la media aritmética es

68 y la desviación estándar es de 23?

681.87

2

5

3

2z

Como es un valor negativo estará a la izquierda del centro de la campana y utilizando PQRS

tenemos:

El 96.93% es mayor que 25

El 3.07% tiene puntajes menores que 25

Page 35: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

33

Si se requiere conocer, el porcentaje ENTRE 25 y 70, para esto encontramos el valor Z de 70

70

680.09

23

70z

Restamos, en este caso las áreas de la izquierda o las áreas de la derecha, para encontrar el área

entre 25 y 70 que corresponde a 50.52%

Page 36: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

34

PROBLEMAS VALORES Z En un grupo de estudiantes las calificaciones correspondientes a dos asignaturas son: para

Matemática 16.8x y s = 1.6; para Física 17.5x y s = 2.8. Para un estudiante que ha obtenido

18 en Matemática y 15 en Física, determine la calificación Z para cada asignatura y estime que

porcentaje está en mayor, menor en cada asignatura.

En un examen de estadística la calificación promedio es de 17 y la desviación estándar 2.5 calcule:

a) El porcentaje de calificaciones inferiores a 19

b) El porcentaje de estudiantes que obtuvieron calificaciones inferiores o iguales a 16

c) El porcentaje de estudiantes cuyas calificaciones están entre 16 y 20

Utilizando la Tabla de valores Z, calcula el área bajo la curva de distribución normal entre:

a) Z = 0.8 y Z = 2.12

b) A la derecha de Z = 1.67

c) Z = -0.7 y Z = 1.42

d) Z = 0.63 y Z = 1.8

e) A la izquierda de Z = 1.54

f) A la derecha de Z = -0.95

Realizando el proceso inverso al ejercicio anterior, calcula el valor de Z conociendo el área:

a) El área entre 0 y Z es 35.31%

b) El área entre 0 y Z es 39.72%

c) El área a la izquierda de Z es 91.31%

d) El área entre 0 y Z es 46.64%, Z es negativo

e) El área a la derecha de Z es 11.5%

f) El área a la izquierda de Z es 50%

Se obtienen las calificaciones de 5 estudiantes sobre 10 puntos, de un curso de 52 estudiantes en

las asignaturas de inglés y Matemática, halle en cada asignatura

INGLES MATEMÁTICA

2 3

5 4

3 4

7 8

8 9

a) El porcentaje de calificaciones inferiores a 4

b) El porcentaje de estudiantes que obtuvieron calificaciones inferiores o iguales a 7

c) El porcentaje de estudiantes cuyas calificaciones están entre 8 y 3

Page 37: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

35

PROBLEMAS PARA SPSS Problema 1. En el siguiente conjunto de números, se proporcionan los pesos (redondeados a la

libra más próxima) de los bebés nacidos durante un cierto intervalo de tiempo en un hospital:

4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11, 8, 7, 10, 8, 5,

7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5.

a) Cuál es el porcentaje de niños de menos de 6 libras

b) Cuál es el porcentaje de niños de más de 8 libras

c) Cuál es el porcentaje de niños entre 3 y 9 libras

Problema 2.- Utilizando el SPSS, realice la siguiente encuesta el respectivo análisis estadístico

Pregunta 1.- Gastos efectuados en el último mes

15 contestaron $100 8 contestaron $150 Realice un diagrama de barras con porcentaje 2 contestaron $200

Pregunta 2.- Criterio del cuidado del Medio Ambiente por las autoridades

9 contestan Excelente

12 Muy Bueno

2 Bueno Realice un diagrama de barras con frecuencia

2 No opinan

Pregunta 3.- Provincia con el mejor tratamiento de la Basura

4 contestan Cotopaxi

11 Loja

8 Azuay Realice un gráfico circular

2 Otra

Pregunta 4.- Palabras que interpreten el Ambiente

9 escriben Pureza

8 Limpieza

4 Planeta Realice un gráfico circular

3 Mundo

1 Naturaleza

Page 38: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

36

REGRESIÓN LINEAL Y CORRELACIÓN

Definiciones

Análisis de correlación.- Es el conjunto de técnicas estadísticas empleado para medir la intensidad

de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en

determinar que tan intensa es la relación entre dos variables.

Diagrama de dispersión.- Es la gráfica que representas la relación entre dios variables.

Variable dependiente.- Es la variable que se desea explicar o predecir; también se le denomina

regresando o variable de respuesta. Es la variable que predice o calcula.

Variable independiente.- Es la variable explicativa o regresor. Es la variable que proporciona las

bases para el cálculo. Es la variable de predicción.

Es práctica común marcar la variable dependiente en el eje vertical, o eje y (ordenada), y la

variable independiente en el eje horizontal, o eje x (abscisa).

Coeficiente de correlación.- Es la medida de la intensidad de la relación lineal entre dos variables.

Para determinar el valor numérico del coeficiente de correlación, se utiliza la siguiente expresión:

222 2

n XY X Yr

n X X n Y Y

donde:

n = número de pares de observaciones

x = suma de los valores de la variable x

y = suma de los valores de la variable y

( x2) = suma de los valores de x elevados al cuadrado

( x)2 = cuadrado de la suma de los valores de x

( y2) = suma de los valores de y elevados al cuadrado

( y)2 = cuadrado de la suma de los valores de y

Page 39: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

37

xy = suma de los productos de x e y

r La correlación es

1 grande, perfecta y positiva

0.90 a 0.99 muy alta positiva

0.70 a 0.80 alta, positiva

0.40 a 0.60 moderada, positiva

0.20 a 0.30 baja, positiva

0.01 a 0.19 muy baja positiva

0 nula

– 0.01 a – 0.19 muy baja, negativa

– 0.20 a – 0.39 baja negativa

– 0.40 a – 0.69 moderada, negativa

– 0.70 a – 0.89 alta, negativa

– 0.90 a – 0.99 muy alta negativa

– 1 grande, perfecta, negativa

Forma general de la ecuación de regresión lineal

y´ = a + b x

y´ = s el valor pronosticado de la variable y para un valor seleccionado de x

a = es la ordenada de la intersección con el eje y, o sea el valor estimado de y cuando x = 0. es

decir, corresponde al valor de y, donde la recta de regresión cruza el eje y, cuando x es igual a 0

b = es la pendiente de la recta, o sea, el cambio promedio en y´ por unidad de cambio (incremento

o decremento) en la variable independiente x.

X = es cualquier valor seleccionado de la variable independiente.

Pendiente de la línea de regresión

22

XXn

YXYXnb

Intercepción con el eje X

n

Xb

n

Ya

Ejemplo.

Page 40: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

38

Se seleccionan al azar las siguientes observaciones de muestra

X: 4 5 3 6 10

Y: 4 6 5 7 7

Evalué el coeficiente de correlación y determinación, establezca la ecuación de regresión y cuando

x vale 7

Se plantea la fórmula para seguir calculando los datos que nos hacen falta:

222 2

n XY X Yr

n X X n Y Y

N X Y X2 Y2 X Y

1 4 4 16 16 16

2 5 6 25 36 30

3 3 5 9 25 15

4 6 7 36 49 42

5 10 7 100 49 70

28 29 186 175 173

Luego se sustituye en la fórmula

75.0

46.70

53

4964

53

34*146

53

841875784930

812865

291755281865

2928173522

r

r

r

r

r

r

Para calcular el coeficiente de determinación el resultado que es el coeficiente de correlación se

eleva al cuadrado así:

(0.75)2 = 0.5625 * 100 % = 56.25 %

Page 41: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

39

El coeficiente 0.75 indica una correlación positiva más bien fuerte entre x e y. el coeficiente de

determinación más del 56.25 % de la variación en y se explica por medio de x

Ecuación de regresión: y¨= a + bx

22

XXn

YXYXnb

n

Xb

n

Ya

3630.0

146

53

784930

812865

281865

292817352

b

b

b

b

784.3

016.28.5

5

2836.0

5

29

a

a

a

y´ = 3.784 + 0.363 x

cuando x = 7

y´ = 3.784 + 0.363 (7)

y´ = 3.784 + 2.541

y´ = 6.325

EJERCICIOS

Se seleccionan al azar las siguientes observaciones muestrales

X: 5 3 6 3 4 4 6 8

Y: 13 15 7 12 13 11 9 5

Page 42: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

40

Evalúe el coeficiente de correlación, determinación, establezca la ecuación de regresión,

establezca y¨ cuando x = 12

PROBLEMAS

1. Con los pares de datos

Número de anuncios por TV

Ventas (miles dólares)

4 15

2 8

5 21

6 24

3 17

a) Cuál es la variable dependiente y la independiente

b) Realice el diagrama de dispersión en computadora

c) Calcule el coeficiente de correlación

d) Evalúe el coeficiente de determinación e interprete

e) Establezca la ecuación de regresión; y pronostique cuando haga 7 anuncios

2. Un departamento desea examinar la relación entre el número de trabajadores por producción

en 1 hora (arman PC) los datos son los siguientes:

Cantidad de empleados

Producción en 1 hora (unidades)

2 15

4 25

1 10

5 40

3 30

a) Cuál es la variable dependiente y la independiente

b) Realice el diagrama de dispersión en computadora

c) Calcule el coeficiente de correlación

d) Evalúe el coeficiente de determinación e interprete

e) Establezca la ecuación de regresión; y pronostique cuando haga 6 empleados.

3. La empresa eléctrica de Bolívar, estudia las relaciones entre el consumo de energía y el número

de habitaciones en una residencia, de una muestra aleatoria de 10 casas produjo lo siguiente:

Número de habitaciones Consumo kwh

12 9

9 7

14 10

6 5

Page 43: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

41

10 8

8 6

10 8

10 10

5 4

7 7

a) Determine la ecuación de regresión

b) Evalúe el consumo, en miles de kwh, para una casa de 6 habitaciones

c) Realice el diagrama de dispersión en computadora

4. Hay interés en los resultados actuales de las ventas y ganancias de las empresas. Se selecciono

una muestra aleatoria de 12 compañías. A continuación se indican las ventas y ganancias, en

millones de dólares.

Compañía Venta Ganancias

A 89.2 4.9

B 18.6 4.4

C 18.2 1.3

D 71.7 8.0

E 58.6 6.6

F 46.8 4.1

G 17.5 2.6

H 11.9 1.7

I 19.6 3.5

J 51.2 8.2

K 28.6 6.0

L 69.2 12.8

a) Evalúe el coeficiente de determinación

b) Determine la ecuación de regresión

c) Calcule las ganancias de una compañía pequeña con 50 millones de dólares en venta

d) Elabore un diagrama de dispersión en computadora

5. Se estudia los fondos de bonos mutuales para invertir varios de ellos, a continuación se

muestran sus activos y tasas de rendimiento.

Fondo Activos Rendimiento %

A 622.2 10.8

B 160.4 11.3

C 275.7 11.4

D 433.2 9.1

E 437.9 9.2

F 494.5 11.6

G 158.3 9.5

H 681.0 8.2

Page 44: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

42

I 241.3 6.8

a) Trace el diagrama de dispersión en computadora

b) Calcule el coeficiente de correlación

c) Evalúe el coeficiente de determinación

d) Determine la ecuación de regresión, utilice los activos como la variable independiente

e) Establezca la tasa de rendimiento a cinco años (en porcentaje) de un fondo con 400

millones de dólares en ventas

Un panorama de conceptos probabilísticas

Probabilidad.- Valor entre cero y uno, inclusive, que describe la posibilidad relativa que ocurrirá

un evento.

Evento.- Es uno o más posibles resultados de hacer algo o sea de un experimento.

Experimento.- Proceso que conduce a la ocurrencia de una (y solamente una) de varias

observaciones posibles.

Resultado.- Lo que resulta específicamente de un experimento.

Espacio muestral.- Es el conjunto de todos los resultados posibles de un experimento.

Eventos mutuamente excluyentes.- Si un y sólo uno de ellos pueden tener lugar a un tiempo, lo

que implica que ningún otro puede ocurrir al mismo tiempo.

Colectivamente exhaustiva.- presenta todos los resultados posibles o eventos que pueden

resultar de un experimento.

Enfoques de la Probabilidad.- Se analizarán dos enfoques de la probabilidad, específicamente, los

puntos de vista objetivo y subjetivo. La probabilidad objetiva puede subdividirse en probabilidad

clásica y empírica.

Probabilidad Clásica.- Se basa en la consideración de que los resultados de un experimento son

igualmente posibles.

posiblesresultadosdetotalnúmero

favorablesresultadosdenúmeroeventoundeobabilidad Pr

Probabilidad Empírica.- Otra manera para definir la probabilidad es con base en las frecuencias

relativas. La probabilidad de que un evento ocurra a largo plazo se determina observando en que

fracción de tiempo sucedieron eventos semejantes en el pasado.

Page 45: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

43

onesobservacuidetotalnúmero

pasadoelenocurrióeventoelquevecesdenúmeroeventounsucedaquedeobabilidadPr

Probabilidad Subjetiva.- Probabilidad de que suceda un evento específico, asignado por una

persona con base en cualquier información de que se disponga.

Algunas Reglas de Probabilidad

Regla de la adición.- Para aplicar esta regla, los eventos deben ser mutuamente excluyentes, y nos

indica que la probabilidad de que ocurra uno u otro de los eventos, es igual a la suma de sus

probabilidades.

P (A o B) = P (A) + P ( B ).

P (A o B o C) = P ( A ) + P ( B ) + P ( C ).

Regla del Complemento.- Se utiliza para determinar la probabilidad de que ocurra un evento

restando del número 1 la probabilidad de que no ocurra: P ( A ) = 1 – P ( Ac ).

Probabilidad Conjunta.- Es la probabilidad que mide la posibilidad de que dos o más eventos

ocurran en forma simultánea. P (A o B ) = P ( A ) + P ( B ) – P (A y B ).

Reglas de la Multiplicación.- Requiere que dos eventos A y B sean independientes. Es

independiente cuando la ocurrencia de un evento no tiene efecto en la probabilidad de la

ocurrencia de cualquier otra.

P ( A y B ) = P ( A ) P ( B )

P ( A y B y C ) = P ( A ) P ( B ) P ( C )

Probabilidad Condicional.- Es la probabilidad de que ocurra un evento en particular, dado que

otro evento haya ocurrido.

P ( A y B ) = P ( A ) P ( B / A )

P ( A y B y C ) = P ( A ) P ( B / A ) P ( C / A y C )

Permutación.- Un arreglo o disposición de y objetos seleccionados a partir de un grupo único de n

objetos posibles.

!!

rn

nPrn

Combinación.- Es el número de modos para elegir r objetos de un grupo de n de ellos sin

considerar el orden.

Page 46: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

44

!!

!

rnr

nCrn

Ejemplos.

Se ha desarrollado un nuevo juego de vídeo. 80 jugadores veteranos de este tipo de

juegos van a probar su potencial de mercado.

a) ¿Cuál es el experimento?. Prueba del nuevo juego de computadora

b) ¿Cuál es un resultado posible? A cincuenta y tres jugadores les gustó el juego.

c) Suponga que 65 jugadores probaron el nuevo juego y afirmaron que les gustó ¿65 es una

probabilidad?. No la probabilidad no puede ser mayor que 1. la probabilidad de que el

juego, al ser lanzado al mercado, tenga éxito, es 8125.080

65

d) La probabilidad de que el juego de vídeo sea un éxito se calcula como – 1. comente esto.

No puede ser menor que 0. tal vez hubo un error en la aritmética.

e) Especifique un posible evento. A más de la mitad de los jugadores que prueban dicho

juego les agradó.

Una carta de una baraja de 52 naipes se va a seleccionar en forma aleatoria. ¿cuál es la

probabilidad de que la carta sea una reina? ¿qué enfoque de la probabilidad utilizó para

contestar esta pregunta?. 0769.052

4 enfoque clásico.

El INEC, informó que de cada 883 decesos, 24 se debieron a accidentes automovilísticos,

182 a cáncer y 333 a enfermedades del corazón ¿cuál es la probabilidad de que una

muerte específica se deba a un accidente de automóvil? ¿qué enfoque probabilístico

utilizó para contestar esta pregunta? Enfoque empírico 027.0883

24

¿Cuál es la probabilidad de que el Promedio Industrial Daw Jones sobrepase el valor 10

000 antes de que llegue el tercer milenio? ¿qué enfoque de la probabilidad utilizó para

contestar esta pregunta? Subjetivo 0.35

Se ha de entrevistar a un grupo selecto de empleados, con respecto a un plan de

pensiones. Se efectuarán entrevistas detalladas a cada uno de los empleados

seleccionados en la muestra. Éstos se clasificaron como sigue:

Clasificación Evento número de empleados

Supervisores A 120

Page 47: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

45

De mantenimiento B 50

De producción C 1460

Gerencia D 302

Secretarial E 68

2000

a) ¿Cuál es la probabilidad de que la primera persona seleccionada:

i) ¿sea empleado de mantenimiento o una secretaria?

059.02000

6850

ii) ¿no sea de gerencia? 849.02000

3021

b) ¿Los eventos en la parte a) i) son complementarios o mutuamente excluyentes, o

bien de ambas clase? Son mutuamente excluyentes

Como parte de un programa de servicio a la salud para los empleados de una empresa, se

efectúan anualmente exámenes físicos de rutina. Se descubrió que 8% de los empleados necesitan

zapatos correctivos, 15%, trabajo dental importante, y 3%, necesitan tanto zapatos correctivos

como corrección ortodóncica mayor.

a) ¿Cuál es la probabilidad de que un empleado seleccionado al azar necesite zapatos

correctivos o trabajo dental importante?

P ( A o B ) = P ( A ) + P ( B ) – P (A y B )

= 0.08 + 0.15 – 0.03 = 0.20

Debido a su larga experiencia, en una compañía se sabe que la probabilidad de que su

neumático XB – 70 dure 60 000 millas antes de perder el dibujo o fallar es 0,80. se hace un

ajuste para el caso de cualquier llanta que no resista dicho recorrido. Usted compra cuatro

XB – 70. ¿cuál es la probabilidad de que los cuatro neumáticos duren al menos 60 000

millas? (0.80) (0.80) (0.80) (0.80) = 0.4096

Page 48: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

46

Una máquina introduce legumbres mixtas en una bolsa de plático. La experiencia indica

que algunos paquetes tuvieron mens peso, y algunos otros peso de más, pero la mayoría

fueron satisfactorios.

Peso paquete Probabilidad

Insuficiente 0.025

Satisfactorio 0.900

Excedido 0.075

a) ¿Cuál es la probabilidad de seleccionar hoy tres paquetes de la línea de

procesamiento de alimentos, y encontrar que a los tres les falta peso?

(0.025) (0.025) (0.25) (0.025) = 0.0000156

b) ¿Qué significa esta probabilidad? La posibilidad de seleccionar tres bolsas y descubrir

que a todos les falta peso, es muy remoto.

La Junta de directores de NN, está formada por ocho hombres y cuatro mujeres. Se

seleccionará un comité de cuatro miembros, en forma aleatoria, para recomendar a un

nuevo presidente de la compañía

a) ¿Cuál es la probabilidad de que sean mujeres los cuatro miembros del comité de

investigación? 002.011880

24

9

1

10

2

11

3

12

4

b) ¿Cuál es la probabilidad de que los cuatro miembros sean hombres?

1414.011880

1680

9

5

10

6

11

7

12

8

c) ¿La suma de la probabilidades para 1 y 2 es igual a 1? Explique su respuesta. No, porque

existen otras posibilidades, como tres mujeres y un hombre.

Un músico desea escribir una partitura basada solamente en 5 notas; si bemol, do, re, mi y

sol. Sin embargo, sólo tres de las cinco repeticiones como si bemol, si bemol y mi.

a) ¿Cuántas permutaciones de las cinco notas, tomadas tres cada vez, son posibles?

5*4*3 = 60

Page 49: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

47

b) utilizando la fórmula de permutación ¿cuántas permutaciones son posibles ahora?

601*2

1*2*3*4*5

!35

!535

P

8 colores, que se tomaran tres a la vez, darían 56 combinaciones diferentes. Utilizando la

fórmula de la combinación, ¿resulta cierto eso?

56

!5*1*2*3

!5*6*7*8

!38!3

!838

C

EJERCICIOS

1. Algunas personas están a favor de reducir los beneficios del Seguro Social a fin de lograr

un presupuesto equilibrado, en tanto otras están en contra. Se seleccionaron dos

personas y se han de registrar sus opiniones. Mencione los resultados posibles

2. Una encuesta en una clase de 34 estudiantes de la facultad de administración, reveló la

siguiente selección de carreras:

Contabilidad 10

Secretariado 5

Sistemas 3

Administración 6

Mercadotecnia 10

Suponga que selecciona a un o una estudiante y observa su opción profesional.

¿Cuál es la probabilidad de que él o ella estudie la carrera de administración?

¿Qué concepto de probabilidad utilizó para hacer esta estimación?

3. El departamento de vía pública del municipio, está considerando en ampliar la Avenida a

tres carriles. Antes de tomar una decisión, se preguntó a 500 ciudadanos si apoyaban la

ampliación.

¿Cuál es el experimento?

¿Cuáles son algunos de los posibles eventos?

Mencione dos resultados posibles

4. En cada uno de los casos indique si se utiliza la probabilidad clásica, la empírica o la

subjetiva.

Una jugadora de básquetbol realiza 30 canastas en 50 tiros de falta. La probabilidad de

que efectúe bien el próximo tiro es 0.6.

Se formó un comité de estudiantes de siete miembros para estudiar asuntos

ambientales, ¿cuál es la probabilidad de que uno de ellos sea elegido como vocero?

Page 50: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

48

Usted compra uno de los 5 millones de boletos que Lotto vendió para un sorteo. ¿cuál

es la probabilidad de que gane el premio principal de 1 millón de dólares?

La probabilidad de que ocurra un sismo en el norte en los próximos 10 años, es de

0.80

5. Hay 52 cartas en una baraja normal

¿Cuál es la probabilidad de que la primera que se saque sea de espadas?

¿Cuál es la de que el primer naipe seleccionado sea una sota de espadas?

¿Qué concepto de probabilidad ilustran a y b?

6. Los eventos A y B son mutuamente excluyentes. Supóngase que P (A) = 0.30 y P (B) = 0.20

¿cuál es la probabilidad de que ocurra A o B? ¿Cuál es la probabilidad de no suceda ni A ni

B?

7. Un estudio de 200 cadenas de tiendas de comestibles reveló estos ingresos, después del

pago de impuestos

Ingreso (dólares) después de impuestos Número de Empresas

Menos de 1 millón 102

De 1 millón a 20 millones 61

De 20 millones o más 37

¿Cuál es la probabilidad de que una cadena en especial tenga menos de un millón (de

dólares) en ingresos después de pagar impuestos?

¿Cuál es la probabilidad de que una cadena de tiendas seleccionada al azar tenga un

ingreso entre un millón y 20 millones, o bien uno de 20 millones o más? ¿qué regla de

probabilidad aplicó?

8. El presidente de una Junta de Directores dice. “Hay un 50% de posibilidad de que esta

compañía tenga utilidades, un 30% de que quede a nivel, y un 20% de que perderá dinero

el siguiente trimestre”

Utilice una regla de adición para encontrar la probabilidad de que no se pierda dinero

en el próximo trimestre.

Aplique la regla del complemento para obtener la probabilidad de que no haya

pérdidas en tal periodo.

9. La posibilidades de los eventos A y B son 0.20 y 0.30, respectivamente. La probabilidad de

que tanto A como B ocurran es 0.15. ¿cuál es la probabilidad de que suceda A o bien B?

10. Suponga que P (A) = 0,40 y P ( B / A ) = 0,30. ¿cuál es la probabilidad conjunta de A y B?

Page 51: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

49

11. Un banco local reporta que 80% de sus clientes tienen una cuenta de cheques, 60% una

cuanta de ahorros, y 50% tienen ambas. Si se selecciona un cliente al azar, ¿cuál es la

probabilidad de que éste tenga una cuenta de cheques o una de ahorros? ¿cuál es la

probabilidad de que el cliente no tenga ninguna de las dos?

12. Obtenga el valor de lo siguiente

!35

!40

47 P

25 C

13. Evalúe lo siguiente

!17

!20

39 P

27 C

14. Un entrevistador selecciono al azar 4 de 10 personas disponibles. ¿cuántos grupos

diferentes de 4 son posibles?

15. Un número telefónico consta de 7 dígitos, y los tres primeros representan la zona.

¿cuántos números telefónicos distintos son posibles dentro del área zonal 537?

16. Una empresa de mensajería rápida con viajes durante la noche, debe incluir cinco

ciudades en su recorrido. ¿cuántas rutas diferentes son posibles suponiendo que no

importa el orden en que las ciudades se incluyan en el recorrido?

17. Un representante de la Agencia de Protección Ambiental, desea seleccionar muestras de

10 rellenos sanitarios, y se dispone de 15 de ellos para obtenerlas. ¿cuántas muestras

diferentes son posibles?

18. Una organización nacional de encuestas ha elaborado 15 preguntas destinadas a evaluar la

actuación del Presidente. El entrevistador seleccionará 10 de tales interrogantes. ¿cuántos

arreglos diferentes existen para el orden de las 10 preguntas seleccionadas?

Page 52: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

50

PRUEBAS DE HIPÓTESIS

Hipótesis.- Enunciado acerca de una población elaborado con el propósito de poner a prueba.

Prueba de Hipótesis.- Procedimiento basado en la evidencia muestral y en la teoría de

probabilidad que se emplea para determinar si la hipótesis es un enunciado razonable.

Hipótesis Nula:- Afirmación (o enunciado) acerca del valor de un parámetro poblacional.

Hipótesis alterna:- Afirmación que se aceptará si los datos muestrales proporcionan amplia

evidencia de que la hipótesis nula es falsa.

Nivel de Significancia:- Probabilidad de rechazar la hipótesis nula cuando es verdadera.

Error de Tipo I:- Rechazar la hipótesis nula, Ho, cuando en realidad es verdadera

Error de Tipo II:- Aceptar la hipótesis nula cuando en realidad es falsa

Valor Estadístico de Prueba.- Valor obtenido a partir de la información muestral, que se utiliza

para determinar si se rechaza la hipótesis nula.

Valor Crítico.- Número que es el punto divisorio entre la región de aceptación y la región de

rechazo, de la hipótesis nula.

Tomar una decisión.- Esta basada en el nivel de significación, ya sea para una prueba de dos

extremos o para una prueba de un extremo. Se considera lo expresado en las regiones de rechazo

y aceptación.

Pruebas Bidiriccionales.- Cuando una investigación nos interesa determinar si existe o no

diferencia entre los fenómenos en estudio, sin interesarnos cual de los dos fenómenos es mayor o

menor que el otro entonces debemos escoger una prueba bidireccional o a dos colas, puesto que

estamos interesados en los dos extremos de la curva normal.

Pruebas Unidireccionales.- Llamadas también a una cola, deben ser utilizadas cuando en una

investigación nos interesa si un grupo es mayor o menor que otro, lo que significa que tomaremos

solamente un extremo de la curva normal.

PRUEBAS PARA MUESTRAS GRANDES

Los siguientes casos especiales son sólo unos pocos de los estadísticos de interés práctico. En cada

caso los siguientes son válidos para poblaciones infinitas o para muestreo con reemplazo. Los

resultados deben modificarse para la toma de muestras sin reemplazo de poblaciones finitas.

Page 53: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

51

MEDIAS.- Aquí S = X , la media muestral: xs

, la media de la población;

nXs

, donde es la desviación estándar de la población y n es el tamaño muestral.

La variable estandarizada está dada por:

n

XZ

( 1 )

Para probar la hipótesis nula Ho de que la media de la población es a podemos usar el

estadístico ( 1 ). Entonces, si la hipótesis alterna es ,a usando la prueba de dos colas,

podemos aceptar Ho (o al menos no rechazarla) al nivel de significancia de 0,05 si para una

muestra particular de tamaño n con media X

96,196,1

n

aX

( 2 )

y podemos rechazarla de otra manera. Para otros niveles de significancia podemos cambiar ( 2 ) de

manera apropiada. Para probar Ho en contra de la hipótesis alterna de que la media de la

población es mayor que a, podemos usar la prueba de una cola y aceptar Ho (o al menos no

rechazarla) al nivel del 0.05 si

96.1

n

aX

y rechazarla de otra manera. Para probar Ho en contra de la hipótesis alterna de que la media de la

población es menor que a, podemos aceptar Ho al nivel del 0.05 si

96.1

n

aX

PRUEBA Z DE UNA MUESTRA DE LA DESVIACIÓN ESTÁNDAR CONOCIDA

Ejemplo:

Page 54: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

52

Supongamos que se desea verificar si cierta muestra de 100 estudiantes del primer año de

bachillerato, cuya media de CI es de 105, procede de una población que tiene una media de CI de

100 y la desviación estándar es de 16.

1. Planteamiento de las hipótesis estadísticas y su modelo de decisión

Hipótesis Nula:

No hay diferencia entre la media de la población y la media de la muestra

Hipótesis Alterna:

Si hay diferencia entre la media de la población y la media de la muestra

Ho: µ = X

H1 :µ ≠ X

2. Selección del nivel de significación

α = 0,05 ( 5%)

3. Especificación del estadístico

Para el error típico: nx

Para la Prueba Z x

XZ

4.- Especificación de las regiones de aceptación y rechazo

a un nivel = 0,05. Valor de Z = ± 1.96 (Graficación ver Anexo 1)

5. Recolección de datos y cálculo de los estadísticos

Error típico de media

Page 55: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

53

6.1

100

16

x

x

xn

Prueba Z

12.3

6.1

100105

Z

Z

XZ

x

6.- Decisión

Como el valor de Z es 3.12 y el nivel de significación al 0.05 es ± 1.96, el valor está fuera de la

región de aceptación, por lo tanto se rechaza la hipótesis nula, aceptando la alterna.

Existe diferencia entre la media muestral y la media poblacional.

PROPORCIONES.- Aquí S = P, la proporción de “éxitos” en una muestra; pps

, donde p

es la proporción de éxitos en la población y n es el tamaño muestral; n

pqps

, donde q

= 1 – p, la variable estandarizada está dada por

n

pq

pPZ

En el caso n

XP

, donde X es el número verdadero de éxitos en una muestra, (5) se convierte en

qpn

pnXZ

Se pueden hacer observaciones similares a las hechas atrás sobre pruebas de una y dos colas para

medias.

Ejemplo.- De una encuesta realizada con anterioridad se concluyó que el 65% de los estudiantes

de un colegio de la localidad que se graduaron de bachilleres, querían seguir sus estudios

Page 56: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

54

universitarios. Actualmente se toma una muestra de 70 estudiantes y se les plantea la misma

pregunta y 50 manifiestan que quieren seguir sus estudios universitarios. Determinar si la

proporción de estudiantes que quieren continuar sus estudios es mayor que el 70% al nivel de

significación del 1%

1. Planteamiento de hipótesis

Ho: P = 0.70

H1: P > 0.70

Hipótesis Nula:

La proporción de estudiantes que desean continuar sus estudios es de 70%.

Hipótesis Alterna:

La proporción de estudiantes que desean continuar sus estudios es mayor al 70%.

2. Nivel de significación

01.0

3. Especificación del estadístico

qpn

pnXZ

4.- Especificación de las regiones de aceptación y rechazo

= 0.01 → Zt = 2.33

Zc ≥ 2.33 se rechaza Ho

5. Recolección de datos y cálculo de los estadísticos

24.010.4

1

4.0*6.0*70

7.07050

Z

Z

qpn

pnXZ

Page 57: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

55

6.- Decisión

Como el valor de Z es 0.24 y el nivel de significación al 0.01 es ± 2.33, el valor está en la región de

aceptación, por lo tanto se acepta la hipótesis nula, por lo tanto el porcentaje de estudiantes a

continuar los estudios universitarios es mayor al 70%.

DIFERENCIA DE MEDIAS.- Sean 21 XyX las medias maestrales obtenidas en muestras grandes

de tamaños n1 y n2 de poblaciones respectivas con media µ1 y µ2 y desviaciones estándar

21 y.

Considere la hipótesis nula de que no hay diferencia entre las medias de las poblaciones, es decir,

µ1 = µ2, vemos que la distribución muestral de diferencias en medias es aproximadamente normal

con media y desviación estándar dada por:

2

2

2

1

2

1

21

21

0

nnXX

XX

donde podemos, si es necesario, usar las desviaciones estándar observadas s1 y s2 como estimados

de 21 y usando la variable estandarizada dada por:

2121

2121 0

XXXX

XXXXZ

Ejemplo.- Se aplica una prueba para el ingreso a Medicina en la U. C. del Ecuador a dos grupos de

estudiantes formados por 75 y 85. El primer grupo tuvo una puntuación media de 60 con una

desviación típica de 6, mientras que el segundo grupo tuvo una puntuación media de 66 y una

desviación estándar de 5. Determinar si existe diferencia en el rendimiento de los estudiantes de

los dos grupos al nivel de significación de 0.05.

1. Planteamiento de Hipótesis

Hipótesis Nula Ho: El rendimiento de los dos grupos es igual

Hipótesis Alterna H1: El rendimiento de los dos grupos difiere significativamente

Ho: 02121 XXXX

H1: 02121 XXXX

Page 58: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

56

2. Nivel de significación

05.0

3. Especificación del estadístico

2

2

2

1

2

1

21

21

0

nnXX

XX

2121

2121 0

XXXX

XXXXZ

4.- Especificación de las regiones de aceptación y rechazo

= 0.05 → Zt = ± 1.96

Se rechaza Ho sí

Zc ≥ + 1.96

Zc ≤ – 1.96

5. Recolección de datos y cálculo de los estadísticos

88.0

85

5

75

6

0

21

21

21

21

22

2

2

2

1

2

1

XX

XX

XX

XX

nn

82.6

88.0

6

88.0

6660

0

2121

2121

Z

Z

XXXXZ

XXXX

6.- Decisión

Page 59: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

57

Como el valor de Z es – 6.82 y el nivel de significación de 0.05 es ± 1.96, el valor está fuera de la

región de aceptación, por lo tanto se rechaza la hipótesis nula, por lo tanto el rendimiento de los

dos grupos difieren significativamente.

DIFERENCIA DE PROPORCIONES.- Sean P1 y P2 las proporciones muestrales obtenidas en muestras

grandes de tamaño n1 y n2 de las poblaciones respectivas con proporciones p1 y p2. Considere la

hipótesis nula de que no hay diferencia entre las proporciones de la población, es decir, p1 = p2, y

por lo tanto, de que las muestras se tomaron realmente de la misma población.

Reemplazando p1 = p2 = p, vemos que la distribución muestral de diferencias en proporciones es

aproximadamente normal con media y desviación estándar dadas por

21

111

0

21

21

nnpppp

pp

Donde: 21

2211

nn

PnPnP

se usa como un estimado de la proporción de la población p. usando la

variable estandarizada:

2121

2121 0

ppPP

PPPPZ

Ejemplo.- Una muestra de 100 estudiantes ISPED San Luis que fueron preguntados sobre la

aceptación de la Universidad Estatal de Bolívar y otro grupo de 150 estudiantes ISPED Pujilí y que

fueron preguntados en igual forma, se muestra que el 53% y 45% respectivamente estaban de

acuerdo, determinar al nivel de significación del 5% de que existe diferencia de criterio entre los

estudiantes de San Luis y Pujilí respecto a la aceptación de la U.E.B.

1. Planteamiento de Hipótesis

Hipótesis Nula Ho: La proporción de criterio de los dos grupos es igual

Hipótesis Alterna H1: La proporción de los dos grupos difieren de criterio

significativamente

Ho: 02121 PPPP

H1: 02121 PPPP

2. Nivel de significación

Page 60: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

58

05.0

3. Especificación del estadístico

21

2211

nn

PnPnP

21

111

0

21

21

nnpppp

pp

2121

2121 0

ppPP

PPPPZ

4.- Especificación de las regiones de aceptación y rechazo

= 0.05 → Zt = ± 1.96

Se rechaza Ho sí

Zc ≥ + 1.96

Zc ≤ – 1.96

5. Recolección de datos y cálculo de los estadísticos

482.0

250

5.6753

150100

45.0*15053.0*100

21

2211

P

P

P

nn

PnPnP

Page 61: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

59

07.0

017.0518.0482.0

150

1

100

1482.01482.0

111

0

21

21

21

21

21

21

pp

pp

pp

pp

pp

nnpp

14.1

07.0

45.053.0

0

2121

2121

Z

Z

PPPPZ

ppPP

6.- Decisión

Como el valor de Z es 1.14 y el nivel de significación de 0.05 es ± 1.96, el valor está en la región de

aceptación, por lo tanto se acepta la hipótesis nula, es decir la proporción de criterio de los dos

grupos es igual, con un nivel de confianza del 95%.

PRUEBAS ESPECIALES DE SIGNIFICANCIA PARA MUESTRAS PEQUEÑAS

En el caso de que las muestras sean pequeñas (n < 30), podemos formular pruebas de hipótesis y

significancia usando otras distribuciones además de la normal, tales como la t de Student.

MEDIAS.- Para probar la hipótesis Ho de que una población tiene media, µ, usamos:

nS

Xn

S

Xt

1

Donde X es la media de la muestra de tamaño n. S se usa en lugar de .

DIFERENCIA DE MEDIAS.- Supongamos que se obtienen dos muestras aleatorias de tamaño n1 y n2

de poblaciones normales (o aproximadamente normales), cuyas desviaciones estándar son iguales,

es decir, 21 .

Supongamos, además, que estas dos muestras tienen medias y desviaciones estándar dadas por

respectivamente. Para probar la hipótesis Ho de que las muestras vienen de la misma población

es decir µ así como 21 , usamos la variable dada por:

Page 62: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

60

21

21

11

nn

XXt

donde

221

2

22

2

11

nn

SnSn

La distribución t es la distribución t de Student con v = (n – 1 ) y n1 + n2 – 2 grados de libertad.

Ejemplo.- En un examen de Psicología, 12 estudiantes de un grupo obtuvieron una calificación

media de 80 con una desviación estándar de 6, mientras que 15 estudiantes en otro grupo

obtuvieron una calificación media de 74 con una desviación estándar de 8. Para 05.0 . Se

podrá afirmar que el primer grupo es superior en calificaciones al segundo.

1. Planteamiento de Hipótesis

Hipótesis Nula Ho: El grupo uno es menor o igual al grupo dos.

Hipótesis Alterna H1: El grupo es mayor al grupo dos.

Ho: 21

H1: 21

2. Nivel de significación

05.0

3. Especificación del estadístico

21

21

11

nn

XXt

221

2

22

2

11

nn

SnSn

4.- Especificación de las regiones de aceptación y rechazo

= 0.05 → 71.125

95.0 t según tabla

Page 63: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

61

Se rechaza Ho sí

t > 1.71

5. Recolección de datos y cálculo de los estadísticos

5.7

25

64*1536*12

21512

81561222

1.2

39.0*5.7

6

15

1

12

15,7

7480

t

t

t

Decisión

Como el valor de t es 2.1 y el nivel de significación de 0.05, el valor está fuera de la región de

aceptación, por lo tanto se rechaza la hipótesis nula, es decir hay razones para afirmar que con

95% de confianza el primer grupo es superior al segundo.

Métodos no Paramétricos.- Las pruebas que no hacen supuestos ni consideración acerca de la

Naturaleza de la Población y los parámetros de la misma, así como de la Independencia de una o

varias muestras extraídas de ella, son llamadas Pruebas No Paramétricas.

Recientes estudios de estadísticas se han dirigido a intentar hallar estadísticos de Contraste, que

comparen distribuciones sin especificar la forma de las mismas.

Puesto que la comparación se realiza entre distribuciones y no entre parámetros, los métodos se

llaman Estadísticos No Paramétricos. Probablemente las técnicas No Paramétricas más utilizadas

son.

La Prueba 2 (Ji – Cuadrado) en una muestra para la Bondad de Ajuste de una Distribución

Teórica de Frecuencias.

La Prueba 2 (Ji – Cuadrado) para la independencia de varias muestras provenientes de una

Población.

Page 64: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

62

Frecuentemente al emprender una investigación nos interesamos en el número de sujetos,

objetos o respuestas que se clasifican en diferentes categorías:

Ejemplos: masculinos o femeninos: Verdadero o Falso; Opiniones a favor, indiferentes, en contra

Las Pruebas 2 (Ji – Cuadrado) son adecuadas para analizar datos como estos. El número de

categorías pueden ser dos o más y la técnica que se sigue del tipo de Bondad de Ajuste, que puede

usarse para probar la existencia de una diferencia significativa entre el número observado de

objetos o respuestas de cada categoría y un número Esperado, basado en la Hipótesis de Nulidad.

Con el fin de comparar un grupo de frecuencias observadas con uno esperado, debemos por

supuesto, ser capaces de indicar que frecuencias son esperadas.

Supongamos que en una muestra particular se pueda clasificar en un conjunto de casos Posibles

C1, C2, …, Ck que se observan con frecuencia O1, …, Ok y que de acuerdo con las Reglas de

Probabilidades las frecuencias que se esperan debían ser E1,…, Ek

Categorías C1 C2 … Ck

Frecuencia Observada

O1 O2 … Ok

Frecuencia Esperada

E1 E2 … Ek

Una medida de la discrepancia existente entre las frecuencias observadas y esperadas, puede

obtenerse a través de:

k

j j

jj

E

EO

1

2

2

Estadístico Ji – Cuadrado

Si la frecuencia total viene dada por n (tamaño de la muestra)

N

E

Ok

j j

j

1

2

2

Sí 02 las frecuencias Observadas y Esperadas coinciden exactamente

Sí 02 no coinciden exactamente. Cuanto mayor sea2 , mayor será la discrepancia entre

las frecuencias Observadas y las Esperadas.

La Hipótesis de Nulidad establecerá proporciones de objetos que caen en cada una de las

categorías de la población presumida.

Page 65: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

63

Puede Demostrarse que, bajo Ho, 2

1

2

, para Ej ≥ 5

Prefijado un α (nivel de significación), sí

2

1

2

Rechazamos la hipótesis

2

1

2

No Rechazamos la hipótesis Ho y diremos que el ajuste es Bueno para el nivel α.

Si además. 22

No rechazamos Ho y diremos que el Ajuste es “muy bueno” para el nivel α.

Ejemplo

Los Ítems de un test de Actitudes hallan respuesta subrayando una de los siguientes frases:

Pleno Acuerdo, Acuerdo, Indiferente, Desacuerdo, Pleno Desacuerdo. La distribución de

respuestas se ilustra en la tabla. ¿Divergen estas respuestas significativamente de la distribución a

esperarse al 1%, cuando no hay preferencias en el grupo?

Pleno

Acuerdo Acuerdo Indiferente Desacuerdo

Pleno

Desacuerdo Total

Frec.

Observadas

Oj

23 18 24 17 18 100

Frec.

Esperadas

Ej

20 20 20 20 20 100

Oi – Ej 3 – 2 4 – 3 – 2

( Oi – Ej )2 9 4 16 9 4

j

j

E

E2

iO

0.45 0.20 0.80 0.45 0.20

1. Planteamiento de Hipótesis

Ho: f1 = f2 = … = f5

2. Nivel de significación

Para α = 0.01; Por la tabla obtendremos 3.134

99.0

2 , por lo tanto realizamos el

contraste para 3.132

3. Especificación del Estadístico

Page 66: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

64

2

1

2

i5

2O

k

j

j

ii E

E

4. Cálculo de la Ji – Cuadrada

Calculamos 2 = 0.45 + 0.20 + 0.80 + 0.20

10.22

5. Decisión

Como 2.10 < 13.3, No rechazamos Ho luego hay una convergencia de Respuestas a las Esperadas

un 99% de confiabilidad.

Prueba Ji – Cuadrado para muestras Independientes

La prueba Ji – Cuadrado puede también utilizarse a la hora de Probar si dos muestras Provenientes

de una misma población, son independientes o no. La Hipótesis que usualmente se pone a Prueba,

supone que los dos grupos difieren con respecto a alguna característica y por lo tanto, con

respecto a la frecuencia relativa con que los miembros del grupo son encontrados en diferentes

categorías.

Ejemplo

Probar si dos sexos opuestos difieren en la frecuencia con que escogen determinadas actividades

recreativas.

En este caso queremos probar que no existen diferencias significativas entre los sexos y las

actividades recreativas seleccionadas por los integrantes del grupo. En otras palabras la hipótesis

nula se puede expresar como:

Ho: Las variables Sexo y Actividades recreativas son independientes.

Si en el primer caso se podía formar con las frecuencias observadas, una tabla de 1 fila con k

columnas, en este caso se podrá formar una tabla de 2 filas y k columnas con las frecuencias

observadas.

Si extraemos r muestras de una Población y queremos determinar su Independencia, se formará

con las frecuencias observadas una tabla de r filas y k columnas, estas tablas son llamadas, Tablas

de Contingencia.

C1 … CK

M1 O11 ... O1K

Page 67: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

65

.

.

.

Mr Or1 … ORk

La hipótesis de nulidad puede probarse por medio de:

r

i

k

j ji

jiji

E

EO

1 1

2

2

Oi j: frecuencias observadas correspondientes a la Muestra i y la Categoría J.

Ei j : Frecuencias esperadas Muestra i, Categoría j.

Bajo Ho: 2

11

2

krse rechaza la hipótesis Ho.

Ejemplo

La tabla siguiente, muestra los estudiantes aprobados y suspendidos por tres profesores x, y, z.

pruebe la Hipótesis que las proporciones de estudiantes suspendidos por los 3 profesores, son

iguales para α = 0,05

FRECUENCIAS OBSERVADAS

Categoría X Y Z Total

Aprobados 50 47 56 153

Suspendidos 5 14 8 27

Total 55 61 64 180

Ho : Proporciones de suspensos, es la misma: 15

180

27p

O sea,

Ho: px = py = pz = 15%. La proporción de suspensos es independiente de los profesores

Si 15% suspenden, 85% aprueban

Page 68: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

66

FRECUENCIAS ESPERADAS

Categoría X Y Z Total

Aprobados 46.75 51.85 54.40 153

Suspendidos 8.25 9.15 9.60 27

Total 55 61 64 180

Cálculo De Ji Cuadrada

84.4

60.9

60.98

15.9

15.914

25.8

25.85

40.54

40.5456

85.51

85.5147

75.46

75.4650

2

222222

2

Grados de libertad: g. l. = (2 – 1) (3 – 1) = 1 * 2 = 2

Valor de tabla: 99.52

95.0

2

Como 4.84 no es mayor que 5.99 concluimos que: No rechazamos Ho esto es, puede afirmarse con

el 95% de confianza que las proporciones de estudiantes suspendidos, son iguales.

Resumen acerca del uso de la Prueba Ji Cuadrada

Caso: Una Muestra

Se clasifican las frecuencias observadas por categorías. La suma es igual a n (números de

observaciones independientes)

A partir de Ho se determinan la Ej, estas deben ser mayores o iguales que 5, en caso de no serlo, se

deben agrupar las Categorías para lograrlo.

Se calcula el valor de 2 determinando los grados de libertad.

Se rechaza la Hipótesis Ho, sí 2

1

2

Caso: Independencia de dos muestras extraídas de una Población

Se construye, con las frecuencias observadas, la tabla de Contingencia.

A partir de Ho se determinan las frecuencias esperadas para cada una de las celdillas de la Tabla,

para obtener los totales por categorías y por muestras

Se calcula 2 y se determinan los grados de libertad (r – 1) (k – 1).

Page 69: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

67

Se rechaza la hipótesis si 2

1

2

Ejemplo 1

Durante un largo periodo de tiempo, las notas medias dadas por un grupo de profesores en la

asignatura de matemática fueron: (escala de 2 a 5)

5 12% Un nuevo profesor evalúa de: 5 22 estudiantes

4 18% 4 34 estudiantes

3 40% 3 66 estudiantes

2 30% 2 28 estudiantes

150 estudiantes

Determine a un nivel del 5% sí el nuevo profesor está siguiendo el patrón de calificación

establecido por otros profesores.

Ho: Oi = Ej para j = 1, 2, 3, 4

Categorías 5 4 3 2

Frecuencias Observadas Nuevo profesor

Oi 22 34 66 28

Frecuencias Esperadas

Ej 18 27 60 45

Oi – Ej 4 7 6 – 17

( Oi – Ej )2 16 49 36 289

j

ji

E

EO2

0.88

1.81

0.60

6.42

Observación, la fila de frecuencia Esperada se calcula mediante el cálculo de los % esperados

contra el total de estudiantes (150 en este caso)

El estadígrafo a utilizar es:

k

j j

jj

E

EO

1

2

2

Cálculo de Ji – Cuadrada

Page 70: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

68

71.9

42.660.081.188.0

2

2

4

1

2

2

j j

jj

E

EO

En la tabla buscamos 81.73

95.0 y como 9.71 > 7.81, se rechaza la hipótesis Ho

Esto indica que el nuevo Profesor, no está siguiendo los patrones establecidos. Se observan

resultados mejores en el nuevo Profesor. Puede ocurrir que sea debido a mejores métodos de

enseñanza o estudiantes mejor preparados en cursos anteriores. Esto da lugar, sin dudas, a nuevas

valoraciones y estudios.

Ejemplo 2

La tabla muestra la relación entre los estudiantes de Informática en Matemática y Física. Pruebe la

Hipótesis de que el comportamiento en Física es independiente de los resultados en Matemática,

utilizando α = 0,01

FRECUENCIAS OBSERVADAS

MATEMÁTICA

F

I

S

I

C

A

ALTAS MEDIAS BAJOS TOTAL FÍSICA

ALTAS 56 71 12 139

MEDIAS 47 163 38 248

BAJAS

14 42 85 141

TOTAL MATEMÁTICA 117 276 135 528

HO:

PAF = PAM = PMM = PBM

PMF = PAM = PMM = PBM

PBF = PAM = PMM = PBM

Las proporciones A, M y B en Física. Son independientes de las Proporciones A, M y B en

Matemática.

Page 71: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

69

FRECUENCIAS ESPERADAS

MATEMÁTICA

F

I

S

I

C

A

ALTAS MEDIAS BAJOS TOTAL FÍSICA

ALTAS 30.8 72.7 35.5 139

MEDIAS 55 129.6 63.4 248

BAJAS

31.2 73.7 36.1 141

TOTAL MATEMÁTICA 117 276 135 528

Cálculo de 2

Frecuencia

Observada

Frecuencia

Esperada O – E ( O – E )2 ( O – E )2 / E

56 30.8 25.2 635.04 20.6

71 72.7 – 1.7 2.89 0.04

12 35.5 – 23.5 552.25 15.6

47 55 – 8 64 1.16

163 129.6 33.4 1115.56 8.6

38 63.4 – 25.4 645.16 10.2

14 31.2 – 17.2 295.84 9.5

42 73.7 – 31.7 1004.89 13.6

85 36.1 48.9 2391.21 66.2

TOTAL 2 145.5

Grados de libertad

g. l. = ( r – 1 ) ( k – 1 ) = 2 * 2 = 4

Valor de la tabla: 3,134

99,0

145,5 > 13,3, rechazamos la Ho tenemos la confianza de un 99% de afirmar que los resultados

obtenidos en Física, dependen de los obtenidos en Matemática.

EJERCICIOS

La Tabla indica el número de estudiantes de los grupos G1 y G2 que aprobaron y que suspendieron

en un mismo examen. Utilizando un nivel de significación α = 0.05. Probar la hipótesis que no hay

diferencia entre los dos grupos.

Page 72: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

70

Grupos Aprobaron Suspendieron

G1 72 17

G2 64 23

El número de libros prestados por la Biblioteca de la Universidad Central del Ecuador, durante una

semana particular, viene dado en la Tabla. Pruebe la hipótesis de que el número de libros

prestados no depende del día de la semana, para α = 0.01

Número

de libros Lunes Martes Miércoles Jueves Viernes Total

Oi 135 108 120 114 146 623

Ej 124.6 124.6 124.6 124.6 124.6 623

PROBLEMAS

1. La experiencia de algunos cursos, ha permitido obtener que la media del ingreso en una carrera

universitaria es de 80 en el presente curso, de 144 presentados el promedio fue de 90 con una

desviación estándar de 25. ¿Podremos afirmar con un 95% de confianza que los estudiantes

presentados estaban mejor preparados?

2. Se aplica una prueba de rendimiento a dos grupos de estudiantes, el primero formado por 58

estudiantes, tienen un rendimiento medio de 56 puntos y una desviación típica de 12; el otro

grupo de 49 estudiantes tienen un rendimiento medio 65 puntos y una varianza de 25 ensayar la

hipótesis de que el segundo grupo tienen un mejor rendimiento al α = 0.05

3. Un investigador educativo desea conocer, si el método puesto en marcha está produciendo

cambios de comportamiento, para lo cual toma una muestra de 52 estudiantes, en el cual

determinan mediante un test de aptitud que la media es de 14.85 y la desviación estándar de 4.23.

Estará generando cambios el método si la media deseada es de 15.5

4. En un estudio comparativo del tiempo medio de escolaridad para una muestra aleatoria de 50

hombres y 50 mujeres en una industria, se obtuvieron los siguientes valores estadísticos de

muestra. Hombres media 3.2 años y desviación típica 0.8 años. Mujeres media 3.7 años y

desviación típica de 0.9 años. ¿Puede concluir al nivel de 0.01 los hombres pasan un tiempo menor

en la escuela que las mujeres?

VALORES DE T A NIVELES DE CONFIANZA DE 0,05 Y 0,01

g. l. 0,05 0,01

1 12.706 63.657

2 4.303 9.925

3 3.182 5.841

Page 73: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

71

4 2.776 4.604

5 2.571 4.032

6 2.447 3.707

7 2.365 3.499

8 2.306. 3.355

9 2.262 3.250

10 2.228 3.169

11 2.201 3.106

12 2.179 3.055

13 2.160 3.012

14 2.145 2.977

15 2.131 2.947

16 2.120 2.921

17 2.110 2.898

18 2.101 2.878

19 2.093 2.861

20 2.086 2.845

21 2.080 2.831

22 2.074 2.819

23 2.069 2.807

24 2.064 2.797

25 2.060 2.787

26 2.056 2.779

27 2.052 2.771

28 2.048 2.763

29 2.045 2.756

30 2.042 2.750

VALORES DE JÍ CUADRADO

g. l. 0.05 0.01

1 3.841 6.635

2 5.991 9.210

3 7.815 11.345

4 9.488 13.277

5 11.070 15.086

6 12.592 16.812

7 14.067 18.475

8 15.507 20.090

Page 74: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

72

9 16.919 21.666

10 18.307 23.209

11 19.675 24.725

12 21.026 26.217

13 22.362 27.688

14 23.685 29.141

15 24.996 30.578

16 26.296 32.000

17 27.587 33.409

18 28.869 34.805

19 30.144 36.191

20 31.410 37.566

21 32.671 38.932

22 33.924 40.289

23 35.172 41.638

24 36.415 42.980

25 37.652 44.314

26 38.885 45.642

27 40.113 46.963

28 41.337 48.278

29 42.557 49.588

30 43.773 50.892

INTRODUCCIÓN AL DISEÑO DE EXPERIMENTOS

Existen múltiples diseños experimentales en la teoría estadística, acá, se abordarán algunos de

ellos, todos basados en el análisis de varianza (ANOVA), se seleccionaron aquellos que

permiten introducir el tema de manera fácil y que son de uso frecuente en diversas áreas del

conocimiento, especialmente en el área social y de alimentos, sin dejar de reconocer que este es

un tema de mucha aplicación industrial, siendo un paso más en el control estadístico de procesos.

Uno de los objetivos del diseño de experimentos, es identificar aquellos factores que pueden

incidir de una u otra manera en el resultado de otra variable, llamada, variable respuesta o

dependiente.

Debido a que el diseño de experimentos tiene su propio lenguaje, es importante, definir algunos

conceptos básicos.

CONCEPTOS BÁSICOS EN EL DISEÑO EXPERIMENTAL

Se empieza por desagregar el nombre del tema a estudiar.

Page 75: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

73

DISEÑO

Descripción de algo, bien sea con palabras o por medio de figuras. Para el caso, apunta a definir

adecuadamente como se va a realizar la prueba o ensayo, cuál es el número adecuado de

unidades experimentales, la forma de asignar los tratamientos a esas unidades. Definir si se

requieren agrupaciones de categorías, cada cuanto hay que seleccionar las unidades de análisis y

otros detalles más, dependiendo del tipo de diseño y de los objetivos del estudio.

EXPERIMENTO

Definición del problema, el cual debe tener en cuenta la definición y selección de las unidades

experimentales, de los tratamientos y de la variable respuesta.

UNIDAD EXPERIMENTAL

Objeto sobre el que se realiza una medición u observación. Definir claramente sus

características.

FACTOR

Variable independiente que se evalúa en la investigación. Puede ser cuantitativo, con pocas

categorías o cualitativo, son controlados por el investigador.

NIVEL

Atributos o estados en que se descompone un factor. Cuando se tiene un sólo factor, los

niveles son iguales a los tratamientos. Se presentan niveles fijos o aleatorios. Si se quiere

determinar que un método de aprendizaje es mejor que otro, por ejemplo, presencial, semi

presencial y semi virtual, el factor es el método de aprendizaje y tiene 3 niveles que son sus

categorías.

Si se desea determinar cuál medicamento es más eficiente para disminuir el dolor de cabeza de un

total de 50 analgésicos, y se seleccionan al azar 5 de ellos, se dice que el diseño es de efectos

aleatorios, por el contrario, si sólo nos interesa abordar el problema con 4 de ellos y se toman los

datos para ellos, se dice que es de efectos fijos.

TRATAMIENTO

Nivel de un factor o una combinación de ellos. Para los casos mencionados antes, el nivel del

factor corresponde a un tratamiento, pero si además, se desea identificar los cambios según

grupos de edad, un tratamiento para el caso de los métodos de aprendizaje, sería: presencial y

10 a 15 años, otro sería, presencial y 16 a 20 años. La siguiente tabla ilustra el caso.

Page 76: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

74

Un tratamiento es cada combinación o cruce de categorías, este modelo se conoce como

experimento de dos factores. La idea es generalizable, es decir, se diseñan experimentos de 3

o más factores y toman el nombre de experimentos factoriales. En este texto, se trabajará con

experimentos de hasta dos factores. Cuando se tiene un solo factor, se dice que es un modelo de

ANOVA de una vía, si por el contrario son dos, se dice que es de dos vías y así sucesivamente.

TRATAMIENTO CONTROL

Es necesario cuando la efectividad general de los tratamientos es desconocida pero no es

consistente bajo todas las condiciones.

VARIABLE RESPUESTA O DEPENDIENTE

Característica cuantitativa observada o medida en cada unidad experimental. Se debe definir

cómo se va a medir. Para el caso que se trae, se tiene que haber definido como se mide de

manera cuantitativa los cambios en el aprendizaje según las diversas modalidades y grupos de

edad.

BLOQUE

Grupo de unidades experimentales homogéneas, origina un diseño específico de experimentos.

ANÁLISIS DE VARIANZA PARAMÉTRICO DE UNA VÍA.

El análisis de la varianza (ANOVA) es una técnica estadística de contraste de hipótesis con respecto

a más de dos promedios, por lo tanto, es la técnica que nos introduce a técnicas multivariantes. El

ANOVA de una vía relaciona una variable independiente generalmente nominal y otra

dependiente o respuesta de carácter cuantitativa. El diseño más sencillo es el que utiliza una

sola variable independiente y toma el nombre de: Diseño de una vía o de un solo factor. El tratado

en este texto, se conoce como efecto fijo, es decir, es de interés solamente inferir sobre los

tratamientos seleccionados.

El ANOVA

Tiene múltiples aplicaciones, todas ellas, en busca de identificar diferencias dentro de las

categorías de la variable independiente. Entre otras se pueden mencionar:

Page 77: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

75

Comparación de métodos de aprendizaje Comparación de métodos de cualquier tipo Volumen de

ventas por estrato.

Facturación por EPS.

Eficiencia de tratamientos de cualquier índole. Preferencia de candidatos por municipios.

Producción según métodos.

Como las demás pruebas paramétricas, requiere cumplir algunos supuestos, ellos son:

1. Aleatoriedad de los datos para cada tratamiento. Se valida con la prueba de rachas

(Wald-Wolfowitz).

2. Normalidad de los datos de cada uno de los tratamientos. La normalidad con

Smirnov- Kolmogorov -Lilliefor y el gráfico de probabilidad normal.

3. Homogeneidad de las varianzas entre los tratamiento. La homogeneidad con la prueba

de Levene, aunque en los textos generalmente se mencionan: Bartlett, Hartley y

Cochran.

FASES EN EL ANÁLISIS DE VARIANZA.

Identificar la variable dependiente o respuesta y las variables independientes.

Seleccionar el número de factores y niveles. Selección del diseño de experimentos.

Realización del experimento.

Análisis de datos.

Conclusiones y recomendaciones.

La diapositiva siguiente muestra como la técnica consiste en desagregar la variabilidad total

en partes, una debido a la variabilidad dentro de los tratamientos y otra entre ellos. La parte

operativa se basa en construir la tabla de ANOVA.

Page 78: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

76

Es importante recalcar que el ANOVA compara medias, no varianzas, para ello requiere de

algunos cálculos un poco tediosos y con fórmulas poco amigables, no obstante, con los ejemplos

se verá que no se requiere de ningún conocimiento especial en el área matemática. Además, en la

práctica, se utiliza software estadístico y/o otros programas que simplifican los cálculos.

Un hecho a resaltar, es qué hacer cuando no se cumplen los supuestos: Si falla la

normalidad, el estadístico F es robusto, lo que implica que no es tan problemático la falla de éste

supuesto, no obstante, si la no normalidad se da en la mayoría de tratamientos, se puede preferir

la prueba Kruskal Wallis de la estadística no paramétrica o ensayar con algunas

transformaciones, para lo cual se espera contar con software adecuado para el caso.

Si el problema es de aleatoriedad en los datos, se puede afirmar el adagio popular, “Apague y

vámonos”, es decir, hay que volver a tomar las mediciones, si es que se puede.

El problema de homogeneidad de varianzas, llamado heterocedásticidad, usualmente se

arregla con transformaciones, en caso contrario de nuevo se puede preferir la no paramétrica.

De manera sintética se presenta la siguiente figura, donde se esquematiza los tres grandes

pasos para llevar a cabo un procedimiento de ANOVA, teniendo en cuenta que primero se debe

explorar los datos y obviamente validar los supuestos.

Como se observa, se sigue con el mismo derrotero desarrollado en los problemas de pruebas de

hipótesis. Además, la parte de exploración de datos se sugiere para cualquier procedimiento

estadístico.

Page 79: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

77

Una manera general de validar los diferentes supuestos es el gráfico de caja y sesgos, ya

que permite observar de manera intuitiva, eso sí, la forma de los datos (normalidad) y la

variabilidad (varianzas iguales). Además, ayuda a visualizar si los tratamientos son iguales.

El gráfico de caja y sesgo, sugiere que el tratamiento C difiere de los otros dos, además, que el

tratamiento B tiene una variabilidad muy baja, como ya se mencionó esto es intuitivo, por ello,

usando el programa estadístico SPSS se ejecuta la prueba de rachas para la aleatoriedad, la de

Shapiro Wills de normalidad y la de Levene para homogeneidad de varianzas.

La tabla de Análisis de varianza tiene la siguiente presentación:

Page 80: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

78

Con el siguiente ejemplo se desarrolla el procedimiento, asumiendo que se cumplen los supuestos.

Ejemplo

Se supone que el tratamiento (después del moldeo) de un plástico que se usa para lentes ópticos,

mejora su visibilidad.

Deben probarse cuatro tratamientos. Para determinar si existe una diferencia en la visibilidad

media entre los tratamientos, se moldearon 28 piezas a partir de una sola formulación y se

asignaron aleatoriamente siete piezas a cada tratamiento. Se determinó la visibilidad midiendo el

aumento en “Empañamiento” después de 200 ciclos de abrasión(los aumentos menores

indican mayor visibilidad).

Solución manual.

Page 81: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

79

Page 82: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

80

Solución Excel.

Luego de activar la opción Datos +Análisis de datos +Análisis de varianza de un factor, se define el

rango de entrada de los datos y el de salida, tal como se muestra a continuación.

Para obtener los siguientes resultados.

Page 83: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

81

Los resultados obtenidos, son iguales a los presentados realizando los cálculos de manera manual.

Por lo tanto, las conclusiones e interpretaciones ya descritas son válidas.

Es claro, que se tienen elementos para aplicar la técnica de Análisis de Varianza de un Factor

utilizando el Excel, sin embargo, es importante tener claridad sobre la importancia de la validez

de los supuestos, ya que, en caso de que no se cumpla alguno de ellos, se debe procurar su

remedio y/o trabajar con la estadística no paramétrica.

Solución SPSS.

Dada la gama de opciones del programa estadístico SPSS en los diversos análisis de varianza, se

describe el procedimiento para un factor o una vía.

Luego de abrir el programa, y como es usual en el uso del mismo, se activa la opción Analizar +

Estadísticos descriptivos + Explorar. Tal como se muestra en la siguiente figura.

Page 84: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

82

Se destaca que la manera de entrar los datos es diferente al programa Excel, se nota que

sólo se requiere de dos columnas, una para la variable cuantitativa o variable respuesta y otra que

también se debe definir como numérica, sin serlo, para los diferentes tratamientos, por eso

se requiere entrar códigos de números para luego colocarles etiquetas.

Posteriormente, se procede a entrar las variables como se presenta en los cuadros de dialogo del

programa.

La variable dependiente es la cuantitativa y el factor es la independiente, luego de entrar por

Opciones, se solicita el gráfico de normalidad, que entrega las pruebas de Kolmogorov-Smirnov y

Shapiro-Wilk y la estimación de potencia, la cual arroja la prueba de homogeneidad de la varianza.

Page 85: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

83

Dado los tamaños de muestra pequeños, se observan los valores Sig de la prueba de Shapiro Wilk,

donde sólo el tratamiento A da un valor menor de 0.05, lo que indicaría que sus datos no se

distribuyen normal, no obstante, a la mayoría de tratamientos ser normales, se puede proseguir

con el ANOVA paramétrico. Con respecto a la homogeneidad de varianzas, la prueba confirma que

los tratamientos tienen varianzas similares, por lo tanto, se cumple son estos supuestos. Para

validar la aleatoriedad de los datos, supuesto vital para la validez del procedimiento, se requiere

primero segmentar el archivo, opción ubicada activando en el menú principal: Datos + Segmentar

archivos.

Page 86: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

84

A continuación, se entra por la ruta Analizar + pruebas no paramétricas + Rachas, contrastando la

variable Empañamiento como se muestra en la figura anterior, parte derecha. Los resultados

obtenidos y ajustados para el texto son:

Si se aprecian los valores de Sig.asintòt. (bilateral), todos ellos, son mayores de 0.05, con lo cual se

concluye que los datos para todos y cada uno de los tratamientos se comportan de manera

aleatoria.

Ahora sí, se puede llevar a cabo el cálculo del ANOVA paramétrico.

No olvide desactivar la segmentación del archivo, sino lo hace, el procedimiento no se ejecuta.

Analizar + Comparar medias + ANOVA de un factor.

Page 87: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

85

Colocando las variables como se muestra en la salida anterior, se obtiene la siguiente tabla de

ANOVA, con resultados iguales a los ya descritos usando el Excel.

Como el Sig. Mucho menor de 0.05, se concluye que existe diferencia en los promedios en al

menos uno de los tratamientos.

Para definir cuál o cuáles son los que difieren, se procede a activar la opción Post hoc, lo que

permite realizar diversas comparaciones, según diferentes autores, como se presenta a

continuación.

Page 88: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

86

Utilizando el de Tukey cuya salida es similar a los otros procedimientos, se obtiene entre otra

información la siguiente:

Se destaca que el tratamiento B, tal como se había percibido en el análisis exploratorio es el que

difiere de los demás, incluso detectando que tiene un promedio mayor, en los tratamientos A, C y

D, no hay diferencia en los promedios.

Si se construye el gráfico denominado de barras de errores. Se confirma lo ya expuesto.

Page 89: Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS ...estadisticaterceroimam.weebly.com/uploads/8/4/8/5/84853758/... · correlación de Pearson, la Regresión lineal, Aplicándolo

Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES

87