Download - SPSS LIBROdeESTADISTICA
ESTADÍSTICA
APLICADA A LA
INVESTIGACIÓN
CIENTÍFICA CON SPSS Este libro constituye un material de fácil comprensión de la estadística en la investigación científica orientada al campo educativo.
Gasto promedio mensual (s/.)
700,0
600,0
500,0
400,0
300,0
200,0
100,0
10
8
6
4
2
0
Std. Dev = 132,31
Mean = 428,7
N = 20,00
2009
UNIVERSIDAD NACIONAL DE HUANCAVELICA
CERAPIO QUINTANILLA CÓNDOR
ADOLFO CORTAVARRIA LINARES
ii
iii
ESTADÍSTICA APLICADA A LA
INVESTIGACIÓN CIENTÍFICA CON SPSS
iv
ESTADÍSTICA APLICADA A LA
INVESTIGACIÓN CIENTÍFICA
Diseño y producción Cerapio Quintanilla C.
Portada Kenny Quintanilla R.
D.R. © 2009 Colección Shara.
Ninguna parte de este material electrónico puede ser comercializada, tampoco
reproducida sin el permiso escrito a los autores. El uso de este material es exclusivo
para fines académicos y científicos que deberá ser citado
ISBN Versión electrónica.
Elaborado en Perú
Escuela de Post Grado
Universidad Nacional de Huancavelica.
Colección Shara
v
INDICE
NOTA PRELIMINAR vii
CAPITULO I 1. CONCEPTOS BÁSICOS DE LA ESTADÍSTICA 1 Breve reseñan histórica de la Estadística. 1 Objetivos de la Estadística. 2 Población 2 Variables 3 Muestra 5 Clasificación de la información. 7 Presentación de información 14 Diagrama de hojas y tallos 27 Diagrama de cajas. 28 Ejercicios. 29
CAPITULO II 2. MEDIDAS DE TENDENCIA CENTRAL Y DE
POSICIÓN 35
Medidas de posición. 35 Media Aritmética. 35 Mediana. 37 Moda. 39 Medidas de Dispersión 43 Varianza. 43 Desviación estándar 46 Coeficiente de variación. 46 Ejercicios. 48
CAPITULO III
3. DOCIMASIA DE HIPÓTESIS. 51 Hipótesis Estadística. 51 Hipótesis Nula y Hipótesis Alterna. 52 Prueba de una hipótesis estadística. 53 Pruebas de Hipótesis Paramétricas. 54 Pruebas de Hipótesis con la Distribución Z 54 Pruebas de hipótesis t- student. 58 Prueba de Hipótesis para la diferencia de proporciones. 63 Ejercicios. 65 Coeficiente de Correlación y Regresión Lineal. 67
vi
Diagramas de Dispersión. 67 Regresión Lineal. 68 Correlación. 70 Ejercicios. 80 Pruebas de Hipótesis No Paramétrica 82 Pruebas de Hipótesis con Chi – Cuadrada. 82 Prueba de Hipótesis de Wilcoxon. 89 Prueba de Hipótesis con U de Mann Whitney. 96 Prueba de Hipótesis de Kruskal Wallis. 103 Prueba de Hipótesis de Friedman 108 Ejercicios. 114 CASOS DE ANALISIS ESTADÍSTICO 118 BIBLIOGRAFIA. 119 TABLAS. 120
vii
NOTA PRELIMINAR
Este material fue inspirado por los alumnos de Matemática quienes en buscar lo
accesible para su comprensión de la Estadística propusieron su elaboración. Porque hoy
en día, la estadística es imprescindible en toda las ciencias de la naturaleza (física,
química, biología, ingeniería y otras área afines) como en las ciencias humanas
(economía, psicología, sociología, educación, etc.) y cobra un papel de importancia cada
vez mayor. En el campo educativo no es ajeno a este fenómeno, más que nada en las
investigaciones cuantitativas, así como en la toma de decisiones de los resultados que se
obtienen en el quehacer educativo.
Por otra parte, en nuestro medio existen publicaciones referentes al desarrollo de la
estadística descriptiva e inferencial, utilizando métodos tradicionales hasta el uso de la
tecnología (el uso de sofisticados software estadístico). Sin embargo, éstas no presentan
una aplicación con ejemplos didácticos y el uso del software. Es por ello, los autores
comprometidos con el quehacer educativo y la investigación educativa ponemos a los
interesados el material sin perder la rigurosidad haciendo uso del software estadístico
Statistical Package for the Social Science (SPSS), presentando ejemplos aplicativos al
campo educativo y a la investigación educacional, desarrollados manualmente y
contrastándose los resultados con el uso del software SPSS de manera didáctico y
guiados paso a paso para su mejor comprensión.
Para el adecuado proceso de aprendizaje del lector el libro ha sido dividido en tres
capítulos, en cada capítulo el uso del SPSS se presenta para contrastar cada ejemplo
propuesto, y su uso está guiado mediante la presentación de las ventanas respectivas. En
el capítulo I, se presenta los conceptos fundamentales de la estadística descriptiva:
tratamiento de los datos y sus presentaciones mediante tablas de frecuencia y gráficos.
El capítulo II, aborda la parte de medidas de tendencia central (media, mediana y moda)
y medidas de dispersión (varianza, desviación típica y coeficiente de variación). Y
finalmente en el capítulo II, se desarrolla lo concerniente a la estadística inferencial,
exclusivamente las pruebas de hipótesis. Sin embargo, la necesidad en el campo
educativo ha permitido que presentemos los dos tipos de pruebas estadísticas: pruebas
de hipótesis paramétricas y pruebas de hipótesis no paramétricas.
Se ha dado mucho énfasis en las pruebas de hipótesis no paramétricas, porque éstas
permiten al investigador desarrollar libremente sin importar los parámetros de la
población, ya que muchos trabajos de investigación no se ajustan a los requisitos para el
uso de las pruebas de hipótesis paramétricas.
viii
Es nuestro deseo que el esfuerzo invertido en la preparación de este libro, para que los
investigadores en el campo de la educación tengan un beneficio personal y contribuyan
en aras de la educación. Todas las sugerencias de los investigadores, estudiantes y
lectores que nos ayuden a mejorar el contenido serán bienvenidas.
Finalmente, nos resta expresar nuestra gratitud a todos quienes pusieron un grano de
arena en la cristalización del libro, en especial a la Dra. Olga Pacovilca Alejo por sus
sugerencias e interés en la publicación, a Jesús Huarcaya por su apoyo incondicional.
También queremos agradecer a la Universidad Nacional de Huancavelica y la escuela
de Post Grado por permitirnos realizar este trabajo fruto de nuestras experiencias en las
aulas.
Huancavelica, noviembre del 2009
Los autores.
ESTADISTICA
“Lo especial de la Estadística para ser precisos, es su habilidad de cuantificar la incertidumbre. Esto
permite a los estadísticos hacer afirmaciones categóricas con una seguridad total sobre el nivel de
incertidumbre”
Tomado del Libro: LA ESTADÍSTICA EN COMIC.
Larry Gonick. Woollcott Smith.
CAPÍTULO 1
INTRODUCCIÓN AL SPSS
En ésta primera parte es brindar al investigador los conceptos y procedimientos básicos para
la utilización del software SPSS (Statistical Package for Social Science) bajo el entorno
Windows. Se considera que el lector tiene instalado el software SPSS en su computadora
personal, por lo que el usuario deberá seguir los pasos básicos, así como la barra de menús,
las barras de herramientas y el uso de las ventanas (el editor de datos y el visor de los
resultados).
El programa por su especial cualidad, nos ofrece una amena forma de desarrollar la
estadística y su aplicación para la toma de decisiones. Si bien es cierto que las versiones
cada vez es mejor, para un trabajo de investigación en condiciones normales es suficiente
una versión de SPSS 15, por tal motivo el texto está desarrollado con dicha versión (aunque
en le mercado existe la nueva versión PASW).
1.1. Iniciar SPSS
Para iniciar el trabajo con SPSS, debe hacer clic en el botón Inicio, luego hacer clic en
programas y ubicar SPSS para Windows.
2 C. Quintanilla C. / A. Cortavarria L.
Luego parece la presentación del programa y al fondo la ventana de editor de datos.
Si hacemos clic en Cancelar pasaremos directamente a la ventana de editor de datos.
Y si deseamos hacer clic en Aceptar debemos elegir ¿qué deseamos hacer?: ejecutar el
tutorial, introducir datos, ejecutar una consulta creada anteriormente, etc. Una vez
ejecutada esta acción pasará al editor de datos.
1.2. Pasos para la introducción de datos
a) Introducción directa de datos
Antes de ingresar los datos es necesario reconocer las partes básicas de la ventana de
editor.
Una vez recolectado los datos, se inicia introduciendo los datos en las columnas de
variables determinado por Vista de datos. Si deseamos definir variables, debemos
Fila de
casos/individuos
Vista de matriz
de datos Vista de variables
Columna de variables (var0001, var0002, var0003 … )
Estadística Aplicada a la Investigación Científica 3
hacer clic en Vista de variables y especificar: nombre, tipo de variables, anchura,
decimales, etiqueta, y otros atributos, tal como se muestra en la ventana.
b) Extrayendo un archivo de una carpeta
La segunda forma de obtener datos es extrayendo un archivo de una carpeta
determinada (del disco, USB, disquete)
1.3. Barra de Menú
La barra de menú permite acceder a todas la funciones que considera SPSS. Cada
venta posee su propia barra de menús. La se presenta a continuación.
4 C. Quintanilla C. / A. Cortavarria L.
Archivo: Permite abrir, cerrar, guardar e imprimir archivos.
Edición: Permite cortar, copiar, insertar variables y pegar elementos; así como acceder
a otras opciones.
Ver: Muestra la barra de estado, permite personalizar la barra de herramienta.
Transformar: Permite modificar datos, transponer variables, reemplazar valores
perdidos, recodificar en las mismas variables y distintas variables, y otras.
Analizar: Permite realizar distintos tipos de análisis estadístico para la elaboración de
reportes de investigación y análisis de datos.
Gráficos: Crea gráficos de barras, histogramas, gráficos interactivos, permite verificar
cuadros de diálogos antiguos.
Utilidades: Permite definir conjuntos, ejecutar procesos, editar menús, cambiar
tipografías.
Ayuda: permite encontrar temas específicos que ayuda y muestra la información
acerca de los procedimientos y funciones de SPSS.
1.4. Barra de herramientas
La barra de herramientas incorpora varias ventanas y que éstas contienen las funciones
de trabajo.
Para identificar las acciones de cada una de ellas, deberá colocar el puntero en el icono
correspondiente y ésta le indicará que acción realiza.
1.5. Ventanas
En SPSS existen dos ventanas principales que son: Editor de datos y el Visor
1.5.1. Ventana de Editor de Datos
Esta ventana muestra el contenido del fichero de datos. Permite crear nuevos datos o
modificar los archivos existentes. Además está compuesto por dos vistas: Vista de
datos y Vista de variables.
Estadística Aplicada a la Investigación Científica 5
1.5.2. Ventana de Visor
En esta ventana se muestra los resultados estadísticos, tablas de frecuencias y gráficos
que se generan. Para realizar informes de los resultados en Word, simplemente se
selecciona y se hace una copia (copy) y se pega.
A partir de los siguientes capítulos se desarrollará la parte estadística y sus aplicaciones se
realizaran con los ejemplos desarrollados de tal manera que se pueda comprobar con el
programa SPSS.
6 C. Quintanilla C. / A. Cortavarria L.
CAPÍTULO II
CONCEPTOS BÁSICOS DE ESTADÍSTICA
2.1. Breve Reseña Histórica de la Estadística
El origen de la Estadística se remonta a la escritura de número, donde el hombre empezó a
llevar cuentas mediante marcas de la caza que realizaba. En el Antiguo Testamento se
encuentran varias relaciones de censos, la Biblia menciona el censo que Moisés levantó a
instancias de Jehová.
Por otro lado los gobiernos de Babilonia, Egipto y Roma reunían registros detallados de sus
poblaciones, sus ejércitos y de sus recursos con fines de recabar impuestos. En la Edad
Media, los gobiernos empezaron a asentar en documentos la propiedad del suelo; se sabe
que en el año 762 d. de C., el Emperador Carlomagno solicitó descripciones pormenorizadas
de las propiedades con que contaban las iglesias. Guillermo el Conquistador (1086), ordena
la elaboración de un libro Domesday Book, que concierne a la propiedad, extensión y valor
de las tierras de Inglaterra, cuyo documento fue la primera obra estadística de Inglaterra.
Luego por los años 1654 el Caballero de Mèrsé propuso preguntas relacionado al
lanzamiento de dados “En ocho lanzamientos sucesivos de un dado intenta un jugador de
obtener un uno, pero el juego se interrumpe después de tres intentos fallidos. ¿En qué
proporción ha de ser compensado el jugador?”; dando origen a una nueva teoría
denominado “Probabilidad” que en la actualidad viene a ser parte de la Estadística. En 1705
Jacques Bernoullí escribe una teoría clásica de probabilidades, titulado Ars conjectandi
(Arte de la conjetura), cuya obra fue publicado luego de ocho años de la muerte del autor.
En el Imperio Incaico, aún cuando los pobladores no conocían la estadística como tal
estaban familiarizados y llevaron registros de su población, terrenos y otras cuentas
mediante los Quipus; así estuvieron familiarizados con datos e informes sobre aspectos
demográficos y económicos.
Por los años (1719 – 1772) el Alemán Godofredo de Achenwall fue el primer teórico de la
Estadística que le dio el nombre de estadística, basándose en el origen etimológico “Status”.
Sin embargo, según otras fuentes la palabra estadística procede del vocablo "estado" pues la
función principal de que los gobiernos de los estados fue siempre establecer registros de
población, nacimientos, defunciones, inventarios de la riqueza, etc., por lo que las personas
entienden por estadística al conjunto de datos, tablas y gráficos que se suelen publicar en los
Estadística Aplicada a la Investigación Científica 7
periódicos. Pero, en la actualidad, se entiende por estadística el método que sirve para tomar
decisiones, de ahí que se emplee en muchos estudios e investigaciones científicos.
Definiciones.
Definir tal como es la estadística es poco tedioso, porque muchos autores tienen diferentes
apreciaciones con respecto a la estadística por el mismo hecho del avance tecnológico y
científico. María José Marquez de Cantú (1991) dice: “Actualmente la Estadística es una
rama de la matemática aplicada que colecciona, clasifica y evalúa o analiza datos como base
para inferencias o conclusiones válidas, así como para tomar decisiones en base a ese
análisis”1. Así mismo, Woolson R y Clarke W (2002) citan a Broadly : “estadística es el
campo de estudio del método de la obtención de datos, resumen y realizar inferencias de los
datos de grupos de individuos”2
Estas consideraciones, nos permiten decir que la Estadística es una ciencia que recopila
información, evalúa y contribuye en la toma de decisiones ante situaciones de
incertidumbre, justificándolo científicamente.
2.2. OBJETIVOS DE LA ESTADÍSTICA
a) Descripción de grandes colecciones de datos
La descripción se refiere a que los datos que vienen expresados en su forma natural
deben ser clasificados y presentados sistemáticamente en cuadros o tablas como una primera
reducción de datos.
b) Análisis estadístico de datos experimentales y de los fenómenos observados.
Toda investigación estadística incluye un problema de análisis, con el objeto de
formarse un concepto de la población o universo y adoptar decisiones.
c) Predicción o comportamiento de los fenómenos en el futuro.
Este objetivo de predicción y previsión está implícito tanto en la descripción como en el
análisis estadístico, puesto que en general interesa orientar la toma de decisiones con
vigencia y efecto en futuro.
2.3. POBLACIÓN
Es la totalidad de las unidades de observación (personas, objetos o eventos) con una
determinada característica, además que puede ser medible o contable y que pueden ser
cualitativo o cuantitativo, sobre los cuales se desean tomar una decisión.
Si la característica observada es medible o contable, recibe el nombre de variable
estadística continua o discreta. Las poblaciones pueden ser estudiadas en su totalidad si son
pequeñas; pero en la práctica las poblaciones son grandes y en algunos casos infinitos
EJEMPLO:
a) Alumnos matriculados en COU en toda España.
b) Los zancudos portadores del Dengue.
1 María José Marquez de Cantú. PROBABILIDAD Y ESTADISTICA Edit. McGrawHill. México – 1990. 2 R. Woolson; W Clarke. STATISTICAL METHODS FOR THE ANALYSIS OF BIOMEDICAL DATA.
John Wiley and Sons, INC., Publucation. New York – 2002.
8 C. Quintanilla C. / A. Cortavarria L.
c) El número de glóbulos rojos de una persona.
d) El número de hijos de las familias en el Perú
2.4. VARIABLE
Una variable (X) es un símbolo que representa una característica a estudiar en una población.
Llamamos dato (x) al valor numérico (número o no) que la variable toma sobre un individuo
concreto de la muestra.
2.4.1. Según su naturaleza.
a) Variables cualitativas: son atributos susceptibles de ser expresado mediante palabras
(ocupación, profesión, actividad económica, marcas de autos, sexo, estado civil, color, etc.),
sólo se pueden contar y no son medibles. Se puede clasificar en variables cualitativo ordinal,
ésta pero si se puede jerarquizar (profesión, cargos, instrucción, etc.); y variable cualitativo
nominal, que no se puede jerarquizar (sexo, religión, color, etc.).
b) Variables cuantitativas: son aquellas variables que se expresan numéricamente
(ingresos, egresos, consumo de azúcar, edades, estatura, notas de los estudiantes, talla del
calzado, etc.), estas unidades pueden ser medibles. Existen dos tipos de variables: variable
cuantitativo continuo y variable cuantitativo discreto.
b.1. Discreta Son aquellas variables que se expresan en número enteros.
EJEMPLO:
Número de hijos por familia en la ciudad de Huancavelica.
Número de estudiantes matriculados en la UNH.
b.2. Continua Son aquellas variables que son expresados en decimales y que se puede
tomar los valores dentro de un intervalo, es decir se expresan en
números reales.
EJEMPLO:
La medida de la temperatura: 15,8 ºC.
La estatura de algún estudiante de una Facultad: 1,72 m.
La masa de los estudiantes matriculados al curso de Estadística Bayesiana: 58 – 70
kg.
Es posible categorizar las variables cuantitativas en variables cualitativas, por
EJEMPLO si las notas de los estudiantes en matemática tienen notas de 0 a 20, éstas
podrían categorizarse de la siguiente manera:
Tabla Nº 01
00 a 05 06 a 10 11 a 15 16 a 20
D C B A
Pero se debe tener en cuenta, que al realizar esta operación se pierde el verdadero valor de la
información. Por lo que se recomienda utilizar sólo en casos necesarios.
Estadística Aplicada a la Investigación Científica 9
Variables dicotómicas:
son aquellas variables que sólo pueden tomar dos valores, (SI/NO); (0; 1).
Esquema de la posición de las variables.
2.4.2. Variables según su relación.
a) Variables dependientes (VD - efecto).
Son aquellas que se explican por otras variables, son los resultados o efectos respecto
a los cuales existe una causa, motivo o razón.
EJEMPLO
El puntaje obtenido (VD) en el examen de Admisión; este resultado es probable que
guarda relación con el coeficiente de Inteligencia.
b) Variables Independientes (VI - Causa).
Son las variables explicativas o predictivas, que influye sobre la variable
dependiente.
EJEMPLO
El coeficiente de inteligencia influye en el resultado en el puntaje obtenido en el
examen de Admisión.
c) Variables Intervinientes (Causa).
La variable interviniente es aquella que se afecta indirectamente condicionando los
resultados de la variable dependiente, que muchas veces no se puede controlar durante la
investigación.
Ejemplo: El puntaje obtenido (VD) en el examen de Admisión, está en relación al
coeficiente de Inteligencia (VI). La variable interviniente es la alimentación o el
estrés, que influye en el verdadero resultado del examen.
VA
RIA
BL
ES
CUANTITATIVAS
CUALITATIVAS
DIC
OT
OM
ICA
S
Discreta
Continua
Nominal
Ordinal
10 C. Quintanilla C. / A. Cortavarria L.
2.4.3. Variable según su escala de medición.
a) Variables Nominales
Son aquellas variables que establecen categorías nominativas sin explicar orden entre
ellas.
EJEMPLO.
Las variables que se caracterizan sin tener orden: sexo, estado civil, raza, credo, lugar
de nacimiento.
b) Variables Ordinales
Son aquellas variables que se caracterizan por tener orden entre sus categorías.
EJEMPLO.
Las profesiones (porque se puede ordenar de acuerdo al nivel), grado de instrucción,
orden de mérito, clases sociales.
c) Variables de Intervalos.
Son aquellas variables cuya característica son de expresar orden y grados de
distancias iguales entre diversas categorías, funcionan por convención y tienen un
cero relativo.
EJEMPLO.
La temperatura, la hora, las puntuaciones de 0 a 20, tablas con baremos, etc.
Vector observación
El vector observación va ha depender del tipo de variables en estudio (Discreta, continuo,
ordinal, nominal y dicotómico).
EJEMPLO.
El señor Eduardo Saldaña es el vector observación (V1), cuyas variables en estudio son:
masa = 62 kg; estatura = 1,63 m; profesión = Físico (F), estado civil = casado (C), lugar de
procedencia = Trujillo (T).
luego el vector es: 1
62
1 63
,
V F
C
T
2.5. MUESTRA.
En la realidad es imposible calcular el verdadero valor de cualquier parámetro de una
población infinita. En la mayor parte de los casos tampoco resulta práctico calcular el
verdadero valor de cualquier parámetro de una población finita. Por lo que es necesario,
realizar estimaciones a cerca de los parámetros de la población, a partir de una muestra
representativa.
Estadística Aplicada a la Investigación Científica 11
DEFINICIÓN. La muestra es un subconjunto de elementos representativos pertenecientes
a la población, tomado de tal manera que los resultados obtenidos en su
estudio se pueden generalizar a la población de la cual se extrajo. Los
elementos de la muestra deben de ser seleccionado de acuerdo a un plan o
regla.
Al respecto, R. Sierra Bravo dice: “De modo científico, se puede definir las muestras como
una parte de un conjunto o población debidamente elegida, que se somete a una observación
científica en representación del conjunto, con el propósito de obtener resultados válidos,
también para el universo total investigado”.
La importancia del muestreo y la inferencia estadística se derivan del proceso de
consecución de los datos que van a proporcionar la información deseada acerca de una
población.
DEFINICIÓN. Se denomina parámetro a la medida usada para describir las características
de los elementos (X1, X2, X3, . . . XN ) de la población en estudio.
Tabla Nº 02
a. Media poblacional.
b. Varianza poblacional 2
c. Desviación estándar
poblacional.
d. Proporción poblacional p
e. Tamaño poblacional N.
DEFINICIÓN. Se denomina estadísticas a las medidas de resumen que describen una
característica de los elementos de la muestra. A partir de las estadísticas
(estadígrafos) se estima los parámetros de la población.
POBLACIÓN
X1
X2
X3
Xj
ESTADISTICA INFERENCIAL
Toma de decisión.
Unidad Estadística
MUESTRA
Técnicas de muestreo
Diagrama de relación entre población y muestra
12 C. Quintanilla C. / A. Cortavarria L.
Tabla Nº 03
a. Media muestral x
b. Varianza muestral 2s
c. Desviación estándar.
muestral
s
d. Proporción muestral P
e. Tamaño muestral n.
2.6 CLASIFICACIÓN DE LA INFORMACIÓN: Recopilación,
codificación y tabulación.
Para iniciar el trabajo en Estadística Descriptiva necesariamente se requiere de un
planificación, es decir que tipo de variable se va ha investigar, en que espacio se tiene que
trabajar, cual es el objetivo de dicho trabajo, que necesito para realizar el trabajo. Una vez
determinado el tipo de trabajo a realizar se continúa con los siguientes pasos.
2.6.1. RECOPILACIÓN DE DATOS.
La recopilación de datos es la parte principal para realizar un trabajo de investigación:
existen tres (3) métodos para obtener información.
a) Recurrir a fuentes ya publicados
(gubernamentales, industriales, resúmenes,
investigaciones, reportes, etc.).
b) Diseñar un experimento similar para obtener
información.
c) Efectuar una encuesta.
Conclusión y/o interpretación
Estadística Aplicada a la Investigación Científica 13
Tomemos un ejemplo del tercer caso, realizar una encuesta:
EJEMPLO:
Se desea encontrar información básica social de una persona, para tal efecto se usa un
instrumento llamado ficha de encuesta.
FICHA DE ENCUESTA
INSTRUCCIÓN: Complete y marca con una (X) la alternativa correcta de la información
solicitada.
1. EDAD.
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ (en años)
2. SEXO
a) Varón b) Mujer
3. ESTADO CIVIL
a) Soltero b) Casado c) Divorciado d) Viudo
4. GRADO DE INSTRUCCIÓN (concluido)..
a) Universitario b) Secundaria c) Primaria d) Analfabeto
5. SALARIO
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ (mensual en soles)
6. TIPO DE VIVIENDA.
a) Ladrillo b) Adobe c) Tapial d) No tiene
7. RELIGIÓN.
a) Católico b) Pentecostés c) Otros
8. TIPO DE COLEGIO DONDE ESTUDIÓ.
a) Público b) Privado c) Religioso
9. NÚMERO DE HERMANOS (Unidades) _ _ _ _ _ _
10. PESO (kg) _ _ _ _ _ _ _
11. ESTATURA (m) _ _ _ _ _ _ _
12. GASTO APROXIMADO MENSUAL (s/.) -------------
Este instrumento debe de ejecutarse en una muestra, y cada rubro nos reporta la información
de los encuestados.
14 C. Quintanilla C. / A. Cortavarria L.
Tratamiento de la información: se debe seguir los siguientes pasos una vez recogida la
información:
clasificación y/o recodificación si es necesario.
recuento de frecuencias.
agrupación de los datos, en el caso que la variable aleatoria es continua o discreta y sea
muy grande.
2.6.2. CLASIFICACIÓN DE DATOS
Es la tabulación de la información mediante tablas de simple y
doble entrada dependiendo de la relación de las variables. Luego,
ésta nos permite presentar mediante tablas de frecuencias y
gráficos. Sin embargo, es necesario contar con la tecnología,
quien nos permite ahorrar tiempo en la clasificación,
presentación y toda información necesaria que uno desee.
2.6.3. CODIFICACIÓN DE LA ENCUESTA
La codificación está sujeto cómo se debe realizar el tratamiento estadístico; para nuestro
propósito es necesario codificar para trabajar con el SPSS. Por ejemplo, la variable EDAD
considerar su edad (años). Así, consideramos a las variables con sus respectivos códigos.
X1: EDAD (en años)
X2: SEXO (1: varón, 2: Mujer).
X3: ESTADO CIVIL
1: Soltero; 2: Casado; 3: Divorciado; 4 Viudo.
X4: GRADO DE INSTRUCCIÓN
0: Universitario 1: Secundaria 2: Primaria 3: Analfabeto.
X5: Salario (en soles)
X6: TIPO DE VIVIENDA
(1: Ladrillo 2: Adobe; 3: Tapial; 4: No tiene).
X7: RELIGIÓN (1: Católico; 2: Pentecostés; 3 Otros).
X8: TIPO DE COLEGIO DONDE ESTUDIÓ
(1: Público; 2: Privado; 3: Religioso).
X9: NÚMERO DE HERMANOS (unidades).
X10: PESO (kg).
X11: ESTATURA (metros).
X12: GASTO PROMEDIO MENSUAL (Nuevos Soles).
Estadística Aplicada a la Investigación Científica 15
Una vez realizado la encuesta y codificado se realiza el llenado del consolidado
(consideremos una supuesta encuesta a 30 personas) cuyo cuadro muestra los resultados:
LLENAR LA BASE DE DATOS (SPSS).
Tabla Nº 04
ni X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
1 33 1 1 0 2550 1 3 2 3 74 1,75 950
2 18 2 2 1 700 4 1 1 6 55 1,6 250
3 40 1 2 1 700 3 1 1 8 65 1,62 230
4 22 1 1 0 4500 4 1 3 2 68 1,73 1230
5 24 1 2 1 900 2 1 1 5 68 1,68 320
6 54 2 1 0 1500 4 2 3 7 54 1,6 450
7 34 1 2 1 800 2 3 1 4 69 1,7 220
8 44 1 4 2 600 2 2 1 6 68 1,68 180
9 32 2 3 1 500 2 1 1 5 60 1,65 158
10 20 2 2 1 700 4 1 1 7 58 1,6 230
11 19 1 1 0 1800 4 3 1 5 72 1,74 520
12 25 1 2 0 4500 1 1 2 2 74 1,76 1600
13 23 1 2 1 1200 4 1 1 4 68 1,6 360
14 26 1 2 1 1500 1 1 1 4 76 1,68 380
15 35 1 3 1 1500 1 1 1 6 70 1,69 460
16 38 2 2 2 700 1 1 1 5 58 1,55 210
17 42 1 2 1 4500 1 1 2 8 82 1,78 1580
18 38 2 2 1 2500 1 1 3 4 60 1,55 540
19 33 1 2 0 1850 1 1 1 5 76 1,74 350
20 31 1 2 1 1850 1 1 1 3 78 1,8 540
21 37 2 1 1 500 2 1 1 5 56 1,58 210
22 26 1 2 2 500 3 3 1 6 68 1,68 120
23 28 1 2 3 500 3 1
6 70 1,72 160
24 30 1 2 1 1800 1 1 1 3 78 1,76 340
25 36 1 1 0 2800 4 1 1 5 79 1,82 820
26 34 2 2 1 700 2 3 1 6 65 1,6 190
27 46 1 2 3 1200 3 1
7 72 1,68 430
28 45 1 2 0 3500 1 1 2 3 80 1,72 860
29 36 1 2 1 1200 1 1 1 4 86 1,75 360
30 29 1 2 1 1800 1 1 1 6 78 1,7 420
Esta tabla se hace una copia y se pega en la venta de Vista de datos, como se muestra en la siguiente
figura.
16 C. Quintanilla C. / A. Cortavarria L.
ENTORNO DE TRABAJO EN SPSS.
Para iniciar la base de datos, debe abrir el programa SPSS, luego copiar la tabla de consolidado (tabla Nº 04) de la página anterior y pegar; quedando la tabla de la siguiente manera.
Una vez introducido la información es necesario recodificar (mediante números), asignar sus nombres de las variables. Para realizar dicha operación hacer clic en vista de variables y seguir la siguientes instrucciones.
Escribir el nombre de
las variables.
En la columna Valores hacer clic, y aparece la ventana que se muestra en la
siguiente página.
En las variables expresadas en números condicionar los decimales. Ejemplo, en Edad se considera cero decimal; en Estatura debe
considerar dos decimales.
Estadística Aplicada a la Investigación Científica 17
En el ejemplo, tomemos para etiquetar la variable X7 de Relegión
Una vez finalizados las codificaciones de los atributos de las variables, en la ventana de
Vista de variables debe quedar como la siguiente tabla.
Ingresar los valores numéricos
asignados a las respuestas de las variables, y hacer clic en Añadir.
Finalmente hacer clic en Aceptar.
Se ingresa los códigos asignados a cada atributo
de la variable.
Se escribe cada atributo de la variable. Luego pulsar Añadir para cada una de ellas hasta finalizar todas. Finalmente
pulsar Aceptar.
Colocar los títulos de las variables en la
columna de Etiqueta.
18 C. Quintanilla C. / A. Cortavarria L.
Una vez registrado en la Vista de variables los correspondientes ítems. Pulsar en la Vista de datos (data view), luego aparece la figura completa
Otra manera formal de ingresar los datos es colocando etiquetas, asignar los valores a cada
característica de cada variable, en la Vista de variables, tal como se muestra en la tabla.
Luego hacer clic en Vista de variables, y ingresar la información de cada ficha (encuesta) una por una, hasta completar los 30 fichas encuestadas.
Estadística Aplicada a la Investigación Científica 19
2.7. PRESENTACIÓN DE INFORMACIÓN
Tablas de distribución de frecuencia
Cuando no se cuenta con el apoyo de la tecnología, también se puede clasificar los datos en
cuadros o tablas de resumen de las observaciones originales.
2.7.1. DATOS DE VARIABLES DISCRETAS
Es cuando las variables están expresadas por variables cualitativas o de variables
cuantitativas con valor en números enteros.
EJEMPLO.
De la encuesta anterior se desea presentar la primera variable cualitativa de “edad” y queda
de la siguiente manera:
Tabla No. 05
EDADES DE PROFESORES DEL MAGISTERIO PERUANO
i. Características Conteo Frecuencias
absolutas
(ni)
Porcentaje
% 1 Adolescente // 2 10
2 Joven //// - /// 8 40
3 Adulto //// - //// 10 50
Es cuando los valores de las variables cuantitativas se encuentran expresados en números
enteros y reales, estos valores se suelen ordenar en forma ascendente en una tabla de
frecuencia.
Definición. Dada la variable X, consideramos una muestra de tamaño n que toma valores
distintos, x1. x2 , x3 , . . .xk (si la variable es cuantitativa x1 x2 x3 . . .xk ).
Frecuencia absoluta (ni ) de un valor xi: Es el número de veces que dicho valor aparece en
la muestra, donde
1 2 3
1
...k
i k
i
n n n n n n
, donde n es tamaño muestral.
Considerando las variables definidas en la tabla de frecuencia, se puede definir las
frecuencias acumuladas
Frecuencia absoluta acumulada del valor i-ésimo es la suma de las frecuencias absolutas
hasta dicho valor y se denota por Ni .
Ni = n1 + n2 + n3 + . . .+ ni.
Frecuencia relativa de un valor xi es el cociente de la frecuencia absoluta de xi entre el
tamaño de la muestra (n), se representa por hi.
,ii
nh
n se cumple
1
1k
i
i
h
Frecuencia relativa acumulada (Hi) del valor i-ésimo, es la suma de las frecuencias
relativas hasta dicho valor.
20 C. Quintanilla C. / A. Cortavarria L.
Hi = h1 + h2 + h3 + . . .+ hi. i
i
NH
n .
Si las frecuencias relativas las multiplicamos por 100, obtenemos los porcentajes ( %)
%i = (hi)100.
EJEMPLO
Sea las notas de un examen de Estadística Inferencial tomados a 50 estudiantes, cuyo
resultado es en la escala vigesimal:
12 10 11 09 10 11 13 16 15 11 10 15 15
08 11 15 12 11 10 12 14 13 14 12 13 13
12 15 10 07 09 13 14 11 17 16 13 11 10
12 11 15 11 10 13 10 14 11 10 16
a) ¿Cuántos alumnos tiene notas aprobatorias?
b) ¿Qué porcentaje de alumnos tienen notas desaprobatorias?
SOLUCIÓN
Luego ordenando, construimos la tabla de frecuencia, cuyo resultado es la siguiente tabla:
Hallando el rango: R = 17 – 7 = 10 k = 10+1 = 11 intervalos.
i. xi notas Tarjas (ni) (Ni) (hi) (Hi) %
1 07 / 1 1 0.02 0.02 2
2 08 / 1 2 0.02 0.04 2
3 09 // 2 4 0.04 0.08 4
4 10 //// - //// 9 13 0.18 0.26 18
5 11 //// - //// 10 23 0.20 0.46 20
6 12 //// - / 6 29 0.12 0.58 12
7 13 //// - // 7 36 0.14 0.72 14
8 14 //// 4 40 0.08 0.80 8
9 15 //// - / 6 46 0.12 0.92 12
10 16 /// 3 49 0.06 0.98 6
11 17 / 1 50 0.02 1.00 2
+
+
+
+
Estadística Aplicada a la Investigación Científica 21
a) Se consideran notas aprobatorias iguales o superiores a 11.
Luego los aprobados son: 10+6+7+4+6+3+1 = 37 estudiantes.
b) Consideramos desaprobados cuando la notas son inferiores a 11.
Verificamos en el porcentaje (%), los desaprobados estarán entre las notas de 7 y 10.
Desaprobados: 2% + 2% + 4% + 18% = 26%.
IMPORTANTE: Con respecto a notas, número de hijos y datos que contienen
valores enteros de rangos pequeños, no es recomendable usar
intervalo, porque se tiende a perder información.
TRABAJANDO CON EL SPSS.
Luego para ingresar las notas del examen pulsar en Vista de Datos y luego ingresar los datos.
Ingresar en la
columna las notas
obtenidas.
Rotular con notas Poner el Título en
Etiqueta.
22 C. Quintanilla C. / A. Cortavarria L.
Ingresar a Analizar ---> Estadística descriptiva --->Frecuencias …
El resultado se obtiene tal como se muestra en la tabla de frecuencia generada por SPSS.
NOTAS DE EXAMEN DE ESTADÍSTICA
Frecuencia Porcentaje Porcentaje
válido Porcentaje acumulado
Válidos 7 1 2,0 2,0 2,0
8 1 2,0 2,0 4,0
9 2 4,0 4,0 8,0
10 9 18,0 18,0 26,0
11 10 20,0 20,0 46,0
12 6 12,0 12,0 58,0
13 7 14,0 14,0 72,0
14 4 8,0 8,0 80,0
15 6 12,0 12,0 92,0
16 3 6,0 6,0 98,0
17 1 2,0 2,0 100,0
Total 50 100,0 100,0
Hacer clic en notas
Hacer clic para pasar a
la casilla de variables y
pulsar Aceptar.
Estadística Aplicada a la Investigación Científica 23
EJEMPLO
De nuestra encuesta realizada se tiene el número de hermanos, utilizando el SPSS y siguiendo la secuencia se puede realizar la operación.
Abrir el archivo de SPSS con el nombre guardado (en nuestro caso se guardó con ENCUESTA DE SHARA 2009). Una vez abierto realizar la siguiente operación Ingresar a Análisis ---> Estadística
Descriptiva --->Frecuencias …
Y se tiene la figura del al ventana Visor.
Número de hermanos
Frecuencia Porcentaje Porcentaje
válido Porcentaje acumulado
Válidos 2 2 6,7 6,7 6,7
3 4 13,3 13,3 20,0
4 5 16,7 16,7 36,7
5 7 23,3 23,3 60,0
6 7 23,3 23,3 83,3
7 3 10,0 10,0 93,3
8 2 6,7 6,7 100,0
Total 30 100,0 100,0
Seleccionar número
de hermanos y
finalizar con OK
Hacer clic en la
tabla, y haciendo
Ctrl+C se pude
copiar y pasar a una hoja de Word.
24 C. Quintanilla C. / A. Cortavarria L.
2.7.2. DATOS DE VARIABLES CONTINUAS
Tablas de frecuencia.
Es aquella que se elabora para poder realizar las operaciones a partir de la clasificación de
los datos.
Existen dos tipos de tablas, una para datos no agrupados que vemos en el EJEMPLO
anterior y otra para datos agrupados y en ésta última se considera los intervalos.
i Li – Ls Tarjas Yi (ni) Ni (hi) Hi %i
1 L1 – L2 Y1 n1 N1 =n1 h1 H1=h1 %1
2 L2 – L3 Y2 n2 N2 h2 H2 %2
. – . . . . . .
. – . . . . . .
. – . . . . . .
k Lk – Lk+1 Yk nk Nk hk Hk %k
EJEMPLO.
Un investigador realiza un trabajo de investigación sobre puntuaciones de exámenes de
admisión en la UNH, revisa las puntuaciones alcanzados por los ingresantes en 1996; donde
las puntuaciones fueron de 0 a 100. El resultado de 80 ingresantes fue lo siguiente:
72 81 65 83 58 56 72 63 49 81 56 60 83 89 60 52
38 79 59 39 62 32 28 39 49 48 65 72 81 58 45 52
43 71 90 42 63 73 69 75 91 49 67 76 72 60 40 58
52 68 54 52 58 77 88 70 61 39 74 68 29 36 49 62
31 73 40 38 59 60 75 93 53 57 61 65 70 79 37 46
SOLUCIÓN
a) Hallando el rango o recorrido (R) .
R = xmáx – xmín
xmáx: Valor máximo = 93, xmín : valor mínimo = 28
R = 93 – 28 = 65
Estadística Aplicada a la Investigación Científica 25
b) Número de intervalos (k).
Como el número de datos es 80, es necesario agrupar en intervalos de clase (k), cuyo valor
mínimo es 5 y su valor máximo es 20. Pero debemos tener en cuenta que al realizar
intervalos se pierde información, por lo que se debe tener cuidado.
Para obtener el número adecuado de intervalo de clase (k), técnicamente se utilizan las
formulas de Sturges y de Portugal.
FORMULA DE STURGES.
k = 1+3,322.Log(n); si n 50
FORMULA DE PORTUGAL.
k = 1,8914 + 3,991.Log(n); si 50 < n 100.
k = 2,756 + 5,8154 Log(n); si n > 100.
La formula de Portugal fue presentado en 1985 en el Simposium Departamental de
Matemática – UNSA – Arequipa.
De nuestro ejercicio, tenemos: n = 80, por lo que utilizaremos la formula de Portugal.
k = 1,8914 + 3,991.Log(80); entonces k = 9,486.
Luego redondeando al entero k = 10.
c) Amplitud de cada intervalo (A)
Para encontrar la amplitud A se realiza la siguiente operación
A= R / k.
Si A no es exacta en el número de decimales de los datos, entonces, el número A se
aproxima por exceso de manera que cubra por completo al rango: kA R.
Del EJEMPLO: si k = 10 y R = 65.
La amplitud es A = (65)/10, entonces A = 6,5 redondeando al entero superior se tiene
A = 7 y k = 10.
Pero si multiplicamos k.A = (7)(10) = 70, sobra cinco (5), entonces esta sobra distribuimos
en dos partes: 2 a la izquierda y 3 a la derecha, por ser la derecha generalmente abierta
5 k 20
28 96 26
2 3
93
26 C. Quintanilla C. / A. Cortavarria L.
d) Construcción de la tabla de frecuencia.
i. Li – Ls Yi Tarjas Frec. Abs.(ni)
Frec. Absol. Acumulada(Ni)
Frecuencia Relativa(hi)
Frec. Rel. Acumulada(Hi)
%
1 26 – 33 29.5 //// 4 4 0.0500 0.0500 5
2 33 – 40 36.5 //// - // 7 11 0.0875 0.1375 8.75
3 40 – 47 43.5 //// - / 6 17 0.0750 0.2125 7.5
4 47 – 54 50.5 //// - //// 10 27 0.1250 0.3375 12.5
5 54 – 61 57.5 ////-////-//// 14 41 0.1750 0.5125 17.5
6 61 – 68 64.5 //// - //// 10 51 0.1250 0.6375 12.5
7 68 – 75 71.5 //// -////-/// 13 64 0.1625 0.8 16.25
8 75 – 82 78.5 //// - //// 9 73 0.1125 0.9125 11.25
9 82 – 89 85.5 /// 3 76 0.0375 0.95 3.75
10 89 – 96 92.5 //// 4 80 0.0500 1 5
80 Suma =1 100%
Para Y1 = (Li+Ls)/2 Y1 = (26+33)/3 = 29,5; Y2 = (33+40)/3. . .
TRABAJANDO CON EL SPSS.
Veamos como se desarrollar la tabla de frecuencia con el SPSS, para ello se debe seguir la
secuencia. Ingresar todos los datos de los puntajes obtenidos en el Examen de Admisión de
1996 en una hoja del SPSS, como se muestra en la figura adjunta.
+
+
En la primera columna ingresar
las 80 puntuaciones obtenidas en el examen.
Hacer clic en Vista
de variables
Estadística Aplicada a la Investigación Científica 27
Ubicarse en el menú Transformar ---> Recodificar en distintas variables, luego aparece el
cuadro de diálogo mostrado.
Nombrar las
puntuaciones.
Escribir el Titulo en
Etiqueta Luego regresar
a Data View.
Aquí se puede cambiar
de nombres. Escribimos
PUNTAJES.
Para ingresar los
intervalos hacer clic en
Valores antiguos y
nuevos…
Hacer clic en Rango. En este
espacio se codifica
los intervalos.
Hacer clic en (ancho). En
este lugar cambiar por el número 7 para nuestro
trabajo. Recordemos que
se necesita el intervalo de
amplitud 7.
Se ha seleccionado
Puntuación.
28 C. Quintanilla C. / A. Cortavarria L.
Luego la tabla aparece con los intervalos en la segunda columna.
Ingresar al menú Análisis ---> Estadística Descriptiva ---> Frecuencias …
Ingresar los límites inferiores y
superiores.
Re-escribir el intervalo
con un guión. Luego
pulsar Añadir. Así, ingresar sucesivamente
hasta completar el
ingreso de todos los intervalos. Pulsar
Continuar.
Pulsar el botón
Cambio.
Finalmente pulsar el
botón Aceptar.
Y aparece en la 2da
columna los intervalos.
Se observa que los intervalos aparecen en
la segunda columna.
Estadística Aplicada a la Investigación Científica 29
El resultado se obtiene de manera fácil, cuyo resultado se ve en el siguiente gráfico
Para nuestro reporte, se hizo copia de la Figura anterior, luego se pasó a Word.
PUNTAJES PUNTAJES
Frecuencia Porcentaje Porcentaje
válido Porcentaje acumulado
Válidos 26-33 4 5,0 5,0 5,0
33-40 9 11,3 11,3 16,3
40-47 4 5,0 5,0 21,3
47-54 11 13,8 13,8 35,0
54-61 15 18,8 18,8 53,8
61-68 10 12,5 12,5 66,3
68-75 13 16,3 16,3 82,5
75-82 7 8,8 8,8 91,3
82-89 4 5,0 5,0 96,3
89-96 3 3,8 3,8 100,0
Total 80 100,0 100,0
Seleccionar el que se
renombró PUNTAJES y
pasar a Variables. Si desea graficar histogramas y el
diagrama circular, pulsar
Gráficos… luego elegir gráfico de sectores y
histogramas, y pulsar
Continuar. Finalmente
Aceptar.
Se muestra la tabla de frecuencias. Si desea pasar a
su reporte, hacer Ctrl C,
llevar la Word y pegar.
Se tiene una inconveniencia. En la en la columna de frecuencia
absoluta, NO se obtuvo el mismo
resultado encontrado al realizar
manualmente. ¿Por qué?, el SPSS, ha hecho los
intervalos abiertos hacia la
izquierda 33 – 40, mientras en nuestra tabla se tuvo el intervalo
así: 33 – 40.
30 C. Quintanilla C. / A. Cortavarria L.
En la misma figura anterior, se tiene el diagrama circular que pedimos, cuya grafica
se pasa al reporte haciendo un clic en la figura y haciendo Ctrl C, luego pegar en la hoja
Word. En el siguiente figura se muestra el resultado.
PUNTAJES
89-96
82-89
75-82
68-75
61-68
54-61
47-54
40-47
33-40
26-33
REPRESENTACIONES GRÁFICAS
Para hacer más clara y evidente la información que nos dan las tablas se utilizan los
gráficos, que pueden ser:
Diagramas de barras ( datos cualitativos y cuantitativos de tipo discreto). En el eje “y”
se pueden representar frecuencias absolutas o relativas. De la encuesta realizada,
graficamos la variable ESTADO CIVIL. Ir Graficos luego eligir Interactivos y aparece
Barras, luego de hacer clic aparece el gráfico de abajo y elegimos ESTADO CIVIL y
OK (segunda figura).
Luego se tiene la gráfica de barras.
Muestra los intervalos para cada
grupo.
Importante. Es mejor presentar las figuras en dos
dimensiones, porque en tres
dimensiones distorsiona su presentación visual y el
lector puede equivocarse.
Elegir ESTADO CIVIL.
Luego pulsar Aceptar.
Estadística Aplicada a la Investigación Científica 31
Las barras muestran frecuencias
1 2 3 4
Estado Civil
0
5
10
15
20
Rec
uen
to
Histogramas (datos cuantitativos de tipo continuo o discreto con un gran número de
datos ) . El histograma consiste en levantar sobre cada intervalo un rectángulo. Ir
Graficos interactivos luego elegir histograma... luego aparece el cuadro de diálogo
de histograma donde se elige edad, y Aceptar.
20 30 40 50
Edad de los encuestados
0
2
4
6
Recu
en
to
Elegir Puntuaciones y pasar a Variable. Y hacer clic en
histograma y activar curva
normal si desea que aparézcala curva.
Finalmente Aceptar.
32 C. Quintanilla C. / A. Cortavarria L.
Para regular el intervalo de frecuencias, una vez realizada la gráfica, realizar doble clic en
la parte inferior del gráfico.
Continuar con el doble clic hasta que aparezca Eje de la escala, donde el número de
intervalo para divisores se debe modificar, así el número de marcas, luego cambiar en
Intervalo 10 a 7, luego pulsar Aceptar.
14 21 28 35 42 49 56
Edad de los encuestados
0
2
4
6
Rec
uen
to
Polígono de frecuencias y diagrama de sectores ( diagrama de circular) Ir Graficos
luego elegir Interactivo... Sectores simple y aparece el cuadro de Pie Charts
luego trasladar tipo de vivienda a variables del gráfico de sectores y pulsamos
Aceptar. Si se hace doble clic en la figura, se puede modificarlas característica de la
variables y colocar los porcentajes.
ladrillo
adobe
tapial
no tiene
Tipo de viviendaLos sectores muestran frecuencias
ladrillo
43,33%
adobe
20,00%
tapial
13,33%
no tiene
23,33%
Existen una variedad de gráficos para su presentación, pero se tiene que tener cuidado en
graficar, porque muchas veces realizamos gráficos que distorsiona la información.
Estadística Aplicada a la Investigación Científica 33
2.8. DIAGRAMA DE HOJAS Y TALLOS.
Es una técnica para organizar datos sin perder la identidad de cada dato observado, como si
ocurriera en una distribución de frecuencias por intervalos. Veamos en casos diferentes.
Sean los números: 37, 4,5 y 2,36
Luego, el tallo será 3; 4; 23. Y las hojas serán: 7; 5 y 6.
Los tallos ordenados son ubicados en forma vertical. Las hojas ordenadas de cada tallo son
ubicadas horizontalmente.
EJEMPLO.
Sean los datos notas de Geometría.
12 10 11 13 10 11 13 16 15 11
18 11 15 12 11 10 12 14 13 14
12 15 10 07 10 13 14 11 17 16
12 11 15 11 10 13 10 14 11 10
10 12 13 16 15 13 11 10 15 13
a) Desarrolle un diagrama de tallo y hojas.
b) ¿Cuántos alumnos tienen notas desaprobatorias?
SOLUCIÓN.
Utilicemos en este caso el número 7, no permite tomar el primer dígito como tallo, entonces
tomaremos los números de dos dígitos como tallos y las hojas serán CEROS (0) tantas veces
que se repiten.
a) En los casos de 8 y 9 no tiene valores por lo que no tiene ningún valor (no se toma en
cuenta).
TALLO HOJAS FRECUENCIA
7 0 1
8
9
10 0000000000 10
11 0000000000 10
12 000000 6
13
00000000 8
14 0000 4
15 000000 6
16 000 3
17 0 1
18 0 1
34 C. Quintanilla C. / A. Cortavarria L.
Con los mismos resultados se obtuvo utilizando SPSS, y es el siguiente:
NOTAS Stem-and-Leaf Plot
Frequency Stem & Leaf
1,00 7 . 0
,00 8 .
,00 9 .
10,00 10 . 0000000000
10,00 11 . 0000000000
6,00 12 . 000000
8,00 13 . 00000000
4,00 14 . 0000
6,00 15 . 000000
3,00 16 . 000
1,00 17 . 0
1,00 18 . 0
Stem width: 1,00
Each leaf: 1 case(s)
b) La cantidad de alumnos desaprobados es 11. Se ha verificado la frecuencia de los
datos 7 y 10.
Para realizar los tallos y hojas con SPSS, siga las siguientes instrucciones. Ir a Analizar y
luego a Estadística Descriptiva luego explorar seleccione la variable nota y envíe a
Dependiente y finalmente Gráficos... --> tallos y hojas y continuar y finalmente Aceptar.
Estadística Aplicada a la Investigación Científica 35
Y se tiene el resultado.
Salario mensual Stem-and-Leaf Plot
Frequency Stem & Leaf
,00 0 .
12,00 0 . 555567777789
3,00 1 . 222
8,00 1 . 55588888
,00 2 .
3,00 2 . 558
,00 3 .
1,00 3 . 5
3,00 Extremes (>=4500)
Stem width: 1000
Each leaf: 1 case(s)
2.9. DIAGRAMA DE CAJAS.
Este diagrama de caja (box plots) describe y presenta directamente los cuartiles y las
medianas, el diagrama de caja se encuentra entre el recorrido intercuartil que tiene como
extremos P75 y P25 .
En el gráfico se muestra los resultados del examen de Geometría, el gráfico se realizó con el
SPSS.
Ir a Analizar y a Estadística Descriptiva luego explore seleccione la variable Edad y
envíe a Dependente y pulsar en Gráficos --> Niveles de factores juntas y continuar y
pulsar Aceptar.
Edad de los encuestados
60
50
40
30
20
10
Dato máximo
P75 =Q3
Mediana (Me)=P50=Q2
Dato Mínimo
P25=Q1
36 C. Quintanilla C. / A. Cortavarria L.
PRACTICA.
I. Utilizar el paquete estadístico SPSS, para realizar la clasificación de los
ejercicios. (guiarse con el capítulo 1).
Se considera básica la información dada para que puede realizar los trabajos.
1. En los ítems, clasificar si las informaciones son variables cualitativas o cuantitativas, discretas o
continuas.
a) Número de partos en el Hospital de Huancavelica.
b) El número de muertos en accidentes de transito en el 2003.
c) Edad de los docentes de la Facultad de Educación.
d) La temperatura de los niños de una escuela X.
e) Tipos de procedencia de los alumnos de la Facultad de Educación.
f) Religión que profesan los docentes de la UNH.
g) Número de ingresantes a la UNH.
h) Tipos de trastornos psicológicos de los alumnos de la U.N.H
i) Número de hijos por familia.
j) El pH de la sangre.
k) Lugar de nacimiento.
l) Grado de instrucción de los padres.
m) Tasa de crecimiento demográfico.
n) Número de habitaciones por vivienda.
o) Las pulsaciones de corazón.
p) Temperatura de las personas en grados Celsius.
q) Número de glóbulos rojos.
r) Grado de agresividad de las personas.
s) Tiempo de servicios de los docentes en los centros educativos.
t) Número de desempleados en el magisterio peruano.
u) El número de viviendas de material rustica en el Perú.
v) Las mariposas en la selva peruana.
2. Escribir en el paréntesis correspondiente si al caso propuesto se aplica la estadística descriptiva o
Inferencial.
a) La clasificación de las edades de los estudiantes de una sección de la Especialidad de
Matemática y Física. (.............................)
b) Se realizo un estudio de 100 alumnos de la UNH y se concluyo que el 40% de estudiantes
proceden de otro lugar y el 60% son de Huancavelica. (........................................)
c) Se aplico una encuesta a 200 profesores de los colegios y a partir de su análisis se llegó a la
conclusión que el magisterio no está de acuerdo con el nuevo programa.
(...............................)
II. Utilizar el paquete estadístico SPSS, para desarrollar los ejercicios, de
acuerdo lo descrito en la parte I.
Estadística Aplicada a la Investigación Científica 37
3. La siguiente información ha sido obtenida de la secretaría de la FED y corresponde a los
resultados de la evaluación realizada a los profesores de esta facultad en el año 2003.
B C B C B A B B A B D B B
D D B A A C A A C A A C B
A A A E A C D E B C C E A
A D A A B E D A B A B D C A C D E A A B A B A C D A
a. Presentar la información dada mediante un cuadro de distribución de frecuencias.
b. Que % de profesores obtuvieron calificación: A (Excelente), B(Muy bueno), C(Bueno), D(Regular) y E(Deficiente).
c. Representar mediante una histograma, y diagrama circular (pastel).
4. Se tienen las notas de 48 alumnos en Estadística Bayesiana.
10 11 12 14 08 05 09 14 07 11 08 11
06 10 08 14 15 10 12 16 08 16 15 15
15 13 14 11 13 09 12 10 13 06 08 10
09 10 11 11 11 12 10 11 09 11 14 14
a. Presentar en una tabla de frecuencia debidamente ordenados. b. Presentar mediante barras la frecuencia absoluta.
c. Graficar la frecuencia relativa acumulada.
d. ¿Qué cantidad alumnos obtuvieron a lo más notas a lo más de 10?. e. Presentar en un Diagrama de tallos y hojas lo datos.
5. Un estudiante de historia realiza estudio sobre número de hijos que tienen las familias de
Huancavelica, luego se obtuvo en 72 familias se encontró los siguientes datos:
2 0 5 8 9 2 5 6 1 6 13 6
4 3 3 9 3 0 4 4 8 2 3 8
4 5 6 6 5 1 3 7 7 5 9 5
5 8 4 10 6 8 6 7 3 8 8 8
3 6 2 8 4 9 7 8 5 2 5 9
1 7 5 7 7 5 5 6 9 6 8 6 Fuente: Encuesta 2003 – Huancavelica, Historia y CC SS. UNH.
a. Clasificar los datos y presentarlos en una tabla de frecuencia.
b. Presentar mediante Diagrama de tallos y hojas.
c. ¿Cuántas familias tienen al menos 6 hijos?. d. ¿Qué porcentaje de familias tienen a lo más 4 hijos?.
e. Presentar una gráfica mediante polígono de frecuencia.
6. A los ingresantes de Matemática y Física, se le ha sometido a una prueba de lenguaje con 100
preguntas, donde cada una vale 01 punto, siendo la calificación individual se presenta los
resultados.
74 89 98 65 77 73 52 65 33 94
54 76 47 67 64 69 50 55 81 41
77 45 53 59 73 55 91 61 41 80
60 68 39 74 85 35 48 35 78 60
88 57 94 84 42 65 66 85 66 71
a. Clasificar los datos y presentarlos en una tabla de frecuencia de 5 intervalos. b. ¿Cuántos ingresantes tienen a lo más 80 puntos?.
c. ¿ Cuántos ingresantes tienen al menos 50 puntos?.
38 C. Quintanilla C. / A. Cortavarria L.
d. Presentar mediante la Diagrama de tallos y hojas.
e. Presentar una gráfica mediante histogramas y polígonos de frecuencia el porcentaje.
7. Se toma un examen de 100 preguntas a 40 alumnos de Matemática y Física. El número de
preguntas respondidas es:
61 81 79 78 81 66 77 76 92 83
74 77 94 87 98 70 92 68 86 78 70 82 60 81 75 76 81 63 87 41
77 52 70 82 77 84 46 88 79 67
a. Clasificar los datos y presentarlos en una tabla de frecuencia de 5 intervalos.
b. ¿Cuántos estudiantes tienen a lo más 60 puntos?. c. Presentar mediante Diagrama de tallos y hojas.
d. ¿Qué porcentaje de estudiantes alcanzaron puntajes entre 40 y 70?.
e. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia absoluta.
f. Presentar Hi con una gráfica escalonada.
8. Se hizo una investigación sobre la permanencia de los estudiantes en años en la Universidad Nacional de Huancavelica. (considerando los que abandonan y las que culminan).
3.9 5.8 4.2 5.6 5.4 7.5 6.6 9.8 6.9 4.3
7.1 5.5 5.8 9.4 6.0 5.6 5.0 5.4 7.8 5.6
5.6 5.2 6.1 7.2 3.5 3.7 3.1 2.0 5.8 6.0 3.3 4.1 9.1 2.5 5.7 5.9 6.5 5.3 7.5 5.4
6.7 6.8 4.7 6.3 5.6 10.6 5.0 6.1 6.6 6.1
5.4 5.8 5.8 7.4 5.3 5.8 5.8 6.0 4.8 3.8
6.2 2.6 6.9 6.9 2.6 6.8 7.5 5.2 9.2 6.5
6.3 5.9 4.0 8.6 9.3 7.4 6.3 8.6 8.8 7.5
10.4 6.8 6.4 8.2 5.2 3.0 8.5 5.1 5.2 4.5
6.7 5.1 7.7 4.0 2.3 9.7 4.8 9.2 8.1 4.2
7.8 5.0 5.8 5.5 3.9 8.4 5.7 4.5 8.2 3.7
a. Construir una tabla de frecuencia con 6 intervalos.
b. ¿Cuántos estudiantes tienen a lo más 3,0 años?.
c. ¿ Cuántos ingresantes tienen al menos 4,8 años?.
d. ¿Qué cantidad de alumnos alcanzaron años entre 4,0 y 8,5?. e. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia
absoluta.
f. Presentar Hi con una gráfica escalonada.
9. Una firma de corredores de bolsa, publicó una lista de 600 acciones y que consideraba
“Plenamente Apreciadas”; en la misma lista daban los precios en soles de estas acciones como son:
19.3 16.1 22.8 15.2 30.3 16.4 10.8 17.7 51.9 67.7 35.2
20.9 57.3 27.2 24.3 25.4 12.2 18.3 22.4 19.3 22.4 24.5
26.3 35.9 47.5 20.1 59.6 29.0 34.5 25.4 19.3 15.6 42.7
25.8 24.6 23.0 41.2 42.9 37.8 15.6 19.0 42.5 23.8 38.6
12.2 18.3 22.4 19.3 22.6 25.4 26.3 23.5 40.2 45.2 28.8
29.5 29.2 52.5 17.9 33.1 15.2 16.3 15.6 48.7 15.0 36.4
a. Construir una tabla de frecuencia. b. ¿Cuántos acciones tienen a lo más S/.42.5?.
Estadística Aplicada a la Investigación Científica 39
c. ¿ Cuántos acciones tienen al menos S/.20.5?.
d. ¿Qué cantidad de acciones alcanzaron costos entre S/.24,0 y S/.51,5?.
e. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia absoluta.
f. Presentar Hi con una gráfica escalonada.
10. En una encuesta realizada a estudiantes del IV Ciclo de la Especialidad de Matemática y Física
de la UNH sobre los ponderados acumulados al II Ciclo, se obtuvo los siguientes resultados
15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2
22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7
26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7
19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0
18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5
14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1
8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8
25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5
Fuente: Encuesta 2004 – Huancavelica, Matemática Física.
UNH.
a. Construir una tabla de frecuencia de 10 intervalos.
b. Presentar mediante Diagrama de tallos y hojas. c. ¿ Cuántos estudiantes tienen al menos ponderado de 13?.
d. ¿Qué porcentaje de estudiantes alcanzaron ponderados entre 11.0 y 23?.
e. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia
absoluta. f. Presentar Hi con una gráfica escalonada.
11. En un Complejo Hospitalario de la ciudad de Huancayo, se tomó muestra de los valores de
proteína en sangre de 50 niños recién nacidos normales registrados en el período del 23 de enero
al 28 de abril de 2004 cuyos resultados son las siguientes:
5.388 6.211 5.133 5.937 5.137 4.823 5.007 6.299 6.050 5.590
6.118 6.118 5.860 5.860 5.345 5.928 5.860 4.929 6.661 5.384
5.018 5.384 4.991 6.593 5.305 5.766 5.990 5.156 7.212 4.234
4.765 3.950 5.119 3.201 4.255 6.454 5.582 4.446 5.310 4.310
4.970 5.446 7.443 5.204 5.269 5.222 4.623 6.082 6.712 5.071
a. Construir una tabla de frecuencia de 7 intervalos.
b. Presentar mediante Diagrama de tallos y hojas. c. Presentar una gráfica mediante histogramas y polígonos de frecuencia de ni.
d. Presentar Ni y Hi con una gráfica escalonada.
III. Completar la información necesaria, usando la parte teórica
necesaria.
12. La tabla muestra la distribución de ingreso familiar con intervalos de igual amplitud, correspondiente a 80 familias.
40 C. Quintanilla C. / A. Cortavarria L.
i intervalos Yi (ni) Ni (hi) Hi %
1 160 -
2 - 48 60
3 - 12.5
4 - 0,075
5 - 210
a. Reconstruir una tabla de frecuencia. b. ¿Qué porcentaje de familias ganan menos de 200 nuevos soles?.
c. ¿Cuántos familias tienen al menos ingresos de S/.170?.
d. ¿Qué cantidad de familias alcanzaron ingresos entre S/.175 y S/.195?.
13. Se tiene una tabla de frecuencia incompleta de variable continua que un investigador no
concluyó, porque los datos fue de tamaño n = 3000.
i intervalos Yi (ni) Ni (hi) Hi %
1 1.35 - 0,1
2 - 2M/3
3 - 3M
4 - M/3
5 9.35 - 5M/3
6 - M
a. Reconstruir una tabla de frecuencia. b. Representar mediante un histograma hi.
14. Completar la siguiente tabla de frecuencia, siendo ésta simétrica. Además se sabe que Cj = 3.
i intervalos Yi ni Ni hi Hi %
1 -
2 -
3 - 45
4 - 8 0.96
5 -
50
a. Reconstruir una tabla de frecuencia.
b. ¿Qué porcentaje de valores se encuentran entre 40,5 y 49,5?.
c. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia absoluta.
d. Presentar Hi con una gráfica escalonada.
----------------------o0o----------------------
Estadística Aplicada a la Investigación Científica 41
CAPITULO III
MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN.
En esta etapa la estadística esta dedicada al estudio y análisis de las medidas descriptivas.
Estas medidas se denominarán estadígrafos o estadísticas cuando se trata de la muestra, en
cambio se denominarán parámetros cuando se trata de datos de la población. Es importante
remarcar, que cuando se trabaja con los datos de la muestra, éstas serán de utilidad para su
uso posterior en las pruebas de hipótesis.
MEDIDAS DESCRIPTIVAS
En el desarrollo de ésta unidad se desarrollará los estadígrafos más importantes.
3. MEDIDAS DE POSICIÓN
3.1. MEDIA ARITMÉTICA.
La media aritmética se puede considerar como el punto de equilibrio de todas las
observaciones o el centro de equilibrio de un objeto, es decir, el momento de todas las
observaciones.
Aritmético
Geométrico
Armónico
Promedios
Mediana
Moda
Tendencia Central
Quantiles
DE
PO
SIC
IÓN
DE DISPERSIÓN
Recorrido intercuartílico
Varianza
Desviación estándar
Desviación media
COEFICIENTES
De variación
De asimetría
De curtosis
42 C. Quintanilla C. / A. Cortavarria L.
DEFINICIÓN. La media aritmética es la suma de los valores observados de una
variable X, dividido entre el número de observaciones.
a) Media aritmética de datos no agrupados
La media de n valores x1. x2 , x3 , . . .xn , de la variable cuantitativa X , observados en
una muestra es el número:
1 2 3 ... nx x x xx
n
= 1
n
i
i
x
n
EJEMPLO.
Sean las notas de 12 alumnos de matemática obtenidas en la signatura de Geometría IV .
Sección A 05 08 09 09 10 11 12 10 13 12 13 15
Luego el promedio
x = 05 08 09 09 10 11 12 10 13 12 13 15
12
x =
127
12, x = 10,583.
b) Media aritmética de datos agrupados
La media de n valores x1. x2 , x3 , . . .xn , de la variable cuantitativa X , observados en
una muestra muchas de ellas tienen los mismos valores, lo cual resulta que se tiene que
agrupar en grupos de n1 , n2 , n3 , . . . ni, cuyo resultado respectivo de la media es:
1 1 2 2 3 3 ... i ix n x n x n x nx
n
= 1
k
i i
i
x n
n
EJEMPLO.
Del ejemplo anterior, puntajes alcanzados en el examen de Admisión.
i. Li – Ls Yi Frec. Abs. (ni) Yi ni
1 26 – 33 29.5 4 118
2 33 – 40 36.5 7 255.5
3 40 – 47 43.5 6 261
4 47 – 54 50.5 10 505
5 54 – 61 57.5 14 805
6 61 – 68 64.5 10 645
7 68 – 75 71.5 13 929.5
8 75 – 82 78.5 9 706.5
9 82 – 89 85.5 3 256.5
10 89 – 96 92.5 4 370
n = 80 10
1
k
i i
i
y n
= 4 852 y = (4852)/80
y = 60,65
Estadística Aplicada a la Investigación Científica 43
PROPIEDADES.
i) Si todos los valores observados x1 , x2 , x3 , . . . xn son iguales a una constante b,
entonces
EJEMPLO: sean las notas de Jorge 12, 12, 12, 12, 12. Entonces su media será: x = 12,
la misma constante.
ii) Si todos los valores observados x1 , x2 , x3 , . . . xn se le suma o resta una constante, el
nuevo valor de cada observación transformado es bxy ii , luego la media es:
iii) Si a cada uno de los valores observados x1 , x2 , x3 , . . . xn se le multiplica por una
constante “a” diferente de cero (0), el nuevo valor de cada observación transformado
es ii axy , entonces la media aritmética es.
iv) Si realizamos en adjuntar las propiedades ii) y iii), ésta se transforma en funciones
lineales especiales.
donde: a y b son constantes.
3.2. MEDIANA.
En muchos casos la media aritmética no es una buena medida de tendencia central, por
ejemplo las notas de 10, 12, 11, 13 y 20. En este caso, la nota de 20 distorsiona la
información, resultaría la media de 13,2. Entonces, surge la necesidad de utilizar la mediana.
Y cuyo valor sería de 12, una información al menos adecuada.
La mediana es una medida que localiza el centro de las observaciones; es decir,
distribuye en dos partes iguales las observaciones de una distribución. Para variables
cuantitativas, es un número tal que al menos el 50% de los datos es menor o igual que la
mediana y al menos el 50% mayor o igual.
a) Para datos no tabulados
se ordenan en forma ascendente y luego se ubica el valor central.
EJEMPLO
Se tienen las notas de estudiantes de la especialidad de matemática.
Sección A 12 10 9 12 8 5 12 11 13 9 15
M(x) = M(b) = b
bxMyMy )()(
)(yMy =aM(x)
baxy ii
Valores
transformados
Valores
observados
inicialmente
44 C. Quintanilla C. / A. Cortavarria L.
Sección B 08 11 12 13 12 10 12 11 12 8
* Ordenamos los datos de la sección A:
Sección
A
5 8 9 9 10 11 12 12 12 13 15
50% de datos Me = 11 50% de datos.
La mediana Me = 11, porque la cantidad de datos es impar.
* Ordenamos los datos de la sección B:
Sección
B
8 8 10 11 11 12 12 12 12 13
50% de datos Me = 11,5 50% de datos.
En este caso como la cantidad de datos es par se tomó los dos datos centrales, entonces
Me = 11 12
2
=11,5.
b) Para datos tabulados
Si los valores de la variable están tabulados mediante una distribución de frecuencias por
intervalos, la mediana se determina por:
1
2i
i i
i
nN
Me L An
;
EJEMPLO.
i. Li – Ls Yi Frec.
Abs. (ni) Frec. Absol Acumulada(Ni)
1 26 – 33 29.5 4 4
2 33 – 40 36.5 7 11
3 40 – 47 43.5 6 17
4 47 – 54 50.5 10 27
5 54 – 61 57.5 14 41
6 61 – 68 64.5 10 51
7 68 – 75 71.5 13 64
8 75 – 82 78.5 9 73
9 82 – 89 85.5 3 76
10 89 – 96 92.5 4 80
80
Ai = 33 – 26 = 7, jn = 14, Nj = 41, Nj-1 = 27.
Luego la mediana es Me = 40 27
54 ( )714
Se ubica el valor de 2
n
en 12
j j
nN N
Nj-1 = 27
Ubicamos el valor de 80
402
en 12
j j
nN N se
encuentra entre 27 y 41.
Nj = 41
jn = 14
Me = 60,5
Estadística Aplicada a la Investigación Científica 45
Propiedades. La mediana es el punto para el que en la distancia euclídea media a los
valores de la muestra es mínima, es decir, para cualquier a.
1 1
k k
i i i i
i i
x Men x an
Sólo tiene en cuenta la posición de los valores en la muestra y por otro lado tienen
mucho mejor comportamiento que la media cuando hay observaciones anómalas.
3.3. MODA.
Definición. La moda de una serie de datos es el valor Mo, que se define como el dato que
más se repite.
La moda no siempre existe, y si existe, no siempre es única. La moda sirve para señalar el
valor que más se repite en una variable. La moda es el valor menos importante debido a su
ambigüedad.
a) Moda para un conjunto de datos de cantidad pequeña.
EJEMPLO.
Sean las notas de un grupo de niños de educación Inicial, en aprestamiento a las
matemáticas:
12, 13, 11, 11, 10, 11, 12, 11 y 12.
Solución.
La moda es la nota 11, porque existen 4 niños que obtuvieron la nota de 11 y es la mayor
cantidad que los demás notas.
EJEMPLO.
Se realiza una encuesta en el estudiantado de la Universidad, con referencia a la actitud
(excelente (E), bueno (B), Regular (R), Deficiente (D)) de los estudiantes con respecto a sus
profesores cuyos resultados son:
R, D, E, B, D, B, B, D, D, D, R, R, E, R, D, D, R, D, R, D
Solución.
La moda es la letra “D”, porque, del encuestado se ha obtenido mayor cantidad de
estudiantes que manifiestan que son deficientes la actitud de estudiante frente a sus
profesores.
b) Moda para datos de cantidades grandes y agrupadas.
Para calcular la moda de n datos tabulados en k intervalos, se ubica al intervalo que tiene
mayor frecuencia (intervalo modal). Luego se utiliza la formula.
Mo = ii ADD
DL
21
1 ; donde:
EJEMPLO. Sobre el estudio inicial del puntaje de ingresos a la Universidad Nac. De
Hvca.
D1= ni – ni-1.
D2= ni – ni+1.
46 C. Quintanilla C. / A. Cortavarria L.
Solución
Ubicamos el intervalo con mayor frecuencia absoluta, y es el I5 , donde n5 = 14. Luego se
tiene:
i Li – Ls Yi. Fr. Abs
(ni).
1 26 – 33 29,5 4
2 33 – 40 36,5 7
3 40 – 47 43,5 6
4 47 – 54 50,5 10
5 54 – 61 57,5 14
6 61 – 68 64,5 10
7 68 – 75 71,5 13
8 75 – 82 78,5 9
9 82 – 89 85,5 3
10 89 – 96 92,5 4
80
Reemplazando las diferencias
D1= ni – ni-1.
D2= ni – ni+1.
D1= 14 – 10 = 4. D2= 14 – 10 = 4.
Reemplazando en la ecuación,
Mo = 744
454
Importante. La formula de la moda sólo es aplicable en distribuciones con una sola
frecuencia máxima.
A TRABAJAR CON EL SPPS.
Para usar la herramienta del SPSS, ingrese los datos en la primera columna, como se ha
realizado las operaciones anteriores. Luego ingresar a Análisis, como se muestran las
figuras o abrir el archivo anterior.
Ingresar los datos de los resultados del examen de
admisión en la columna
respectiva.
ni-1 = 10
ni = 14
Li = 54
ni+1 = 10
Mo = 57,5
Estadística Aplicada a la Investigación Científica 47
PUNTUACIONES DE EXAMEN DE ADMISIÓN
N Válidos 80
Perdidos 0
Media 60,49
Mediana 60,00
Moda 49(a)
Desv. típ. 16,036
Varianza 257,139
Rango 65
Mínimo 28
Máximo 93
Percentiles 25 49,00
50 60,00
75 72,00
PUNTUACIONES DE EXAMEN DE ADMISIÓN
10080604020
Fre
cu
en
cia
10
8
6
4
2
0
Histograma
Media =60,49Desviación típica =16,
036N =80
a Existen varias modas. Se mostrará el menor de los valores.
Hacer clic en Análisis
Estadística Descriptiva y
Frecuencias….
Elegir la variable (puntajes
de Admisión) y enviar a
variables
Elegir las opciones que
desea obtener (Media,
mediana y moda).
Luego pulsar en
Estadísticos.
Elegir las medidas de
dispersión. Y otros medidas que desea conocer.
Finalmente pulsar Continuar.
2 C. Quintanilla C. / A. Cortavarria L.
Observación. Que la media es 60,49, lógicamente defiere de nuestra media que
encontramos y es de 60,65. ¿Donde esta el error?. No existe error, lo que pasa es que la
media que realizamos fue en un conjunto de datos sometidos a tablas de frecuencia y
lógicamente se tiende a perder información. En cambio la máquina (SPSS), ha realizado
operación sin intervalos y cuyo resultado es ese valor de 60,49. Por dicha razón se
recomienda que no deba hacerse abuso del uso de las tablas de frecuencia.
MEDIDAS DE DISPERSIÓN
Cuando las medidas de Posición no son suficientes para describir un conjunto de valores de
alguna variable estadística, los promedios determinan el centro, pero no indican las
dispersión o como están situados los datos respecto al centro.
Las Medidas de dispersión o variabilidad son números que miden el grado de separación de
los datos con respecto a un valor central, que generalmente es la media aritmética. Las
principales medidas de dispersión son:
El rango o recorrido.
El recorrido intercuartílico.
La varianza.
La desviación estándar o desviación típica.
El coeficiente de variación.
Por la naturaleza del curso, solamente las tres últimas desarrollaremos.
3.4. VARIANZA
La varianza, es una medida que cuantifica el grado de dispersión o de variación de los
valores de una variable cuantitativa con respecto a su media aritmética. La varianza es
pequeña, si el valor de las variables se concentra al alrededor de la media. En cambio, el
valor de la varianza es grande si los valores de las variables se encuentran alejados del valor
de la media.
La varianza muestral se denota por 2s y la varianza poblacional se denota por 2 ,
cuyas unidades de medidas se expresan en unidades de medición al cuadrado (m2, kg
2, s/
2, ..
etc.).
DEFINICIÓN. La varianza o variancia de una población finita de N elementos, se define
como la media aritmética del cuadrado de las desviaciones de las
observaciones con respecto a su media , y cuya ecuación es:
N
xN
i
i
1
2
2
)(
DEFINICIÓN. La varianza o variancia de una población finita de n elementos de una
variable X, se define media aritmética del cuadrado de las desviaciones de
las observaciones con respecto a su media. Denotamos:
n
xx
s
n
i
i
1
2
2
)(
n
xxn
s
k
i
ii
1
2
2
)(
Estadística Aplicada a la Investigación Científica 3
Sin embargo, ésta sería un estimador sesgado de las varianza poblacional 2 , además da la
impresión de que es la misma formula en la muestra y en la población. Es cierto, pero las
medias x y difieren y que raras veces pueden coincidir; Bessel realiza una corrección,
luego la ecuación para la muestra es:
1
)(
ˆ 1
2
2
n
xx
s
n
i
i
Para datos no agrupados.
1
)(
ˆ 1
2
2
n
xxn
s
k
i
ii
Para datos agrupados en k intervalos.
Realmente, estas ecuaciones si son estimadores insesgado de la varianza poblacional 2 (revisar en estimación puntual de parámetros) , por lo que trabajaremos con dicha
ecuación.
Propiedades:
i) La varianza de un conjunto de observaciones x1 , x2 , x3 , . . . xn siempre es un número
no negativo.
ii) La varianza de una constante es cero (0). Significa que si las observaciones x1 = x2 = x3
= . . .= xn = b constante, entonces:
iii) Si a cada observación x1 , x2 , x3 , . . . xn se le adiciona una constante b > 0, la nueva
varianza del nuevo conjunto de valores y1 , y2 , y3 , . . . yn donde yi = xi b, coincide
con el valor inicial. Por la propiedad ii).
V(y) = V(x b) V(y) = V(x) V( b) V(y) = V(x) 0.
Por tanto,
iv) Si a cada observación x1 , x2 , x3 , . . . xn se le multiplica una constante b > 0, la nueva
varianza del nuevo conjunto de valores y1 , y2 , y3 , . . . yn donde yi = axi, es igual a la
varianza original multiplicado por el cuadrado de la constante.
V(y) = V(ax)
v) De las propiedades iii) y iv) se tiene: V(y) = V(ax b), luego desarrollando
encontramos: porque V(b) = 0
V(y) = a2 V(x)
V(x) 0
V(b) = 0
V(y) = V(x)
V(y) = a2 V(x)
4 C. Quintanilla C. / A. Cortavarria L.
EJEMPLO
Sobre el trabajo de investigación de las puntuaciones de los ingresantes a la UNH. Hallar su
varianza.
Se sabe que la media es x = 60,65.
SOLUCIÓN.
Como la suma de
(ni)(y – y )2 = 21354,2
la varianza es:
180
2,21354ˆ2
s = 270,306329
EJEMPLO.
El Sindicato de Docentes del Magisterio peruano, mediante su reclamo logra obtener unos
aumentos. Hasta antes realizar su pedido, el promedio de haberes de todo el magisterio era
de s/.1150 nuevos soles y una varianza de S/.90 al cuadrado. El incremento obtenido fue de
20%, además una bonificación de S/. 100 nuevos soles por dedicación a la institución
educativa.
i) Después del reclamo ¿cuanto equivale el nuevo promedio?.
ii) ¿Cuanto equivale el nuevo aumento más la bonificación?.
iii) ¿Cuanto equivale la nueva varianza?.
SOLUCIÓN.
Sea el incremento el 20% de haber, entonces la ecuación es:
y = ax + b y = 0,2x + x + b
luego la ecuación es: y = 1.2x + b
i) Hallando la nueva media.
M(y) = M(1.2x) M(y) = 1,2M(x) . Prop.
i. Li – Ls Yi Frec.Abs.(ni) (yi – y )2
(ni)(y – y )2
1 26 – 33 29.5 4 790,3225 3 881,29
2 33 – 40 36.5 7 583,2225 4 082,5575
3 40 – 47 43.5 6 294,1225 1 764,7350
4 47 – 54 50.5 10 103,0225 1 030,2250
5 54 – 61 57.5 14 9,9225 138,9150
6 61 – 68 64.5 10 14,8225 148,2250
7 68 – 75 71.5 13 117,7225 1 530,3925
8 75 – 82 78.5 9 318,6225 2 867,6025
9 82 – 89 85.5 3 617,5225 1 852,5675
10 89 – 96 92.5 4 1 014,4225 4 057,69
n = 80 21 354,2
2s = 270,30633
Estadística Aplicada a la Investigación Científica 5
M(y) = 1,2(1 150) = 1 380.
ii) Hallar media + la bonificación.
M(y) = 1,2M(x) +M( b)
M(y) = 1,2(1 150) +100 M(y) = 1480.
iii) La nueva varianza:
V(y) = V(1.2x + b) V(y) = 1,22 V(x) +V( b)
V(y) = 1,22 (90) +0 V(y) = 129,6.
3.5. DESVIACIÓN ESTANDAR.
La desviación típica cuantifica el error que cometemos si representamos una muestra
únicamente por su media.
1
)(
ˆ 1
2
n
xx
s
n
i
i
para datos no agrupados.
1
)(
ˆ 1
2
n
yyn
s
k
i
ii
para datos agrupados en k intervalos.
Del EJEMPLO anterior sobre los puntajes de ingresantes a la UNH, se tiene:
La varianza: 2s = 270,30633
Luego la desviación típica es: 3063291,270ˆ s =
3.6. COEFICIENTES DE VARIACIÓN
Las medidas de dispersión anteriores dependen de las unidades de medida, el
coeficiente de variación es en cambio, una unidad de medida de dispersión relativa
(adimensional).
100ˆ
x
SCV
Con el mismo ejercicio anterior tenemos:
10065,60
441,16CV = 27,12%.
Nota La obtención de las medidas de posición se ha detallado sus procedimientos con el
SPSS, y se deja al lector seguir los pasos para encontrar la varianza y desviación
estándar.
16,44099538
.
6 C. Quintanilla C. / A. Cortavarria L.
A TRABAJAR CON EL SPPS.
Para usar la herramienta del SPSS, ingrese los datos en la primera columna, como se ha
realizado las operaciones anteriores. Luego ingresar a Análisis, como se muestran las figuras.
PUNTUACIONES DE EXAMEN DE ADMISIÓN
N Válidos 80
Perdidos 0
Media 60,49
Mediana 60,00
Moda 49(a)
Desv. típ. 16,036
Varianza 257,139
Rango 65
Mínimo 28
Máximo 93
Percentiles 25 49,00
50 60,00
75 72,00
PUNTUACIONES DE EXAMEN DE ADMISIÓN
10080604020
Fre
cu
en
cia
10
8
6
4
2
0
Histograma
Media =60,49Desviación típica =16,
036N =80
Hacer clic en Análisis
Estadística Descriptiva y
Frecuencias….
Elegir la variable (puntajes
de Admisión) y enviar a
variables
Elegir las opciones que desea obtener (Media,
mediana y moda).
Luego pulsar en
Estadísticos.
Elegir las medidas de
dispersión. Y otros medidas que
desea conocer. Finalmente pulsar Continuar.
2 C. Quintanilla C. / A. Cortavarria L.
EJERCICIOS.
1. Dos fabricantes de productos educativos “XY” anuncian que la vida promedio de sus productos
es de 7 años, utilizándolas en condiciones normales en un laboratorio. Para ello, la UNH que
desea adquirir, realiza una encuesta para determinar si es afirmativo la propuesta de los fabricantes, cuyo resultado son:
FABRICANTE A: 8, 7, 5, 6, 7, 8, 5, 7, 6, 5, 9, 7, 8, 9, 6, 7, 9, 6, 7, 8
FABRICANTE B: 4, 5, 2, 3, 9, 7, 9, 7, 5, 7, 6, 6, 7, 8, 9, 8, 9, 6, 7, 7, 5. a. ¿Cuál vida promedio señaló cada fabricante?.
b. Cuál de los materiales educativos representaría mejor duración.
c. ¿Cuál de los fabricantes ofrece mejor homogenidad con respecto a la duración?.
2. La media mínima para aprobar el curso de Estadística Bayesiana es de 12 puntos. El estudiante
presenta las notas de 12, 13, 11, 9, 8, 11, 10, 12 y 15. Si el alumno no aprueba, cuantos puntos
se debe agregar a cada examen para aprobar?. Hallar la nueva varianza.
3. Se tiene los ponderados acumulados durante los cuatro 6 primeros ciclos de 50 estudiantes, tal
como se muestra:
80 57 65 81 47 53 41 69 76 42
71 74 52 50 54 59 61 85 89 73
41 65 33 35 68 73 55 67 88 66
94 84 85 64 45 55 78 39 94 66
60 77 35 74 77 91 48 60 65 98
a. Construir la tabla de frecuencia.
b. Graficar ni, Ni, hi, y Hi. c. Hallar la media, mediana y moda.
d. Hallar la varianza, desviación típica y coeficiente de variación.
e. Hallar el Q1, Q3, D4, D8, C25, y M750.
4. Se tiene la siguiente tabla de frecuencias relativas respecto a 300 estudiantes de las
especialidades de Matemática – Física y Historia y Ciencias Sociales, cuya distribución se encuentra de acuerdo a la edad.
EDADES 18 - 21 21 - 24 24 - 27 27 - 30 30 - 33
hi 0.15 0.25 0.35 0.15 0.10
a. Hallar la media, mediana y moda de las edades.
b. Hallar la varianza, desviación típica y coeficiente de variación de las edades. c. Hallar el Q1, Q3, D4, D8, C25, y M750.
d. A partir de que edad es el cuartel superior, y cuantos los conforman.
5. Dada la siguiente tabla de frecuencia incompleta sobre los diámetros de los lápices que utilizan
los estudiantes, cuyas medidas generaron una media de 0,61.
EDADES 0,20 – 0,40 0,40 – 0,60 0,60 – 0,80 0,80 – 1,00
hi 0.15 0.25 0.40 0.20
a. Completar la tabla de frecuencia y hallar la mediana y moda. b. Hallar la varianza, desviación típica y coeficiente de variación.
Estadística Aplicada a la Investigación Científica 3
6. Se tiene una muestra de los salarios de los docentes que trabajan en el sector educación:
560 613 57 3 775 626 750 635 551 643 604 608 575 613 557 376 622 696 675 686 593
655 727 654 614 685 738 659 628 757 802
668 613 697 765 727 576 754 682 819 647
698 648 665 656 658 763 655 793 650 643 684 712 725 583 733 554 732 557 814 560
658 608 658 805 667 809 681 680 668 718
729 733 733 753 759 744 666 652 736 653 733 749 682 592 693 555 677 635 673 634
679 569 676 620 650 756 623 587 636 598
a. Hallar la media, mediana y moda. b. Hallar el Q1, Q3, D5, D7, C25, y M750.
c. Hallar la varianza, desviación típica y coeficiente de variación
7. En las últimas luchas reivindicativas se ha logrado un aumento, con las siguientes propuestas:
PRIMERO: un aumento de 10% y una bonificación de S/.50 nuevos soles.
SEGUNDO: un aumento de 106 nuevos soles. d. ¿Cuál de las propuestas debería de tomar como mejor alternativa, para el magisterio?.
e. ¿Cuál de las alternativas no le conviene al Gobierno?.
f. Si el Magisterio consta de 250 000 profesores, ¿Cuánto debe el Estado prever para los pagos
después del aumento?. g. Hallar la media y la varianza después del aumento.
8. En la Especialidad de Matemática-Física son matriculados en el curso de Topología General, 24 estudiantes llevan el curso por primera vez, 6 llevan por segunda vez y 2 por tercera vez. Se
sabe que 12 es el promedio de notas de los que llevan por primera vez y las notas de los que
llevan por segunda vez en promedio es superior en un 15% de los que llevan por primera vez. calcular el promedio de notas de los que llevan el curso por tercera vez si la suma total de las
notas es de 410.
9. En una prueba de inteligencia en un área rural se obtuvo los puntajes. La tabla incompleta se encuentra por error de la secretaria del Profesor Shara, que ahora requiere completar con los
datos existentes. ( n = 50, cj = 20 puntos)
k li - ls Yi ni Ni Yi.ni.
1 10 300
2 400
3 23 350
4 17
5 110 1 100
a. Hallar la media, mediana y moda.
b. Hallar el Q1, Q3, D2, D7.5, C25, y M750. c. Hallar la varianza, desviación típica y coeficiente de variación.
d. ¿Cuántos estudiantes alcanzaron puntajes entre la media y la mediana?
10. La siguiente información ha sido obtenida de la secretaria de la FED y corresponde a los resultados de la evaluación realizada a los profesores en el año 2003.
4 C. Quintanilla C. / A. Cortavarria L.
B B C B C B A B B A B D B B D A D B A A C A A C A A C B
A A A A E A C D E B C C E A A B D A A B E D A B A B D C A A C D E A A B A B A C D A
a. Hallar la moda. Si existe una escala de calificación como se muestra:
CALIFICACIÓN E D C B A ESCALA 0 a 04 04 a 08 08 a 12 12 a 16 16 a 20
b. Hallar la media, la mediana.
c. La media encontrada convertir a la escala de cualidad y explicar el fenómeno.
11. Un estudiante de historia realiza estudio sobre número de hijos que tienen las familias de
Huancavelica, luego se obtuvo en 96 familias los siguientes datos:
2 0 5 8 9 2 5 6 1 6 11 6
4 3 3 9 3 0 4 4 8 2 3 8
4 5 6 6 5 1 3 7 7 5 9 5
5 8 4 10 6 8 6 7 3 8 8 8
3 6 2 8 4 9 7 8 5 2 5 9
1 7 5 7 7 5 5 6 9 6 8 6
5 3 9 12 1 8 13 9 8 3 7 5
3 1 5 3 8 5 9 0 4 3 6 2 Fuente: Encuesta 2004 – Huancavelica, Historia y CC SS. UNH.
a. Hallar la media, mediana y moda.
b. Hallar la varianza, desviación típica y coeficiente de variación.
12. En la Universidad Nacional de Huancavelica, el coeficiente de variación de sus 250 profesores
es de 50%. Se realiza un reajuste de sueldos de acuerdo a Ley, todos los sueldos en S/. 1100
nuevos soles, ahora con un C.V. de 40%. Sin embargo la Universidad con una nueva política fija un sueldo mínimo de S/.3500 nuevos soles. Antes del reajuste habían 10 personas que ganaban
S/.3000 en promedio y todos ellos ganaban menos de S/. 3200. Determinar la cantidad de dinero
necesario para cubrir la mensualidad por parte de la Universidad luego del reajuste.
13. Una empresa aseguradora para S/ 30,000 en caso de accidente de carro y cobra una tasa de S/.
1,000. se sabe que la probabilidad de que un carro sufra un accidente en una determinada
localidad es de 3%. Si se sabe que hay 100 carros asegurados, ¿Cuánto espera ganar por cada carro la aseguradora?. Rp. S/. 100. por c/u.
14. Sea X una variable aleatoria con función de densidad de probabilidad;
20 3
9
0
x,..... x
f ( x )
....
Cero en otros caso.
Calcular la media: ( ) ( )E x xf x dx
.
Estadística Aplicada a la Investigación Científica 5
CAPITULO III
DOCIMASIA DE HIPÓTESIS
Ideas básicas.
En muchas situaciones estamos interesados en tomar una decisión de aceptar o
rechazar una determinada afirmación basándonos en un conjunto de evidencias. Un ejemplo
común es el caso en que un individuo esta siendo juzgado por un determinado delito. Con
base en las evidencias (testimonios, fotografías, etc,), el Juez tendrá que determinar si es
culpable o inocente el individuo. Podemos, entonces concluir que el Juez formula dos
hipótesis: “HO : el individuo es inocente” y la alternativa “HA : el individuo es culpable.
Con base a las evidencias presentadas, el Juez puede estar cometiendo un error, pues a pesar
de las evidencias el individuo puede ser inocente. El mismo se daría a la aceptación de la
Hipótesis Nula como verdadera. En ese caso, el Juez estaría considerando como inocente a
un individuo culpable.
Un problema más próximo del área de atención de la estadística ( a pesar de que la
estadística a sido utilizada para resolver problemas jurídicos), es el problema de decidir
sobre la eficacia o no de una cierta vacuna utilizada en el combate a una determinada
enfermedad. Los investigadores formulan las hipótesis:
H0 : La vacuna no es eficiente.
HA : La vacuna es eficiente,
En ese caso, un experimento es planeado en un grupo posiblemente grande de
personas seleccionadas al azar recibe vacuna y el resto recibe una sustancia inócua. Con
base en los resultados de ese experimento, los investigadores entonces decidirán por H0 y HA
. Nuevamente no está descartada los errores que hayan cometidos al considerarse, por
ejemplo la vacuna eficiente ( que la H0 es falsa) cuando en realidad esta no es o es ( que la
H0 es verdadera ), esto sería bastante perjudicial para la población. El estadístico
involucrado en la investigación debe procurar utilizar técnicas que tengan una mínima
probabilidad de cometer error.
En este capítulo, el objetivo de la inferencia estadística se utilizará para probar la
validez de una afirmación acerca del valor del parámetro de la población. La afirmación
expresada generalmente se llama “Hipótesis”, a estos métodos se les denominan pruebas
de hipótesis, contraste de hipótesis o docimasia de hipótesis.
3.1. HIPÓTESIS ESTADÍSTICA.
Obviamente una hipótesis tautológica no requiere ninguna comprobación estadística,
por EJEMPLO: “El viajará mañana o no”, no es ni falso ni cierto. En general, una hipótesis
6 C. Quintanilla C. / A. Cortavarria L.
es una explicación propuesta que puede o no ser cierta, por EJEMPLO: Shara me quiere,
está afirmación puede ser cierta o falsa.
Una hipótesis estadística es una afirmación cuantitativa acerca de una población.
DEFINICIÓN. Llamamos hipótesis estadística a cualquier afirmación acerca de la
distribución de probabilidades de una o más variables aleatorias.
Denotamos por H0 (hipótesis Nula) la hipótesis de interés. En el caso que H0 sea rechazada,
aceptamos como verdadera la hipótesis alterna H1.
3.2. HIPÓTESIS NULA Y HIPÓTESIS ALTERNA
DEFINICIÓN. Se llama hipótesis nula (H0 ), a la hipótesis que inicialmente es aceptada
provisionalmente como verdadera y cuya validez será sometida a la
comprobación experimental. Una vez ejecutado la parte experimental nos
permitirá aceptarla o rechazarla.
Nota: Habitualmente la hipótesis alternativa representa la creencia que el investigador
quiere probar.
DEFINICIÓN. Se llama hipótesis alterna (H1 o HA ), a la hipótesis que se acepta en caso de
que la hipótesis nula haya sido rechazado. Su planteamiento es contrario a
la hipótesis nula.
El ejemplo nos muestra lo opuesto que son H0 y H1 , si se considera que es 0 el
valor del parámetro de una población cuya distribución se supone conocida, entonces las
afirmaciones son:
a. H0 : = 0 y H1 : 0 .
b. H0 : = 0 y H1 : > 0 .
c. H0 : = 0 y H1 : < 0 .
EJEMPLOS:
Hipótesis científica Hipótesis Estadística
Ho: El promedio promocional en la asignatura de estadística a
final de cada ciclo es de 12,5.
HA: El promedio promocional en la asignatura de estadística a
final de cada ciclo es diferente a 12,5.
H0 : =12,5.
HA : 12,5
Ho: En la enseñanza de Análisis Matemático asistido con
software matemático, el rendimiento académico por los
alumnos alcanza un promedio de 13.
HA: En la enseñanza de Análisis Matemático asistido con
software matemático, el rendimiento académico por los
alumnos alcanza por lo menos un promedio de 13.
H0 : 13.
HA : >13.
Ho: Por lo menos el 90% de los estudiantes de tiempo
completo usarán la biblioteca durante la semana de
exámenes finales.
HA: A lo menos el 90% de los estudiantes de tiempo completo
usarán la biblioteca durante la semana de exámenes finales.
H0 : 0,9.
HA : < 0,9.
Estadística Aplicada a la Investigación Científica 7
3.3. PRUEBA DE UNA HIPÓTESIS ESTADÍSTICA
Para tomar decisiones estadísticas, se requieren dos hipótesis: Hipótesis nula y la
Hipótesis alterna referidas a un parámetro .
La hipótesis nula H0 es la primera hipótesis que se plantea de manera que debe especificar el
valor 0 del parámetro en estudio. Por esta razón, algunos autores plantean las hipótesis
nula H0: = 0 y ésta debe de ser probado.
Prueba de hipótesis nula H0 contra hipótesis alterna H1.
Hipótesis Nula Hipótesis Alterna Direccionalidad
H0 : E = 0 vs H1 : E
0 .
Prueba bilateral de dos colas.
2 2
1
0
H0 : E = 0 vs H1 : E > 0 .
Prueba unilateral de cola a la
derecha.
1
H0 : E = 0 vs H1 : E < 0 .
Prueba unilateral de cola a la
izquierda.
1
DEFINICIÓN. Se denomina nivel de significación de una prueba de hipótesis a la
probabilidad de cometer un error de tipo I (probabilidad : ).
Verdadero
Decisión Ho Verdadera Ho Falsa
Aceptar Ho. Decisión correcta
Probab: (1 – ).
Error tipo II.
Aceptar Ho cuando
en realidad es falso.
Probab: .
Rechazar Ho.
Error tipo I.
Rechazar Ho cuando en
realidad es verdadero.
Probab: .
Decisión correcta
Probab: (1 – ).
8 C. Quintanilla C. / A. Cortavarria L.
NIVEL DE SIGNFICANCIA.
El nivel de significación es fijado por el investigador, generalmente es = 0.05
(5%), pero también se considera los valores = 0.01 (1%) o = 0.1 (10%). Es
convencional usar el nivel de significancia del 5% en caso de investigaciones cuasi-
experimentales y educativos donde es poco difícil controlar las variables; mientras que en
un laboratorio es al 1%, donde se realiza el experimento con mayor precisión.
IMPORTANTE: Las pruebas de hipótesis sólo proporcionan evidencias evaluables
y no razones absolutas o finales para la aceptación o rechazo de la
hipótesis.
3.4. PRUEBAS DE HIPÓTESIS PARAMETRICAS.
¿Porque se denomina pruebas paramétricas?, es cuando se realiza una prueba de
hipótesis y se conoce los supuestos medias (1 2 …) poblacionales, supuestas varianzas
( 2
1 , 2
2 …) poblacionales; es decir si se conoce los parámetros de la población. Además, no
solamente sus media ni varianzas, sino dependiendo que parámetro que se tenga que probar,
de la distribución de la población cuya función de densidad es f(x;).
Cabe aclarar, cuando se realiza un trabajo de investigación generalmente no se conoce el
tipo de distribución de la población de donde se extrae la muestra, tampoco sus parámetros
de dicha población, pero lo asumimos los supuestos parámetros y tipo de distribución de la
población como si fuese normal o aproximadamente normal y cometemos el craso error de
utilizar estadísticos que no son correctos o adecuados para dicho tratamiento; por lo que se
sugiere al investigador tener cuidado en el uso de los estadísticos.
a. La distribución de la población es normal o aproximadamente normal. Se determina
comparando , Me y Mo y la diferencia a lo más debe ser un punto.
b. Poblaciones con varianzas homogéneas (homocedasticidad o dispersión similar).
c. La variable principal de estudio es numérica.
d. Selección de muestra es aleatoria.
3.4.1. Pruebas de hipótesis con la distribución Z.
Sin lugar a duda, el modelo de mayor uso de todas las distribuciones continuas es la
distribución normal, denominado también distribución gaussiana “(atribuido a C.F. Gauss,
quien hizo primero referencia allá por los años 1809 en relación a la teoría de errores de
medidas físicas; sin embargo, ya había sido descubierto por Moivre en 1733 como la forma
limitante a la binomial. También fue conocida por Laplace en 1774 pero por un error
histórico a sido acreditada a Gauss)”3.
Definición. Una función de densidad de una variable aleatoria X, tiene una distribución
normal y cuyos parámetros son su media y desviación típica . Su función de
densidad de probabilidad es:
3 Maria josé Marques de Cantu. PROBABILIDAD Y ESTADISTICA, Edit. McGraw Hill – México 1990. pp.
137.
Estadística Aplicada a la Investigación Científica 9
2
2
1
2
1)(
x
exf
–∞< x <+∞; >0.
La gráfica corresponde cuando = 0 y = 1
y se conoce como la distribución normal
estándar.
2
2
1
2
1)(
x
exf
La distancia de un valor x a la media es (x – ), al expresar esta distancia en
unidades de desviaciones estándares , obtenemos la ecuación
xz ,
luego la función de densidad de probabilidad es expresado de la forma
2
2
1
2
1)(
z
ezf
; –∞< z <+∞;
Ahora ya expresado la distribución normal estándar, será de nuestro uso en las
pruebas de hipótesis, porque sin tener alguna idea sobre la distribución normal es difícil
comprender la tarea.
3.4.1.1. Prueba de hipótesis acerca de dos medias con Varianzas 2
1 y 2
2 supuestas
conocidas.
Sean 1X y 2X las medias de dos muestras aleatorias independientes de tañamos n1 y
n2 seleccionadas respectivamente de dos poblaciones independientes, con medias 1 y 2 y
varianzas 2
1 y 2
2 respectivas supuestas conocidas.
Definición. Si las dos poblaciones son normales, entonces, las estadísticas 1X y 2X tienen
respectivamente distribución normal N(1; 2
1 /n1) y N(2; 2
2 /n2). Luego la
estadística 1X – 2X tiene una distribución aproximadamente normal
N(1–2;2
1 /n1 + 2
2 /n2), para n1 2 y n2 ≥ 2.
Definición. Si las dos poblaciones no son normales pero n1 y n2 son suficientemente
grandes (n1 30 y n2 ≥ 30), entonces, la estadística 1X – 2X tiene una
distribución aproximadamente normal
N(1–2;2
1 /n1 + 2
2 /n2).
Luego, según sea el tipo de distribución de las dos poblaciones normales o no, la
estadística
N(0,1)
10 C. Quintanilla C. / A. Cortavarria L.
2
2
2
1
2
1
2121 )(
nn
XXZ
tiene una distribución exactamente o aproximadamente normal N(0;1).
Cuyo valor numérico es:
2
2
2
1
2
1
2121 )(
nn
xxzk
para 1–2 = 0, significa que se
supone verdadera la hipótesis nula.
EJEMPLO.
En la Facultad de Educación, Esp. Matemáticas de la UNH, se desea comparar dos métodos
A (método tradicional) y B (método asistido por software) la enseñanza de la geometría
Diferencial, para ello se seleccionó dos muestras aleatorias de tamaños n1 = 30 y n2 = 32 ,
cuyos medias respectivas de rendimiento en los dos grupos son 1x = 12 y 2x = 15. La
experiencia muestra que las poblaciones de notas en matemáticas para ambos grupos están
distribuidas en forma aproximadamente normal con desviaciones típicas de 6 y 5
respectivamente.
a) Al 5% de nivel de significancia, ¿se puede concluir que difieren significativamente la
enseñanza a través de los dos métodos?
b) En caso de ser cierto, cuál de los dos métodos es mejor.
SOLUCIÓN.
a) Veamos que sucede.
i) Como nos refieren que difieren significativamente, implica que ésta es nuestro hipótesis
de investigación la hipótesis alterna (HA). Por lo que proponemos el sistema de hipótesis.
H0: T = C
La enseñanza de la Geometría Diferencial asistido por un
software no difiere a la enseñanza de la Geometría
Diferencial con el método tradicional.
HA : T ≠ C
La enseñanza de la Geometría Diferencial asistido por un
software difiere significativamente a la enseñanza de la
Geometría Diferencial con el método tradicional.
T : Media supuesta del método tradicional
C : Media supuesta del método asistido por software.
ii) Nivel de significancia. = 0,05 (5%).
iii) Región crítica.
Como nuestra hipótesis de investigación dice DIFIERE (no dice si mejor o es peor que
la tradicional, puede ser cualquiera), significa que tiene dos colas. Entonces se tiene
que distribuir = 0,05 en dos partes.
/2 = 0,025 1- /2 = 0,975.
Luego Z1-/2 = Z0,975 = 1,96. Este valor encontramos en la tabla de la distribución Z.
Estadística Aplicada a la Investigación Científica 11
iv) Estadística de contraste.
32
5
30
6
)0(151222
21
kz = – 2,13.
v) Decisión.
2 2
1
0
Como zk = – 2,13 pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho), y se
acepta la hipótesis alterna. Existe diferencia significativa entre los dos métodos.
b) Verificamos cual de los dos métodos es mejor.
Cuando se realiza la prueba de hipótesis, sólo aceptamos o rechazamos la hipótesis
nula; sin embargo, no sabemos cual de los dos métodos fue mejor. Para ello, el intervalo de
confianza es una de las herramientas que muestra cual de ellas fue mejor.
Como se sabe que = 0,05 y Z0,975 = 1,96 utilizaremos intervalos de confianza.
2
2
2
1
2
12/12121
2
2
2
1
2
12/121
nnzxx
nnzxx
12 – 15 – (1,96)32
5
30
6 22
≤ T – C ≤ 12 – 15 + (1,96)32
5
30
6 22
– 5,76 ≤ T – C ≤ – 0,24.
Decisión:
Como T – C < 0 T < C, El método asistido con software es mejor.
3.4.1.2. Prueba de hipótesis a cerca de dos medias con Varianzas 2
1 y 2
2 supuestos
desconocidos.
a) Poblaciones no normales.
T – C
– 5,76 – 0,24 0
Región de rechazo Ho
- 1,96
Región de rechazo Ho Región de aceptación
1,96
zk = – 2,13
12 C. Quintanilla C. / A. Cortavarria L.
DEFINICIÓN. Si las dos muestras aleatorias independientes de tamaños n1 y n2 se
seleccionan de poblaciones cuyas distribuciones no son normales (se
desconoce las distribuciones de la poblaciones) con varianzas 2
1 y 2
2
supuestas desconocidas, se cumple para las muestras n1 y n2
suficientemente grandes (n1 30 y n2 ≥ 30), los parámetros 2
1 y 2
2 se
estiman con las varianza muestrales 2
1s y 2
2s .
Luego, para 1–2 = 0, significa que se supone verdadera la hipótesis nula se
cumple:
2
2
2
1
2
1
2121
ˆˆ
)(
n
s
n
s
XXZ
y tiene una distribución exactamente o aproximadamente normal N(0;1).
Importante: Es recomendable si el tamaño de las muestras son grandes, no utilizar
la distribución t – student, porque no se conoce la distribución de la
población.
b) Poblaciones normales (Pruebas de Hipótesis con distribución t – Student).
Sea 1X , 2X las medias y varianzas 2
1s , 2
2s de dos muestras aleatoria independientes
de tamaños n1 y n2 respectivamente seleccionados de dos poblaciones normales con medias
1 y 2, varianza 2
1 y 2
2 desconocidas, en este caso se recomienda el uso de la distribución
t- Student; y se presentan dos casos:
b1) Se tienen varianzas supuestas iguales 2
1 =2
2 = .
Se utiliza cuando se realiza un trabajo de investigación en una misma población, o en
una población que tengan la misma característica. Por EJEMPLO, cuando se realiza un
trabajo de investigación en un mismo Institución Educativa con dos grupos, una de control y
otra experimental.
La ecuación respectiva es:
2
2
1
2
2121
ˆˆ
)(
n
s
n
s
XXT
cc
tiene una distribución t – student con r = n1 + n2 – 2 grados de libertad, donde la varianza
común es:
2
ˆ)1(ˆ)1(ˆ
21
2
22
2
112
nn
snsnsc
siendo su valor numérico:
)11
(ˆ
)(
21
2
2121
nns
xxt
c
k
para 1–2 = 0, significa que se supone verdadera la hipótesis nula.
Estadística Aplicada a la Investigación Científica 13
b2) Se tienen varianzas supuestas diferentes 2
1 ≠ 2
2 .
Esta prueba se utiliza cuando las muestras son extraídas de poblaciones distintas. Por
EJEMPLO, cuando se realiza un trabajo de investigación en dos Instituciones educativas
distintas de diferentes regiones, cuyas características por su puesto son distintos.
Para esta distribución es:
2
2
2
1
2
1
2121
ˆˆ
)(
n
s
n
s
XXT
tiene una distribución t – student con r grados de libertad,
siendo:
1
ˆ
1
ˆ
ˆˆ
2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1
n
n
s
n
n
s
n
s
n
s
r , redondeando al entero más cercano.
Luego el valor de
2
2
2
1
2
1
2121
ˆˆ
)(
n
s
n
s
xxtk
,
para 1–2 = 0, significa que se supone verdadera la hipótesis nula.
EJEMPLO.
Con la finalidad de saber el rendimiento en matemática se tomó muestras aleatorias en el
tercer grado en dos colegios centenarios, una en la ciudad de Huancayo (T) y otra en la
ciudad de Huancavelica (C), y las muestras son de 15 y 14 estudiantes respectivamente,
cuyas notas finales en matemática son:
Hyo 12 08 11 10 15 14 12 14 11 10 8 12 13 11 14
Hvca. 11 12 15 6 8 10 11 10 11 12 11 13 10 11
a) Al 5% de nivel de significancia se puede afirmar que el rendimiento en matemáticas
son diferentes. Suponiendo que tienen las poblaciones normales de las notas en
matemática.
SOLUCIÓN:
i) Hipótesis.
H0 : T = C El rendimiento en matemáticas en ambos
colegios es igual.
HA : T ≠ C El rendimiento en matemáticas en ambos
colegios no es igual.
ii) Hallando sus medias y varianzas respectivas.
14 C. Quintanilla C. / A. Cortavarria L.
Huancayo Huancavelica
Media 11,6667 10,79
Desviación típica 2,125 2,12
Varianza muestral 4,52 4,49
Tamaño de muestra nT = 15 nC = 14
iii) Grado de libertad y Valor crítico.
Según el problema, las varianzas supuestas son diferentes ( 2
Hyo ≠ 2
Hvca ), porque se
trata de lugares y realidades distintas, además se sabe que las poblaciones tienen
distribuciones normales. Entonces utilizaremos la estadística t – student para varianzas
de poblaciones supuestas diferentes.
Hallemos el grado de libertad:
114
14
49,4
115
15
52,4
14
49,4
15
52,4
22
2
r r = 26,88 r = 27.
Buscando el valor Crítico.
Como = 0,05 y nuestra hipótesis es de dos colas, se divide = 0,05 en dos partes.
/2 = 0,025 1- /2 = 0,975
luego t1-/2;r = t0,975;27.= 2,052 (ver tabla de t de student)
vi) Estadística de contraste.
14
49,4
15
52,4
)0(79,106667,11 21
kt = 1,11. tk = 1,11.
vii) Decisión:
2 2
1
0
Como tk = 1,11 pertenece a la región de aceptación de la hipótesis nula (Ho), se acepta la
hipótesis nula y se concluye que el rendimiento en matemáticas en ambos colegios es igual.
Región de rechazo Ho
-2,052
Región de rechazo Ho Región de aceptación
2,052
tk = 1,11
Estadística Aplicada a la Investigación Científica 15
TRABAJANDO CON EL SPSS
Ahora veamos como funciona con el SPSS, los datos de la muestra ingresaremos y seguiremos los
siguientes pasos; para iniciar hacer clic en Vista de Variables.
Luego aparece la ventana de Etiqueta de valor.
Se continúa el proceso haciendo clic en Vista de Datos, para luego completar la
información.
Una vez concluido con la operación, ahora hallemos la prueba t de student, siguiendo los pasos.
Ingresar las notas de ambos colegios en dos
grupos distintos.
Considerar con 1 las notas del colegio de Huancayo y 2 las notas del colegio
de Huancavelica.
Codificar con 1 y 2 a cada colegio utilizando Añadir, y OK
Hacer clic en Analizar, y Comparar Medias ---> Prueba
de T para muestras
independientes.
Hacer clic en Valores
para codificar.
Poner títulos en
Etiqueta
16 C. Quintanilla C. / A. Cortavarria L.
luego encontramos el resultado.
Estadísticos de grupo
COLEGIOS Huancayo y Huancavelica N Media
Desviación típ.
Error típ. de la media
NOTAS DE LOS ESTUDIANTES DE CADA COELGIO
Huancayo 15 11,6667 2,12692 ,54917
Huancavelica 14 10,7857 2,11873 ,56625
Prueba de muestras independientes
Prueba de Levene para la igualdad
de varianzas Prueba T para la igualdad de medias
F Sig. t gl Sig.
(bilateral) Diferencia de medias
Error típ. de la
diferencia
95% Intervalo de confianza para la
diferencia
Inferior Superio
r
Inferior
Superior Inferior Superior Inferior Superior Inferior
Notas ,282 ,600 1,117 27 ,274 ,88095 ,78893 -,73779 2,49969
1,117 26,877 ,274 ,88095 ,78882 -,73791 2,49982
Que fácil, ¿verdad?.
Hacer clic en Definir
Grupos - Colegios
Luego aparece la ventana de Definir Grupos. Ingresar los
números asignados a los colegios 1 y 2. y Continua.
Finalmente, Aceptar
Estadística Aplicada a la Investigación Científica 17
3.4.2. Prueba de hipótesis para diferencia de proporciones.
Si el resultado de un experimento son DICOTOMICOS (éxito – fracaso, si – no),
como el número de votos (a favor o en contra), número de niños que se ausentan de la
escuela en un día, … etc., nos referimos a estos como datos de conteo. Los modelos
apropiados para el análisis de los datos de conteo son la distribución binomial, la
distribución de Poisson, la distribución multinomial y algunas de las distribuciones discretas.
Sean X1 y X2 el número de éxitos en dos muestras aleatorias independientes de
tamaños n1 y n2 seleccionados de dos poblaciones cuya distribución es Bernoulli B(1, p1) y
B(1, p2), donde los parámetros desconocidos p1 y p2 son las proporciones de éxitos
poblacionales respectivos.
Luego las proporciones de éxitos muestrales respectivas son:
1
11
n
XP y
2
22
n
XP
y para n1 y n2 suficientemente grandes (n1 ≥ 30 y n2 30), la variable aleatoria.
La raíz cuadrada se llama error estándar de la distribución muestral de diferencia de
proporciones.
21
11)ˆ1(ˆ
nnPP
donde P es el valor común de los estadígrafos y es un estimador insesgada de p1 y p2.
Además P puede ser aproximada por:
P = 21
2211
nn
PnPn
luego la estadística es
21
2121
11)ˆ1(ˆ
)(
nnPP
ppppzk
para p1–p2 = 0, significa que se supone verdadera la hipótesis nula y es la que se debe probar.
EJEMPLO.
En una encuesta de opinión estudiantil universitaria en la Facultad de Educación de la UNH
sobre un proyecto de actividades de proyección social, se consultó a 250 mujeres y 300
hombres. De las cuales 120 mujeres y 180 hombres aprobaron el proyecto. Frente a esto
resultados, determinar si la diferencia observada es significativa. Usar = 0,02.
Solución.
Hipótesis:
H0: ph = pm La proporción de varones que aprueba el proyecto es igual a la
proporción de mujeres que aprueban el proyecto.
HA : ph ≠ pm La proporción de varones que aprueba el proyecto es diferente
a la proporción de mujeres que aprueban el proyecto.
18 C. Quintanilla C. / A. Cortavarria L.
Nivel de significancia. = 0,02 (2%).
Región crítica.
Como nuestra hipótesis de investigación dice DIFERENTE, significa que tiene dos
colas. Entonces se tiene que distribuir = 0,02 en dos partes.
/2 = 0,01 1- /2 = 0,99.
Luego Z1-/2 = Z0,99 = 2,33. Este valor encontramos en la tabla de la distribución Z.
Proporción de varones a favor del proyecto:
300
1801 P = 0,60 40,01 Q
Proporción de mujeres a favor del proyecto:
250
1202 P = 0,48. .52,02 Q
Luego la proporción común es:
P = 300250
)60,0(300)48,0(250
= 0,55. 45,0Q .
Hallando la distribución z.
300
1
250
1)45,0)(55,0(
)0(48,060,0 21 ppzk = 2,81,
Decisión:
2 2
1
0
Como zk = 2,81 y pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho) y se
acepta la hipótesis alterna HA. Tal como se muestra en la figura. Por tanto, la diferencia
observada es significativa.
Región de rechazo Ho
-2,33
Región de rechazo Ho Región de aceptación
2,33
zk = 2,81
Estadística Aplicada a la Investigación Científica 19
EJERCICIOS.
1. ¿Cuáles de las siguientes afirmaciones son verdaderas?.
2. Dos profesores de la E.A.P.E.I. – FED – UNH, desean comparar dos métodos A y B en el
aprestamiento matemático en niños de educación inicial en dos centros educativos diferentes.
Los resultados son las siguientes:
CENTROS EDUCATIVOS
METODOS muestras MEDIAS x Varianza 2s
Centro educativo X A 50 15 16
Centro educativo Y B 60 13 9
a) ¿Al 5% de nivel de significancia, se puede afirmar que los resultados son iguales? b) En caso de ser diferentes, cual de los dos métodos tuvo mejor resultado?
3. Se realiza exactamente el mismo examen de razonamiento matemático para los alumnos clasificados por sexo (damas y varones) seleccionados al azar de la población del Colegio XYZ
del 4to grado. Las damas que son de 144, obtuvieron una puntuación promedio de 88 puntos con
una varianza de 47 puntos; en cambio los varones que son de 144 alcanzaron un promedio de 90
puntos con una varianza de 34 puntos. a) ¿Al 5% de nivel de significancia, se puede afirmar que los resultados son iguales?
b) En caso de ser diferentes, cual de los dos métodos tuvo mejor resultado?
4. Un investigador en educación matemática realiza un estudio en la enseñanza del análisis matemático asistido con un software en la UNH. Para ello selecciona aleatoriamente 16 alumnos
para el grupo experimental asistido por computadoras y 14 alumnos para el grupo control que
fue asistido solamente con clases tradicionales. Se sabe por experiencia que la población de las notas es normal. Los resultados son:
Grupo experimental.
11 15 13 9 11 16 15 15
12 09 14 13 16 12 14 13
Grupo Control .
13 12 13 14 18 10 14
11 09 11 12 11 14 12
a) ¿Se puede afirmar que la enseñanza del análisis matemático mediante software es
superior a la enseñanza tradicional con respecto a sus medias?. Considerar = 0,05
b) ¿Probar la hipótesis a través de proporciones, teniendo en cuenta los aprobados? .
Considerar = 0,05
I. Las pruebas de hipótesis sólo proporcionan evidencias absolutas ( )
II. Cuando se evalúa la prueba de hipótesis, se evalúa la hipótesis
de investigación (HA). ( )
III. Las estimaciones puntuales son iguales a las estimaciones por
intervalos. ( )
IV. Los intervalos de confianza sirve para la prueba de hipótesis. ( )
20 C. Quintanilla C. / A. Cortavarria L.
5. Un profesor de niños excepcionales sostiene que al menos el tiempo promedio de respuesta de
niños con retardo metal a un determinado sonido es de 157 milisegundos. Se selecciona una
muestra aleatoria simple de 25 niños obteniendo el siguiente resultado con respecto al tiempo en milisegundos:
158 156 160 162 165 162 156 160 158 158 160 163
152 161 165 159 161 160 160 156 157 160 159 161
154 151 162 161 156 158 157 156 155 158 152 153
a. Al 5% de significación, se acepta o rechaza la afirmación del profesor.
6. Se hizo un experimento con 11 niños seleccionados al azar, para ver si un entrenamiento previo,
basado en las rompecabezas, contribuye a tener un mejor rendimiento en el aprendizaje del lógico matemático. Se aplicaron dos pruebas: una antes y otra después del entrenamiento; cuyo
resultado es:
Puntuación No. del estudiante
1 2 3 4 5 6 7 8 9 10 11
Antes 40 60 70 80 38 68 65 75 52 71 83
Después 42 65 65 82 35 62 70 75 55 69 85
a. Al 5% de significación, se acepta o rechaza la afirmación la hipótesis de que el entrenamiento previo contribuye a tener mejor rendimiento.
Estadística Aplicada a la Investigación Científica 21
3.5. COEFICIENTE DE CORRELACIÓN Y REGRESIÓN LINEAL.
Frecuentemente en investigación estamos interesados en estudiar la relación entre
dos variables; en el campo educativo, se tiene la relación entre la habilidad mental y el
rendimiento académico en matemáticas, o qué relación existe entre el resultado de un
examen de Matemáticas y el curso de Geografía. La naturaleza y grado de relación entre
estas variables pueden ser analizados a través de dos técnicas: Regresión y Correlación
aunque están relacionados tienen propósitos e interpretaciones diferentes.
El análisis de regresión es útil para determinar la forma probable de la relación entre
las variables, cuando hay un fenómeno de causa y efecto; cuyo objetivo es predecir o estimar
el valor de una variable dependiente (Y) a causa de la variable independiente (X).
El análisis de correlación, consiste en la medición del grado de intensidad de
asociación entre las dos variables sin importar cual es la causa y cual es el efecto. La
correlación puede ser negativa (cuando al aumentar una variable la otra disminuye) o
positiva (Cuando al aumentar una variable la otra también aumenta). En la correlación no
existe variable dependiente e independiente, solamente son variables aleatorias.
3.5.1 DIAGRAMAS DE DISPERSIÓN.
El primer paso a realizar en el estudio de la relación entre dos variables es el
diagrama de dispersión que consiste en representar los pares de valores (Xi; Yi) como puntos
en un sistema cartesiano XY.
COSTO DE LIBRO
222018161412108
VE
NT
AS
EN
11
DIA
S
60
50
40
30
20
10
Figura No. 3.5.1.a Figura No. 3.5.1.b
PRECIO DE VENTA
8280787674727068
CA
SA
CA
S V
EN
DID
AS
AL
DIA
18
16
14
12
10
8
6
4
2
0
Figura No. 3.5.1.c Figura No. 3.5.1.d.
HABILIDAD MENTAL
5040302010
EX
AM
EN
DE
MA
TE
MÁ
TIC
A
20
18
16
14
12
10
8
6
4
EXAMEN 1 DE LOGICA
20191817161514131211109876
EX
AM
EN
1 D
E M
AT
EM
ÁT
ICA
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
22 C. Quintanilla C. / A. Cortavarria L.
Hemos presentado algunos principales diagramas de dispersión: la Figura No 3.5.1.a es una
relación lineal positiva, la Figura No. 3.5.1.b relación lineal negativa, Figura No. 3.5.1.c No existe
relación y la Figura No. 3.5.1.d relación parabólica. El análisis de regresión puede ser lineal o
no lineal (curvilíneo) o lineal múltiple, todo depende de las variables en estudio.
3.5.2. REGRESIÓN LINEAL SIMPLE
El objetivo principal del análisis de la regresión es establecer una relación funcional
entre dos variables relacionados, tomando como datos muestrales (aleatorios), que
constituyan buenos estimadores de la correspondiente relación poblacional.
Abordaremos la línea recta, partiendo del EJEMPLO siguiente:
EJEMPLO.
Se desea saber si la habilidad mental de los niños influye en su rendimiento académico de
matemática del estudiante. Para ello se ha tomado información de 16 estudiantes.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
20 48 16 37 40 41 46 21 35 38 36 40 35 45 28 32
10 19 8 14 16 17 18 13 14 15 14 16 13 18 12 14
SOLUCIÓN.
En la figura se muestra el diagrama de dispersión de los datos que corresponde a habilidad
mental y el rendimiento en matemática.
Como se observa, es una ecuación lineal
simple cuya ecuación es:
Yc = a + bX,
Existen varios métodos para calcular la
ecuación de la regresión, utilizaremos el
método de mínimos cuadrados, por ser
matemáticamente más exacto.
Supongamos que Yc = a + bX, es la
ecuación de la recta, donde Yc representa el
valor teórico de Yi o el valor estimado de Y,
que corresponde a un valor particular de X.
El criterio de mínimos cuadrados requiere
que encontremos las constantes a y b tales
que 2)( ci YY se mínimo (es decir tiende a cero).
Las constantes a y b se llaman coeficientes de regresión, a es la intersección con el
eje de la ordenadas Y, mientras tanto b es la pendiente de la línea de mejor ajuste.
∑(Yi – Yc)2 .. .. . .. . . . (i)
en esta ecuación (i) sustituimos el valor de Yc = a + bX , luego la ecuación queda así:
∑(Yi – a – bX)2
Para satisfacer la condición de minimizar las desviaciones de los valores reales de Yi con
respecto a la línea teórica, basta con derivar con respecto a “a” y con respecto a “b” e
Linear Regression
20,00 30,00 40,00
HABILIDAD MENTAL
10,00
12,50
15,00
17,50
EX
AM
EN
DE
MA
TE
MÁ
TIC
A
EXAMEN DE MATEMÁTICA = 4,13 + 0,30 * habelida
R-Square = 0,89
Figura No. 3.5.2.1
Estadística Aplicada a la Investigación Científica 23
igualar a cero la derivada; las ecuaciones que resulten, la resolverlas, definirán los valores de
a y b que minimizan dichas observaciones:
Sea, z = ∑(Yi – a – bX)2 ……(ii),
y derivamos (ii) con respecto a “a”:
da
dz= 2∑(Yi – a – bX)(–1 ) = 0.
Desarrollando se obtiene:
– 2∑Yi + 2na + 2b∑X = 0
– 2∑Yi = – 2na – 2b∑X
∑Yi = na + b∑X …………………. (iii).
Nuevamente derivamos (ii) con respecto b:
da
dz= 2∑(Yi – a – bX)(–X ) = 0.
Desarrollando se obtiene:
– 2∑XYi +2a∑X + 2b∑X2 = 0
– 2∑XYi = –2a∑X – 2b∑X2
∑XYi = a∑X + 2b∑X2 …………………. (iv)
Finalmente, se tiene las ecuaciones (iii) y (iv), llamados sistema de ecuaciones normales.
Al resolver las ecuaciones se obtiene:
22
2
)(
XY)X)((
XXn
YXa y
22 )(
X)Y)((
XXn
XYnb
Para facilitar el trabajo se ha simplificado la ecuación de “a” en términos de “b” y queda de
la siguiente manera:
n
XbYa
Continuamos el desarrollo del ejemplo propuesto.
Se desea saber si la habilidad mental de los niños influye en su rendimiento académico de
matemática del estudiante. Para ello se ha tomado información de 16 estudiantes.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
20 48 16 37 40 41 46 21 35 38 36 40 35 45 28 32
10 19 8 14 16 17 18 13 14 15 14 16 13 18 12 14
∑Yi = na + b∑X
∑XYi = a∑X + 2b∑X2
24 C. Quintanilla C. / A. Cortavarria L.
Si bien es cierto que la tecnología nos ayuda a operar, pero es necesario saber como se desarrolla.
Aquí presentamos el proceso.
No. del estudiante X Y XY X2.
1 20 10 200 400 2 48 19 912 2304 3 16 8 128 256 4 37 14 518 1369 5 40 16 640 1600 6 41 17 697 1681 7 46 18 828 2116 8 21 13 273 441 9 35 14 490 1225
10 38 15 570 1444 11 36 14 504 1296 12 40 16 640 1600 13 35 13 455 1225 14 45 18 810 2025 15 28 12 336 784 16 32 14 448 1024 ∑X =558 ∑Y =231 ∑XY =8449 ∑X
2 =20790
Sustituyendo los valores se tiene:
2)558()20790(16
)231)(558()8449(16
b b = 0,29545.
16
)558)(29545,0(231a a = 4,13367.
Luego la ecuación es
Es la misma ecuación que aparece en el cuadro corrido con el SPSS que dimos
solución inicialmente (Figura No. 3.5.2.1).
El valor de “a” corta al eje corta al eje Y en 4,13367; y el valor de b = 0,29545,
indica que cuando el valor de X aumenta en puntaje aumenta 0,295535 a cada puntaje del
rendimiento en matemática.
Podemos predecir, si el alumno tiene en habilidad mental de x=47 puntos
Yc = 4,13367 + 0,29545X Y47 = 4,13367 + 0,29545(47).
Entonces su valor de Rendimiento en matemática es : 18,01982, es decir una nota de 18.
Pero tampoco podemos predecir algo que no es lógico, por ejemplo si consideramos x = 200,
significa que el puntaje en matemáticas sería 63,22; esto significa que existen máximos
como mínimos donde la ecuación se cumple en una situación real. Sin embargo, la ecuación
matemática es simplemente como cualquier ecuación.
3.5.3. CORRELACIÓN.
El análisis de correlación, busca medir el grado de correlación entre dos variables o
grado de intensidad de asociación entre las dos variables X y Y. La medida del grado de
asociación entre las dos variables se llama coeficiente de correlación, representado
Yc = 4,13367 + 0,29545X.
Estadística Aplicada a la Investigación Científica 25
universalmente por “” y el parámetro poblacional, en cuanto al coeficiente de correlación
de la muestra es “r”.
El coeficiente de correlación r de Pearson, toma valores toman valores comprendidos
entre – 1 y +1.
Poblacional: – 1 ≤ ≤ +1
Muestral: – 1 ≤ r ≤ +1
Los valores negativos indican una correlación negativa y los valores positivos una
correlación positiva.
Para calcular el valor de coeficiente de correlación de Pearson se usa:
2222 )()()()(
))(()(
YYnXXn
YXXYnr
EJEMPLO.
Se desea saber si la habilidad mental de los niños se correlaciona con su rendimiento
académico de matemática. Para ello se ha tomado información de 16 estudiantes.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
20 48 16 37 40 41 46 21 35 38 36 40 35 45 28 32
10 19 8 14 16 17 18 13 14 15 14 16 13 18 12 14
SOLUCIÓN.
No. del est. X Y XY X2. Y
2.
1 20 10 200 400 100 2 48 19 912 2304 361 3 16 8 128 256 64 4 37 14 518 1369 196 5 40 16 640 1600 256 6 41 17 697 1681 289 7 46 18 828 2116 324 8 21 13 273 441 169 9 35 14 490 1225 196 10 38 15 570 1444 225 11 36 14 504 1296 196 12 40 16 640 1600 256 13 35 13 455 1225 169 14 45 18 810 2025 324 15 28 12 336 784 144 16 32 14 448 1024 196 ∑X = 558 ∑Y = 231 ∑XY = 8449 ∑X
2 = 20790 ∑Y
2 = 3465
-1 1 0
Valores débiles Valores fuertes Valores fuertes Valores débiles
Correlación nula
26 C. Quintanilla C. / A. Cortavarria L.
Sustituyendo valores
22 231)3465(16558)20790(16
)231)(558()8449(16
r r = +0,945153.
Se verifica que existe una correlación fuerte entre las dos variables.
IMPORTANTE: Sobre prueba de hipótesis.
Por lo general se tiene interés en saber si puede concluirse que ≠ 0, si X y Y están
correlacionados. Por lo general se desconoce el verdadero valor de si se extrae una
muestra de la población, pero si existe el interés de calcular el valor de r a partir de la
muestra y que es el estimador de . Por tanto se puede probar la hipótesis
Ho: = 0 VS. HA: ≠ 0
para ver si éste valor de r es de magnitud suficiente como para indicar que las dos (2)
variables (X y Y) están correlacionados.
DEFINICIÓN 1. Cuando se desea demostrar Ho: = 0, se usa el estadístico t de Student
para n – 2 grados de libertad, cuya ecuación es:
21
2
r
nrt
DEFINICIÓN 2. Cuando se desea demostrar Ho: = o (≠0), donde o es distinto de
cero (0), debe utilizarse otro procedimiento para n ≥ 25 . Fisher4 sugiere
que r debe transformarse en zr, cuya ecuación es
)1
1ln(
2
1
r
rzr
(ln : logaritmo natural).
Puede demostrarse que zr tiene una distribución aproximadamente normal con una
media de.
)1
1ln(
2
1
z
y una desviación estándar de 3
1
n
Luego para probar la hipótesis nula Ho: = o , la estadística de prueba es
3
1
n
zzZ
r
tiene una distribución aproximadamente normal.
El lector que no tiene mucho conocimiento en matemática y tiene dificultad para
realizar operaciones con logaritmos naturales, puede usar la tabla de transformación de r a z.
4 R.A. Fisher, ON THE PROBABLE ERROR OF AN COEFFIENT OF CORRELATION DEDUCED FROM A SMALL
SAMPLE. Metron, 1 – 1991, 3 – 21.
Estadística Aplicada a la Investigación Científica 27
DEFINICIÓN 3. Cuando se desea demostrar Ho: = o (≠0), donde o es distinto de
cero (0), debe utilizarse otro procedimiento. Hotelling5 sugiere para
tamaños pequeños 10≤ n < 25, el procedimiento de transformarse r en
z*, cuya ecuación es
n
rzzz r
r4
3*
cuya desviación estándar es 1
1*
nz
Luego, la estadística de contraste es
1
1
***
n
zzZ = 1*** nzz
donde: n
zzz
4
3**
; (z** es respecto = 0 ).
Para hallar el valor de zr y z recorrer a la definición 2 del grupo.
EJEMPLO. (para la definición 1).
Para mostrar al culto lector, probemos los resultados del EJEMPLO anterior a un nivel de
significancia = 0,05 (5%). Para recordar mostremos el texto literal:
Se desea saber si la habilidad mental de los niños se correlacionan con su rendimiento
académico de matemática. Para ello se ha tomado información de 16 estudiantes
La tabla se puede ver en el desarrollo del ejercicio anterior.
SOLUCIÓN.
Encontramos su coeficiente de correlación que es
r = +0,945153.
Hipótesis:
Ho: = 0
HA: ≠ 0
Los valores críticos
Como nuestra hipótesis alterna es HA: ≠ 0, entonces es prueba bilateral de dos colas.
Entonces se tiene que distribuir = 0,05 en dos partes.
/2 = 0,025 1- /2 = 0,975.
El grado de libertad es: n – 2 = 16 – 2 = 14.
Luego t1-/2; 14 = t0,975;14 = 2,145. Este valor encontramos en la tabla de la distribución t
de Student.
Estadística de contraste.
5 H. Hotelling. NEW LIGHT ON THE CORRELATION COEFFICIENT AND ITS TRANFORMS, Journal
of the Statistical Society. Ser B, 15 (1953), 193 – 232.
28 C. Quintanilla C. / A. Cortavarria L.
21
2
r
nrt
sustituyendo 2)945153,0(1
216945153,0
t
t = 10,827.
Decisión.
2 2
1
0
Como t = 10,827 pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho), y se
acepta la hipótesis alterna. Se concluye que las dos variables X y Y están correlacionados.
EJEMPLO. (para la definición 2).
Como nuestra muestra es menor que 25, el resultado no es cierto, debemos de tener
cuidado. Esta prueba es correcto cuando la muestra es mayor que o igual que 25 (n 25).
Solo por situaciones de desarrollo mostraré la operación. (tener cuidado¡¡¡).
Ahora supongamos que la hipótesis nula H0: ≠ 0; es decir, Ho: = o y el valor de
no es cero. Del mismo EJEMPLO anterior a un nivel de significancia = 0,05 (5%).
Solución.
Hipótesis.
Ho: = 0,98
HA: ≠ 0,98 ( puede ser mayor o menor).
n = 16.
Como nuestra hipótesis alterna es HA: ≠ 0,98, entonces es prueba bilateral de dos
colas. Luego se tiene que distribuir = 0,05 en dos partes.
/2 = 0,025 1- /2 = 0,975.
Luego Z1-/2; = Z0,975; = 1,96.
Estadística de contraste.
-2,145
Región de rechazo Ho Región de rechazo Ho
2,145
Región de aceptación t = 10,827
Estadística Aplicada a la Investigación Científica 29
3
1
n
zzZ
r
pero se requiere calcular los valores de zr y z. Calculemos entonces:
Se conoce el valor de r = 0,945153 r = 0,95.
)1
1ln(
2
1
r
rzr
)
95,01
95,01ln(
2
1
rz = 1,83178.
Se conoce el valor de = 0,98.
)1
1ln(
2
1
z )
98,01
98,01ln(
2
1
z = 2,29756.
Ahora la estadística de contraste:
3
1
n
zzZ
r
316
1
29756,283178,1
Z = - 1,6793
lo cual aceptaríamos la hipótesis nula, esto ocurre porque n < 25, por lo que no es
recomendable usar este estadístico. Solamente se usa para mayores que 25. Ya habíamos
pronosticado que no funcionaría.
EJEMPLO. (para la definición 3).
Utilizando la definición 3 , el resultado es real.
Ahora supongamos que la hipótesis nula H0: ≠ 0; es decir, Ho: = o y el valor de
no es cero. Del mismo EJEMPLO anterior a un nivel de significancia = 0,05 (5%).
Solución.
Hipótesis.
Ho: = 0,98
HA: ≠ 0,98 ( puede ser mayor o menor).
n = 16.
Como nuestra hipótesis alterna es HA: ≠ 0,98, entonces es prueba bilateral de dos
colas. Luego se tiene que distribuir = 0,05 en dos partes.
/2 = 0,025 1- /2 = 0,975.
Luego Z1-/2; = Z0,975; = 1,96.
Estadística de contraste.
Antes de utilizar el estadístico hallemos z* y z**
Se conoce el valor de r = 0,945153 r = 0,95.
)1
1ln(
2
1
r
rzr
)
95,01
95,01ln(
2
1
rz = 1,83178.
30 C. Quintanilla C. / A. Cortavarria L.
Se conoce el valor de = 0,98.
)1
1ln(
2
1
z )
98,01
98,01ln(
2
1
z = 2,29756.
Luego sustituyendo
n
rzzz r
r4
3*
)16(4
95,0)83178,1(383178,1*
z
z* = 1,73107
n
zzz
4
3**
)16(4
98,0)29756,2(329756,2**
z z** = 2,17455.
La estadística de contrastes.
1
1
***
n
zzZ
116
1
17455,273107,1
Z
Z = - 1,7175.
Decisión.
2 2
1
0
Como Z = - 1,7175 y es mayor que Z0,975; = - 1,96; ésta se encuentra en la región de
aceptación de la hipótesis nula. Se acepta la hipótesis y que la correlación poblacional es de
= 0,98.
-1,96
Región de rechazo Ho
Región de rechazo Ho
1,96
Región de aceptación Z = -1,72
Estadística Aplicada a la Investigación Científica 31
A TRABAJAR CON EL SPSS
Seguir los siguientes pasos.
i) Ingresar los datos como en la figura
ii) Una vez realizado ubicarse en Análisis ---> Regression ---> Linear … y aparece la figura de abajo, una vez terminada la operación hacer clic en OK
en el resultado se muestra el coeficiente de correlación encontrado en el ejercicio, el valor de r de
Pearson fue de 0,945. Model Summary
Model R R Square Adjusted R Square
Std. Error of the Estimate
1 ,945 ,893 ,886 ,99508
a Predictors: (Constant), HABILIDAD MENTAL
También encontramos los valores de los coeficientes de la regresión lineal para completar la ecuación Yc = a + bX , donde el valor de a y b son 4,134 y 0,295 respectivamente Coefficients
Unstandardized
Coefficients
Standardized Coefficients
t Sig.
Model B Std. Error Beta
1 (Constant) 4,134 ,984 4,202 ,001
HABILIDAD MENTAL
,295 ,027 ,945 10,827 ,000
a Dependent Variable: EXAMEN DE MATEMÁTICA
Además la correlación ya se ha resuelto automáticamente, se muestra en el cuadro
precedente. Recordemos la Hipótesis:
Ho: = 0 VS. HA: ≠ 0
Ingresar los datos de las
dos variables
Registrar las variables con
sus especificaciones
Seleccionar como muestra el
EJEMPLO.
32 C. Quintanilla C. / A. Cortavarria L.
Probamos la t de Student cuyo resultado es t = 10,827. Coefficients
Unstandardized
Coefficients
Standardized Coefficients
t Sig.
Model B Std. Error Beta
1 (Constant) 4,134 ,984 4,202 ,001
HABILIDAD MENTAL
,295 ,027 ,945 10,827 ,000
a Dependent Variable: EXAMEN DE MATEMÁTICA
iii) Si deseamos hallar la ecuación de la regresión lineal y el cuadro respectivo de las dispersiones
con los datos se deberá seguir los siguiente pasos:
Ir a Graph ---> Interactive --->Scaterplot… y aparece el cuadro.
y aparece la figura
Linear Regression
20,00 30,00 40,00
HABILIDAD MENTAL
10,00
12,50
15,00
17,50
EX
AM
EN
DE
MA
TE
MÁ
TIC
A
EXAMEN DE MATEMÁTICA = 4,13 + 0,30 * habelida
R-Square = 0,89
Seleccionar la
variable dependiente
e independiente y OK
Hacer doble Clic y
debe aparecer el
cuadro de llamada.
El valor de t = 10,827, encontrado en la
prueba de hipótesis del EJEMPLO 1.
Estadística Aplicada a la Investigación Científica 33
Finalmente aparece el resultado:
Elegir NO
COLOR y OK
La ecuación de
la Regresión
Lineal
La recta y los puntos
de dispersión.
34 C. Quintanilla C. / A. Cortavarria L.
EJERCICIOS
1. En un reporte de investigación realizada en 100 personas, se obtiene la variable X que
corresponde al número de litros de bebidas alcohólicas consumidas, y la variable Y corresponde al número de accidentes de automóviles por cada 100 personas que ingieren bebidas alcohólicas.
X 2 3 4 5 6 7 8 9 10
Y 8 10 12 18 20 22 25 28 30
a. Calcule la ecuación de regresión de X sobre Y.
b. Calcule el coeficiente de correlación.
c. Pruebe con una hipótesis la correlación.
2. Un investigador en el área de matemática de la UNH obtiene la siguiente información con respecto a horas de estudio (X) para prepararse para el examen de matemáticas, y obtener la
calificación en dicho examen (Y).
X 1 2 2 3 3 3,5 4 4 4,5 4,5 5 5,5 5,5 6
Y 8 10 12 12 16 14 16 12 14 16 18 16 18 20
a. Calcule la ecuación de regresión de X sobre Y.
b. Trace la gráfica (diagrama de dispersión).
b. Calcule el coeficiente de correlación. c. Pruebe con una hipótesis la correlación.
3. Un grupo de 8 estudiantes que se preparan para un examen de admisión se sometieron a una
prueba de habilidad mental (X), luego relacionaron con los puntajes obtenidos (Y). el resultado se tiene en le recuadro.
No. Habilidad Mental (X). Examen de Admisión (Y). 1 Félix 6 15 2 Víctor 10 18 3 Julio 15 25 4 Max 20 32 5 Ofelia 25 36 6 Abel 30 40 7 Norma 35 45 8 Gaby 40 55
a. Calcule la ecuación de regresión de X sobre Y. b. Trace la gráfica (diagrama de dispersión).
c. Calcule el coeficiente de correlación.
d. Pruebe con una hipótesis la correlación.
4. Un estudiante de matemática desea ver si existe correlación entre las notas obtenidas en las asignaturas de letras y las asignaturas de matemáticas.
Matemática 12 13 10 14 12 11 16 15 12 12 15
Letras 18 16 14 12 11 13 14 15 16 12 14
a. Calcule la correlación entre ambas asignaturas.
b. ¿Existe regresión lineal, se puede hallar su ecuación?, explique.
5. Se toma una muestra de 30 estudiantes de la especialidad de matemática, y se realiza una
relación entre peso y estatura, cuyo resultado se presenta.
Estadística Aplicada a la Investigación Científica 35
Alumno. Estatura (m) Peso (kg) Alumno. Estatura (m) Peso (kg)
1 1,63 65 16 1,68 65 2 1,73 70 17 1,56 58 3 1,55 54 18 1,85 89 4 1,85 85 19 1,70 68 5 1,75 70 20 1,69 70 6 1,64 68 21 1,58 54 7 1,54 60 22 1,70 73 8 1,65 60 23 1,67 65 9 1,58 50 24 1,62 66 10 1,83 78 25 1,80 86 11 1,70 90 26 1,55 58 12 1,51 56 27 1,58 64 13 1,64 68 28 1,70 74 14 1,50 45 29 1,76 80 15 1,70 69 30 1,50 60
a. Trace la gráfica (diagrama de dispersión). b. Halle la ecuación de la regresión si existe
c. Calcule el coeficiente de correlación y.
d. Pruebe con una hipótesis la correlación.
36 C. Quintanilla C. / A. Cortavarria L.
3.6. PRUEBAS DE HIPÓTESIS NO PARAMETRICA.
A diferencia de las pruebas de hipótesis paramétricas que tienen significancia y incluye
una lista de prerrequisitos, así como están basados en supuestos de que las poblaciones
están distribuidos normalmente con parámetros media y varianza. En las pruebas de
hipótesis No paramétricas, no interesa el tipo de distribución de la población, ni sus
parámetros (no se hacen suposiciones), apenas se suponen la independencia de los datos.
Sin embargo las pruebas no paramétricas tiene algunas desventajas como las siguientes:
i) Existe perdida de información.
ii) La potencia de estas pruebas es menor que la potencia de las pruebas paramétricas.
iii) Tienden a ser conservadoras; es decir, que tienden a conducir a la aceptación de la
hipótesis nula con más frecuencia de lo que se debería.
iv) Es menos confiable.
Sin embargo, es un buen instrumento para realizar los trabajos mientras los datos son
más pequeños. En general, es verdad que cuanto menos se suponga, tanto menos puede
inferirse de un conjunto de observaciones; pero también es verdad que cuanto menos se
suponga, tanto más se amplia la aplicabilidad de nuestro método.
Las principales que tenemos son:
- U de Mann – Whitney (para 2 muestras independientes).
- T de Wilcoxon (para 2 muestras dependientes).
- H de Kruskal –Wallis (para “K” muestras independientes).
- ANOVA de Friedman (para “K” muestras dependientes).
- Chi cuadrada (para “1 sola muestra).
- Existen muchas otras pruebas más que el lector podría investigar, pero en el curso
sólo tomaremos las pruebas estadísticas citadas.
3.6.1. Pruebas de Hipótesis con Chi – Cuadrada.
Cuando se realiza un trabajo de investigación en educación, a menudo se presentan
situaciones donde es necesario verificar la hipótesis de investigación, y la más conocida es la
chi – cuadrada (2), y en su forma general se llama pruebas concernientes de diferencias de
k proporciones.
Presentamos los arreglos correspondientes
EXITOS FRACASOS
MUESTRA 1 x1. n1 – x1
MUESTRA 2 x2. n2 – x2
… … …
MUESTRA k xk. nk – xk
La chi cuadrada se puede manejar en forma paramétrica y no paramétrica; para los
fines de este libro nos restringiremos a la forma no paramétrica.
La prueba Chi cuadrada relativa a frecuencias.
Es un método útil para probar la hipótesis relacionado a la diferencia entre conjunto de
frecuencias observadas en una muestra y el conjunto correspondiente de frecuencias teóricas
o esperadas.
La ecuación correspondiente del estadístico es:
Estadística Aplicada a la Investigación Científica 37
2 =
i
ii
E
EO 2)(
Oi : Frecuencia observada de realización de un acontecimiento determinado.
Ei : Frecuencia esperada o teórica.
Es necesario tomar en cuenta el grado de libertad (r), y se obtiene de la tabla de contingencia
r = (f – 1)(k – 1).
Donde: f : número de filas.
k : número de columnas.
Dado el nivel de significancia para r grados de libertad, en la tabla el valor c = 2
(1 ),r
que viene a ser el punto crítico de la prueba.
Regla de decisión:
Si 2
(cal) > c, se rechaza la hipótesis nula
Ho, caso contrario se aceptará la hipótesis
nula Ho.
EJEMPLO.
Un estudiante de Ciencias Sociales preocupado en las elecciones realiza un seguimiento. Un
partido XK asegura que el 85% de la población está a su favor. Por lo que el estudiante
obtiene una muestra aleatoria de 2 500 ciudadanos; de ellos 1800 favorecen al partido XK.
A la luz de los resultados, determinar si es falso lo que aseguran los representantes de XK.
Usar nivel de significancia 1%.
SOLUCIÓN.
Hipótesis.
Ho : p = 0,85
HA : p < 0,85
Calculando las frecuencias esperadas.
frecuencias Actitud Total
Favorecen No favorecen
Observada (Oi) 2050 450 2500
Esperada (Ei) 2125 375 2500
Se afirma que el 85% de los ciudadanos favorecen a XK, entonces:
E1 = (85%)(2500) = 2 125
E2 = (15%)(2500) = 375. o 2500 – 2125 = 375.
1-
Región crítica
c
38 C. Quintanilla C. / A. Cortavarria L.
Calculando
2
cal = 2 2(2050 2125) (450 375)
2125 375
, 2
cal = 17,65.
El valor crítico al 1%.
Se tiene k = 2 filas y c = 2 columnas,
entonces r = (2-1)(2-1) = 1,
luego 2
(1 ),r = 2
(0,99), 1r = 6,64. (ver tabla de Chi cuadrada).
Cuando se compara ambos valores, el 2
cal = 17,65 calculado es mayor que de la tabla. Por
tanto, rechazamos Ho. De aquí podemos concluir No es cierto lo que afirma XK.
Importante: cuando se tiene un solo grado de libertad se puede aplicar una prueba de
distribución normal.
EJEMPLO.
Resolver el ejemplo anterior aplicando la distribución normal.
SOLUCIÓN.
Hipótesis.
Ho : p = 0,85
HA : p < 0,85
La proporción muestra para n = 2500 es:
2050
0,822500
P 0,18Q
Calculando z.
P pz
pq
n
; sustituyendo en
0,82 0,85
(0,85)(0,15)
2500
z
= - 4,20.
Región crítica para = 0,01.
(1 – ) = 1 – 0,01 = 0,99.
Además nuestra hipótesis tiene una sola cola y a la izquierda.
Entonces Z1- = Z0,99 = 2,33. (ver tabla de distribución z).
Estadística Aplicada a la Investigación Científica 39
Decisión.
º
1
Como zk = - 4,20 y pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho) y se
acepta la hipótesis alterna HA. Tal como se muestra en la figura. Se concluye que, lo que
afirma XK no es cierto.
EJEMPLO.
Determinar con base en los datos muestrales obtenidos que se presentan en la tabla,
si la proporción verdadera de compradores que favorecen el Plumón M sobre el Plumón N
es la misma en las tres ciudades. Considerar = 0,05 (5%.).
Ciudades
Actitud
Total Favorecen al
plumón M
Favorecen al
plumón N
Ayacucho 232 168 400
Huancayo 260 240 500
Tacna 197 203 400
689 611 1300
SOLUCIÓN.
Hipótesis.
Ho : pA = pH = pT
HA : pA ; pH ; pT no son todas iguales.
Hallando las frecuencias esperadas.
E11 = (689)(400)/1300 = 212.
E21 = (689)(500)/1300 = 265.
E31 = (689)(400)/1300 = 212.
E12 = (611)(400)/1300 = 188
E22 = (611)(5000)/1300 = 235
E32 = (611)(400)/1300 = 188
- 2,33
Región de rechazo
zk = - 4,20
40 C. Quintanilla C. / A. Cortavarria L.
Ciudades
Actitud
Total Favorecen al
plumón M
Favorecen al
plumón N
Ayacucho 232 212 168 188 400
Huancayo 260 265 240 235 500
Tacna 197 212 203 188 400
689 611 1300
2
cal =
212
)212197(
265
)265260(
212
)212232( 222
188
)188203(
235
)235240(
188
)188168( 222
2
cal = 6,4733.
Región crítica para = 0,05.
Se tiene k = 3 filas y c = 2 columnas, entonces r = (3-1)(2-1) = 2,
luego 2
(1 ),r = 2
(0,95), 1r = 5,99. (ver tabla de Chi cuadrada).
Como el valor de 2
cal = 6,4733 es mayor que el valor crítico 5,99 se rechaza la hipótesis
nula. Es decir, las proporciones verdaderas de compradores que favorecen el Plumón M
sobre el Plumón N en las tres ciudades no son las mismas.
E11 =212
E21 =265
E31 =212
E12 =188
E22 =235
E32 =188
Estadística Aplicada a la Investigación Científica 41
A TRABAJAR CON EL SPSS.
Se inicia aperturando una nueva hoja de trabajo.
Hacer clic en Values en CIUDADES DE VENTA y registrar la codificación.
Hacer clic en Values en MARCA DE PLUMONES y registrar la codificación
Una vez realizado toda la operación ir al menú Data ---> Weight Case … (ponderar casos) y
aparece el cuadro de diálogo
Rotular los nombres y
Títulos.
Hacer clic en
Data View.
Ingresar en la columna fila los números 1, 2 y 3, que representan a Ayacucho, Hunacayo y
Tacna.
Ingresar en la
columna (columna) la opción de actitud con 1 y 2, combinando
fila y columna.
Ingresar los valores de la tabla, fila y columna.
(frecuencia Observada).
Ingresar la codificación de las ciudades como se
muestra el ejemplo
Ingresar la codificación de la marca de los plumones como se muestra el ejemplo.
Finalizar OK.
42 C. Quintanilla C. / A. Cortavarria L.
Iniciar en el menú Analyze ---> Descriptive Statistic y ---> Crosstab…
Pulsar el botón Statistic… luego seleccionar Chi square y contingency Coefficient y
Continue. Pulsar el botón Cells… luego seleccionar Expected (frecuencia esperada), y
continue y finalmente OK.
Se obtiene la tabla incluido las frecuencias esperadas.
CIUDADES DE VENTAS * MARCA DE PLUMONES Crosstabulation
CIUDADES DE VENTAS
MARCA DE PLUMONES Total
PLUMON M PLUMON N
AYACUCHO 232 168 400 212,0 188,0 400,0
HUANCAYO 260 240 500 265,0 235,0 500,0
TACNA 197 203 400 212,0 188,0 400,0
Total 689 611 1300
689,0 611,0 1300,0
Chi-Square Tests
Value df Asymp. Sig. (2-sided)
Pearson Chi-Square
6,473 2 ,039
N of Valid Cases 1300
a 0 cells (,0%) have expected count less than 5. The minimum expected count is 188,00. Symmetric Measures
Value Approx. Sig. Nominal by
Nominal Contingency
Coefficient ,070 ,039
N of Valid Cases 1300 a Not assuming the null hypothesis. b Using the asymptotic standard error assuming the null hypothesis.
Seleccionar frecuencia Observada y hacer clic en Weight cases by, como muestra el ejemplo. Finalizar OK.
Seleccionar Ciudades de venta (fila).
Seleccionar Marca de plumones (columna). Finalizar OK.
Hacer clic en Statistic… .
Estadística Aplicada a la Investigación Científica 43
Corrección de yates.
La corrección fue propuesta en 1934, haciendo que las frecuencias observadas
(discretas) se aproximen a una distribución continua, solo en casos de tablas de 2x2.
Consideramos que si puede usar cuando la muestra es pequeña n < 50 , o algunas o
todas las frecuencias de las celdas son menores que 5 se puede aplicar el Chi cuadrado
corregida por Yates.
2
cal =
))()()((
5,0)(
dbcadcba
nbcadn
si la tabla es de 2x2.
a b a+b
c d c+d
a+c b+d
Con respecto a la corrección de Yates para tablas de 2x2 existe controversia entre
autores. Por EJEMPLO, citado por Wayne W. Daniel (1994; 483) “Grizzle, Lancaster,
Pearzon, y Placket han cuestionado su uso. El trabajo de Grizzle, en particular, ha reforzado
el caso en contra el uso de ésta corrección, basándose en que, con demasiada frecuencia,
conduce a una prueba demasiada conservadora; es decir, el uso de la corrección conduce con
demasiada frecuencia al no rechazo de la hipótesis nula”6. En general se ha convenido no se
requiere corrección para tablas de contingencia mas grandes.
3.6.2. Pruebas de Hipótesis de Wilcoxon
Esta prueba sirve para realizar la prueba de hipótesis cuando se trabaja con un sólo
grupo; en este caso cuando se tiene una prueba de entrada y salida en un solo grupo,
cuyo diseño de investigación es
O1 X O2.
O1: Pre test.
X: Aplicación de la variable.
O2: Post Test.
DEFINICIÓN. La prueba T de Wilcoxon considera la magnitud relativa, así como la
dirección de las diferencias y da mayor peso al par que muestra una
diferencia grande entre las dos condiciones.
Para encontrar la suma de sus rangos, es necesario tomar los valores de los rangos de las
pruebas de entrada y salida. Y multiplicar con el valor de la diferencia entre las dos pruebas
del individuo.
EJEMPLO,
Se tiene las calificaciones de examen de Trigonometría, en un solo sección, para
verificar si causa efecto el uso de cierto método a un nivel de significancia de 5% se propone
la siguiente hipótesis: que si influye el nuevo método.
6 Wayne W. Daniel. BIOESTADISTICA, Edit UTEHA, México – 1994.
44 C. Quintanilla C. / A. Cortavarria L.
No. Nombres Calificación
Entrada Salida
01 César 10 12
02 Hugo 08 13
03 Wilder 12 13
04 Ofelia 11 11
05 Máx. 12 14
06 Víctor 09 08
07 Rocío. 13 14
08 Shara 12 13
09 Abel. 11 10
10 Marcelino 10 11
11 Rufino 12 14
12 Teobaldo. 09 12
SOLUCIÓN.
Hallando el rango de la diferencia, se ordena en forma ascendente los valores de la
diferencia sin considerar los signos:
Orden 1 2 3 4 5 6 7 8 9 10 11
Diferencia 1 1 +1 +1 +1 +1 +2 +2 +2 +3 +5
Rango i), ii), iii), … 3,5 3,5 3,5 3,5 3,5 3,5 8 8 8 10 11
i) Cuando existe el valor CERO (0), ésta no se considera. En este caso la alumna
Ofelia tiene nota de 11 en prueba de entrada y nota de 11 en prueba de salida, lo
que genera cero (0) en la diferencia.
ii) Para hallar los rangos de 1 y +1, se suma los ordenes que les correspondes y
luego se divide entre la cantidad de ordenes.
1 2 3 4 5 63,5
6
.
Luego su rango de 1 y +1 es 3,5.
iii) Para hallar los rangos de 2 y +2, se suman sus ordenes que son 4 y 5
7 8 98
3
. Luego el rangos de 2 y +2 es 8.
iv) Como 3 y 5 son únicos, se considera su único orden, que es 10 y 11 en cada uno de
ellos.
v) Finalmente el valor encontrado en la fila de Rango, se multiplica con la diferencia
encontrada en la columna 5.
Estadística Aplicada a la Investigación Científica 45
No. Nombres Calificación
Diferencia Rango de
la
diferencia Entrada Salida
01 César 10 12 +2 +16
02 Hugo 08 13 +5 +55
03 Wilder 12 13 +1 +3,5
04 Ofelia 11 11 0
05 Máx. 12 14 +2 +16
06 Víctor 09 08 1 3,5
07 Rocío. 13 14 +1 +3,5
08 Shara 12 13 +1 +3,5
09 Abel. 11 10 1 3,5
10 Marcelino 10 11 +1 +3,5
11 Rufino 12 14 +2 +16
12 Teobaldo. 09 12 +3 30
T() = 7
Regla de decisión. Para contrastar la hipótesis de investigación es necesario probar la
hipótesis nula.
a) Se elige el valor de , y dependiendo si la prueba es de una cola o de dos colas se
utiliza la tabla T de Wilcoxon.
b) si la hipótesis nula fuese verdadera, se esperaría que los rangos estuvieran igualmente
divididos entre valores positivos y negativos y la suma de sus rangos sean
aproximadamente iguales.
c) Se busca la suma de T() y T(+) en la columna del rango de la diferencia, y se elige
el menor para obtener TC T .
d) Si se obtiene el TC T respectivo, se rechaza la hipótesis nula, y se acepta la
hipótesis alterna; es decir que son diferentes.
Del ejemplo anterior, se tiene que T() = 7, y como se requiere información de que el
método influye significativamente, luego como la hipótesis es de dos colas, entonces
T;n = T0,05;n=11 = 11, para n = 11, porque existe un valor cuyo resultado es cero (0).
Luego probando se tiene TC T -7 11 , el cual correcto. Por tanto, se
rechaza la hipótesis nula, y se acepta la hipótesis alterna; es decir, el método tuvo
efecto.
IMPORTANTE.
Cuando n > 25, no podemos usar la tabla T de Wilcoxon. Sin embargo como la muestra es
suficientemente grande se aproximan a una distribución normal (Z).
a) La ecuación de la distribución Z:
Calificación de salida
menos de entrada. Se multiplica el valor obtenido del rango y la
diferencia
46 C. Quintanilla C. / A. Cortavarria L.
Z = ( )
T
T E T
, donde T es T() o T(+) que es el menor.
b) Luego hallemos la media (valor esperado).
E(T) = ( 1)
4
n n
c) La desviación típica.
( 1)(2 1)
24T
n n n
d) Luego la decisión toma los valores críticos para Z en la tabla de distribución
normal., dependiendo si son de dos colas o de una sola cola.
El ejemplo anterior.
Ahora, desarrollaremos con la distribución Z (esto ocurre cuando n > 25). Sin embargo,
nuestra muestra es pequeña n = 11, y cuando el SPSS realiza la operación la prueba de
Wilcoxon desarrolla a través de la distribución Z, demostraremos como se desarrolla.
Hallando su media, para ello los valores que resulten cero (0) en la diferencia no se
consideran, en nuestro caso en al tabla tenemos 12 alumnos, pero la Estudiante Ofelia no
será considerado por resultar cero (0).
e) La media (valor esperado).
E(T) = 11(11 1)
334
f) La desviación típica.
11(11 1)(2(11) 1)11,25
24T
g) Luego se utiliza la distribución Z:
Z = 7 33
2,3111,25
, donde T es T() .
Como se propone la hipótesis de investigación que si influye el nuevo método al 5%
de nivel de significancia, verificamos que la hipótesis tiene dos colas, la influencia puede ser
negativo o positivo.
Como nuestra hipótesis de investigación dice DIFIERE, significa que tiene dos colas.
Entonces se tiene que distribuir = 0,05 en dos partes.
/2 = 0,025 1- /2 = 0,975.
Luego Z1-/2 = Z0,975 = 1,96. Este valor encontramos en la tabla de la distribución Z.
Estadística Aplicada a la Investigación Científica 47
Decisión:
2 2
1
0
Como zk = - 2,31 y pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho) y se
acepta la hipótesis alterna HA tal como se muestra en la figura. Por tanto, la enseñanza de la
trigonometría con el método desarrollado es significativa.
Región de rechazo Ho
-1,96
Región de rechazo Ho
Región de aceptación 1,96
zk = -2,31
48 C. Quintanilla C. / A. Cortavarria L.
AHORA A TRABAJAR CON EL SPPSS.
Aperturar una hoja de trabajo en el SPSS.
Una vez culminado el ingreso de datos, para realizar el contraste de Wilcoxon y comprobar la hipótesis, si hay diferencia significativa entre los rangos medios de los variables: Prueba de entrada
de los alumnos y su respectiva Prueba de salida.
Elegir: Analizar Pruebas no paramétricas 2 muestras relacionadas. Tal como se muestra en el cuadro
de diálogo.
En la hoja de Vista de
Variables, rotular lo que corresponde como el EJEMPLO.
Completado la operación, hacer clic en Vista de
Datos. .
En la hoja de Vista de Datos, aparece los Rotulos de NOMBRES, ENTRADA Y SALIDA .
Ingresar los Nombres de los estudiantes en la columna. .
Ingresar las notas de entrada y
salida respectivamente. .
Estadística Aplicada a la Investigación Científica 49
NOTA: Con éste cuadro de diálogo se pueden hallar otras dos pruebas no paramétricas. La
de Signo y la de McNemar.
En el siguiente cuadro se muestra el resultado. Rangos
N
Rango
promedio
Suma de
rangos
PRUEBA DE SALIDA – PRUEBA DE ENTRADA
Rangos negativos
2(a) 3,50 7,00
Rangos positivos
9(b) 6,56 59,00
Empates 1(c)
Total 12
a PRUEBA DE SALIDA < PRUEBA DE ENTRADA b PRUEBA DE SALIDA > PRUEBA DE ENTRADA
c PRUEBA DE SALIDA = PRUEBA DE ENTRADA
Estadísticos de contraste(b)
PRUEBA DE SALIDA -
PRUEBA DE ENTRADA
Z -2,358(a)
Sig. asintót. (bilateral) ,018
a Basado en los rangos negativos. b Prueba de los rangos con signo de Wilcoxon
El contraste Z = -2,358(a) p 0,018 indica que existe diferencia significativa entre la prueba de entrada y prueba de salida en la asignatura de Trigonometría utilizando el nuevo método.
NOTA: es importante aclarar que el valor calculado de manera manual en el ejemplo 1 es zk = -
2,31, y no concuerda con el valor de contraste Z = -2,358(a) calculado con el SPSS. La razón es
sencilla, porque trabajamos con n = 12 y forzamos pese que la cantidad de datos es menor que 25 (n
< 25).
!!!!que facil¡¡¡¡¡¡¡¡.
Hacer clic y seleccionar prueba de entrada, y la prueba de salida. Debe aparecer en
Selecciones actuales
variable 1 y variable 2.
Hacer clic en el botón, y aparece tal como se muestra el cuadro de diálogo. Finalmente pulsar el botón Aceptar.
50 C. Quintanilla C. / A. Cortavarria L.
3.6.3. Pruebas de Hipótesis con U de Mann Whitney.
La prueba U de Mann Whitney se usa para probar que si dos grupos independientes han
sido tomados de la misma población; es decir, se parte de que la hipótesis nula Ho pruebe
que las medias son iguales (Ho : 1 = 2 ), contra la alternativa H1 que son diferentes (H1 :
1 2 , prueba bilateral), o la hipótesis alternativa H1 de que uno de las medias de un
grupo es mayor que la del otro (caso unilateral). Ésta prueba constituye una alternativa más
útil ante la prueba paramétrica t de student, cuando el investigador no puede suponer los
parámetros de la población y la rigurosidad para la utilización de dicha prueba. Cuyo diseño
de investigación puede ser de acuerdo al trabajo realizado
I.
Comparación estática o
comparación de grupos sólo
después
X O1.
O2.
X: Aplicación de la variable experimental.
O1: Grupo que recibe el tratamiento.
O2: Grupo que no recibe el tratamiento.
II.
Dos grupos equivalentes o con
grupo control no equivalente
(grupo control no aleatorizado)
GE: O1 X O2.
GC: O3 O4.
X: Aplicación de la variable
experimental.
O1 O3 : Observación de entrada a cada grupo en forma simultánea.
O2 O4 : Observación de salida a cada
grupo en forma simultánea.
GE: Grupo Experimental.
GC: Grupo Control
III.
Dos muestras separadas y
aplicados con tratamientos
distintos
X1 O1.
X2 O2.
X1: Aplicación de la Variable 1 al grupo
1.
X2: Aplicación de la Variable 2 al grupo
2.
O1 O2 : Observación de salida a cada
grupo en forma simultánea e
independiente.
La estadística de Mann Whitney se denota con U. El valor de U se basa en la suma de
rangos de cualquiera de las dos muestras, y se define como el menor de los dos valores de
U1 y U2 de acuerdo a las ecuaciones:
U1 = 1 11
( 1)
2
n nT
U2 = 2 22
( 1)
2
n nT
Donde:
T1 = suma de los rangos de la primera muestra.
T2 = suma de los rangos de la segunda muestra.
n1 = tamaño de la primera muestra.
n2 = tamaño de la segunda muestra.
Decisión.
Para el nivel de significación y los tamaños n1 y n2 de las muestras en la tabla de valores
de la U de Man Whitney, se encuentra el valor crítico U . se rechaza la hipótesis nula Ho si
ocurre Uc U . No se rechaza caso contrario.
Estadística Aplicada a la Investigación Científica 51
Importante:
Para n1 >8 y n2 >8, Mann Whitney a demostrado que la distribución U se aproxima a la
distribución normal, con
Media: U = 1 2
2
n n y
Varianza: 2
U = 1 2 1 2( 1)
12
n n n n
Por lo que se puede determinar la distribución Z.
Z = u
U
U
aproximadamente N(0;1).
EJEMPLO.
Una profesora de Educación Inicial, realiza un trabajo de investigación que consiste en
alimentar a dos grupos niños con dietas nutritivas que permitan desarrollar tanto en el peso
como en el rendimiento. Por esta vez, muestra solamente el resultado del incremento del
peso después de 15 días. La alimentación fue administrada bajo condiciones idénticas.
DIETA 1 12,0 14,9 10,7 13,2 14,5 14,7 15,1 11,8
13,5 14,0 10,1 18,4 14,3 16,3 10,2 23,6
DIETA 2 12,0 18,9 19,2 15,4 15,3 15,8 21,3 20,7
19,6 18,8 14,8 20,1 23,8 21,1 16,2 13,9
Probar la hipótesis nula de que las dos dietas son idénticas contra la hipótesis
alternativa que la dieta 2 produce un mayor aumento de peso que la dieta 1. Usar nivel de
significancia del 1% ( = 0,01).
SOLUCIÓN.
i) Hipótesis.
H0 : d1 = d2 La aplicación de las dietas 1 y 2 tienen igual resultado en
la ganancia de pesos.
HA : d1 < d2 Con la aplicación de la dieta 1 la ganancia de pesos es
menor que la ganancia de pesos que con la dieta 2.
ii) Hallando los rangos.
Para hallar los rangos se ordena los pesos de mayor a menos, se les asigna el orden
correlativo en el mismo orden ascendente. En caso de existir repetición de números
se suman el rango que les corresponde y se divide entre el número de veces que se
repite los pesos (variables).
52 C. Quintanilla C. / A. Cortavarria L.
Peso Rango Peso Rango Peso Rango Peso Rango
10,1 1 13,9 9 15,3 17 19,2 25
10,2 2 14 10 15,4 18 19,6 26
10,7 3 14,3 11 15,8 19 20,1 27
11,8 4 14,5 12 16,2 20 20,7 28
12 5,5 14,7 13 16,3 21 21,1 29
12 5,5 14,8 14 18,4 22 21,3 30
13,2 7 14,9 15 18,8 23 23,6 31
13,5 8 15,1 16 18,9 24 23,8 32
Una vez encontrado el rango se le otorga a cada uno de los pesos de los grupos aplicados
con las dietas 1 y 2.
Die
ta 1
peso 12 14,9 10,7 13,2 14,5 14,7 15,1 11,8
rango 5,5 15 3 7 12 13 16 4 75,5
peso 13,5 14 10,1 18,4 14,3 16,3 10,2 23,6
rango 8 10 1 22 11 21 2 31 106
SUMA DE RANGOS DIETA 1 (T1) 181,5
Die
ta 2
peso 12 18,9 19,2 15,4 15,3 15,8 21,3 20,7
rango 5,5 24 25 18 17 19 30 28 166,5
peso 19,6 18,8 14,8 20,1 23,8 21,1 16,2 13,9
rango 26 23 14 27 32 29 20 9 180
SUMA DE RANGOS DIETA 2 (T2) 346,5
iii). Hallando la media: U = 1 2
2
n n
U = (16)(16)
2= 128
Varianza: 2
U = 1 2 1 2( 1)
12
n n n n
2
U =(16)(16)(16 16 1)
12
= 704.
iv). Región crítica para = 0,0 (1%).
Como nuestra hipótesis alterna de investigación dice La dieta 1 tiene menor ganancia
de peso, significa que tiene una cola a la izquierda.
Si = 0,01 1- = 0,99.
Luego Z1- = Z0,99 = 2,33. Este valor encontramos en la tabla de la distribución Z.
v). Estadística de contraste. Como se desea saber sobre la dieta 1, tomamos para U el
valor de U1.
Estadística Aplicada a la Investigación Científica 53
U = U1 = 1 11
( 1)
2
n nT
U = U1 = 16(16 1)
181,52
U = U1 = 45,5
Ahora, se puede determinar la distribución Z, para n1 y n2 mayores que 8.
Zk = u
U
U
.
Zk = 45,5 128
704
= – 3, 11.
vi). Decisión.
1
Como Zk = – 3,11 pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho), y se
acepta la hipótesis alterna. Existe Es cierto que la dieta 2 mejora en la ganancia de pesos.
Región de rechazo Ho
Región de aceptación de Ho.
- 2,33
zk = –3,11
54 C. Quintanilla C. / A. Cortavarria L.
AHORA A TRABAJAR CON EL SPSS.
Iniciar una nueva hoja de trabajo en el SPSS, luego iniciar con el ingreso de los datos.
Mediante valores (values), asignamos a determinados valores de las variables. En este caso, con: 1 a la variable
dieta 1 y con 2 a la variable dieta2, de forma que cuando trabajamos con ellos nos aparecerá dieta 1 y dieta
2; al realizar cada rotulo hacer clic en Add y finalmente OK.
Finalmente aparece el cuadro.
Ingresar los pesos de ambos de ambos grupos
ordenadamente.
Asignar los códigos de las dietas. Con el número 1 a la dieta 1 y con el número 2 a la dieta 2. Hacer clic
en Variable View.
Renombrar con
pesos y dietas
Poner los Títulos en Label
luego hacer clic en la fila 2
y la columna de Value.
Hacer clic
Se visualiza el
rotulado anterior
Estadística Aplicada a la Investigación Científica 55
Ahora hacer clic en Analyze ---> No parametrics Test -- -> 2 Independent Sample…
El resultado es la que se tiene a la vista.
Ranks DIETAS APLICADAS N Mean
Rank Sum of Ranks
PESOS GANADOS
DIETA 1 16 11,34 181,50
DIETA 2 16 21,66 346,50
Total 32
Test Statistics
PESOS GANADOS Mann-Whitney U 45,500
Wilcoxon W 181,500
Z -3,110
Asymp. Sig. (2-tailed) ,002
Exact Sig. [2*(1-tailed Sig.)] ,001
a Not corrected for ties. b Grouping Variable: DIETAS APLICADAS
Pasar al espacio la variable de los
pesos ganados
Pasar al espacio de Grouping Variable el
rotulado de dietas.
Hacer clic en Define
Groups.
Asignar los valores de 1 y 2, quienes representan a Dieta 1 y Dieta 2.
Finalmente Continue.
56 C. Quintanilla C. / A. Cortavarria L.
Importante: ¿Que hubiese pasado si trabajásemos con la hipótesis alterna que diga que la
dieta 2 mejora en peso?. La prueba sería con cola a la derecha, y se trabajaría
con la ecuación para hallar U y se tiene que utilizar U2 = 2 22
( 1)
2
n nT
,
aplicando a la ecuación se tendría el valor de U y se tiene que utilizar U2 =
210,5. Y finalmente la estadística de contraste es:
Zk = 210,5 128
704
= 3, 11. Resultado positivo, en este caso se hubiese
rechazado la hipótesis nula y aceptado la hipótesis alterna, el investigador tiene que tener
cuidado.
Pero el SPSS, ha trabajado con el U1 = 45,5. Por tanto la computadora solamente
utiliza la primera opción por lo que se debe de tener cuidado al desarrollar los
ejercicios.
Estadística Aplicada a la Investigación Científica 57
ANÁLISIS DE VARIANZA
3.6.4. Pruebas de Hipótesis de Kruskal Wallis.
Es la generalización de la prueba de U de Mann Whitney. Esta prueba trabaja con tres o
más muestras independientes con el objeto de probar la hipótesis nula Ho que las muestras
provienen de poblaciones iguales, contra la hipótesis alterna H1 que las muestras provienen
de poblaciones diferentes. Cuyo diseño de investigación se muestra y que pueden ser
exactamente iguales o similares.
Más de dos muestras
separadas y aplicados con
tratamientos distintos (X1 , X2 , X3 , …)
X1 O1.
X2 O2.
X3 O3.
.
.
.
X1: Aplicación del Variable 1 al grupo 1.
X2: Aplicación del Variable 2 al grupo 2.
X3: Aplicación del Variable 3 al grupo 3
O1 O2 O3 . . . : Observación de salida a cada grupo en forma simultánea e
independiente.
El método es similar con la prueba de la U de Mann Whitney; es decir, asignamos el
rango a cada observación, considerando todas las muestras en conjunto; se asigna rango 1 a
la menor observación, 2 al que sigue, 3 al siguiente y asi sucesivamente, luego se suman los
rangos para cada grupo (muestra). Para calcular la prueba H es la ecuación:
Hc =
2 22 2
31 2
1 2 3
12( ... ) 3( 1)
( 1)
k
k
R RR Rn
n n n n n n
Donde:
1 2 3 ... kn n n n n , tamaño de la muestra
R1 = Suma de rangos asignados a las observaciones de la muestra 1.
R2 = Suma de rangos asignados a las observaciones de la muestra 2.
R
Rk = Suma de los rangos asignados a los nk observaciones de la muestra k – ésima.
Kruskal Wallis llegó a la conclusión de que si la hipótesis nula era verdadera, y si cada
muestra tenía al menos cinco observaciones, el estadístico H tenía una distribución de
probabilidad aproximada por la distribución 2 con (k – 1) grados de libertad.
. . .
.
58 C. Quintanilla C. / A. Cortavarria L.
Para la toma de decisión para contrastar la hipótesis nula Ho, es contrastar si HC
2
1 con un nivel de significación especificado aceptamos Ho; en caso contrario
rechazamos.
EJEMPLO
Un profesor diseñó cuatro diferentes métodos para el aprestamiento a las matemáticas en
Educación Inicial. Los alumnos de la sección fueron divididos en 4 grupos independientes, a
cada grupo se le aplicaron diferentes métodos, al 5% de nivel de significancia se desea saber
si tiene efecto la aplicación de los métodos; cuyo resultado de los ponderados se presenta en
la tabla:
METODOS PONDERADOS OBTENIDOS
METODO A 18,7 15,3 14,3 15,0 15,8 18,1 17,6
METODO B 11,6 12,4 10,8 16,1 13,8 13,4
METODO C 14,5 16,0 14,8 14,0 16,3 10,8
METODO D 17,2 17,2 17,7 13,3 16,1
SOLUCIÓN.
Ordenamos el total de las observaciones y luego asignamos rangos a cada observación en la
muestra conjunta y en seguida obtenemos las sumas de rangos para cada muestra. La
ordenación puede realizarse con la ayuda de EXCEL y otorgarle los rangos.
METODO A METODO B METODO C METODO D
Pond. Rango Pond. Rango Pond. Rango Pond. Rango
14,3 9 10,8 1,5 10,8 1,5 13,3 5
15 12 11,6 3 14 8 16,1 16,5
15,3 13 12,4 4 14,5 10 17,2 19,5
15,8 14 13,4 6 14,8 11 17,2 19,5
17,6 21 13,8 7 16 15 17,7 22
18,1 23 16,1 16,5 16,3 18
18,7 24
R1 = 116 R2 = 38 R3 = 63,5 R4 = 82,5
Ho: Los cuatro métodos tienen igual resultado en el aprestamiento a las matemáticas.
HA: Los cuatro métodos tienen diferentes resultados en el aprestamiento a las
matemáticas.
Calculando Hc de la ecuación.
Estadística Aplicada a la Investigación Científica 59
Hc =22 2 2
31 2 4
1 2 3 4
12( ) 3( 1)
( 1)
RR R Rn
n n n n n n
Hc =2 2 2 212 116 38 63,5 82,5
( ) 3(24 1)24(24 1) 7 6 6 5
Hc = 8.93
Decisión:
Encontremos el valor de 2
1 = 2
0,95 con r = k – 1 grados de libertad.
Luego r = 4 –1 = 3, verificamos en la tabla y 2
0,95 = 7,82.
Como Hc = 8,93 > 2
0,95 = 7,82 rechazamos la hipótesis nula y concluimos que con la
aplicación de los métodos de aprestamientos se obtienen diferentes ponderaciones; es decir,
tuvo efecto la aplicación de los métodos.
60 C. Quintanilla C. / A. Cortavarria L.
AHORA A TRABAJAR CON EL SPSS.
Se apertura el SPSS una de trabajo. Luego introducimos los ponderados en la primera columna por
orden de Métodos.
Luego aparece.
Ahora ingresar a Analyze ---> Noparametric Test ---> K independent Samples …, luego aparece
la ventana
Empezar ingresando los
ponderados de las notas de
los métodos A, B, C y D
Ingresar
1 para el método A,
2 para el método B,
3 para el método C y
4 para el método D.
Hacer Clic
Escribir notas y
métodos,
Hacer Clic
Se da etiqueta a los métodos: 1 significa Método A,
2 significa Método B, 3 significa Método C y 4 significa Método D. Cada vez que se introduzca la etiqueta pulsar la tecla Añadir (ADD).
Para terminar OK.
luego en Label escribir los titulos:Resultado de Examen
y Métodos Aplicados
Estadística Aplicada a la Investigación Científica 61
El resultado sale a la vista.
Ranks
METODOS
APLICADOS N Mean Rank
RESULTADO DE EXAMEN METODO A 7 16,57
METODO B 6 6,33
METODO C 6 10,58
METODO D 5 16,50
Total 24
Test Statistics
RESULTADO DE EXAMEN
Chi-Square 8,937
df 3
Asymp. Sig. ,030
a Kruskal Wallis Test b Grouping Variable: METODOS APLICADOS
Las notas pasar Test
Varible List y
Métodos a
Grouping Variable,
Seleccionar
Grouping
Varible, y hacer
clic en Define
Range…
Ingresar los valores
de los métodos
etiquetados que son desde 1 al 4, se
considera e 1 y el 4.
Pulsar continue y
finalmente OK.
El resultado obtenido al calcular con la formula de Krsukal
Wallis.
62 C. Quintanilla C. / A. Cortavarria L.
3.6.5. Pruebas de Hipótesis de Análisis de Varianza en dos direcciones por
rangos de Friedman.
Es cuando se desean comparar varias muestras o grupos de puntajes aparejadas (a cada
puntaje de un grupo le corresponde otro puntaje del otro grupo o otros grupos; también suele
llamar grupos o muestras dependientes o correlacionadas), el apareamiento puede ser
obtenido relacionando conjuntos con sujetos en una o más variables previas y aleatoriamente
asignando a cada elemento del conjunto pareado varias condiciones diferentes o, si los
mismos sujetos son elementos de cada grupo a comprobar, entonces los conjuntos pareados
resultan adecuados.
Importante: Su uso es cuando no se cumplen los requisitos básicos para el uso
de las pruebas paramétricas; es decir los puntajes de dichos
grupos no se distribuyen normalmente y no hay homogeneidad de
las varianzas.
La hipótesis nula de para el procedimiento de Friedman es que los efectos atribuidos a los
tratamientos son los mismos (no existe diferencias entre tratamientos) y la hipótesis alterna
es que si existe una diferencia entre los tratamientos.
Bloques o
Sujetos
Tratamiento
1 2 . . . j . . . k
1 Y11 Y12 . . . Y1j . . . Y1k
2 Y21 Y22 . . . Y2j . . . Y2k
. . . . . . . . . . . . . . . . . . . . .
n Yn1 Yn2 . . . Ynj . . . Ynk
Al igual que en los otros procedimientos no paramétricos, la prueba de Friedman se basa en
los rangos; para cada bloque (renglón) se asigna un rango a las observaciones comenzando
con 1 y terminando con k. La estadística de Friedman está dada por:
2 2
1
123 ( 1)
( 1)
k
r j
j
R n knk k
EJEMPLO 1.
En una Institución Educativa de Educación Especial, se solicitó a 9 fisioterapeutas que
clasificaran tres (03) modelos de estimuladores eléctricos de bajo voltaje según su
preferencia. Un rango de 1 indica la primera preferencia, rango de 2 indica la segunda
preferencia y rango de 3 indica la tercera preferencia. Los resultados se tienen en la tabla
No. 01.
Estadística Aplicada a la Investigación Científica 63
Tabla No.01.
Rangos asignados por fisioterapeutas a tres modelos
de estimuladores eléctricos de bajo voltaje
Terapeuta MODELOS
A B C
1 1 2 3
2 1 2 3
3 1 2 3
4 2 1 3
5 1 3 2
6 3 1 2
7 1 2 3
8 2 1 3
9 2 1 3
Rj 14 15 25
Solución.
Ho: No existe preferencia por los modelos. (Después de sumar los rangos por cada grupo, si
la hipótesis es verdadera estas sumas serán iguales).
HA: Existe preferencia por los modelos. (Como los rangos de preferencia están de
acuerdo al orden de rango, existe la preferencia por los modelos no por iguales).
Consideremos al 5% de nivel de significancia (=0,05). Pero como los datos se
encuentran en la tabla de Friedman, no es necesario el nivel de significancia.
Luego tomamos los valores r = 9 (número de reglones-Bloques); y k = 3 (número
de columnas-Tratamientos).
2 2 2 21214 15 25 3(9)(3 1)
9(3)(3 1)r
2 8,22222r
En la Tabla V de Friedman, se puede contrastar para r = 9 (k=3), que la probabilidad de
obtener un valor de 2
r = 8,22222 tan grande debido solo al azar y que es igual a 0,016. Por
tanto se rechaza la hipótesis nula y concluye que los tres modelos no son igualmente
preferidos con =0,050,016.
Nota. Cuando los valores de “r” (filas) y “k” (columnas) exceden los valores de la
Tabla V se puede usar los valores críticos de la Tabla III (Chí cuadrada 2
r ) con
k – 1 grados de libertad.
64 C. Quintanilla C. / A. Cortavarria L.
AHORA A TRABAJAR CON EL SPSS.
Se apertura el SPSS y una de trabajo. Luego introducimos los ponderados en la primera columna por
orden de Métodos
Luego hacer clic en Vista de Datos y aparece la tabla:
Una vez culminado para realizar el anova de Friedman elegir Analizar Pruebas no paramétricas
k muestras relacionadas.
a) Seleccionar y transferir cada una de las tres variables (
modelo A, modelo B y modelo C) a la sección “Contrastar Variables”.
Ingresar:
Terapeuta Modelo A, Modelo B, Modelo C.
Hacer clic en vista de
variables.
Poner etiquetas.
Hacer click en Valores Para le Modelo A..
Ingresar los valores y etiquetar “Añadir” luego “Aceptar. La misma operación para los modelos B y C.
Ingresar los valores de la
Tabla No. 01. del Ejemplo
No. 01.
Terapeutas, 1, 2, 3, . . . ,9.
Modelo A,
Modelo B
Modelo C
Hacer clic en
k muestras
seleccionadas.
Estadística Aplicada a la Investigación Científica 65
Los resultados se tienen en el cuadro que se presentan:
Estadísticos descriptivos
N Media Desviación
típica Mínimo Máximo
MODELO A 9 1,6667 ,70711 1,00 3,00
MODELO B 9 2,7778 ,44096 2,00 3,00
MODELO C 9 1,5556 ,72648 1,00 3,00
Analizando, se tiene que los modelos A y C tienen mejor preferencia, porque los rangos
promedios los muestran así; se espera que el modelo C sea elegido por tener el mejor rango,
y que el modelo B es el que tiene como tercera opción.
Rangos
Rango
promedio
MODELO A 1,67
MODELO B 2,78
MODELO C 1,56
La prueba de hipótesis, las diferencias entre los grupos se comprueba mediante la Tabla V
de Friedman Estadísticos de contraste(a)
N 9
Chi-cuadrado 8,222
gl 2
Sig. asintót. ,016
a Prueba de Friedman
Por tanto se rechaza la hipótesis nula y se concluye que los tres modelos no son igualmente
preferidos con =0,050,016
Ejemplo 2.
Se desea saber si existen diferencias entre cinco tipos de entrenamiento. El criterio consiste en el
rendimiento. Seis estudiantes se someten a cinco (5) tipos de entrenamiento y se mide su rendimiento
en atención.
Los resultados se tienen en la siguiente tabla.
Pulsar el botón
Estadísticos, marcar
“Descriptivos” y
pulsar continuar.
Para finalizar pulsar
el botón Aceptar
El valor obtenido al
calcular es
2
r = 8,22222
Comparando en la
Tabla V se obtiene
0,016.
66 C. Quintanilla C. / A. Cortavarria L.
Tabla No 01
Estudiante Entre. 1 Entre. 2 Entre. 3 Entre. 4 Entre. 5
1 13 25 12 25 29
2 18 19 16 21 24
3 17 23 15 22 20
4 19 25 15 20 23
5 24 30 24 36 37
6 15 21 13 19 18
Solución.
Utilizando el mismo procedimiento en el Ejemplo 1, apertura una nueva hoja de trabajo y hacer clic
en Vista de Variables y completar tal como se muestra en la figura.
Hacer clic en Vista de datos y completar la información de la Tabla No. 01 del Ejemplo 2.
Cuyo resultado se muestra en la siguiente figura:
Una vez culminado para realizar el anova de Friedman elegir Analizar Pruebas no paramétricas
k muestras relacionadas.
a. Seleccionar y transferir cada una de las tres variables (ENTREN1 a ENTREN5) a la sección
“Contrastar Variables”.
Estadística Aplicada a la Investigación Científica 67
b. Hacer clic en Estadísticos y marcar Descriptivos, y pulsar el botón continuar y finalmente
pulsar el botón Aceptar.
El resultado se obtiene de la manera muy sencilla. Además con este cuadro se pueden hallar
otras dos pruebas no paramétricas. La W de Kendall y la Q de Cochran.
Estadísticos descriptivos
N Media Desviación típica Mínimo Máximo
ENTRENAMIENTO 2 6 23,8333 3,81663 19,00 30,00
ENTRENAMIENTO 3 6 15,8333 4,26224 12,00 24,00
ENTRENAMIENTO 4 6 23,8333 6,30608 19,00 36,00
ENTRENAMIENTO 1 6 18,5000 3,61939 13,00 24,00
ENTRENAMIENTO 5 6 24,3333 7,50111 18,00 37,00
Los rangos promedios de cada variable indican que los entrenamientos difieren, y el que tuvo mejor
resultado en atención y fue el Entrenamiento 2, y que el entrenamiento 1 tuvo el peor resultado. En
este caso, cuanto más alto es el puntaje, mayor será el rendimiento. Rangos
Rango promedio
ENTRENAMIENTO 1 2,42
ENTRENAMIENTO 2 4,08
ENTRENAMIENTO 3 1,08
ENTRENAMIENTO 4 3,75
ENTRENAMIENTO 5 3,67
La prueba de hipótesis (al nivel de significancia de =0,05 (5%)).
La diferencia entre los grupos se comprueban mediante el estadístico Chi cuadrado 2 2
1 0,95 (4)=
9,49 de la Tabla III, y es menor que2(4)r = 15,119 calculado mediante el SPSS (comprobar
realizando la operación manual, haciendo rangos de menor a mayor). En este caso no se puede usar la
tabla de Friedman por ser el valor de k = 6 mayor que k=4.
Estadísticos de contraste(a)
N 6
Chi-cuadrado 15,119
gl 4
Sig. asintót. ,004
a Prueba de Friedman
Por lo que se concluye que existe diferencia significativas en atención entre los cinco grupos de entrenamiento.
¡¡¡¡¡¡Que fácil!!!!!!!!!!.
C. Quintanilla C. / A. Cortavarria L. 68
EJERCICIOS.
1. Se entrevistaron a hombres y mujeres (muestras) para determinar si fumaban cigarrillos o no. Se
encontró 15 varones son fumadores de 29 y que 20 mujeres fumaban de 30. Comprobar la
hipótesis nula de que la frecuencia relativa de los varones fumadores es la misma que de las mujeres fumadoras. Dicha investigación se debe probar al 5% de nivel de significancia.
2. El siguiente cuadro refleja la reacción de una muestra aleatoria de 115 estudiantes de la UNH,
frente a la expansión del programa de Bilingüe Intercultural a otras provincias según el nivel del
curso.
Reacción Nivel del curso
Total 1er nivel 2do nivel 3er nivel
A favor 20 19 15 54
En contra 10 16 35 61
Total 30 35 50 115
Considerando al 5% de nivel de significancia, probar la hipótesis
3. Dos grupos de estudiantes (que recibieron clases regulares y los que recibieron clases por
correspondencia) se presentaron a exámenes finales de Estadística. Se obtiene que 22 de los 30 que asistieron a recibieron en clases regulares aprobaron el examen, mientras tanto, 10 de los 28
que recibieron clases por correspondencia aprobaron el examen. Comprobar la hipótesis nula al
5% de nivel de significancia, que la frecuencia relativa de los alumnos que recibieron clases
regulares y por correspondencia son iguales.
4. Se tiene el interés por conocer si la actitud de los ciudadanos del Perú respecto al diálogo entre el gobierno y el Grupo Armado es independiente de la ideología del partido a la cual pertenecen.
Una encuesta aleatoria de 500 ciudadanos clasificados por afiliación a los partidos políticos dio
los siguientes resultados:
Actitud hacia el
diálogo.
Observación según afiliación partidaria Total
APRA UN Otros Partidos
A favor 35 80 50 165
En contra 45 60 80 185
Se abstienen 20 60 70 150
Total 100 200 200 500
Considerando al 5% de nivel de significancia, probar la hipótesis de que la actitud de los ciudadanos con respecto al diálogo es independiente de la ideología partidista.
5. Un profesor de Historia realiza una investigación sobre los niveles de retención de palabras relacionados con la historia. Para ello elabora una prueba de entrada, y somete dicha prueba a 22
estudiantes de Historia y Ciencias Sociales. Luego aplica un método que ayuda a incrementar la
capacidad de retención. Los resultados son:
P ALUMNOS
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
E 72 70 68 67 73 71 72 70 69 70 68 72 69 66 73 71 70 72 70 69 72 73
S 74 72 69 68 72 73 72 74 68 73 69 70 68 69 74 73 70 74 68 71 75 76
Estadística Aplicada a la Investigación Científica 69
Probar la hipótesis de que el método recibido por los estudiantes ayuda a mejorar a retener las palabras relacionados a Historia. Considerar de 5% de significancia. Utilizar Prueba del Signo.
6. Se hizo experimento con 11 estudiantes seleccionados al azar, para ver si un entrenamiento
previo, basado en la solución de rompecabezas (lógico matemático), contribuye para tener un mejor rendimiento en el aprendizaje de la teoría de conjuntos. Se aplicaron dos pruebas: una
antes y otra después del entrenamiento. Los resultados se presentan a continuación.
Prueba ALUMNOS
1 2 3 4 5 6 7 8 9 10 11
Entrada 10 11 11 08 12 12 12 12 14 13 15
Salida 12 12 14 11 13 15 12 15 12 14 18
Por medio de la prueba del signo, determine si el entrenamiento previo ayuda a mejorar el
aprendizaje de la teoría de conjuntos. Utilice un error de 5% (valor de alfa).
a. Los ejercicios (1) y (2), desarrollar a través de la Prueba de Rangos señalados de Wilcoxon
7. Los estudiantes de Ciencias Sociales e Historia, realizan un estudio sobre las comidas nativas
que nuestros antepasados utilizaron en sus dietas. Para ello realizan un experimento en la reducción de pesos a 20 señoritas subidas de peso durantes seis semanas. Los pesos antes y
después del régimen se presentan a continuación.
Ps SEÑORITAS
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
E. 90 110 87 86 79 92 96 97 93 78 96 87 125 116 108 79 146 98 90 88
S. 84 99 92 84 77 92 89 95 98 73 92 88 121 109 102 85 137 94 91 79
Utilizando la prueba de Wilcoxon, al 5% de significancia, determinar si la dieta de nuestros
antepasados tuvo efecto.
8. El Director de una Centro Educativo asegura que los docentes a quienes se les dá un
entrenamiento sobre relaciones humanas, y dan una impresión agradable entre sus alumnos. Para
probar lo anterior se seleccionaron al azar 22 docentes, dividiéndose en dos grupos de 11 cada
una. Al grupo experimental se dio un curso de relaciones humanas y trato en el salón de clases. Los resultados se presentan, de acuerdo a la tabla de calificación de 0 a 10.
Grupos Calificaciones
Experimental 3 9 8 7 3 9 7 4 9 8 7
Control 5 0 1 5 2 2 0 6 2 6 5
Utilizando la Prueba de U de Mann – Whitney, verificar si el Director tiene razón. Utilice un
nivel de significancia de alfa de 0.05.
9. Un psicólogo clínico (docente universitario) desea conocer la relación entre la agresividad y las diferencias sexuales, seleccionó un grupo de 12 niños y 12 niñas de seis años de edad. Las
puntuaciones de agresividad exhibida durante las experiencias se presentan a continuación.
Grupo PUNTUACIONES
Niños 86 69 72 65 110 65 115 46 141 104 40 50
Niñas 55 40 22 58 16 8 9 16 26 37 22 15
C. Quintanilla C. / A. Cortavarria L. 70
A través de la Prueba de Mann Whitney, al 5% de nivel significancia, pruebe:
a) Pruebe que la agresividad es la misma en ambos sexos.
b) Pruebe que la agresividad en los varones es mayor que en las mujeres.
10. Se inyectaron tres grupos de personas que sufren de depresión con una nueva droga
tranquilizante. Al grupo A se le inyectaron 0,5 mg; al grupo B 1,0 mg y al grupo C 1,2 mg. En el siguiente cuadro se muestran los tiempos que tardaron en dormirse.
Tiempo (mínimo)
A 11 13 9 14 15 13
B 9 11 10 8 12 -
C 10 5 8 6 10 6
Utilizando la prueba H de Kruskal- Wallis, al 5% de nivel d significancia, probar que las diferencias en las dosificaciones tienen efecto real en los tiempos medios necesario para
dormirse en las poblaciones de donde se producen.
11. Se quiere comprobar la efectividad de tres métodos para enseñar teoría de conjuntos. Para tal fin
se tomaron al azar 24 estudiantes homogéneos, los cuales se dividieron en tres grupos. Después
de 6 semanas de enseñar conjuntos con diferentes métodos, se aplicó el mismo examen a los tres grupos, cuyos resultados son.
METODOS Puntuación
Método A 88 92 74 68 76 80 89 70
Método B 95 80 77 69 72 76 83 66
Método C 89 93 81 71 67 92 78 64
Utilizando el método de Kruskal- Wallis, probar de que los tres métodos tienen igual efectividad para enseñar teoría de conjuntos, contra la alternativa de que son diferentes. Use el 1% de nivel
de significancia.
12. Suponga que tres tipos de estilos, A, B y C, se estudiarán por su legibilidad, y la calificación de
legibilidad se registra en la tabla:
Tipos de estilo
A 22 24 21 17 26 25
B 26 36 37 37 33 32
C 23 30 29 26 31 -
Utilizando el método de Kruskal- Wallis, probar de que los tres métodos tienen igual efectividad para enseñar teoría de conjuntos, contra la alternativa de que son diferentes. Use el 5%
de nivel de significancia.
13. Un fabricante de plumones para pizarras acrílicas, está interesado en determinar el efecto que tiene 3 ingredientes en la duración del plumón (en días). El fabricante asignó al azar cada uno de
los tres ingredientes a 10 (diez) grupos de plumones en experimento, tal como se muestra en al
tabla.
Estadística Aplicada a la Investigación Científica 71
Ingred. GRUPOS
1 2 3 4 5 6 7 8 9 10
A 14 10 14 12 10 16 12 12 10 12
B 18 18 18 20 16 14 16 16 16 18
C 18 16 18 20 20 16 17 18 18 20
Utilizando la prueba de Friedman, ¿tienen efectos distintos los ingredientes en la duración de
los plumones?.
14. La UNH adquiere un lector óptico de marca SHAROX, esta máquina es capaz de leer marcas
hechas con lápiz en una forma especial. Un fabricante de SHAROX cree que su producto puede
operar igualmente bien en diversos entornos con temperatura y humedad diferentes. Para determinar si los datos de operación contradicen esta creencia, el fabricante pide a un laboratorio
de pruebas industriales muy conocido que pruebe su producto. Se seleccionaron al azar cinco
SHAROX de reciente producción y se operó con cada una de ellas en distintos entornos. Se registró el número de formas de cada una de ellas al procesar durante una hora, y se utilizó este
dato como medida de eficiencia de operación del SHAROX. Utiliza la prueba de Friedman para
determinar si hay pruebas de que las distribuciones de probabilidad de los números de formas procesadas por hora difieren en su ubicación para al menos dos de los entornos. Considere nivel
de significancia = 0,05.
Máquina No Entorno
1 2 3 4 5 6
1 7633 7601 7561 7500 7702 7600
2 7850 7820 8100 7802 7904 7819
3 8175 8101 8235 8111 8201 8102
4 7990 7932 7922 7910 7900 7892
5 8055 8025 8007 8001 8100 7991
C. Quintanilla C. / A. Cortavarria L. 72
CASOS MAS IMPORTANTES DE ANÁLISIS ESTADÍSTICO
CASOS PARAMÉTRICO NO PARAMÉTRICO
1. Comprobar 2 medias de
grupos independientes.
Ejm. Puntaje de autoestima
en dos aulas.
“t” de Student para muestras independientes.
U de Mann - Whitney
2. Comparar dos medias de dos
grupo relacionados. Ejm. Media de rendimiento
académico antes y después.
“t” de Student para muestras dependientes.
T de Wilcoxon.
3. Comparar K medias de
grupos independientes.
Análisis de varianza (anova)
o prueba (F).
Análisis de varianza de
Kruskal – Wallis.
4. Para estudio de seguimiento
comparar K medias de grupos
relacionados. Ejm. Comparar X de
rendimiento académico al
inicio, medio y final de año.
Análisis de varianza de
mediciones repetidas. Se usa
más en medicina.
Análisis de varianza de
Friedman. Se usa más en
educación.
5. Comparar dos proporciones
de grupos relacionados.
Ejm. Conocimiento: Sabe o
no sabe; actitud: favorable o desfavorable. Favorito de
candidatos.
Distribución Z para
proporciones Análisis de Mc Nemar.
6. Comparar K proporciones de grupos relacionados.
Análisis de Cochran.
7. Relación de 2 variables
cualitativas.
Ejm. Sexo y autoestima.
x2 de independencia.
8. Relación de 2 variables
cuantitativas.
Coeficiente de correlación de
Pearson
Correlación de
Spearman.
Estadística Aplicada a la Investigación Científica 73
BIBLIOGRAFIA
Freud, J., Miller, I. and Miller, M. (1999). Mathematical Statistical. USA, New Yersy:
Printice Hall.
Mostellery, F. and Rourke, K. (1973). Study Statistic: Nonparametric and Order Statistic.
USA: Addisson Wesley.
Fisher, R. (1921). On the Probable Error of a Coeffient of correlation Deduced from a small
Sample. USA: Metron.
Dickinson, J. (1971). Nonparametric Statistical Inference. USA: Mc Graw Hill Book
Company.
Marqués de Cantú, M. (1991). Probabilidad y estadística: Para ciencias Químico –
Biológicas. México: Edit. McGraw – Hill.
Woolson, R. And Clarke, W. (2002). Statistical Methods for the Analysis of Biomedical
Data. USA: A John Wiley , INC., PUBLICATION
Córdova, M. (2003). Estadística: Descriptiva y Inferencial. Perú: Edit. Moshera; 5ta edición.
Gay, L. and Airasian, P. (2000). Educational Research: Competencies for Analysis and
Application. USA: Printice Hall. 6th
edition.
Martel, P. y Diez, F. (1997). Probabilidad y Estadística en Medicina. España: Ediciones Dias
de Santos.
Gonick, L. y Smith, W. (1993). La Estadística en Comic. España: Edit. Zendreria Zariquiey.
Levin, J. (1979). Fundamentos de Estadística en a Investigación Social. México: Edit.
HARLA.
Wayne, D. (1994). Bioestadística: Base para el análisis de las ciencias de la salud. México:
UTEHA, NORIEGA EDITORES.
Camacho, J. (2001). Estadística con SPSS para Windows. México: Edit. Alfaomega.
Pérez, C. (2001). Técnicas Estadísticas con SPSS. España: Edit. Printice Hall.
Eves, H. (1953). An Introduction to the History of Mathematics. USA: Rinehart and
Winston, Inc.
Hotelling, H. (1953). NEW LIGHT ON THE CORRELATION COEFFICIENT AND ITS
TRANFORMS. Journal of the Statistical Society; Ser B, 15 (1953), 193 – 232.