Download - SPSS LIBROdeESTADISTICA

ESTADÍSTICA

APLICADA A LA

INVESTIGACIÓN

CIENTÍFICA CON SPSS Este libro constituye un material de fácil comprensión de la estadística en la investigación científica orientada al campo educativo.

Gasto promedio mensual (s/.)

700,0

600,0

500,0

400,0

300,0

200,0

100,0

10

8

6

4

2

0

Std. Dev = 132,31

Mean = 428,7

N = 20,00

2009

UNIVERSIDAD NACIONAL DE HUANCAVELICA

CERAPIO QUINTANILLA CÓNDOR

ADOLFO CORTAVARRIA LINARES

iii

ESTADÍSTICA APLICADA A LA

INVESTIGACIÓN CIENTÍFICA CON SPSS

iv

ESTADÍSTICA APLICADA A LA

INVESTIGACIÓN CIENTÍFICA

Diseño y producción Cerapio Quintanilla C.

Portada Kenny Quintanilla R.

D.R. © 2009 Colección Shara.

Ninguna parte de este material electrónico puede ser comercializada, tampoco

reproducida sin el permiso escrito a los autores. El uso de este material es exclusivo

para fines académicos y científicos que deberá ser citado

ISBN Versión electrónica.

Elaborado en Perú

Escuela de Post Grado

Universidad Nacional de Huancavelica.

Colección Shara

v

INDICE

NOTA PRELIMINAR vii

CAPITULO I 1. CONCEPTOS BÁSICOS DE LA ESTADÍSTICA 1 Breve reseñan histórica de la Estadística. 1 Objetivos de la Estadística. 2 Población 2 Variables 3 Muestra 5 Clasificación de la información. 7 Presentación de información 14 Diagrama de hojas y tallos 27 Diagrama de cajas. 28 Ejercicios. 29

CAPITULO II 2. MEDIDAS DE TENDENCIA CENTRAL Y DE

POSICIÓN 35

Medidas de posición. 35 Media Aritmética. 35 Mediana. 37 Moda. 39 Medidas de Dispersión 43 Varianza. 43 Desviación estándar 46 Coeficiente de variación. 46 Ejercicios. 48

CAPITULO III

3. DOCIMASIA DE HIPÓTESIS. 51 Hipótesis Estadística. 51 Hipótesis Nula y Hipótesis Alterna. 52 Prueba de una hipótesis estadística. 53 Pruebas de Hipótesis Paramétricas. 54 Pruebas de Hipótesis con la Distribución Z 54 Pruebas de hipótesis t- student. 58 Prueba de Hipótesis para la diferencia de proporciones. 63 Ejercicios. 65 Coeficiente de Correlación y Regresión Lineal. 67

vi

Diagramas de Dispersión. 67 Regresión Lineal. 68 Correlación. 70 Ejercicios. 80 Pruebas de Hipótesis No Paramétrica 82 Pruebas de Hipótesis con Chi – Cuadrada. 82 Prueba de Hipótesis de Wilcoxon. 89 Prueba de Hipótesis con U de Mann Whitney. 96 Prueba de Hipótesis de Kruskal Wallis. 103 Prueba de Hipótesis de Friedman 108 Ejercicios. 114 CASOS DE ANALISIS ESTADÍSTICO 118 BIBLIOGRAFIA. 119 TABLAS. 120

vii

NOTA PRELIMINAR

Este material fue inspirado por los alumnos de Matemática quienes en buscar lo

accesible para su comprensión de la Estadística propusieron su elaboración. Porque hoy

en día, la estadística es imprescindible en toda las ciencias de la naturaleza (física,

química, biología, ingeniería y otras área afines) como en las ciencias humanas

(economía, psicología, sociología, educación, etc.) y cobra un papel de importancia cada

vez mayor. En el campo educativo no es ajeno a este fenómeno, más que nada en las

investigaciones cuantitativas, así como en la toma de decisiones de los resultados que se

obtienen en el quehacer educativo.

Por otra parte, en nuestro medio existen publicaciones referentes al desarrollo de la

estadística descriptiva e inferencial, utilizando métodos tradicionales hasta el uso de la

tecnología (el uso de sofisticados software estadístico). Sin embargo, éstas no presentan

una aplicación con ejemplos didácticos y el uso del software. Es por ello, los autores

comprometidos con el quehacer educativo y la investigación educativa ponemos a los

interesados el material sin perder la rigurosidad haciendo uso del software estadístico

Statistical Package for the Social Science (SPSS), presentando ejemplos aplicativos al

campo educativo y a la investigación educacional, desarrollados manualmente y

contrastándose los resultados con el uso del software SPSS de manera didáctico y

guiados paso a paso para su mejor comprensión.

Para el adecuado proceso de aprendizaje del lector el libro ha sido dividido en tres

capítulos, en cada capítulo el uso del SPSS se presenta para contrastar cada ejemplo

propuesto, y su uso está guiado mediante la presentación de las ventanas respectivas. En

el capítulo I, se presenta los conceptos fundamentales de la estadística descriptiva:

tratamiento de los datos y sus presentaciones mediante tablas de frecuencia y gráficos.

El capítulo II, aborda la parte de medidas de tendencia central (media, mediana y moda)

y medidas de dispersión (varianza, desviación típica y coeficiente de variación). Y

finalmente en el capítulo II, se desarrolla lo concerniente a la estadística inferencial,

exclusivamente las pruebas de hipótesis. Sin embargo, la necesidad en el campo

educativo ha permitido que presentemos los dos tipos de pruebas estadísticas: pruebas

de hipótesis paramétricas y pruebas de hipótesis no paramétricas.

Se ha dado mucho énfasis en las pruebas de hipótesis no paramétricas, porque éstas

permiten al investigador desarrollar libremente sin importar los parámetros de la

población, ya que muchos trabajos de investigación no se ajustan a los requisitos para el

uso de las pruebas de hipótesis paramétricas.

viii

Es nuestro deseo que el esfuerzo invertido en la preparación de este libro, para que los

investigadores en el campo de la educación tengan un beneficio personal y contribuyan

en aras de la educación. Todas las sugerencias de los investigadores, estudiantes y

lectores que nos ayuden a mejorar el contenido serán bienvenidas.

Finalmente, nos resta expresar nuestra gratitud a todos quienes pusieron un grano de

arena en la cristalización del libro, en especial a la Dra. Olga Pacovilca Alejo por sus

sugerencias e interés en la publicación, a Jesús Huarcaya por su apoyo incondicional.

También queremos agradecer a la Universidad Nacional de Huancavelica y la escuela

de Post Grado por permitirnos realizar este trabajo fruto de nuestras experiencias en las

aulas.

Huancavelica, noviembre del 2009

Los autores.

ESTADISTICA

“Lo especial de la Estadística para ser precisos, es su habilidad de cuantificar la incertidumbre. Esto

permite a los estadísticos hacer afirmaciones categóricas con una seguridad total sobre el nivel de

incertidumbre”

Tomado del Libro: LA ESTADÍSTICA EN COMIC.

Larry Gonick. Woollcott Smith.

CAPÍTULO 1

INTRODUCCIÓN AL SPSS

En ésta primera parte es brindar al investigador los conceptos y procedimientos básicos para

la utilización del software SPSS (Statistical Package for Social Science) bajo el entorno

Windows. Se considera que el lector tiene instalado el software SPSS en su computadora

personal, por lo que el usuario deberá seguir los pasos básicos, así como la barra de menús,

las barras de herramientas y el uso de las ventanas (el editor de datos y el visor de los

resultados).

El programa por su especial cualidad, nos ofrece una amena forma de desarrollar la

estadística y su aplicación para la toma de decisiones. Si bien es cierto que las versiones

cada vez es mejor, para un trabajo de investigación en condiciones normales es suficiente

una versión de SPSS 15, por tal motivo el texto está desarrollado con dicha versión (aunque

en le mercado existe la nueva versión PASW).

1.1. Iniciar SPSS

Para iniciar el trabajo con SPSS, debe hacer clic en el botón Inicio, luego hacer clic en

programas y ubicar SPSS para Windows.

2 C. Quintanilla C. / A. Cortavarria L.

Luego parece la presentación del programa y al fondo la ventana de editor de datos.

Si hacemos clic en Cancelar pasaremos directamente a la ventana de editor de datos.

Y si deseamos hacer clic en Aceptar debemos elegir ¿qué deseamos hacer?: ejecutar el

tutorial, introducir datos, ejecutar una consulta creada anteriormente, etc. Una vez

ejecutada esta acción pasará al editor de datos.

1.2. Pasos para la introducción de datos

a) Introducción directa de datos

Antes de ingresar los datos es necesario reconocer las partes básicas de la ventana de

editor.

Una vez recolectado los datos, se inicia introduciendo los datos en las columnas de

variables determinado por Vista de datos. Si deseamos definir variables, debemos

Fila de

casos/individuos

Vista de matriz

de datos Vista de variables

Columna de variables (var0001, var0002, var0003 … )

Estadística Aplicada a la Investigación Científica 3

hacer clic en Vista de variables y especificar: nombre, tipo de variables, anchura,

decimales, etiqueta, y otros atributos, tal como se muestra en la ventana.

b) Extrayendo un archivo de una carpeta

La segunda forma de obtener datos es extrayendo un archivo de una carpeta

determinada (del disco, USB, disquete)

1.3. Barra de Menú

La barra de menú permite acceder a todas la funciones que considera SPSS. Cada

venta posee su propia barra de menús. La se presenta a continuación.


Archivo: Permite abrir, cerrar, guardar e imprimir archivos.

Edición: Permite cortar, copiar, insertar variables y pegar elementos; así como acceder

a otras opciones.

Ver: Muestra la barra de estado, permite personalizar la barra de herramienta.

Transformar: Permite modificar datos, transponer variables, reemplazar valores

perdidos, recodificar en las mismas variables y distintas variables, y otras.

Analizar: Permite realizar distintos tipos de análisis estadístico para la elaboración de

reportes de investigación y análisis de datos.

Gráficos: Crea gráficos de barras, histogramas, gráficos interactivos, permite verificar

cuadros de diálogos antiguos.

Utilidades: Permite definir conjuntos, ejecutar procesos, editar menús, cambiar

tipografías.

Ayuda: permite encontrar temas específicos que ayuda y muestra la información

acerca de los procedimientos y funciones de SPSS.

1.4. Barra de herramientas

La barra de herramientas incorpora varias ventanas y que éstas contienen las funciones

de trabajo.

Para identificar las acciones de cada una de ellas, deberá colocar el puntero en el icono

correspondiente y ésta le indicará que acción realiza.

1.5. Ventanas

En SPSS existen dos ventanas principales que son: Editor de datos y el Visor

1.5.1. Ventana de Editor de Datos

Esta ventana muestra el contenido del fichero de datos. Permite crear nuevos datos o

modificar los archivos existentes. Además está compuesto por dos vistas: Vista de

datos y Vista de variables.


1.5.2. Ventana de Visor

En esta ventana se muestra los resultados estadísticos, tablas de frecuencias y gráficos

que se generan. Para realizar informes de los resultados en Word, simplemente se

selecciona y se hace una copia (copy) y se pega.

A partir de los siguientes capítulos se desarrollará la parte estadística y sus aplicaciones se

realizaran con los ejemplos desarrollados de tal manera que se pueda comprobar con el

programa SPSS.


CAPÍTULO II

CONCEPTOS BÁSICOS DE ESTADÍSTICA

2.1. Breve Reseña Histórica de la Estadística

El origen de la Estadística se remonta a la escritura de número, donde el hombre empezó a

llevar cuentas mediante marcas de la caza que realizaba. En el Antiguo Testamento se

encuentran varias relaciones de censos, la Biblia menciona el censo que Moisés levantó a

instancias de Jehová.

Por otro lado los gobiernos de Babilonia, Egipto y Roma reunían registros detallados de sus

poblaciones, sus ejércitos y de sus recursos con fines de recabar impuestos. En la Edad

Media, los gobiernos empezaron a asentar en documentos la propiedad del suelo; se sabe

que en el año 762 d. de C., el Emperador Carlomagno solicitó descripciones pormenorizadas

de las propiedades con que contaban las iglesias. Guillermo el Conquistador (1086), ordena

la elaboración de un libro Domesday Book, que concierne a la propiedad, extensión y valor

de las tierras de Inglaterra, cuyo documento fue la primera obra estadística de Inglaterra.

Luego por los años 1654 el Caballero de Mèrsé propuso preguntas relacionado al

lanzamiento de dados “En ocho lanzamientos sucesivos de un dado intenta un jugador de

obtener un uno, pero el juego se interrumpe después de tres intentos fallidos. ¿En qué

proporción ha de ser compensado el jugador?”; dando origen a una nueva teoría

denominado “Probabilidad” que en la actualidad viene a ser parte de la Estadística. En 1705

Jacques Bernoullí escribe una teoría clásica de probabilidades, titulado Ars conjectandi

(Arte de la conjetura), cuya obra fue publicado luego de ocho años de la muerte del autor.

En el Imperio Incaico, aún cuando los pobladores no conocían la estadística como tal

estaban familiarizados y llevaron registros de su población, terrenos y otras cuentas

mediante los Quipus; así estuvieron familiarizados con datos e informes sobre aspectos

demográficos y económicos.

Por los años (1719 – 1772) el Alemán Godofredo de Achenwall fue el primer teórico de la

Estadística que le dio el nombre de estadística, basándose en el origen etimológico “Status”.

Sin embargo, según otras fuentes la palabra estadística procede del vocablo "estado" pues la

función principal de que los gobiernos de los estados fue siempre establecer registros de

población, nacimientos, defunciones, inventarios de la riqueza, etc., por lo que las personas

entienden por estadística al conjunto de datos, tablas y gráficos que se suelen publicar en los


periódicos. Pero, en la actualidad, se entiende por estadística el método que sirve para tomar

decisiones, de ahí que se emplee en muchos estudios e investigaciones científicos.

Definiciones.

Definir tal como es la estadística es poco tedioso, porque muchos autores tienen diferentes

apreciaciones con respecto a la estadística por el mismo hecho del avance tecnológico y

científico. María José Marquez de Cantú (1991) dice: “Actualmente la Estadística es una

rama de la matemática aplicada que colecciona, clasifica y evalúa o analiza datos como base

para inferencias o conclusiones válidas, así como para tomar decisiones en base a ese

análisis”1. Así mismo, Woolson R y Clarke W (2002) citan a Broadly : “estadística es el

campo de estudio del método de la obtención de datos, resumen y realizar inferencias de los

datos de grupos de individuos”2

Estas consideraciones, nos permiten decir que la Estadística es una ciencia que recopila

información, evalúa y contribuye en la toma de decisiones ante situaciones de

incertidumbre, justificándolo científicamente.

2.2. OBJETIVOS DE LA ESTADÍSTICA

a) Descripción de grandes colecciones de datos

La descripción se refiere a que los datos que vienen expresados en su forma natural

deben ser clasificados y presentados sistemáticamente en cuadros o tablas como una primera

reducción de datos.

b) Análisis estadístico de datos experimentales y de los fenómenos observados.

Toda investigación estadística incluye un problema de análisis, con el objeto de

formarse un concepto de la población o universo y adoptar decisiones.

c) Predicción o comportamiento de los fenómenos en el futuro.

Este objetivo de predicción y previsión está implícito tanto en la descripción como en el

análisis estadístico, puesto que en general interesa orientar la toma de decisiones con

vigencia y efecto en futuro.

2.3. POBLACIÓN

Es la totalidad de las unidades de observación (personas, objetos o eventos) con una

determinada característica, además que puede ser medible o contable y que pueden ser

cualitativo o cuantitativo, sobre los cuales se desean tomar una decisión.

Si la característica observada es medible o contable, recibe el nombre de variable

estadística continua o discreta. Las poblaciones pueden ser estudiadas en su totalidad si son

pequeñas; pero en la práctica las poblaciones son grandes y en algunos casos infinitos

EJEMPLO:

a) Alumnos matriculados en COU en toda España.

b) Los zancudos portadores del Dengue.

1 María José Marquez de Cantú. PROBABILIDAD Y ESTADISTICA Edit. McGrawHill. México – 1990. 2 R. Woolson; W Clarke. STATISTICAL METHODS FOR THE ANALYSIS OF BIOMEDICAL DATA.

John Wiley and Sons, INC., Publucation. New York – 2002.


c) El número de glóbulos rojos de una persona.

d) El número de hijos de las familias en el Perú

2.4. VARIABLE

Una variable (X) es un símbolo que representa una característica a estudiar en una población.

Llamamos dato (x) al valor numérico (número o no) que la variable toma sobre un individuo

concreto de la muestra.

2.4.1. Según su naturaleza.

a) Variables cualitativas: son atributos susceptibles de ser expresado mediante palabras

(ocupación, profesión, actividad económica, marcas de autos, sexo, estado civil, color, etc.),

sólo se pueden contar y no son medibles. Se puede clasificar en variables cualitativo ordinal,

ésta pero si se puede jerarquizar (profesión, cargos, instrucción, etc.); y variable cualitativo

nominal, que no se puede jerarquizar (sexo, religión, color, etc.).

b) Variables cuantitativas: son aquellas variables que se expresan numéricamente

(ingresos, egresos, consumo de azúcar, edades, estatura, notas de los estudiantes, talla del

calzado, etc.), estas unidades pueden ser medibles. Existen dos tipos de variables: variable

cuantitativo continuo y variable cuantitativo discreto.

b.1. Discreta Son aquellas variables que se expresan en número enteros.

EJEMPLO:

Número de hijos por familia en la ciudad de Huancavelica.

Número de estudiantes matriculados en la UNH.

b.2. Continua Son aquellas variables que son expresados en decimales y que se puede

tomar los valores dentro de un intervalo, es decir se expresan en

números reales.

EJEMPLO:

La medida de la temperatura: 15,8 ºC.

La estatura de algún estudiante de una Facultad: 1,72 m.

La masa de los estudiantes matriculados al curso de Estadística Bayesiana: 58 – 70

kg.

Es posible categorizar las variables cuantitativas en variables cualitativas, por

EJEMPLO si las notas de los estudiantes en matemática tienen notas de 0 a 20, éstas

podrían categorizarse de la siguiente manera:

Tabla Nº 01

00 a 05 06 a 10 11 a 15 16 a 20

D C B A

Pero se debe tener en cuenta, que al realizar esta operación se pierde el verdadero valor de la

información. Por lo que se recomienda utilizar sólo en casos necesarios.


Variables dicotómicas:

son aquellas variables que sólo pueden tomar dos valores, (SI/NO); (0; 1).

Esquema de la posición de las variables.

2.4.2. Variables según su relación.

a) Variables dependientes (VD - efecto).

Son aquellas que se explican por otras variables, son los resultados o efectos respecto

a los cuales existe una causa, motivo o razón.

EJEMPLO

El puntaje obtenido (VD) en el examen de Admisión; este resultado es probable que

guarda relación con el coeficiente de Inteligencia.

b) Variables Independientes (VI - Causa).

Son las variables explicativas o predictivas, que influye sobre la variable

dependiente.

EJEMPLO

El coeficiente de inteligencia influye en el resultado en el puntaje obtenido en el

examen de Admisión.

c) Variables Intervinientes (Causa).

La variable interviniente es aquella que se afecta indirectamente condicionando los

resultados de la variable dependiente, que muchas veces no se puede controlar durante la

investigación.

Ejemplo: El puntaje obtenido (VD) en el examen de Admisión, está en relación al

coeficiente de Inteligencia (VI). La variable interviniente es la alimentación o el

estrés, que influye en el verdadero resultado del examen.

VA

RIA

BL

ES

CUANTITATIVAS

CUALITATIVAS

DIC

OT

OM

ICA

S

Discreta

Continua

Nominal

Ordinal


2.4.3. Variable según su escala de medición.

a) Variables Nominales

Son aquellas variables que establecen categorías nominativas sin explicar orden entre

ellas.

EJEMPLO.

Las variables que se caracterizan sin tener orden: sexo, estado civil, raza, credo, lugar

de nacimiento.

b) Variables Ordinales

Son aquellas variables que se caracterizan por tener orden entre sus categorías.

EJEMPLO.

Las profesiones (porque se puede ordenar de acuerdo al nivel), grado de instrucción,

orden de mérito, clases sociales.

c) Variables de Intervalos.

Son aquellas variables cuya característica son de expresar orden y grados de

distancias iguales entre diversas categorías, funcionan por convención y tienen un

cero relativo.

EJEMPLO.

La temperatura, la hora, las puntuaciones de 0 a 20, tablas con baremos, etc.

Vector observación

El vector observación va ha depender del tipo de variables en estudio (Discreta, continuo,

ordinal, nominal y dicotómico).

EJEMPLO.

El señor Eduardo Saldaña es el vector observación (V1), cuyas variables en estudio son:

masa = 62 kg; estatura = 1,63 m; profesión = Físico (F), estado civil = casado (C), lugar de

procedencia = Trujillo (T).

luego el vector es: 1

62

1 63

,

V F

C

T

2.5. MUESTRA.

En la realidad es imposible calcular el verdadero valor de cualquier parámetro de una

población infinita. En la mayor parte de los casos tampoco resulta práctico calcular el

verdadero valor de cualquier parámetro de una población finita. Por lo que es necesario,

realizar estimaciones a cerca de los parámetros de la población, a partir de una muestra

representativa.


DEFINICIÓN. La muestra es un subconjunto de elementos representativos pertenecientes

a la población, tomado de tal manera que los resultados obtenidos en su

estudio se pueden generalizar a la población de la cual se extrajo. Los

elementos de la muestra deben de ser seleccionado de acuerdo a un plan o

regla.

Al respecto, R. Sierra Bravo dice: “De modo científico, se puede definir las muestras como

una parte de un conjunto o población debidamente elegida, que se somete a una observación

científica en representación del conjunto, con el propósito de obtener resultados válidos,

también para el universo total investigado”.

La importancia del muestreo y la inferencia estadística se derivan del proceso de

consecución de los datos que van a proporcionar la información deseada acerca de una

población.

DEFINICIÓN. Se denomina parámetro a la medida usada para describir las características

de los elementos (X1, X2, X3, . . . XN ) de la población en estudio.

Tabla Nº 02

a. Media poblacional.

b. Varianza poblacional 2

c. Desviación estándar

poblacional.

d. Proporción poblacional p

e. Tamaño poblacional N.

DEFINICIÓN. Se denomina estadísticas a las medidas de resumen que describen una

característica de los elementos de la muestra. A partir de las estadísticas

(estadígrafos) se estima los parámetros de la población.

POBLACIÓN

X1

X2

X3

Xj

ESTADISTICA INFERENCIAL

Toma de decisión.

Unidad Estadística

MUESTRA

Técnicas de muestreo

Diagrama de relación entre población y muestra


Tabla Nº 03

a. Media muestral x

b. Varianza muestral 2s

c. Desviación estándar.

muestral

s

d. Proporción muestral P

e. Tamaño muestral n.

2.6 CLASIFICACIÓN DE LA INFORMACIÓN: Recopilación,

codificación y tabulación.

Para iniciar el trabajo en Estadística Descriptiva necesariamente se requiere de un

planificación, es decir que tipo de variable se va ha investigar, en que espacio se tiene que

trabajar, cual es el objetivo de dicho trabajo, que necesito para realizar el trabajo. Una vez

determinado el tipo de trabajo a realizar se continúa con los siguientes pasos.

2.6.1. RECOPILACIÓN DE DATOS.

La recopilación de datos es la parte principal para realizar un trabajo de investigación:

existen tres (3) métodos para obtener información.

a) Recurrir a fuentes ya publicados

(gubernamentales, industriales, resúmenes,

investigaciones, reportes, etc.).

b) Diseñar un experimento similar para obtener

información.

c) Efectuar una encuesta.

Conclusión y/o interpretación


Tomemos un ejemplo del tercer caso, realizar una encuesta:

EJEMPLO:

Se desea encontrar información básica social de una persona, para tal efecto se usa un

instrumento llamado ficha de encuesta.

FICHA DE ENCUESTA

INSTRUCCIÓN: Complete y marca con una (X) la alternativa correcta de la información

solicitada.

1. EDAD.

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ (en años)

2. SEXO

a) Varón b) Mujer

3. ESTADO CIVIL

a) Soltero b) Casado c) Divorciado d) Viudo

4. GRADO DE INSTRUCCIÓN (concluido)..

a) Universitario b) Secundaria c) Primaria d) Analfabeto

5. SALARIO

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ (mensual en soles)

6. TIPO DE VIVIENDA.

a) Ladrillo b) Adobe c) Tapial d) No tiene

7. RELIGIÓN.

a) Católico b) Pentecostés c) Otros

8. TIPO DE COLEGIO DONDE ESTUDIÓ.

a) Público b) Privado c) Religioso

9. NÚMERO DE HERMANOS (Unidades) _ _ _ _ _ _

10. PESO (kg) _ _ _ _ _ _ _

11. ESTATURA (m) _ _ _ _ _ _ _

12. GASTO APROXIMADO MENSUAL (s/.) -------------

Este instrumento debe de ejecutarse en una muestra, y cada rubro nos reporta la información

de los encuestados.


Tratamiento de la información: se debe seguir los siguientes pasos una vez recogida la

información:

clasificación y/o recodificación si es necesario.

recuento de frecuencias.

agrupación de los datos, en el caso que la variable aleatoria es continua o discreta y sea

muy grande.

2.6.2. CLASIFICACIÓN DE DATOS

Es la tabulación de la información mediante tablas de simple y

doble entrada dependiendo de la relación de las variables. Luego,

ésta nos permite presentar mediante tablas de frecuencias y

gráficos. Sin embargo, es necesario contar con la tecnología,

quien nos permite ahorrar tiempo en la clasificación,

presentación y toda información necesaria que uno desee.

2.6.3. CODIFICACIÓN DE LA ENCUESTA

La codificación está sujeto cómo se debe realizar el tratamiento estadístico; para nuestro

propósito es necesario codificar para trabajar con el SPSS. Por ejemplo, la variable EDAD

considerar su edad (años). Así, consideramos a las variables con sus respectivos códigos.

X1: EDAD (en años)

X2: SEXO (1: varón, 2: Mujer).

X3: ESTADO CIVIL

1: Soltero; 2: Casado; 3: Divorciado; 4 Viudo.

X4: GRADO DE INSTRUCCIÓN

0: Universitario 1: Secundaria 2: Primaria 3: Analfabeto.

X5: Salario (en soles)

X6: TIPO DE VIVIENDA

(1: Ladrillo 2: Adobe; 3: Tapial; 4: No tiene).

X7: RELIGIÓN (1: Católico; 2: Pentecostés; 3 Otros).

X8: TIPO DE COLEGIO DONDE ESTUDIÓ

(1: Público; 2: Privado; 3: Religioso).

X9: NÚMERO DE HERMANOS (unidades).

X10: PESO (kg).

X11: ESTATURA (metros).

X12: GASTO PROMEDIO MENSUAL (Nuevos Soles).


Una vez realizado la encuesta y codificado se realiza el llenado del consolidado

(consideremos una supuesta encuesta a 30 personas) cuyo cuadro muestra los resultados:

LLENAR LA BASE DE DATOS (SPSS).

Tabla Nº 04

ni X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12

1 33 1 1 0 2550 1 3 2 3 74 1,75 950

2 18 2 2 1 700 4 1 1 6 55 1,6 250

3 40 1 2 1 700 3 1 1 8 65 1,62 230

4 22 1 1 0 4500 4 1 3 2 68 1,73 1230

5 24 1 2 1 900 2 1 1 5 68 1,68 320

6 54 2 1 0 1500 4 2 3 7 54 1,6 450

7 34 1 2 1 800 2 3 1 4 69 1,7 220

8 44 1 4 2 600 2 2 1 6 68 1,68 180

9 32 2 3 1 500 2 1 1 5 60 1,65 158

10 20 2 2 1 700 4 1 1 7 58 1,6 230

11 19 1 1 0 1800 4 3 1 5 72 1,74 520

12 25 1 2 0 4500 1 1 2 2 74 1,76 1600

13 23 1 2 1 1200 4 1 1 4 68 1,6 360

14 26 1 2 1 1500 1 1 1 4 76 1,68 380

15 35 1 3 1 1500 1 1 1 6 70 1,69 460

16 38 2 2 2 700 1 1 1 5 58 1,55 210

17 42 1 2 1 4500 1 1 2 8 82 1,78 1580

18 38 2 2 1 2500 1 1 3 4 60 1,55 540

19 33 1 2 0 1850 1 1 1 5 76 1,74 350

20 31 1 2 1 1850 1 1 1 3 78 1,8 540

21 37 2 1 1 500 2 1 1 5 56 1,58 210

22 26 1 2 2 500 3 3 1 6 68 1,68 120

23 28 1 2 3 500 3 1

6 70 1,72 160

24 30 1 2 1 1800 1 1 1 3 78 1,76 340

25 36 1 1 0 2800 4 1 1 5 79 1,82 820

26 34 2 2 1 700 2 3 1 6 65 1,6 190

27 46 1 2 3 1200 3 1

7 72 1,68 430

28 45 1 2 0 3500 1 1 2 3 80 1,72 860

29 36 1 2 1 1200 1 1 1 4 86 1,75 360

30 29 1 2 1 1800 1 1 1 6 78 1,7 420

Esta tabla se hace una copia y se pega en la venta de Vista de datos, como se muestra en la siguiente

figura.


ENTORNO DE TRABAJO EN SPSS.

Para iniciar la base de datos, debe abrir el programa SPSS, luego copiar la tabla de consolidado (tabla Nº 04) de la página anterior y pegar; quedando la tabla de la siguiente manera.

Una vez introducido la información es necesario recodificar (mediante números), asignar sus nombres de las variables. Para realizar dicha operación hacer clic en vista de variables y seguir la siguientes instrucciones.

Escribir el nombre de

las variables.

En la columna Valores hacer clic, y aparece la ventana que se muestra en la

siguiente página.

En las variables expresadas en números condicionar los decimales. Ejemplo, en Edad se considera cero decimal; en Estatura debe

considerar dos decimales.


En el ejemplo, tomemos para etiquetar la variable X7 de Relegión

Una vez finalizados las codificaciones de los atributos de las variables, en la ventana de

Vista de variables debe quedar como la siguiente tabla.

Ingresar los valores numéricos

asignados a las respuestas de las variables, y hacer clic en Añadir.

Finalmente hacer clic en Aceptar.

Se ingresa los códigos asignados a cada atributo

de la variable.

Se escribe cada atributo de la variable. Luego pulsar Añadir para cada una de ellas hasta finalizar todas. Finalmente

pulsar Aceptar.

Colocar los títulos de las variables en la

columna de Etiqueta.


Una vez registrado en la Vista de variables los correspondientes ítems. Pulsar en la Vista de datos (data view), luego aparece la figura completa

Otra manera formal de ingresar los datos es colocando etiquetas, asignar los valores a cada

característica de cada variable, en la Vista de variables, tal como se muestra en la tabla.

Luego hacer clic en Vista de variables, y ingresar la información de cada ficha (encuesta) una por una, hasta completar los 30 fichas encuestadas.


2.7. PRESENTACIÓN DE INFORMACIÓN

Tablas de distribución de frecuencia

Cuando no se cuenta con el apoyo de la tecnología, también se puede clasificar los datos en

cuadros o tablas de resumen de las observaciones originales.

2.7.1. DATOS DE VARIABLES DISCRETAS

Es cuando las variables están expresadas por variables cualitativas o de variables

cuantitativas con valor en números enteros.

EJEMPLO.

De la encuesta anterior se desea presentar la primera variable cualitativa de “edad” y queda

de la siguiente manera:

Tabla No. 05

EDADES DE PROFESORES DEL MAGISTERIO PERUANO

i. Características Conteo Frecuencias

absolutas

(ni)

Porcentaje

% 1 Adolescente // 2 10

2 Joven //// - /// 8 40

3 Adulto //// - //// 10 50

Es cuando los valores de las variables cuantitativas se encuentran expresados en números

enteros y reales, estos valores se suelen ordenar en forma ascendente en una tabla de

frecuencia.

Definición. Dada la variable X, consideramos una muestra de tamaño n que toma valores

distintos, x1. x2 , x3 , . . .xk (si la variable es cuantitativa x1 x2 x3 . . .xk ).

Frecuencia absoluta (ni ) de un valor xi: Es el número de veces que dicho valor aparece en

la muestra, donde

1 2 3

1

...k

i k

i

n n n n n n

, donde n es tamaño muestral.

Considerando las variables definidas en la tabla de frecuencia, se puede definir las

frecuencias acumuladas

Frecuencia absoluta acumulada del valor i-ésimo es la suma de las frecuencias absolutas

hasta dicho valor y se denota por Ni .

Ni = n1 + n2 + n3 + . . .+ ni.

Frecuencia relativa de un valor xi es el cociente de la frecuencia absoluta de xi entre el

tamaño de la muestra (n), se representa por hi.

,ii

nh

n se cumple

1

1k

i

i

h

Frecuencia relativa acumulada (Hi) del valor i-ésimo, es la suma de las frecuencias

relativas hasta dicho valor.


Hi = h1 + h2 + h3 + . . .+ hi. i

i

NH

n .

Si las frecuencias relativas las multiplicamos por 100, obtenemos los porcentajes ( %)

%i = (hi)100.

EJEMPLO

Sea las notas de un examen de Estadística Inferencial tomados a 50 estudiantes, cuyo

resultado es en la escala vigesimal:

12 10 11 09 10 11 13 16 15 11 10 15 15

08 11 15 12 11 10 12 14 13 14 12 13 13

12 15 10 07 09 13 14 11 17 16 13 11 10

12 11 15 11 10 13 10 14 11 10 16

a) ¿Cuántos alumnos tiene notas aprobatorias?

b) ¿Qué porcentaje de alumnos tienen notas desaprobatorias?

SOLUCIÓN

Luego ordenando, construimos la tabla de frecuencia, cuyo resultado es la siguiente tabla:

Hallando el rango: R = 17 – 7 = 10 k = 10+1 = 11 intervalos.

i. xi notas Tarjas (ni) (Ni) (hi) (Hi) %

1 07 / 1 1 0.02 0.02 2

2 08 / 1 2 0.02 0.04 2

3 09 // 2 4 0.04 0.08 4

4 10 //// - //// 9 13 0.18 0.26 18

5 11 //// - //// 10 23 0.20 0.46 20

6 12 //// - / 6 29 0.12 0.58 12

7 13 //// - // 7 36 0.14 0.72 14

8 14 //// 4 40 0.08 0.80 8

9 15 //// - / 6 46 0.12 0.92 12

10 16 /// 3 49 0.06 0.98 6

11 17 / 1 50 0.02 1.00 2

+

+

+

+


a) Se consideran notas aprobatorias iguales o superiores a 11.

Luego los aprobados son: 10+6+7+4+6+3+1 = 37 estudiantes.

b) Consideramos desaprobados cuando la notas son inferiores a 11.

Verificamos en el porcentaje (%), los desaprobados estarán entre las notas de 7 y 10.

Desaprobados: 2% + 2% + 4% + 18% = 26%.

IMPORTANTE: Con respecto a notas, número de hijos y datos que contienen

valores enteros de rangos pequeños, no es recomendable usar

intervalo, porque se tiende a perder información.

TRABAJANDO CON EL SPSS.

Luego para ingresar las notas del examen pulsar en Vista de Datos y luego ingresar los datos.

Ingresar en la

columna las notas

obtenidas.

Rotular con notas Poner el Título en

Etiqueta.


Ingresar a Analizar ---> Estadística descriptiva --->Frecuencias …

El resultado se obtiene tal como se muestra en la tabla de frecuencia generada por SPSS.

NOTAS DE EXAMEN DE ESTADÍSTICA

Frecuencia Porcentaje Porcentaje

válido Porcentaje acumulado

Válidos 7 1 2,0 2,0 2,0

8 1 2,0 2,0 4,0

9 2 4,0 4,0 8,0

10 9 18,0 18,0 26,0

11 10 20,0 20,0 46,0

12 6 12,0 12,0 58,0

13 7 14,0 14,0 72,0

14 4 8,0 8,0 80,0

15 6 12,0 12,0 92,0

16 3 6,0 6,0 98,0

17 1 2,0 2,0 100,0

Total 50 100,0 100,0

Hacer clic en notas

Hacer clic para pasar a

la casilla de variables y

pulsar Aceptar.


EJEMPLO

De nuestra encuesta realizada se tiene el número de hermanos, utilizando el SPSS y siguiendo la secuencia se puede realizar la operación.

Abrir el archivo de SPSS con el nombre guardado (en nuestro caso se guardó con ENCUESTA DE SHARA 2009). Una vez abierto realizar la siguiente operación Ingresar a Análisis ---> Estadística

Descriptiva --->Frecuencias …

Y se tiene la figura del al ventana Visor.

Número de hermanos



Válidos 2 2 6,7 6,7 6,7

3 4 13,3 13,3 20,0

4 5 16,7 16,7 36,7

5 7 23,3 23,3 60,0

6 7 23,3 23,3 83,3

7 3 10,0 10,0 93,3

8 2 6,7 6,7 100,0

Total 30 100,0 100,0

Seleccionar número

de hermanos y

finalizar con OK

Hacer clic en la

tabla, y haciendo

Ctrl+C se pude

copiar y pasar a una hoja de Word.


2.7.2. DATOS DE VARIABLES CONTINUAS

Tablas de frecuencia.

Es aquella que se elabora para poder realizar las operaciones a partir de la clasificación de

los datos.

Existen dos tipos de tablas, una para datos no agrupados que vemos en el EJEMPLO

anterior y otra para datos agrupados y en ésta última se considera los intervalos.

i Li – Ls Tarjas Yi (ni) Ni (hi) Hi %i

1 L1 – L2 Y1 n1 N1 =n1 h1 H1=h1 %1

2 L2 – L3 Y2 n2 N2 h2 H2 %2

. – . . . . . .

. – . . . . . .

. – . . . . . .

k Lk – Lk+1 Yk nk Nk hk Hk %k

EJEMPLO.

Un investigador realiza un trabajo de investigación sobre puntuaciones de exámenes de

admisión en la UNH, revisa las puntuaciones alcanzados por los ingresantes en 1996; donde

las puntuaciones fueron de 0 a 100. El resultado de 80 ingresantes fue lo siguiente:

72 81 65 83 58 56 72 63 49 81 56 60 83 89 60 52

38 79 59 39 62 32 28 39 49 48 65 72 81 58 45 52

43 71 90 42 63 73 69 75 91 49 67 76 72 60 40 58

52 68 54 52 58 77 88 70 61 39 74 68 29 36 49 62

31 73 40 38 59 60 75 93 53 57 61 65 70 79 37 46

SOLUCIÓN

a) Hallando el rango o recorrido (R) .

R = xmáx – xmín

xmáx: Valor máximo = 93, xmín : valor mínimo = 28

R = 93 – 28 = 65


b) Número de intervalos (k).

Como el número de datos es 80, es necesario agrupar en intervalos de clase (k), cuyo valor

mínimo es 5 y su valor máximo es 20. Pero debemos tener en cuenta que al realizar

intervalos se pierde información, por lo que se debe tener cuidado.

Para obtener el número adecuado de intervalo de clase (k), técnicamente se utilizan las

formulas de Sturges y de Portugal.

FORMULA DE STURGES.

k = 1+3,322.Log(n); si n 50

FORMULA DE PORTUGAL.

k = 1,8914 + 3,991.Log(n); si 50 < n 100.

k = 2,756 + 5,8154 Log(n); si n > 100.

La formula de Portugal fue presentado en 1985 en el Simposium Departamental de

Matemática – UNSA – Arequipa.

De nuestro ejercicio, tenemos: n = 80, por lo que utilizaremos la formula de Portugal.

k = 1,8914 + 3,991.Log(80); entonces k = 9,486.

Luego redondeando al entero k = 10.

c) Amplitud de cada intervalo (A)

Para encontrar la amplitud A se realiza la siguiente operación

A= R / k.

Si A no es exacta en el número de decimales de los datos, entonces, el número A se

aproxima por exceso de manera que cubra por completo al rango: kA R.

Del EJEMPLO: si k = 10 y R = 65.

La amplitud es A = (65)/10, entonces A = 6,5 redondeando al entero superior se tiene

A = 7 y k = 10.

Pero si multiplicamos k.A = (7)(10) = 70, sobra cinco (5), entonces esta sobra distribuimos

en dos partes: 2 a la izquierda y 3 a la derecha, por ser la derecha generalmente abierta

5 k 20

28 96 26

2 3

93


d) Construcción de la tabla de frecuencia.

i. Li – Ls Yi Tarjas Frec. Abs.(ni)

Frec. Absol. Acumulada(Ni)

Frecuencia Relativa(hi)

Frec. Rel. Acumulada(Hi)

%

1 26 – 33 29.5 //// 4 4 0.0500 0.0500 5

2 33 – 40 36.5 //// - // 7 11 0.0875 0.1375 8.75

3 40 – 47 43.5 //// - / 6 17 0.0750 0.2125 7.5

4 47 – 54 50.5 //// - //// 10 27 0.1250 0.3375 12.5

5 54 – 61 57.5 ////-////-//// 14 41 0.1750 0.5125 17.5

6 61 – 68 64.5 //// - //// 10 51 0.1250 0.6375 12.5

7 68 – 75 71.5 //// -////-/// 13 64 0.1625 0.8 16.25

8 75 – 82 78.5 //// - //// 9 73 0.1125 0.9125 11.25

9 82 – 89 85.5 /// 3 76 0.0375 0.95 3.75

10 89 – 96 92.5 //// 4 80 0.0500 1 5

80 Suma =1 100%

Para Y1 = (Li+Ls)/2 Y1 = (26+33)/3 = 29,5; Y2 = (33+40)/3. . .

TRABAJANDO CON EL SPSS.

Veamos como se desarrollar la tabla de frecuencia con el SPSS, para ello se debe seguir la

secuencia. Ingresar todos los datos de los puntajes obtenidos en el Examen de Admisión de

1996 en una hoja del SPSS, como se muestra en la figura adjunta.

+

+

En la primera columna ingresar

las 80 puntuaciones obtenidas en el examen.

Hacer clic en Vista

de variables


Ubicarse en el menú Transformar ---> Recodificar en distintas variables, luego aparece el

cuadro de diálogo mostrado.

Nombrar las

puntuaciones.

Escribir el Titulo en

Etiqueta Luego regresar

a Data View.

Aquí se puede cambiar

de nombres. Escribimos

PUNTAJES.

Para ingresar los

intervalos hacer clic en

Valores antiguos y

nuevos…

Hacer clic en Rango. En este

espacio se codifica

los intervalos.

Hacer clic en (ancho). En

este lugar cambiar por el número 7 para nuestro

trabajo. Recordemos que

se necesita el intervalo de

amplitud 7.

Se ha seleccionado

Puntuación.


Luego la tabla aparece con los intervalos en la segunda columna.

Ingresar al menú Análisis ---> Estadística Descriptiva ---> Frecuencias …

Ingresar los límites inferiores y

superiores.

Re-escribir el intervalo

con un guión. Luego

pulsar Añadir. Así, ingresar sucesivamente

hasta completar el

ingreso de todos los intervalos. Pulsar

Continuar.

Pulsar el botón

Cambio.

Finalmente pulsar el

botón Aceptar.

Y aparece en la 2da

columna los intervalos.

Se observa que los intervalos aparecen en

la segunda columna.


El resultado se obtiene de manera fácil, cuyo resultado se ve en el siguiente gráfico

Para nuestro reporte, se hizo copia de la Figura anterior, luego se pasó a Word.

PUNTAJES PUNTAJES



Válidos 26-33 4 5,0 5,0 5,0

33-40 9 11,3 11,3 16,3

40-47 4 5,0 5,0 21,3

47-54 11 13,8 13,8 35,0

54-61 15 18,8 18,8 53,8

61-68 10 12,5 12,5 66,3

68-75 13 16,3 16,3 82,5

75-82 7 8,8 8,8 91,3

82-89 4 5,0 5,0 96,3

89-96 3 3,8 3,8 100,0

Total 80 100,0 100,0

Seleccionar el que se

renombró PUNTAJES y

pasar a Variables. Si desea graficar histogramas y el

diagrama circular, pulsar

Gráficos… luego elegir gráfico de sectores y

histogramas, y pulsar

Continuar. Finalmente

Aceptar.

Se muestra la tabla de frecuencias. Si desea pasar a

su reporte, hacer Ctrl C,

llevar la Word y pegar.

Se tiene una inconveniencia. En la en la columna de frecuencia

absoluta, NO se obtuvo el mismo

resultado encontrado al realizar

manualmente. ¿Por qué?, el SPSS, ha hecho los

intervalos abiertos hacia la

izquierda 33 – 40, mientras en nuestra tabla se tuvo el intervalo

así: 33 – 40.


En la misma figura anterior, se tiene el diagrama circular que pedimos, cuya grafica

se pasa al reporte haciendo un clic en la figura y haciendo Ctrl C, luego pegar en la hoja

Word. En el siguiente figura se muestra el resultado.

PUNTAJES

89-96

82-89

75-82

68-75

61-68

54-61

47-54

40-47

33-40

26-33

REPRESENTACIONES GRÁFICAS

Para hacer más clara y evidente la información que nos dan las tablas se utilizan los

gráficos, que pueden ser:

Diagramas de barras ( datos cualitativos y cuantitativos de tipo discreto). En el eje “y”

se pueden representar frecuencias absolutas o relativas. De la encuesta realizada,

graficamos la variable ESTADO CIVIL. Ir Graficos luego eligir Interactivos y aparece

Barras, luego de hacer clic aparece el gráfico de abajo y elegimos ESTADO CIVIL y

OK (segunda figura).

Luego se tiene la gráfica de barras.

Muestra los intervalos para cada

grupo.

Importante. Es mejor presentar las figuras en dos

dimensiones, porque en tres

dimensiones distorsiona su presentación visual y el

lector puede equivocarse.

Elegir ESTADO CIVIL.

Luego pulsar Aceptar.


Las barras muestran frecuencias

1 2 3 4

Estado Civil

0

5

10

15

20

Rec

uen

to

Histogramas (datos cuantitativos de tipo continuo o discreto con un gran número de

datos ) . El histograma consiste en levantar sobre cada intervalo un rectángulo. Ir

Graficos interactivos luego elegir histograma... luego aparece el cuadro de diálogo

de histograma donde se elige edad, y Aceptar.

20 30 40 50

Edad de los encuestados

0

2

4

6

Recu

en

to

Elegir Puntuaciones y pasar a Variable. Y hacer clic en

histograma y activar curva

normal si desea que aparézcala curva.

Finalmente Aceptar.


Para regular el intervalo de frecuencias, una vez realizada la gráfica, realizar doble clic en

la parte inferior del gráfico.

Continuar con el doble clic hasta que aparezca Eje de la escala, donde el número de

intervalo para divisores se debe modificar, así el número de marcas, luego cambiar en

Intervalo 10 a 7, luego pulsar Aceptar.

14 21 28 35 42 49 56


0

2

4

6

Rec

uen

to

Polígono de frecuencias y diagrama de sectores ( diagrama de circular) Ir Graficos

luego elegir Interactivo... Sectores simple y aparece el cuadro de Pie Charts

luego trasladar tipo de vivienda a variables del gráfico de sectores y pulsamos

Aceptar. Si se hace doble clic en la figura, se puede modificarlas característica de la

variables y colocar los porcentajes.

ladrillo

adobe

tapial

no tiene

Tipo de viviendaLos sectores muestran frecuencias

ladrillo

43,33%

adobe

20,00%

tapial

13,33%

no tiene

23,33%

Existen una variedad de gráficos para su presentación, pero se tiene que tener cuidado en

graficar, porque muchas veces realizamos gráficos que distorsiona la información.


2.8. DIAGRAMA DE HOJAS Y TALLOS.

Es una técnica para organizar datos sin perder la identidad de cada dato observado, como si

ocurriera en una distribución de frecuencias por intervalos. Veamos en casos diferentes.

Sean los números: 37, 4,5 y 2,36

Luego, el tallo será 3; 4; 23. Y las hojas serán: 7; 5 y 6.

Los tallos ordenados son ubicados en forma vertical. Las hojas ordenadas de cada tallo son

ubicadas horizontalmente.

EJEMPLO.

Sean los datos notas de Geometría.

12 10 11 13 10 11 13 16 15 11

18 11 15 12 11 10 12 14 13 14

12 15 10 07 10 13 14 11 17 16

12 11 15 11 10 13 10 14 11 10

10 12 13 16 15 13 11 10 15 13

a) Desarrolle un diagrama de tallo y hojas.

b) ¿Cuántos alumnos tienen notas desaprobatorias?

SOLUCIÓN.

Utilicemos en este caso el número 7, no permite tomar el primer dígito como tallo, entonces

tomaremos los números de dos dígitos como tallos y las hojas serán CEROS (0) tantas veces

que se repiten.

a) En los casos de 8 y 9 no tiene valores por lo que no tiene ningún valor (no se toma en

cuenta).

TALLO HOJAS FRECUENCIA

7 0 1

8

9

10 0000000000 10

11 0000000000 10

12 000000 6

13

00000000 8

14 0000 4

15 000000 6

16 000 3

17 0 1

18 0 1


Con los mismos resultados se obtuvo utilizando SPSS, y es el siguiente:

NOTAS Stem-and-Leaf Plot

Frequency Stem & Leaf

1,00 7 . 0

,00 8 .

,00 9 .

10,00 10 . 0000000000

10,00 11 . 0000000000

6,00 12 . 000000

8,00 13 . 00000000

4,00 14 . 0000

6,00 15 . 000000

3,00 16 . 000

1,00 17 . 0

1,00 18 . 0

Stem width: 1,00

Each leaf: 1 case(s)

b) La cantidad de alumnos desaprobados es 11. Se ha verificado la frecuencia de los

datos 7 y 10.

Para realizar los tallos y hojas con SPSS, siga las siguientes instrucciones. Ir a Analizar y

luego a Estadística Descriptiva luego explorar seleccione la variable nota y envíe a

Dependiente y finalmente Gráficos... --> tallos y hojas y continuar y finalmente Aceptar.


Y se tiene el resultado.

Salario mensual Stem-and-Leaf Plot

Frequency Stem & Leaf

,00 0 .

12,00 0 . 555567777789

3,00 1 . 222

8,00 1 . 55588888

,00 2 .

3,00 2 . 558

,00 3 .

1,00 3 . 5

3,00 Extremes (>=4500)

Stem width: 1000

Each leaf: 1 case(s)

2.9. DIAGRAMA DE CAJAS.

Este diagrama de caja (box plots) describe y presenta directamente los cuartiles y las

medianas, el diagrama de caja se encuentra entre el recorrido intercuartil que tiene como

extremos P75 y P25 .

En el gráfico se muestra los resultados del examen de Geometría, el gráfico se realizó con el

SPSS.

Ir a Analizar y a Estadística Descriptiva luego explore seleccione la variable Edad y

envíe a Dependente y pulsar en Gráficos --> Niveles de factores juntas y continuar y

pulsar Aceptar.


60

50

40

30

20

10

Dato máximo

P75 =Q3

Mediana (Me)=P50=Q2

Dato Mínimo

P25=Q1


PRACTICA.

I. Utilizar el paquete estadístico SPSS, para realizar la clasificación de los

ejercicios. (guiarse con el capítulo 1).

Se considera básica la información dada para que puede realizar los trabajos.

1. En los ítems, clasificar si las informaciones son variables cualitativas o cuantitativas, discretas o

continuas.

a) Número de partos en el Hospital de Huancavelica.

b) El número de muertos en accidentes de transito en el 2003.

c) Edad de los docentes de la Facultad de Educación.

d) La temperatura de los niños de una escuela X.

e) Tipos de procedencia de los alumnos de la Facultad de Educación.

f) Religión que profesan los docentes de la UNH.

g) Número de ingresantes a la UNH.

h) Tipos de trastornos psicológicos de los alumnos de la U.N.H

i) Número de hijos por familia.

j) El pH de la sangre.

k) Lugar de nacimiento.

l) Grado de instrucción de los padres.

m) Tasa de crecimiento demográfico.

n) Número de habitaciones por vivienda.

o) Las pulsaciones de corazón.

p) Temperatura de las personas en grados Celsius.

q) Número de glóbulos rojos.

r) Grado de agresividad de las personas.

s) Tiempo de servicios de los docentes en los centros educativos.

t) Número de desempleados en el magisterio peruano.

u) El número de viviendas de material rustica en el Perú.

v) Las mariposas en la selva peruana.

2. Escribir en el paréntesis correspondiente si al caso propuesto se aplica la estadística descriptiva o

Inferencial.

a) La clasificación de las edades de los estudiantes de una sección de la Especialidad de

Matemática y Física. (.............................)

b) Se realizo un estudio de 100 alumnos de la UNH y se concluyo que el 40% de estudiantes

proceden de otro lugar y el 60% son de Huancavelica. (........................................)

c) Se aplico una encuesta a 200 profesores de los colegios y a partir de su análisis se llegó a la

conclusión que el magisterio no está de acuerdo con el nuevo programa.

(...............................)

II. Utilizar el paquete estadístico SPSS, para desarrollar los ejercicios, de

acuerdo lo descrito en la parte I.


3. La siguiente información ha sido obtenida de la secretaría de la FED y corresponde a los

resultados de la evaluación realizada a los profesores de esta facultad en el año 2003.

B C B C B A B B A B D B B

D D B A A C A A C A A C B

A A A E A C D E B C C E A

A D A A B E D A B A B D C A C D E A A B A B A C D A

a. Presentar la información dada mediante un cuadro de distribución de frecuencias.

b. Que % de profesores obtuvieron calificación: A (Excelente), B(Muy bueno), C(Bueno), D(Regular) y E(Deficiente).

c. Representar mediante una histograma, y diagrama circular (pastel).

4. Se tienen las notas de 48 alumnos en Estadística Bayesiana.

10 11 12 14 08 05 09 14 07 11 08 11

06 10 08 14 15 10 12 16 08 16 15 15

15 13 14 11 13 09 12 10 13 06 08 10

09 10 11 11 11 12 10 11 09 11 14 14

a. Presentar en una tabla de frecuencia debidamente ordenados. b. Presentar mediante barras la frecuencia absoluta.

c. Graficar la frecuencia relativa acumulada.

d. ¿Qué cantidad alumnos obtuvieron a lo más notas a lo más de 10?. e. Presentar en un Diagrama de tallos y hojas lo datos.

5. Un estudiante de historia realiza estudio sobre número de hijos que tienen las familias de

Huancavelica, luego se obtuvo en 72 familias se encontró los siguientes datos:

2 0 5 8 9 2 5 6 1 6 13 6

4 3 3 9 3 0 4 4 8 2 3 8

4 5 6 6 5 1 3 7 7 5 9 5

5 8 4 10 6 8 6 7 3 8 8 8

3 6 2 8 4 9 7 8 5 2 5 9

1 7 5 7 7 5 5 6 9 6 8 6 Fuente: Encuesta 2003 – Huancavelica, Historia y CC SS. UNH.

a. Clasificar los datos y presentarlos en una tabla de frecuencia.

b. Presentar mediante Diagrama de tallos y hojas.

c. ¿Cuántas familias tienen al menos 6 hijos?. d. ¿Qué porcentaje de familias tienen a lo más 4 hijos?.

e. Presentar una gráfica mediante polígono de frecuencia.

6. A los ingresantes de Matemática y Física, se le ha sometido a una prueba de lenguaje con 100

preguntas, donde cada una vale 01 punto, siendo la calificación individual se presenta los

resultados.

74 89 98 65 77 73 52 65 33 94

54 76 47 67 64 69 50 55 81 41

77 45 53 59 73 55 91 61 41 80

60 68 39 74 85 35 48 35 78 60

88 57 94 84 42 65 66 85 66 71

a. Clasificar los datos y presentarlos en una tabla de frecuencia de 5 intervalos. b. ¿Cuántos ingresantes tienen a lo más 80 puntos?.

c. ¿ Cuántos ingresantes tienen al menos 50 puntos?.


d. Presentar mediante la Diagrama de tallos y hojas.

e. Presentar una gráfica mediante histogramas y polígonos de frecuencia el porcentaje.

7. Se toma un examen de 100 preguntas a 40 alumnos de Matemática y Física. El número de

preguntas respondidas es:

61 81 79 78 81 66 77 76 92 83

74 77 94 87 98 70 92 68 86 78 70 82 60 81 75 76 81 63 87 41

77 52 70 82 77 84 46 88 79 67

a. Clasificar los datos y presentarlos en una tabla de frecuencia de 5 intervalos.

b. ¿Cuántos estudiantes tienen a lo más 60 puntos?. c. Presentar mediante Diagrama de tallos y hojas.

d. ¿Qué porcentaje de estudiantes alcanzaron puntajes entre 40 y 70?.

e. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia absoluta.

f. Presentar Hi con una gráfica escalonada.

8. Se hizo una investigación sobre la permanencia de los estudiantes en años en la Universidad Nacional de Huancavelica. (considerando los que abandonan y las que culminan).

3.9 5.8 4.2 5.6 5.4 7.5 6.6 9.8 6.9 4.3

7.1 5.5 5.8 9.4 6.0 5.6 5.0 5.4 7.8 5.6

5.6 5.2 6.1 7.2 3.5 3.7 3.1 2.0 5.8 6.0 3.3 4.1 9.1 2.5 5.7 5.9 6.5 5.3 7.5 5.4

6.7 6.8 4.7 6.3 5.6 10.6 5.0 6.1 6.6 6.1

5.4 5.8 5.8 7.4 5.3 5.8 5.8 6.0 4.8 3.8

6.2 2.6 6.9 6.9 2.6 6.8 7.5 5.2 9.2 6.5

6.3 5.9 4.0 8.6 9.3 7.4 6.3 8.6 8.8 7.5

10.4 6.8 6.4 8.2 5.2 3.0 8.5 5.1 5.2 4.5

6.7 5.1 7.7 4.0 2.3 9.7 4.8 9.2 8.1 4.2

7.8 5.0 5.8 5.5 3.9 8.4 5.7 4.5 8.2 3.7

a. Construir una tabla de frecuencia con 6 intervalos.

b. ¿Cuántos estudiantes tienen a lo más 3,0 años?.

c. ¿ Cuántos ingresantes tienen al menos 4,8 años?.

d. ¿Qué cantidad de alumnos alcanzaron años entre 4,0 y 8,5?. e. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia

absoluta.


9. Una firma de corredores de bolsa, publicó una lista de 600 acciones y que consideraba

“Plenamente Apreciadas”; en la misma lista daban los precios en soles de estas acciones como son:

19.3 16.1 22.8 15.2 30.3 16.4 10.8 17.7 51.9 67.7 35.2

20.9 57.3 27.2 24.3 25.4 12.2 18.3 22.4 19.3 22.4 24.5

26.3 35.9 47.5 20.1 59.6 29.0 34.5 25.4 19.3 15.6 42.7

25.8 24.6 23.0 41.2 42.9 37.8 15.6 19.0 42.5 23.8 38.6

12.2 18.3 22.4 19.3 22.6 25.4 26.3 23.5 40.2 45.2 28.8

29.5 29.2 52.5 17.9 33.1 15.2 16.3 15.6 48.7 15.0 36.4

a. Construir una tabla de frecuencia. b. ¿Cuántos acciones tienen a lo más S/.42.5?.


c. ¿ Cuántos acciones tienen al menos S/.20.5?.

d. ¿Qué cantidad de acciones alcanzaron costos entre S/.24,0 y S/.51,5?.

e. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia absoluta.


10. En una encuesta realizada a estudiantes del IV Ciclo de la Especialidad de Matemática y Física

de la UNH sobre los ponderados acumulados al II Ciclo, se obtuvo los siguientes resultados

15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2

22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7

26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7

19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0

18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5

14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1

8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8

25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5

Fuente: Encuesta 2004 – Huancavelica, Matemática Física.

UNH.

a. Construir una tabla de frecuencia de 10 intervalos.

b. Presentar mediante Diagrama de tallos y hojas. c. ¿ Cuántos estudiantes tienen al menos ponderado de 13?.

d. ¿Qué porcentaje de estudiantes alcanzaron ponderados entre 11.0 y 23?.

e. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia

absoluta. f. Presentar Hi con una gráfica escalonada.

11. En un Complejo Hospitalario de la ciudad de Huancayo, se tomó muestra de los valores de

proteína en sangre de 50 niños recién nacidos normales registrados en el período del 23 de enero

al 28 de abril de 2004 cuyos resultados son las siguientes:

5.388 6.211 5.133 5.937 5.137 4.823 5.007 6.299 6.050 5.590

6.118 6.118 5.860 5.860 5.345 5.928 5.860 4.929 6.661 5.384

5.018 5.384 4.991 6.593 5.305 5.766 5.990 5.156 7.212 4.234

4.765 3.950 5.119 3.201 4.255 6.454 5.582 4.446 5.310 4.310

4.970 5.446 7.443 5.204 5.269 5.222 4.623 6.082 6.712 5.071

a. Construir una tabla de frecuencia de 7 intervalos.

b. Presentar mediante Diagrama de tallos y hojas. c. Presentar una gráfica mediante histogramas y polígonos de frecuencia de ni.

d. Presentar Ni y Hi con una gráfica escalonada.

III. Completar la información necesaria, usando la parte teórica

necesaria.

12. La tabla muestra la distribución de ingreso familiar con intervalos de igual amplitud, correspondiente a 80 familias.


i intervalos Yi (ni) Ni (hi) Hi %

1 160 -

2 - 48 60

3 - 12.5

4 - 0,075

5 - 210

a. Reconstruir una tabla de frecuencia. b. ¿Qué porcentaje de familias ganan menos de 200 nuevos soles?.

c. ¿Cuántos familias tienen al menos ingresos de S/.170?.

d. ¿Qué cantidad de familias alcanzaron ingresos entre S/.175 y S/.195?.

13. Se tiene una tabla de frecuencia incompleta de variable continua que un investigador no

concluyó, porque los datos fue de tamaño n = 3000.

i intervalos Yi (ni) Ni (hi) Hi %

1 1.35 - 0,1

2 - 2M/3

3 - 3M

4 - M/3

5 9.35 - 5M/3

6 - M

a. Reconstruir una tabla de frecuencia. b. Representar mediante un histograma hi.

14. Completar la siguiente tabla de frecuencia, siendo ésta simétrica. Además se sabe que Cj = 3.

i intervalos Yi ni Ni hi Hi %

1 -

2 -

3 - 45

4 - 8 0.96

5 -

50

a. Reconstruir una tabla de frecuencia.

b. ¿Qué porcentaje de valores se encuentran entre 40,5 y 49,5?.

c. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia absoluta.

d. Presentar Hi con una gráfica escalonada.

----------------------o0o----------------------


CAPITULO III

MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN.

En esta etapa la estadística esta dedicada al estudio y análisis de las medidas descriptivas.

Estas medidas se denominarán estadígrafos o estadísticas cuando se trata de la muestra, en

cambio se denominarán parámetros cuando se trata de datos de la población. Es importante

remarcar, que cuando se trabaja con los datos de la muestra, éstas serán de utilidad para su

uso posterior en las pruebas de hipótesis.

MEDIDAS DESCRIPTIVAS

En el desarrollo de ésta unidad se desarrollará los estadígrafos más importantes.

3. MEDIDAS DE POSICIÓN

3.1. MEDIA ARITMÉTICA.

La media aritmética se puede considerar como el punto de equilibrio de todas las

observaciones o el centro de equilibrio de un objeto, es decir, el momento de todas las

observaciones.

Aritmético

Geométrico

Armónico

Promedios

Mediana

Moda

Tendencia Central

Quantiles

DE

PO

SIC

IÓN

DE DISPERSIÓN

Recorrido intercuartílico

Varianza

Desviación estándar

Desviación media

COEFICIENTES

De variación

De asimetría

De curtosis


DEFINICIÓN. La media aritmética es la suma de los valores observados de una

variable X, dividido entre el número de observaciones.

a) Media aritmética de datos no agrupados

La media de n valores x1. x2 , x3 , . . .xn , de la variable cuantitativa X , observados en

una muestra es el número:

1 2 3 ... nx x x xx

n

= 1

n

i

i

x

n

EJEMPLO.

Sean las notas de 12 alumnos de matemática obtenidas en la signatura de Geometría IV .

Sección A 05 08 09 09 10 11 12 10 13 12 13 15

Luego el promedio

x = 05 08 09 09 10 11 12 10 13 12 13 15

12

x =

127

12, x = 10,583.

b) Media aritmética de datos agrupados

La media de n valores x1. x2 , x3 , . . .xn , de la variable cuantitativa X , observados en

una muestra muchas de ellas tienen los mismos valores, lo cual resulta que se tiene que

agrupar en grupos de n1 , n2 , n3 , . . . ni, cuyo resultado respectivo de la media es:

1 1 2 2 3 3 ... i ix n x n x n x nx

n

= 1

k

i i

i

x n

n

EJEMPLO.

Del ejemplo anterior, puntajes alcanzados en el examen de Admisión.

i. Li – Ls Yi Frec. Abs. (ni) Yi ni

1 26 – 33 29.5 4 118

2 33 – 40 36.5 7 255.5

3 40 – 47 43.5 6 261

4 47 – 54 50.5 10 505

5 54 – 61 57.5 14 805

6 61 – 68 64.5 10 645

7 68 – 75 71.5 13 929.5

8 75 – 82 78.5 9 706.5

9 82 – 89 85.5 3 256.5

10 89 – 96 92.5 4 370

n = 80 10

1

k

i i

i

y n

= 4 852 y = (4852)/80

y = 60,65


PROPIEDADES.

i) Si todos los valores observados x1 , x2 , x3 , . . . xn son iguales a una constante b,

entonces

EJEMPLO: sean las notas de Jorge 12, 12, 12, 12, 12. Entonces su media será: x = 12,

la misma constante.

ii) Si todos los valores observados x1 , x2 , x3 , . . . xn se le suma o resta una constante, el

nuevo valor de cada observación transformado es bxy ii , luego la media es:

iii) Si a cada uno de los valores observados x1 , x2 , x3 , . . . xn se le multiplica por una

constante “a” diferente de cero (0), el nuevo valor de cada observación transformado

es ii axy , entonces la media aritmética es.

iv) Si realizamos en adjuntar las propiedades ii) y iii), ésta se transforma en funciones

lineales especiales.

donde: a y b son constantes.

3.2. MEDIANA.

En muchos casos la media aritmética no es una buena medida de tendencia central, por

ejemplo las notas de 10, 12, 11, 13 y 20. En este caso, la nota de 20 distorsiona la

información, resultaría la media de 13,2. Entonces, surge la necesidad de utilizar la mediana.

Y cuyo valor sería de 12, una información al menos adecuada.

La mediana es una medida que localiza el centro de las observaciones; es decir,

distribuye en dos partes iguales las observaciones de una distribución. Para variables

cuantitativas, es un número tal que al menos el 50% de los datos es menor o igual que la

mediana y al menos el 50% mayor o igual.

a) Para datos no tabulados

se ordenan en forma ascendente y luego se ubica el valor central.

EJEMPLO

Se tienen las notas de estudiantes de la especialidad de matemática.

Sección A 12 10 9 12 8 5 12 11 13 9 15

M(x) = M(b) = b

bxMyMy )()(

)(yMy =aM(x)

baxy ii

Valores

transformados

Valores

observados

inicialmente


Sección B 08 11 12 13 12 10 12 11 12 8

* Ordenamos los datos de la sección A:

Sección

A

5 8 9 9 10 11 12 12 12 13 15

50% de datos Me = 11 50% de datos.

La mediana Me = 11, porque la cantidad de datos es impar.

* Ordenamos los datos de la sección B:

Sección

B

8 8 10 11 11 12 12 12 12 13

50% de datos Me = 11,5 50% de datos.

En este caso como la cantidad de datos es par se tomó los dos datos centrales, entonces

Me = 11 12

2

=11,5.

b) Para datos tabulados

Si los valores de la variable están tabulados mediante una distribución de frecuencias por

intervalos, la mediana se determina por:

1

2i

i i

i

nN

Me L An

;

EJEMPLO.

i. Li – Ls Yi Frec.

Abs. (ni) Frec. Absol Acumulada(Ni)

1 26 – 33 29.5 4 4

2 33 – 40 36.5 7 11

3 40 – 47 43.5 6 17

4 47 – 54 50.5 10 27

5 54 – 61 57.5 14 41

6 61 – 68 64.5 10 51

7 68 – 75 71.5 13 64

8 75 – 82 78.5 9 73

9 82 – 89 85.5 3 76

10 89 – 96 92.5 4 80

80

Ai = 33 – 26 = 7, jn = 14, Nj = 41, Nj-1 = 27.

Luego la mediana es Me = 40 27

54 ( )714

Se ubica el valor de 2

n

en 12

j j

nN N

Nj-1 = 27

Ubicamos el valor de 80

402

en 12

j j

nN N se

encuentra entre 27 y 41.

Nj = 41

jn = 14

Me = 60,5


Propiedades. La mediana es el punto para el que en la distancia euclídea media a los

valores de la muestra es mínima, es decir, para cualquier a.

1 1

k k

i i i i

i i

x Men x an

Sólo tiene en cuenta la posición de los valores en la muestra y por otro lado tienen

mucho mejor comportamiento que la media cuando hay observaciones anómalas.

3.3. MODA.

Definición. La moda de una serie de datos es el valor Mo, que se define como el dato que

más se repite.

La moda no siempre existe, y si existe, no siempre es única. La moda sirve para señalar el

valor que más se repite en una variable. La moda es el valor menos importante debido a su

ambigüedad.

a) Moda para un conjunto de datos de cantidad pequeña.

EJEMPLO.

Sean las notas de un grupo de niños de educación Inicial, en aprestamiento a las

matemáticas:

12, 13, 11, 11, 10, 11, 12, 11 y 12.

Solución.

La moda es la nota 11, porque existen 4 niños que obtuvieron la nota de 11 y es la mayor

cantidad que los demás notas.

EJEMPLO.

Se realiza una encuesta en el estudiantado de la Universidad, con referencia a la actitud

(excelente (E), bueno (B), Regular (R), Deficiente (D)) de los estudiantes con respecto a sus

profesores cuyos resultados son:

R, D, E, B, D, B, B, D, D, D, R, R, E, R, D, D, R, D, R, D

Solución.

La moda es la letra “D”, porque, del encuestado se ha obtenido mayor cantidad de

estudiantes que manifiestan que son deficientes la actitud de estudiante frente a sus

profesores.

b) Moda para datos de cantidades grandes y agrupadas.

Para calcular la moda de n datos tabulados en k intervalos, se ubica al intervalo que tiene

mayor frecuencia (intervalo modal). Luego se utiliza la formula.

Mo = ii ADD

DL

21

1 ; donde:

EJEMPLO. Sobre el estudio inicial del puntaje de ingresos a la Universidad Nac. De

Hvca.

D1= ni – ni-1.

D2= ni – ni+1.


Solución

Ubicamos el intervalo con mayor frecuencia absoluta, y es el I5 , donde n5 = 14. Luego se

tiene:

i Li – Ls Yi. Fr. Abs

(ni).

1 26 – 33 29,5 4

2 33 – 40 36,5 7

3 40 – 47 43,5 6

4 47 – 54 50,5 10

5 54 – 61 57,5 14

6 61 – 68 64,5 10

7 68 – 75 71,5 13

8 75 – 82 78,5 9

9 82 – 89 85,5 3

10 89 – 96 92,5 4

80

Reemplazando las diferencias

D1= ni – ni-1.

D2= ni – ni+1.

D1= 14 – 10 = 4. D2= 14 – 10 = 4.

Reemplazando en la ecuación,

Mo = 744

454

Importante. La formula de la moda sólo es aplicable en distribuciones con una sola

frecuencia máxima.

A TRABAJAR CON EL SPPS.

Para usar la herramienta del SPSS, ingrese los datos en la primera columna, como se ha

realizado las operaciones anteriores. Luego ingresar a Análisis, como se muestran las

figuras o abrir el archivo anterior.

Ingresar los datos de los resultados del examen de

admisión en la columna

respectiva.

ni-1 = 10

ni = 14

Li = 54

ni+1 = 10

Mo = 57,5


PUNTUACIONES DE EXAMEN DE ADMISIÓN

N Válidos 80

Perdidos 0

Media 60,49

Mediana 60,00

Moda 49(a)

Desv. típ. 16,036

Varianza 257,139

Rango 65

Mínimo 28

Máximo 93

Percentiles 25 49,00

50 60,00

75 72,00


10080604020

Fre

cu

en

cia

10

8

6

4

2

0

Histograma

Media =60,49Desviación típica =16,

036N =80

a Existen varias modas. Se mostrará el menor de los valores.

Hacer clic en Análisis

Estadística Descriptiva y

Frecuencias….

Elegir la variable (puntajes

de Admisión) y enviar a

variables

Elegir las opciones que

desea obtener (Media,

mediana y moda).

Luego pulsar en

Estadísticos.

Elegir las medidas de

dispersión. Y otros medidas que desea conocer.

Finalmente pulsar Continuar.


Observación. Que la media es 60,49, lógicamente defiere de nuestra media que

encontramos y es de 60,65. ¿Donde esta el error?. No existe error, lo que pasa es que la

media que realizamos fue en un conjunto de datos sometidos a tablas de frecuencia y

lógicamente se tiende a perder información. En cambio la máquina (SPSS), ha realizado

operación sin intervalos y cuyo resultado es ese valor de 60,49. Por dicha razón se

recomienda que no deba hacerse abuso del uso de las tablas de frecuencia.

MEDIDAS DE DISPERSIÓN

Cuando las medidas de Posición no son suficientes para describir un conjunto de valores de

alguna variable estadística, los promedios determinan el centro, pero no indican las

dispersión o como están situados los datos respecto al centro.

Las Medidas de dispersión o variabilidad son números que miden el grado de separación de

los datos con respecto a un valor central, que generalmente es la media aritmética. Las

principales medidas de dispersión son:

El rango o recorrido.

El recorrido intercuartílico.

La varianza.

La desviación estándar o desviación típica.

El coeficiente de variación.

Por la naturaleza del curso, solamente las tres últimas desarrollaremos.

3.4. VARIANZA

La varianza, es una medida que cuantifica el grado de dispersión o de variación de los

valores de una variable cuantitativa con respecto a su media aritmética. La varianza es

pequeña, si el valor de las variables se concentra al alrededor de la media. En cambio, el

valor de la varianza es grande si los valores de las variables se encuentran alejados del valor

de la media.

La varianza muestral se denota por 2s y la varianza poblacional se denota por 2 ,

cuyas unidades de medidas se expresan en unidades de medición al cuadrado (m2, kg

2, s/

2, ..

etc.).

DEFINICIÓN. La varianza o variancia de una población finita de N elementos, se define

como la media aritmética del cuadrado de las desviaciones de las

observaciones con respecto a su media , y cuya ecuación es:

N

xN

i

i

1

2

2

)(

DEFINICIÓN. La varianza o variancia de una población finita de n elementos de una

variable X, se define media aritmética del cuadrado de las desviaciones de

las observaciones con respecto a su media. Denotamos:

n

xx

s

n

i

i

1

2

2

)(

n

xxn

s

k

i

ii

1

2

2

)(


Sin embargo, ésta sería un estimador sesgado de las varianza poblacional 2 , además da la

impresión de que es la misma formula en la muestra y en la población. Es cierto, pero las

medias x y difieren y que raras veces pueden coincidir; Bessel realiza una corrección,

luego la ecuación para la muestra es:

1

)(

ˆ 1

2

2

n

xx

s

n

i

i

Para datos no agrupados.

1

)(

ˆ 1

2

2

n

xxn

s

k

i

ii

Para datos agrupados en k intervalos.

Realmente, estas ecuaciones si son estimadores insesgado de la varianza poblacional 2 (revisar en estimación puntual de parámetros) , por lo que trabajaremos con dicha

ecuación.

Propiedades:

i) La varianza de un conjunto de observaciones x1 , x2 , x3 , . . . xn siempre es un número

no negativo.

ii) La varianza de una constante es cero (0). Significa que si las observaciones x1 = x2 = x3

= . . .= xn = b constante, entonces:

iii) Si a cada observación x1 , x2 , x3 , . . . xn se le adiciona una constante b > 0, la nueva

varianza del nuevo conjunto de valores y1 , y2 , y3 , . . . yn donde yi = xi b, coincide

con el valor inicial. Por la propiedad ii).

V(y) = V(x b) V(y) = V(x) V( b) V(y) = V(x) 0.

Por tanto,

iv) Si a cada observación x1 , x2 , x3 , . . . xn se le multiplica una constante b > 0, la nueva

varianza del nuevo conjunto de valores y1 , y2 , y3 , . . . yn donde yi = axi, es igual a la

varianza original multiplicado por el cuadrado de la constante.

V(y) = V(ax)

v) De las propiedades iii) y iv) se tiene: V(y) = V(ax b), luego desarrollando

encontramos: porque V(b) = 0

V(y) = a2 V(x)

V(x) 0

V(b) = 0

V(y) = V(x)

V(y) = a2 V(x)


EJEMPLO

Sobre el trabajo de investigación de las puntuaciones de los ingresantes a la UNH. Hallar su

varianza.

Se sabe que la media es x = 60,65.

SOLUCIÓN.

Como la suma de

(ni)(y – y )2 = 21354,2

la varianza es:

180

2,21354ˆ2

s = 270,306329

EJEMPLO.

El Sindicato de Docentes del Magisterio peruano, mediante su reclamo logra obtener unos

aumentos. Hasta antes realizar su pedido, el promedio de haberes de todo el magisterio era

de s/.1150 nuevos soles y una varianza de S/.90 al cuadrado. El incremento obtenido fue de

20%, además una bonificación de S/. 100 nuevos soles por dedicación a la institución

educativa.

i) Después del reclamo ¿cuanto equivale el nuevo promedio?.

ii) ¿Cuanto equivale el nuevo aumento más la bonificación?.

iii) ¿Cuanto equivale la nueva varianza?.

SOLUCIÓN.

Sea el incremento el 20% de haber, entonces la ecuación es:

y = ax + b y = 0,2x + x + b

luego la ecuación es: y = 1.2x + b

i) Hallando la nueva media.

M(y) = M(1.2x) M(y) = 1,2M(x) . Prop.

i. Li – Ls Yi Frec.Abs.(ni) (yi – y )2

(ni)(y – y )2

1 26 – 33 29.5 4 790,3225 3 881,29

2 33 – 40 36.5 7 583,2225 4 082,5575

3 40 – 47 43.5 6 294,1225 1 764,7350

4 47 – 54 50.5 10 103,0225 1 030,2250

5 54 – 61 57.5 14 9,9225 138,9150

6 61 – 68 64.5 10 14,8225 148,2250

7 68 – 75 71.5 13 117,7225 1 530,3925

8 75 – 82 78.5 9 318,6225 2 867,6025

9 82 – 89 85.5 3 617,5225 1 852,5675

10 89 – 96 92.5 4 1 014,4225 4 057,69

n = 80 21 354,2

2s = 270,30633


M(y) = 1,2(1 150) = 1 380.

ii) Hallar media + la bonificación.

M(y) = 1,2M(x) +M( b)

M(y) = 1,2(1 150) +100 M(y) = 1480.

iii) La nueva varianza:

V(y) = V(1.2x + b) V(y) = 1,22 V(x) +V( b)

V(y) = 1,22 (90) +0 V(y) = 129,6.

3.5. DESVIACIÓN ESTANDAR.

La desviación típica cuantifica el error que cometemos si representamos una muestra

únicamente por su media.

1

)(

ˆ 1

2

n

xx

s

n

i

i

para datos no agrupados.

1

)(

ˆ 1

2

n

yyn

s

k

i

ii

para datos agrupados en k intervalos.

Del EJEMPLO anterior sobre los puntajes de ingresantes a la UNH, se tiene:

La varianza: 2s = 270,30633

Luego la desviación típica es: 3063291,270ˆ s =

3.6. COEFICIENTES DE VARIACIÓN

Las medidas de dispersión anteriores dependen de las unidades de medida, el

coeficiente de variación es en cambio, una unidad de medida de dispersión relativa

(adimensional).

100ˆ

x

SCV

Con el mismo ejercicio anterior tenemos:

10065,60

441,16CV = 27,12%.

Nota La obtención de las medidas de posición se ha detallado sus procedimientos con el

SPSS, y se deja al lector seguir los pasos para encontrar la varianza y desviación

estándar.

16,44099538

.


A TRABAJAR CON EL SPPS.

Para usar la herramienta del SPSS, ingrese los datos en la primera columna, como se ha

realizado las operaciones anteriores. Luego ingresar a Análisis, como se muestran las figuras.


N Válidos 80

Perdidos 0

Media 60,49

Mediana 60,00

Moda 49(a)

Desv. típ. 16,036

Varianza 257,139

Rango 65

Mínimo 28

Máximo 93

Percentiles 25 49,00

50 60,00

75 72,00


10080604020

Fre

cu

en

cia

10

8

6

4

2

0

Histograma

Media =60,49Desviación típica =16,

036N =80

Hacer clic en Análisis

Estadística Descriptiva y

Frecuencias….

Elegir la variable (puntajes

de Admisión) y enviar a

variables

Elegir las opciones que desea obtener (Media,

mediana y moda).

Luego pulsar en

Estadísticos.

Elegir las medidas de

dispersión. Y otros medidas que

desea conocer. Finalmente pulsar Continuar.


EJERCICIOS.

1. Dos fabricantes de productos educativos “XY” anuncian que la vida promedio de sus productos

es de 7 años, utilizándolas en condiciones normales en un laboratorio. Para ello, la UNH que

desea adquirir, realiza una encuesta para determinar si es afirmativo la propuesta de los fabricantes, cuyo resultado son:

FABRICANTE A: 8, 7, 5, 6, 7, 8, 5, 7, 6, 5, 9, 7, 8, 9, 6, 7, 9, 6, 7, 8

FABRICANTE B: 4, 5, 2, 3, 9, 7, 9, 7, 5, 7, 6, 6, 7, 8, 9, 8, 9, 6, 7, 7, 5. a. ¿Cuál vida promedio señaló cada fabricante?.

b. Cuál de los materiales educativos representaría mejor duración.

c. ¿Cuál de los fabricantes ofrece mejor homogenidad con respecto a la duración?.

2. La media mínima para aprobar el curso de Estadística Bayesiana es de 12 puntos. El estudiante

presenta las notas de 12, 13, 11, 9, 8, 11, 10, 12 y 15. Si el alumno no aprueba, cuantos puntos

se debe agregar a cada examen para aprobar?. Hallar la nueva varianza.

3. Se tiene los ponderados acumulados durante los cuatro 6 primeros ciclos de 50 estudiantes, tal

como se muestra:

80 57 65 81 47 53 41 69 76 42

71 74 52 50 54 59 61 85 89 73

41 65 33 35 68 73 55 67 88 66

94 84 85 64 45 55 78 39 94 66

60 77 35 74 77 91 48 60 65 98

a. Construir la tabla de frecuencia.

b. Graficar ni, Ni, hi, y Hi. c. Hallar la media, mediana y moda.

d. Hallar la varianza, desviación típica y coeficiente de variación.

e. Hallar el Q1, Q3, D4, D8, C25, y M750.

4. Se tiene la siguiente tabla de frecuencias relativas respecto a 300 estudiantes de las

especialidades de Matemática – Física y Historia y Ciencias Sociales, cuya distribución se encuentra de acuerdo a la edad.

EDADES 18 - 21 21 - 24 24 - 27 27 - 30 30 - 33

hi 0.15 0.25 0.35 0.15 0.10

a. Hallar la media, mediana y moda de las edades.

b. Hallar la varianza, desviación típica y coeficiente de variación de las edades. c. Hallar el Q1, Q3, D4, D8, C25, y M750.

d. A partir de que edad es el cuartel superior, y cuantos los conforman.

5. Dada la siguiente tabla de frecuencia incompleta sobre los diámetros de los lápices que utilizan

los estudiantes, cuyas medidas generaron una media de 0,61.

EDADES 0,20 – 0,40 0,40 – 0,60 0,60 – 0,80 0,80 – 1,00

hi 0.15 0.25 0.40 0.20

a. Completar la tabla de frecuencia y hallar la mediana y moda. b. Hallar la varianza, desviación típica y coeficiente de variación.


6. Se tiene una muestra de los salarios de los docentes que trabajan en el sector educación:

560 613 57 3 775 626 750 635 551 643 604 608 575 613 557 376 622 696 675 686 593

655 727 654 614 685 738 659 628 757 802

668 613 697 765 727 576 754 682 819 647

698 648 665 656 658 763 655 793 650 643 684 712 725 583 733 554 732 557 814 560

658 608 658 805 667 809 681 680 668 718

729 733 733 753 759 744 666 652 736 653 733 749 682 592 693 555 677 635 673 634

679 569 676 620 650 756 623 587 636 598

a. Hallar la media, mediana y moda. b. Hallar el Q1, Q3, D5, D7, C25, y M750.

c. Hallar la varianza, desviación típica y coeficiente de variación

7. En las últimas luchas reivindicativas se ha logrado un aumento, con las siguientes propuestas:

PRIMERO: un aumento de 10% y una bonificación de S/.50 nuevos soles.

SEGUNDO: un aumento de 106 nuevos soles. d. ¿Cuál de las propuestas debería de tomar como mejor alternativa, para el magisterio?.

e. ¿Cuál de las alternativas no le conviene al Gobierno?.

f. Si el Magisterio consta de 250 000 profesores, ¿Cuánto debe el Estado prever para los pagos

después del aumento?. g. Hallar la media y la varianza después del aumento.

8. En la Especialidad de Matemática-Física son matriculados en el curso de Topología General, 24 estudiantes llevan el curso por primera vez, 6 llevan por segunda vez y 2 por tercera vez. Se

sabe que 12 es el promedio de notas de los que llevan por primera vez y las notas de los que

llevan por segunda vez en promedio es superior en un 15% de los que llevan por primera vez. calcular el promedio de notas de los que llevan el curso por tercera vez si la suma total de las

notas es de 410.

9. En una prueba de inteligencia en un área rural se obtuvo los puntajes. La tabla incompleta se encuentra por error de la secretaria del Profesor Shara, que ahora requiere completar con los

datos existentes. ( n = 50, cj = 20 puntos)

k li - ls Yi ni Ni Yi.ni.

1 10 300

2 400

3 23 350

4 17

5 110 1 100

a. Hallar la media, mediana y moda.

b. Hallar el Q1, Q3, D2, D7.5, C25, y M750. c. Hallar la varianza, desviación típica y coeficiente de variación.

d. ¿Cuántos estudiantes alcanzaron puntajes entre la media y la mediana?

10. La siguiente información ha sido obtenida de la secretaria de la FED y corresponde a los resultados de la evaluación realizada a los profesores en el año 2003.


B B C B C B A B B A B D B B D A D B A A C A A C A A C B

A A A A E A C D E B C C E A A B D A A B E D A B A B D C A A C D E A A B A B A C D A

a. Hallar la moda. Si existe una escala de calificación como se muestra:

CALIFICACIÓN E D C B A ESCALA 0 a 04 04 a 08 08 a 12 12 a 16 16 a 20

b. Hallar la media, la mediana.

c. La media encontrada convertir a la escala de cualidad y explicar el fenómeno.

11. Un estudiante de historia realiza estudio sobre número de hijos que tienen las familias de

Huancavelica, luego se obtuvo en 96 familias los siguientes datos:

2 0 5 8 9 2 5 6 1 6 11 6

4 3 3 9 3 0 4 4 8 2 3 8

4 5 6 6 5 1 3 7 7 5 9 5

5 8 4 10 6 8 6 7 3 8 8 8

3 6 2 8 4 9 7 8 5 2 5 9

1 7 5 7 7 5 5 6 9 6 8 6

5 3 9 12 1 8 13 9 8 3 7 5

3 1 5 3 8 5 9 0 4 3 6 2 Fuente: Encuesta 2004 – Huancavelica, Historia y CC SS. UNH.

a. Hallar la media, mediana y moda.

b. Hallar la varianza, desviación típica y coeficiente de variación.

12. En la Universidad Nacional de Huancavelica, el coeficiente de variación de sus 250 profesores

es de 50%. Se realiza un reajuste de sueldos de acuerdo a Ley, todos los sueldos en S/. 1100

nuevos soles, ahora con un C.V. de 40%. Sin embargo la Universidad con una nueva política fija un sueldo mínimo de S/.3500 nuevos soles. Antes del reajuste habían 10 personas que ganaban

S/.3000 en promedio y todos ellos ganaban menos de S/. 3200. Determinar la cantidad de dinero

necesario para cubrir la mensualidad por parte de la Universidad luego del reajuste.

13. Una empresa aseguradora para S/ 30,000 en caso de accidente de carro y cobra una tasa de S/.

1,000. se sabe que la probabilidad de que un carro sufra un accidente en una determinada

localidad es de 3%. Si se sabe que hay 100 carros asegurados, ¿Cuánto espera ganar por cada carro la aseguradora?. Rp. S/. 100. por c/u.

14. Sea X una variable aleatoria con función de densidad de probabilidad;

20 3

9

0

x,..... x

f ( x )

....

Cero en otros caso.

Calcular la media: ( ) ( )E x xf x dx

.


CAPITULO III

DOCIMASIA DE HIPÓTESIS

Ideas básicas.

En muchas situaciones estamos interesados en tomar una decisión de aceptar o

rechazar una determinada afirmación basándonos en un conjunto de evidencias. Un ejemplo

común es el caso en que un individuo esta siendo juzgado por un determinado delito. Con

base en las evidencias (testimonios, fotografías, etc,), el Juez tendrá que determinar si es

culpable o inocente el individuo. Podemos, entonces concluir que el Juez formula dos

hipótesis: “HO : el individuo es inocente” y la alternativa “HA : el individuo es culpable.

Con base a las evidencias presentadas, el Juez puede estar cometiendo un error, pues a pesar

de las evidencias el individuo puede ser inocente. El mismo se daría a la aceptación de la

Hipótesis Nula como verdadera. En ese caso, el Juez estaría considerando como inocente a

un individuo culpable.

Un problema más próximo del área de atención de la estadística ( a pesar de que la

estadística a sido utilizada para resolver problemas jurídicos), es el problema de decidir

sobre la eficacia o no de una cierta vacuna utilizada en el combate a una determinada

enfermedad. Los investigadores formulan las hipótesis:

H0 : La vacuna no es eficiente.

HA : La vacuna es eficiente,

En ese caso, un experimento es planeado en un grupo posiblemente grande de

personas seleccionadas al azar recibe vacuna y el resto recibe una sustancia inócua. Con

base en los resultados de ese experimento, los investigadores entonces decidirán por H0 y HA

. Nuevamente no está descartada los errores que hayan cometidos al considerarse, por

ejemplo la vacuna eficiente ( que la H0 es falsa) cuando en realidad esta no es o es ( que la

H0 es verdadera ), esto sería bastante perjudicial para la población. El estadístico

involucrado en la investigación debe procurar utilizar técnicas que tengan una mínima

probabilidad de cometer error.

En este capítulo, el objetivo de la inferencia estadística se utilizará para probar la

validez de una afirmación acerca del valor del parámetro de la población. La afirmación

expresada generalmente se llama “Hipótesis”, a estos métodos se les denominan pruebas

de hipótesis, contraste de hipótesis o docimasia de hipótesis.

3.1. HIPÓTESIS ESTADÍSTICA.

Obviamente una hipótesis tautológica no requiere ninguna comprobación estadística,

por EJEMPLO: “El viajará mañana o no”, no es ni falso ni cierto. En general, una hipótesis


es una explicación propuesta que puede o no ser cierta, por EJEMPLO: Shara me quiere,

está afirmación puede ser cierta o falsa.

Una hipótesis estadística es una afirmación cuantitativa acerca de una población.

DEFINICIÓN. Llamamos hipótesis estadística a cualquier afirmación acerca de la

distribución de probabilidades de una o más variables aleatorias.

Denotamos por H0 (hipótesis Nula) la hipótesis de interés. En el caso que H0 sea rechazada,

aceptamos como verdadera la hipótesis alterna H1.

3.2. HIPÓTESIS NULA Y HIPÓTESIS ALTERNA

DEFINICIÓN. Se llama hipótesis nula (H0 ), a la hipótesis que inicialmente es aceptada

provisionalmente como verdadera y cuya validez será sometida a la

comprobación experimental. Una vez ejecutado la parte experimental nos

permitirá aceptarla o rechazarla.

Nota: Habitualmente la hipótesis alternativa representa la creencia que el investigador

quiere probar.

DEFINICIÓN. Se llama hipótesis alterna (H1 o HA ), a la hipótesis que se acepta en caso de

que la hipótesis nula haya sido rechazado. Su planteamiento es contrario a

la hipótesis nula.

El ejemplo nos muestra lo opuesto que son H0 y H1 , si se considera que es 0 el

valor del parámetro de una población cuya distribución se supone conocida, entonces las

afirmaciones son:

a. H0 : = 0 y H1 : 0 .

b. H0 : = 0 y H1 : > 0 .

c. H0 : = 0 y H1 : < 0 .

EJEMPLOS:

Hipótesis científica Hipótesis Estadística

Ho: El promedio promocional en la asignatura de estadística a

final de cada ciclo es de 12,5.

HA: El promedio promocional en la asignatura de estadística a

final de cada ciclo es diferente a 12,5.

H0 : =12,5.

HA : 12,5

Ho: En la enseñanza de Análisis Matemático asistido con

software matemático, el rendimiento académico por los

alumnos alcanza un promedio de 13.

HA: En la enseñanza de Análisis Matemático asistido con

software matemático, el rendimiento académico por los

alumnos alcanza por lo menos un promedio de 13.

H0 : 13.

HA : >13.

Ho: Por lo menos el 90% de los estudiantes de tiempo

completo usarán la biblioteca durante la semana de

exámenes finales.

HA: A lo menos el 90% de los estudiantes de tiempo completo

usarán la biblioteca durante la semana de exámenes finales.

H0 : 0,9.

HA : < 0,9.


3.3. PRUEBA DE UNA HIPÓTESIS ESTADÍSTICA

Para tomar decisiones estadísticas, se requieren dos hipótesis: Hipótesis nula y la

Hipótesis alterna referidas a un parámetro .

La hipótesis nula H0 es la primera hipótesis que se plantea de manera que debe especificar el

valor 0 del parámetro en estudio. Por esta razón, algunos autores plantean las hipótesis

nula H0: = 0 y ésta debe de ser probado.

Prueba de hipótesis nula H0 contra hipótesis alterna H1.

Hipótesis Nula Hipótesis Alterna Direccionalidad

H0 : E = 0 vs H1 : E

0 .

Prueba bilateral de dos colas.

2 2

1

0

H0 : E = 0 vs H1 : E > 0 .

Prueba unilateral de cola a la

derecha.

1

H0 : E = 0 vs H1 : E < 0 .

Prueba unilateral de cola a la

izquierda.

1

DEFINICIÓN. Se denomina nivel de significación de una prueba de hipótesis a la

probabilidad de cometer un error de tipo I (probabilidad : ).

Verdadero

Decisión Ho Verdadera Ho Falsa

Aceptar Ho. Decisión correcta

Probab: (1 – ).

Error tipo II.

Aceptar Ho cuando

en realidad es falso.

Probab: .

Rechazar Ho.

Error tipo I.

Rechazar Ho cuando en

realidad es verdadero.

Probab: .

Decisión correcta

Probab: (1 – ).


NIVEL DE SIGNFICANCIA.

El nivel de significación es fijado por el investigador, generalmente es = 0.05

(5%), pero también se considera los valores = 0.01 (1%) o = 0.1 (10%). Es

convencional usar el nivel de significancia del 5% en caso de investigaciones cuasi-

experimentales y educativos donde es poco difícil controlar las variables; mientras que en

un laboratorio es al 1%, donde se realiza el experimento con mayor precisión.

IMPORTANTE: Las pruebas de hipótesis sólo proporcionan evidencias evaluables

y no razones absolutas o finales para la aceptación o rechazo de la

hipótesis.

3.4. PRUEBAS DE HIPÓTESIS PARAMETRICAS.

¿Porque se denomina pruebas paramétricas?, es cuando se realiza una prueba de

hipótesis y se conoce los supuestos medias (1 2 …) poblacionales, supuestas varianzas

( 2

1 , 2

2 …) poblacionales; es decir si se conoce los parámetros de la población. Además, no

solamente sus media ni varianzas, sino dependiendo que parámetro que se tenga que probar,

de la distribución de la población cuya función de densidad es f(x;).

Cabe aclarar, cuando se realiza un trabajo de investigación generalmente no se conoce el

tipo de distribución de la población de donde se extrae la muestra, tampoco sus parámetros

de dicha población, pero lo asumimos los supuestos parámetros y tipo de distribución de la

población como si fuese normal o aproximadamente normal y cometemos el craso error de

utilizar estadísticos que no son correctos o adecuados para dicho tratamiento; por lo que se

sugiere al investigador tener cuidado en el uso de los estadísticos.

a. La distribución de la población es normal o aproximadamente normal. Se determina

comparando , Me y Mo y la diferencia a lo más debe ser un punto.

b. Poblaciones con varianzas homogéneas (homocedasticidad o dispersión similar).

c. La variable principal de estudio es numérica.

d. Selección de muestra es aleatoria.

3.4.1. Pruebas de hipótesis con la distribución Z.

Sin lugar a duda, el modelo de mayor uso de todas las distribuciones continuas es la

distribución normal, denominado también distribución gaussiana “(atribuido a C.F. Gauss,

quien hizo primero referencia allá por los años 1809 en relación a la teoría de errores de

medidas físicas; sin embargo, ya había sido descubierto por Moivre en 1733 como la forma

limitante a la binomial. También fue conocida por Laplace en 1774 pero por un error

histórico a sido acreditada a Gauss)”3.

Definición. Una función de densidad de una variable aleatoria X, tiene una distribución

normal y cuyos parámetros son su media y desviación típica . Su función de

densidad de probabilidad es:

3 Maria josé Marques de Cantu. PROBABILIDAD Y ESTADISTICA, Edit. McGraw Hill – México 1990. pp.

137.


2

2

1

2

1)(

x

exf

–∞< x <+∞; >0.

La gráfica corresponde cuando = 0 y = 1

y se conoce como la distribución normal

estándar.

2

2

1

2

1)(

x

exf

La distancia de un valor x a la media es (x – ), al expresar esta distancia en

unidades de desviaciones estándares , obtenemos la ecuación

xz ,

luego la función de densidad de probabilidad es expresado de la forma

2

2

1

2

1)(

z

ezf

; –∞< z <+∞;

Ahora ya expresado la distribución normal estándar, será de nuestro uso en las

pruebas de hipótesis, porque sin tener alguna idea sobre la distribución normal es difícil

comprender la tarea.

3.4.1.1. Prueba de hipótesis acerca de dos medias con Varianzas 2

1 y 2

2 supuestas

conocidas.

Sean 1X y 2X las medias de dos muestras aleatorias independientes de tañamos n1 y

n2 seleccionadas respectivamente de dos poblaciones independientes, con medias 1 y 2 y

varianzas 2

1 y 2

2 respectivas supuestas conocidas.

Definición. Si las dos poblaciones son normales, entonces, las estadísticas 1X y 2X tienen

respectivamente distribución normal N(1; 2

1 /n1) y N(2; 2

2 /n2). Luego la

estadística 1X – 2X tiene una distribución aproximadamente normal

N(1–2;2

1 /n1 + 2

2 /n2), para n1 2 y n2 ≥ 2.

Definición. Si las dos poblaciones no son normales pero n1 y n2 son suficientemente

grandes (n1 30 y n2 ≥ 30), entonces, la estadística 1X – 2X tiene una

distribución aproximadamente normal

N(1–2;2

1 /n1 + 2

2 /n2).

Luego, según sea el tipo de distribución de las dos poblaciones normales o no, la

estadística

N(0,1)


2

2

2

1

2

1

2121 )(

nn

XXZ

tiene una distribución exactamente o aproximadamente normal N(0;1).

Cuyo valor numérico es:

2

2

2

1

2

1

2121 )(

nn

xxzk

para 1–2 = 0, significa que se

supone verdadera la hipótesis nula.

EJEMPLO.

En la Facultad de Educación, Esp. Matemáticas de la UNH, se desea comparar dos métodos

A (método tradicional) y B (método asistido por software) la enseñanza de la geometría

Diferencial, para ello se seleccionó dos muestras aleatorias de tamaños n1 = 30 y n2 = 32 ,

cuyos medias respectivas de rendimiento en los dos grupos son 1x = 12 y 2x = 15. La

experiencia muestra que las poblaciones de notas en matemáticas para ambos grupos están

distribuidas en forma aproximadamente normal con desviaciones típicas de 6 y 5

respectivamente.

a) Al 5% de nivel de significancia, ¿se puede concluir que difieren significativamente la

enseñanza a través de los dos métodos?

b) En caso de ser cierto, cuál de los dos métodos es mejor.

SOLUCIÓN.

a) Veamos que sucede.

i) Como nos refieren que difieren significativamente, implica que ésta es nuestro hipótesis

de investigación la hipótesis alterna (HA). Por lo que proponemos el sistema de hipótesis.

H0: T = C

La enseñanza de la Geometría Diferencial asistido por un

software no difiere a la enseñanza de la Geometría

Diferencial con el método tradicional.

HA : T ≠ C

La enseñanza de la Geometría Diferencial asistido por un

software difiere significativamente a la enseñanza de la

Geometría Diferencial con el método tradicional.

T : Media supuesta del método tradicional

C : Media supuesta del método asistido por software.

ii) Nivel de significancia. = 0,05 (5%).

iii) Región crítica.

Como nuestra hipótesis de investigación dice DIFIERE (no dice si mejor o es peor que

la tradicional, puede ser cualquiera), significa que tiene dos colas. Entonces se tiene

que distribuir = 0,05 en dos partes.

/2 = 0,025 1- /2 = 0,975.

Luego Z1-/2 = Z0,975 = 1,96. Este valor encontramos en la tabla de la distribución Z.


iv) Estadística de contraste.

32

5

30

6

)0(151222

21

kz = – 2,13.

v) Decisión.

2 2

1

0

Como zk = – 2,13 pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho), y se

acepta la hipótesis alterna. Existe diferencia significativa entre los dos métodos.

b) Verificamos cual de los dos métodos es mejor.

Cuando se realiza la prueba de hipótesis, sólo aceptamos o rechazamos la hipótesis

nula; sin embargo, no sabemos cual de los dos métodos fue mejor. Para ello, el intervalo de

confianza es una de las herramientas que muestra cual de ellas fue mejor.

Como se sabe que = 0,05 y Z0,975 = 1,96 utilizaremos intervalos de confianza.

2

2

2

1

2

12/12121

2

2

2

1

2

12/121

nnzxx

nnzxx

12 – 15 – (1,96)32

5

30

6 22

≤ T – C ≤ 12 – 15 + (1,96)32

5

30

6 22

– 5,76 ≤ T – C ≤ – 0,24.

Decisión:

Como T – C < 0 T < C, El método asistido con software es mejor.

3.4.1.2. Prueba de hipótesis a cerca de dos medias con Varianzas 2

1 y 2

2 supuestos

desconocidos.

a) Poblaciones no normales.

T – C

– 5,76 – 0,24 0

Región de rechazo Ho

- 1,96

Región de rechazo Ho Región de aceptación

1,96

zk = – 2,13


DEFINICIÓN. Si las dos muestras aleatorias independientes de tamaños n1 y n2 se

seleccionan de poblaciones cuyas distribuciones no son normales (se

desconoce las distribuciones de la poblaciones) con varianzas 2

1 y 2

2

supuestas desconocidas, se cumple para las muestras n1 y n2

suficientemente grandes (n1 30 y n2 ≥ 30), los parámetros 2

1 y 2

2 se

estiman con las varianza muestrales 2

1s y 2

2s .

Luego, para 1–2 = 0, significa que se supone verdadera la hipótesis nula se

cumple:

2

2

2

1

2

1

2121

ˆˆ

)(

n

s

n

s

XXZ

y tiene una distribución exactamente o aproximadamente normal N(0;1).

Importante: Es recomendable si el tamaño de las muestras son grandes, no utilizar

la distribución t – student, porque no se conoce la distribución de la

población.

b) Poblaciones normales (Pruebas de Hipótesis con distribución t – Student).

Sea 1X , 2X las medias y varianzas 2

1s , 2

2s de dos muestras aleatoria independientes

de tamaños n1 y n2 respectivamente seleccionados de dos poblaciones normales con medias

1 y 2, varianza 2

1 y 2

2 desconocidas, en este caso se recomienda el uso de la distribución

t- Student; y se presentan dos casos:

b1) Se tienen varianzas supuestas iguales 2

1 =2

2 = .

Se utiliza cuando se realiza un trabajo de investigación en una misma población, o en

una población que tengan la misma característica. Por EJEMPLO, cuando se realiza un

trabajo de investigación en un mismo Institución Educativa con dos grupos, una de control y

otra experimental.

La ecuación respectiva es:

2

2

1

2

2121

ˆˆ

)(

n

s

n

s

XXT

cc

tiene una distribución t – student con r = n1 + n2 – 2 grados de libertad, donde la varianza

común es:

2

ˆ)1(ˆ)1(ˆ

21

2

22

2

112

nn

snsnsc

siendo su valor numérico:

)11

(ˆ

)(

21

2

2121

nns

xxt

c

k

para 1–2 = 0, significa que se supone verdadera la hipótesis nula.


b2) Se tienen varianzas supuestas diferentes 2

1 ≠ 2

2 .

Esta prueba se utiliza cuando las muestras son extraídas de poblaciones distintas. Por

EJEMPLO, cuando se realiza un trabajo de investigación en dos Instituciones educativas

distintas de diferentes regiones, cuyas características por su puesto son distintos.

Para esta distribución es:

2

2

2

1

2

1

2121

ˆˆ

)(

n

s

n

s

XXT

tiene una distribución t – student con r grados de libertad,

siendo:

1

ˆ

1

ˆ

ˆˆ

2

2

2

2

2

1

2

1

2

1

2

2

2

2

1

2

1

n

n

s

n

n

s

n

s

n

s

r , redondeando al entero más cercano.

Luego el valor de

2

2

2

1

2

1

2121

ˆˆ

)(

n

s

n

s

xxtk

,

para 1–2 = 0, significa que se supone verdadera la hipótesis nula.

EJEMPLO.

Con la finalidad de saber el rendimiento en matemática se tomó muestras aleatorias en el

tercer grado en dos colegios centenarios, una en la ciudad de Huancayo (T) y otra en la

ciudad de Huancavelica (C), y las muestras son de 15 y 14 estudiantes respectivamente,

cuyas notas finales en matemática son:

Hyo 12 08 11 10 15 14 12 14 11 10 8 12 13 11 14

Hvca. 11 12 15 6 8 10 11 10 11 12 11 13 10 11

a) Al 5% de nivel de significancia se puede afirmar que el rendimiento en matemáticas

son diferentes. Suponiendo que tienen las poblaciones normales de las notas en

matemática.

SOLUCIÓN:

i) Hipótesis.

H0 : T = C El rendimiento en matemáticas en ambos

colegios es igual.

HA : T ≠ C El rendimiento en matemáticas en ambos

colegios no es igual.

ii) Hallando sus medias y varianzas respectivas.


Huancayo Huancavelica

Media 11,6667 10,79

Desviación típica 2,125 2,12

Varianza muestral 4,52 4,49

Tamaño de muestra nT = 15 nC = 14

iii) Grado de libertad y Valor crítico.

Según el problema, las varianzas supuestas son diferentes ( 2

Hyo ≠ 2

Hvca ), porque se

trata de lugares y realidades distintas, además se sabe que las poblaciones tienen

distribuciones normales. Entonces utilizaremos la estadística t – student para varianzas

de poblaciones supuestas diferentes.

Hallemos el grado de libertad:

114

14

49,4

115

15

52,4

14

49,4

15

52,4

22

2

r r = 26,88 r = 27.

Buscando el valor Crítico.

Como = 0,05 y nuestra hipótesis es de dos colas, se divide = 0,05 en dos partes.

/2 = 0,025 1- /2 = 0,975

luego t1-/2;r = t0,975;27.= 2,052 (ver tabla de t de student)

vi) Estadística de contraste.

14

49,4

15

52,4

)0(79,106667,11 21

kt = 1,11. tk = 1,11.

vii) Decisión:

2 2

1

0

Como tk = 1,11 pertenece a la región de aceptación de la hipótesis nula (Ho), se acepta la

hipótesis nula y se concluye que el rendimiento en matemáticas en ambos colegios es igual.


-2,052


2,052

tk = 1,11


TRABAJANDO CON EL SPSS

Ahora veamos como funciona con el SPSS, los datos de la muestra ingresaremos y seguiremos los

siguientes pasos; para iniciar hacer clic en Vista de Variables.

Luego aparece la ventana de Etiqueta de valor.

Se continúa el proceso haciendo clic en Vista de Datos, para luego completar la

información.

Una vez concluido con la operación, ahora hallemos la prueba t de student, siguiendo los pasos.

Ingresar las notas de ambos colegios en dos

grupos distintos.

Considerar con 1 las notas del colegio de Huancayo y 2 las notas del colegio

de Huancavelica.

Codificar con 1 y 2 a cada colegio utilizando Añadir, y OK

Hacer clic en Analizar, y Comparar Medias ---> Prueba

de T para muestras

independientes.

Hacer clic en Valores

para codificar.

Poner títulos en

Etiqueta


luego encontramos el resultado.

Estadísticos de grupo

COLEGIOS Huancayo y Huancavelica N Media

Desviación típ.

Error típ. de la media

NOTAS DE LOS ESTUDIANTES DE CADA COELGIO

Huancayo 15 11,6667 2,12692 ,54917

Huancavelica 14 10,7857 2,11873 ,56625

Prueba de muestras independientes

Prueba de Levene para la igualdad

de varianzas Prueba T para la igualdad de medias

F Sig. t gl Sig.

(bilateral) Diferencia de medias

Error típ. de la

diferencia

95% Intervalo de confianza para la

diferencia

Inferior Superio

r

Inferior

Superior Inferior Superior Inferior Superior Inferior

Notas ,282 ,600 1,117 27 ,274 ,88095 ,78893 -,73779 2,49969

1,117 26,877 ,274 ,88095 ,78882 -,73791 2,49982

Que fácil, ¿verdad?.

Hacer clic en Definir

Grupos - Colegios

Luego aparece la ventana de Definir Grupos. Ingresar los

números asignados a los colegios 1 y 2. y Continua.

Finalmente, Aceptar


3.4.2. Prueba de hipótesis para diferencia de proporciones.

Si el resultado de un experimento son DICOTOMICOS (éxito – fracaso, si – no),

como el número de votos (a favor o en contra), número de niños que se ausentan de la

escuela en un día, … etc., nos referimos a estos como datos de conteo. Los modelos

apropiados para el análisis de los datos de conteo son la distribución binomial, la

distribución de Poisson, la distribución multinomial y algunas de las distribuciones discretas.

Sean X1 y X2 el número de éxitos en dos muestras aleatorias independientes de

tamaños n1 y n2 seleccionados de dos poblaciones cuya distribución es Bernoulli B(1, p1) y

B(1, p2), donde los parámetros desconocidos p1 y p2 son las proporciones de éxitos

poblacionales respectivos.

Luego las proporciones de éxitos muestrales respectivas son:

1

11

n

XP y

2

22

n

XP

y para n1 y n2 suficientemente grandes (n1 ≥ 30 y n2 30), la variable aleatoria.

La raíz cuadrada se llama error estándar de la distribución muestral de diferencia de

proporciones.

21

11)ˆ1(ˆ

nnPP

donde P es el valor común de los estadígrafos y es un estimador insesgada de p1 y p2.

Además P puede ser aproximada por:

P = 21

2211

nn

PnPn

luego la estadística es

21

2121

11)ˆ1(ˆ

)(

nnPP

ppppzk

para p1–p2 = 0, significa que se supone verdadera la hipótesis nula y es la que se debe probar.

EJEMPLO.

En una encuesta de opinión estudiantil universitaria en la Facultad de Educación de la UNH

sobre un proyecto de actividades de proyección social, se consultó a 250 mujeres y 300

hombres. De las cuales 120 mujeres y 180 hombres aprobaron el proyecto. Frente a esto

resultados, determinar si la diferencia observada es significativa. Usar = 0,02.

Solución.

Hipótesis:

H0: ph = pm La proporción de varones que aprueba el proyecto es igual a la

proporción de mujeres que aprueban el proyecto.

HA : ph ≠ pm La proporción de varones que aprueba el proyecto es diferente

a la proporción de mujeres que aprueban el proyecto.


Nivel de significancia. = 0,02 (2%).

Región crítica.

Como nuestra hipótesis de investigación dice DIFERENTE, significa que tiene dos

colas. Entonces se tiene que distribuir = 0,02 en dos partes.

/2 = 0,01 1- /2 = 0,99.


Proporción de varones a favor del proyecto:

300

1801 P = 0,60 40,01 Q

Proporción de mujeres a favor del proyecto:

250

1202 P = 0,48. .52,02 Q

Luego la proporción común es:

P = 300250

)60,0(300)48,0(250

= 0,55. 45,0Q .

Hallando la distribución z.

300

1

250

1)45,0)(55,0(

)0(48,060,0 21 ppzk = 2,81,

Decisión:

2 2

1

0

Como zk = 2,81 y pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho) y se

acepta la hipótesis alterna HA. Tal como se muestra en la figura. Por tanto, la diferencia

observada es significativa.


-2,33


2,33

zk = 2,81


EJERCICIOS.

1. ¿Cuáles de las siguientes afirmaciones son verdaderas?.

2. Dos profesores de la E.A.P.E.I. – FED – UNH, desean comparar dos métodos A y B en el

aprestamiento matemático en niños de educación inicial en dos centros educativos diferentes.

Los resultados son las siguientes:

CENTROS EDUCATIVOS

METODOS muestras MEDIAS x Varianza 2s

Centro educativo X A 50 15 16

Centro educativo Y B 60 13 9

a) ¿Al 5% de nivel de significancia, se puede afirmar que los resultados son iguales? b) En caso de ser diferentes, cual de los dos métodos tuvo mejor resultado?

3. Se realiza exactamente el mismo examen de razonamiento matemático para los alumnos clasificados por sexo (damas y varones) seleccionados al azar de la población del Colegio XYZ

del 4to grado. Las damas que son de 144, obtuvieron una puntuación promedio de 88 puntos con

una varianza de 47 puntos; en cambio los varones que son de 144 alcanzaron un promedio de 90

puntos con una varianza de 34 puntos. a) ¿Al 5% de nivel de significancia, se puede afirmar que los resultados son iguales?

b) En caso de ser diferentes, cual de los dos métodos tuvo mejor resultado?

4. Un investigador en educación matemática realiza un estudio en la enseñanza del análisis matemático asistido con un software en la UNH. Para ello selecciona aleatoriamente 16 alumnos

para el grupo experimental asistido por computadoras y 14 alumnos para el grupo control que

fue asistido solamente con clases tradicionales. Se sabe por experiencia que la población de las notas es normal. Los resultados son:

Grupo experimental.

11 15 13 9 11 16 15 15

12 09 14 13 16 12 14 13

Grupo Control .

13 12 13 14 18 10 14

11 09 11 12 11 14 12

a) ¿Se puede afirmar que la enseñanza del análisis matemático mediante software es

superior a la enseñanza tradicional con respecto a sus medias?. Considerar = 0,05

b) ¿Probar la hipótesis a través de proporciones, teniendo en cuenta los aprobados? .

Considerar = 0,05

I. Las pruebas de hipótesis sólo proporcionan evidencias absolutas ( )

II. Cuando se evalúa la prueba de hipótesis, se evalúa la hipótesis

de investigación (HA). ( )

III. Las estimaciones puntuales son iguales a las estimaciones por

intervalos. ( )

IV. Los intervalos de confianza sirve para la prueba de hipótesis. ( )


5. Un profesor de niños excepcionales sostiene que al menos el tiempo promedio de respuesta de

niños con retardo metal a un determinado sonido es de 157 milisegundos. Se selecciona una

muestra aleatoria simple de 25 niños obteniendo el siguiente resultado con respecto al tiempo en milisegundos:

158 156 160 162 165 162 156 160 158 158 160 163

152 161 165 159 161 160 160 156 157 160 159 161

154 151 162 161 156 158 157 156 155 158 152 153

a. Al 5% de significación, se acepta o rechaza la afirmación del profesor.

6. Se hizo un experimento con 11 niños seleccionados al azar, para ver si un entrenamiento previo,

basado en las rompecabezas, contribuye a tener un mejor rendimiento en el aprendizaje del lógico matemático. Se aplicaron dos pruebas: una antes y otra después del entrenamiento; cuyo

resultado es:

Puntuación No. del estudiante

1 2 3 4 5 6 7 8 9 10 11

Antes 40 60 70 80 38 68 65 75 52 71 83

Después 42 65 65 82 35 62 70 75 55 69 85

a. Al 5% de significación, se acepta o rechaza la afirmación la hipótesis de que el entrenamiento previo contribuye a tener mejor rendimiento.


3.5. COEFICIENTE DE CORRELACIÓN Y REGRESIÓN LINEAL.

Frecuentemente en investigación estamos interesados en estudiar la relación entre

dos variables; en el campo educativo, se tiene la relación entre la habilidad mental y el

rendimiento académico en matemáticas, o qué relación existe entre el resultado de un

examen de Matemáticas y el curso de Geografía. La naturaleza y grado de relación entre

estas variables pueden ser analizados a través de dos técnicas: Regresión y Correlación

aunque están relacionados tienen propósitos e interpretaciones diferentes.

El análisis de regresión es útil para determinar la forma probable de la relación entre

las variables, cuando hay un fenómeno de causa y efecto; cuyo objetivo es predecir o estimar

el valor de una variable dependiente (Y) a causa de la variable independiente (X).

El análisis de correlación, consiste en la medición del grado de intensidad de

asociación entre las dos variables sin importar cual es la causa y cual es el efecto. La

correlación puede ser negativa (cuando al aumentar una variable la otra disminuye) o

positiva (Cuando al aumentar una variable la otra también aumenta). En la correlación no

existe variable dependiente e independiente, solamente son variables aleatorias.

3.5.1 DIAGRAMAS DE DISPERSIÓN.

El primer paso a realizar en el estudio de la relación entre dos variables es el

diagrama de dispersión que consiste en representar los pares de valores (Xi; Yi) como puntos

en un sistema cartesiano XY.

COSTO DE LIBRO

222018161412108

VE

NT

AS

EN

11

DIA

S

60

50

40

30

20

10

Figura No. 3.5.1.a Figura No. 3.5.1.b

PRECIO DE VENTA

8280787674727068

CA

SA

CA

S V

EN

DID

AS

AL

DIA

18

16

14

12

10

8

6

4

2

0

Figura No. 3.5.1.c Figura No. 3.5.1.d.

HABILIDAD MENTAL

5040302010

EX

AM

EN

DE

MA

TE

MÁ

TIC

A

20

18

16

14

12

10

8

6

4

EXAMEN 1 DE LOGICA

20191817161514131211109876

EX

AM

EN

1 D

E M

AT

EM

ÁT

ICA

20

19

18

17

16

15

14

13

12

11

10

9

8

7

6


Hemos presentado algunos principales diagramas de dispersión: la Figura No 3.5.1.a es una

relación lineal positiva, la Figura No. 3.5.1.b relación lineal negativa, Figura No. 3.5.1.c No existe

relación y la Figura No. 3.5.1.d relación parabólica. El análisis de regresión puede ser lineal o

no lineal (curvilíneo) o lineal múltiple, todo depende de las variables en estudio.

3.5.2. REGRESIÓN LINEAL SIMPLE

El objetivo principal del análisis de la regresión es establecer una relación funcional

entre dos variables relacionados, tomando como datos muestrales (aleatorios), que

constituyan buenos estimadores de la correspondiente relación poblacional.

Abordaremos la línea recta, partiendo del EJEMPLO siguiente:

EJEMPLO.

Se desea saber si la habilidad mental de los niños influye en su rendimiento académico de

matemática del estudiante. Para ello se ha tomado información de 16 estudiantes.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

20 48 16 37 40 41 46 21 35 38 36 40 35 45 28 32

10 19 8 14 16 17 18 13 14 15 14 16 13 18 12 14

SOLUCIÓN.

En la figura se muestra el diagrama de dispersión de los datos que corresponde a habilidad

mental y el rendimiento en matemática.

Como se observa, es una ecuación lineal

simple cuya ecuación es:

Yc = a + bX,

Existen varios métodos para calcular la

ecuación de la regresión, utilizaremos el

método de mínimos cuadrados, por ser

matemáticamente más exacto.

Supongamos que Yc = a + bX, es la

ecuación de la recta, donde Yc representa el

valor teórico de Yi o el valor estimado de Y,

que corresponde a un valor particular de X.

El criterio de mínimos cuadrados requiere

que encontremos las constantes a y b tales

que 2)( ci YY se mínimo (es decir tiende a cero).

Las constantes a y b se llaman coeficientes de regresión, a es la intersección con el

eje de la ordenadas Y, mientras tanto b es la pendiente de la línea de mejor ajuste.

∑(Yi – Yc)2 .. .. . .. . . . (i)

en esta ecuación (i) sustituimos el valor de Yc = a + bX , luego la ecuación queda así:

∑(Yi – a – bX)2

Para satisfacer la condición de minimizar las desviaciones de los valores reales de Yi con

respecto a la línea teórica, basta con derivar con respecto a “a” y con respecto a “b” e

Linear Regression

20,00 30,00 40,00

HABILIDAD MENTAL

10,00

12,50

15,00

17,50

EX

AM

EN

DE

MA

TE

MÁ

TIC

A

EXAMEN DE MATEMÁTICA = 4,13 + 0,30 * habelida

R-Square = 0,89

Figura No. 3.5.2.1


igualar a cero la derivada; las ecuaciones que resulten, la resolverlas, definirán los valores de

a y b que minimizan dichas observaciones:

Sea, z = ∑(Yi – a – bX)2 ……(ii),

y derivamos (ii) con respecto a “a”:

da

dz= 2∑(Yi – a – bX)(–1 ) = 0.

Desarrollando se obtiene:

– 2∑Yi + 2na + 2b∑X = 0

– 2∑Yi = – 2na – 2b∑X

∑Yi = na + b∑X …………………. (iii).

Nuevamente derivamos (ii) con respecto b:

da

dz= 2∑(Yi – a – bX)(–X ) = 0.

Desarrollando se obtiene:

– 2∑XYi +2a∑X + 2b∑X2 = 0

– 2∑XYi = –2a∑X – 2b∑X2

∑XYi = a∑X + 2b∑X2 …………………. (iv)

Finalmente, se tiene las ecuaciones (iii) y (iv), llamados sistema de ecuaciones normales.

Al resolver las ecuaciones se obtiene:

22

2

)(

XY)X)((

XXn

YXa y

22 )(

X)Y)((

XXn

XYnb

Para facilitar el trabajo se ha simplificado la ecuación de “a” en términos de “b” y queda de

la siguiente manera:

n

XbYa

Continuamos el desarrollo del ejemplo propuesto.

Se desea saber si la habilidad mental de los niños influye en su rendimiento académico de

matemática del estudiante. Para ello se ha tomado información de 16 estudiantes.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

20 48 16 37 40 41 46 21 35 38 36 40 35 45 28 32

10 19 8 14 16 17 18 13 14 15 14 16 13 18 12 14

∑Yi = na + b∑X

∑XYi = a∑X + 2b∑X2


Si bien es cierto que la tecnología nos ayuda a operar, pero es necesario saber como se desarrolla.

Aquí presentamos el proceso.

No. del estudiante X Y XY X2.

1 20 10 200 400 2 48 19 912 2304 3 16 8 128 256 4 37 14 518 1369 5 40 16 640 1600 6 41 17 697 1681 7 46 18 828 2116 8 21 13 273 441 9 35 14 490 1225

10 38 15 570 1444 11 36 14 504 1296 12 40 16 640 1600 13 35 13 455 1225 14 45 18 810 2025 15 28 12 336 784 16 32 14 448 1024 ∑X =558 ∑Y =231 ∑XY =8449 ∑X

2 =20790

Sustituyendo los valores se tiene:

2)558()20790(16

)231)(558()8449(16

b b = 0,29545.

16

)558)(29545,0(231a a = 4,13367.

Luego la ecuación es

Es la misma ecuación que aparece en el cuadro corrido con el SPSS que dimos

solución inicialmente (Figura No. 3.5.2.1).

El valor de “a” corta al eje corta al eje Y en 4,13367; y el valor de b = 0,29545,

indica que cuando el valor de X aumenta en puntaje aumenta 0,295535 a cada puntaje del

rendimiento en matemática.

Podemos predecir, si el alumno tiene en habilidad mental de x=47 puntos

Yc = 4,13367 + 0,29545X Y47 = 4,13367 + 0,29545(47).

Entonces su valor de Rendimiento en matemática es : 18,01982, es decir una nota de 18.

Pero tampoco podemos predecir algo que no es lógico, por ejemplo si consideramos x = 200,

significa que el puntaje en matemáticas sería 63,22; esto significa que existen máximos

como mínimos donde la ecuación se cumple en una situación real. Sin embargo, la ecuación

matemática es simplemente como cualquier ecuación.

3.5.3. CORRELACIÓN.

El análisis de correlación, busca medir el grado de correlación entre dos variables o

grado de intensidad de asociación entre las dos variables X y Y. La medida del grado de

asociación entre las dos variables se llama coeficiente de correlación, representado

Yc = 4,13367 + 0,29545X.


universalmente por “” y el parámetro poblacional, en cuanto al coeficiente de correlación

de la muestra es “r”.

El coeficiente de correlación r de Pearson, toma valores toman valores comprendidos

entre – 1 y +1.

Poblacional: – 1 ≤ ≤ +1

Muestral: – 1 ≤ r ≤ +1

Los valores negativos indican una correlación negativa y los valores positivos una

correlación positiva.

Para calcular el valor de coeficiente de correlación de Pearson se usa:

2222 )()()()(

))(()(

YYnXXn

YXXYnr

EJEMPLO.

Se desea saber si la habilidad mental de los niños se correlaciona con su rendimiento

académico de matemática. Para ello se ha tomado información de 16 estudiantes.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

20 48 16 37 40 41 46 21 35 38 36 40 35 45 28 32

10 19 8 14 16 17 18 13 14 15 14 16 13 18 12 14

SOLUCIÓN.

No. del est. X Y XY X2. Y

2.

1 20 10 200 400 100 2 48 19 912 2304 361 3 16 8 128 256 64 4 37 14 518 1369 196 5 40 16 640 1600 256 6 41 17 697 1681 289 7 46 18 828 2116 324 8 21 13 273 441 169 9 35 14 490 1225 196 10 38 15 570 1444 225 11 36 14 504 1296 196 12 40 16 640 1600 256 13 35 13 455 1225 169 14 45 18 810 2025 324 15 28 12 336 784 144 16 32 14 448 1024 196 ∑X = 558 ∑Y = 231 ∑XY = 8449 ∑X

2 = 20790 ∑Y

2 = 3465

-1 1 0

Valores débiles Valores fuertes Valores fuertes Valores débiles

Correlación nula


Sustituyendo valores

22 231)3465(16558)20790(16

)231)(558()8449(16

r r = +0,945153.

Se verifica que existe una correlación fuerte entre las dos variables.

IMPORTANTE: Sobre prueba de hipótesis.

Por lo general se tiene interés en saber si puede concluirse que ≠ 0, si X y Y están

correlacionados. Por lo general se desconoce el verdadero valor de si se extrae una

muestra de la población, pero si existe el interés de calcular el valor de r a partir de la

muestra y que es el estimador de . Por tanto se puede probar la hipótesis

Ho: = 0 VS. HA: ≠ 0

para ver si éste valor de r es de magnitud suficiente como para indicar que las dos (2)

variables (X y Y) están correlacionados.

DEFINICIÓN 1. Cuando se desea demostrar Ho: = 0, se usa el estadístico t de Student

para n – 2 grados de libertad, cuya ecuación es:

21

2

r

nrt

DEFINICIÓN 2. Cuando se desea demostrar Ho: = o (≠0), donde o es distinto de

cero (0), debe utilizarse otro procedimiento para n ≥ 25 . Fisher4 sugiere

que r debe transformarse en zr, cuya ecuación es

)1

1ln(

2

1

r

rzr

(ln : logaritmo natural).

Puede demostrarse que zr tiene una distribución aproximadamente normal con una

media de.

)1

1ln(

2

1

z

y una desviación estándar de 3

1

n

Luego para probar la hipótesis nula Ho: = o , la estadística de prueba es

3

1

n

zzZ

r

tiene una distribución aproximadamente normal.

El lector que no tiene mucho conocimiento en matemática y tiene dificultad para

realizar operaciones con logaritmos naturales, puede usar la tabla de transformación de r a z.

4 R.A. Fisher, ON THE PROBABLE ERROR OF AN COEFFIENT OF CORRELATION DEDUCED FROM A SMALL

SAMPLE. Metron, 1 – 1991, 3 – 21.


DEFINICIÓN 3. Cuando se desea demostrar Ho: = o (≠0), donde o es distinto de

cero (0), debe utilizarse otro procedimiento. Hotelling5 sugiere para

tamaños pequeños 10≤ n < 25, el procedimiento de transformarse r en

z*, cuya ecuación es

n

rzzz r

r4

3*

cuya desviación estándar es 1

1*

nz

Luego, la estadística de contraste es

1

1

***

n

zzZ = 1*** nzz

donde: n

zzz

4

3**

; (z** es respecto = 0 ).

Para hallar el valor de zr y z recorrer a la definición 2 del grupo.

EJEMPLO. (para la definición 1).

Para mostrar al culto lector, probemos los resultados del EJEMPLO anterior a un nivel de

significancia = 0,05 (5%). Para recordar mostremos el texto literal:

Se desea saber si la habilidad mental de los niños se correlacionan con su rendimiento

académico de matemática. Para ello se ha tomado información de 16 estudiantes

La tabla se puede ver en el desarrollo del ejercicio anterior.

SOLUCIÓN.

Encontramos su coeficiente de correlación que es

r = +0,945153.

Hipótesis:

Ho: = 0

HA: ≠ 0

Los valores críticos

Como nuestra hipótesis alterna es HA: ≠ 0, entonces es prueba bilateral de dos colas.

Entonces se tiene que distribuir = 0,05 en dos partes.

/2 = 0,025 1- /2 = 0,975.

El grado de libertad es: n – 2 = 16 – 2 = 14.

Luego t1-/2; 14 = t0,975;14 = 2,145. Este valor encontramos en la tabla de la distribución t

de Student.

Estadística de contraste.

5 H. Hotelling. NEW LIGHT ON THE CORRELATION COEFFICIENT AND ITS TRANFORMS, Journal

of the Statistical Society. Ser B, 15 (1953), 193 – 232.


21

2

r

nrt

sustituyendo 2)945153,0(1

216945153,0

t

t = 10,827.

Decisión.

2 2

1

0

Como t = 10,827 pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho), y se

acepta la hipótesis alterna. Se concluye que las dos variables X y Y están correlacionados.


Como nuestra muestra es menor que 25, el resultado no es cierto, debemos de tener

cuidado. Esta prueba es correcto cuando la muestra es mayor que o igual que 25 (n 25).

Solo por situaciones de desarrollo mostraré la operación. (tener cuidado¡¡¡).

Ahora supongamos que la hipótesis nula H0: ≠ 0; es decir, Ho: = o y el valor de

no es cero. Del mismo EJEMPLO anterior a un nivel de significancia = 0,05 (5%).

Solución.

Hipótesis.

Ho: = 0,98

HA: ≠ 0,98 ( puede ser mayor o menor).

n = 16.

Como nuestra hipótesis alterna es HA: ≠ 0,98, entonces es prueba bilateral de dos

colas. Luego se tiene que distribuir = 0,05 en dos partes.

/2 = 0,025 1- /2 = 0,975.

Luego Z1-/2; = Z0,975; = 1,96.


-2,145

Región de rechazo Ho Región de rechazo Ho

2,145

Región de aceptación t = 10,827


3

1

n

zzZ

r

pero se requiere calcular los valores de zr y z. Calculemos entonces:

Se conoce el valor de r = 0,945153 r = 0,95.

)1

1ln(

2

1

r

rzr

)

95,01

95,01ln(

2

1

rz = 1,83178.

Se conoce el valor de = 0,98.

)1

1ln(

2

1

z )

98,01

98,01ln(

2

1

z = 2,29756.

Ahora la estadística de contraste:

3

1

n

zzZ

r

316

1

29756,283178,1

Z = - 1,6793

lo cual aceptaríamos la hipótesis nula, esto ocurre porque n < 25, por lo que no es

recomendable usar este estadístico. Solamente se usa para mayores que 25. Ya habíamos

pronosticado que no funcionaría.


Utilizando la definición 3 , el resultado es real.

Ahora supongamos que la hipótesis nula H0: ≠ 0; es decir, Ho: = o y el valor de

no es cero. Del mismo EJEMPLO anterior a un nivel de significancia = 0,05 (5%).

Solución.

Hipótesis.

Ho: = 0,98

HA: ≠ 0,98 ( puede ser mayor o menor).

n = 16.

Como nuestra hipótesis alterna es HA: ≠ 0,98, entonces es prueba bilateral de dos

colas. Luego se tiene que distribuir = 0,05 en dos partes.

/2 = 0,025 1- /2 = 0,975.

Luego Z1-/2; = Z0,975; = 1,96.


Antes de utilizar el estadístico hallemos z* y z**

Se conoce el valor de r = 0,945153 r = 0,95.

)1

1ln(

2

1

r

rzr

)

95,01

95,01ln(

2

1

rz = 1,83178.


Se conoce el valor de = 0,98.

)1

1ln(

2

1

z )

98,01

98,01ln(

2

1

z = 2,29756.

Luego sustituyendo

n

rzzz r

r4

3*

)16(4

95,0)83178,1(383178,1*

z

z* = 1,73107

n

zzz

4

3**

)16(4

98,0)29756,2(329756,2**

z z** = 2,17455.

La estadística de contrastes.

1

1

***

n

zzZ

116

1

17455,273107,1

Z

Z = - 1,7175.

Decisión.

2 2

1

0

Como Z = - 1,7175 y es mayor que Z0,975; = - 1,96; ésta se encuentra en la región de

aceptación de la hipótesis nula. Se acepta la hipótesis y que la correlación poblacional es de

= 0,98.

-1,96



1,96

Región de aceptación Z = -1,72


A TRABAJAR CON EL SPSS

Seguir los siguientes pasos.

i) Ingresar los datos como en la figura

ii) Una vez realizado ubicarse en Análisis ---> Regression ---> Linear … y aparece la figura de abajo, una vez terminada la operación hacer clic en OK

en el resultado se muestra el coeficiente de correlación encontrado en el ejercicio, el valor de r de

Pearson fue de 0,945. Model Summary

Model R R Square Adjusted R Square

Std. Error of the Estimate

1 ,945 ,893 ,886 ,99508

a Predictors: (Constant), HABILIDAD MENTAL

También encontramos los valores de los coeficientes de la regresión lineal para completar la ecuación Yc = a + bX , donde el valor de a y b son 4,134 y 0,295 respectivamente Coefficients

Unstandardized

Coefficients

Standardized Coefficients

t Sig.

Model B Std. Error Beta

1 (Constant) 4,134 ,984 4,202 ,001

HABILIDAD MENTAL

,295 ,027 ,945 10,827 ,000

a Dependent Variable: EXAMEN DE MATEMÁTICA

Además la correlación ya se ha resuelto automáticamente, se muestra en el cuadro

precedente. Recordemos la Hipótesis:

Ho: = 0 VS. HA: ≠ 0

Ingresar los datos de las

dos variables

Registrar las variables con

sus especificaciones

Seleccionar como muestra el

EJEMPLO.


Probamos la t de Student cuyo resultado es t = 10,827. Coefficients

Unstandardized

Coefficients

Standardized Coefficients

t Sig.

Model B Std. Error Beta

1 (Constant) 4,134 ,984 4,202 ,001

HABILIDAD MENTAL

,295 ,027 ,945 10,827 ,000

a Dependent Variable: EXAMEN DE MATEMÁTICA

iii) Si deseamos hallar la ecuación de la regresión lineal y el cuadro respectivo de las dispersiones

con los datos se deberá seguir los siguiente pasos:

Ir a Graph ---> Interactive --->Scaterplot… y aparece el cuadro.

y aparece la figura

Linear Regression

20,00 30,00 40,00

HABILIDAD MENTAL

10,00

12,50

15,00

17,50

EX

AM

EN

DE

MA

TE

MÁ

TIC

A

EXAMEN DE MATEMÁTICA = 4,13 + 0,30 * habelida

R-Square = 0,89

Seleccionar la

variable dependiente

e independiente y OK

Hacer doble Clic y

debe aparecer el

cuadro de llamada.

El valor de t = 10,827, encontrado en la

prueba de hipótesis del EJEMPLO 1.


Finalmente aparece el resultado:

Elegir NO

COLOR y OK

La ecuación de

la Regresión

Lineal

La recta y los puntos

de dispersión.


EJERCICIOS

1. En un reporte de investigación realizada en 100 personas, se obtiene la variable X que

corresponde al número de litros de bebidas alcohólicas consumidas, y la variable Y corresponde al número de accidentes de automóviles por cada 100 personas que ingieren bebidas alcohólicas.

X 2 3 4 5 6 7 8 9 10

Y 8 10 12 18 20 22 25 28 30

a. Calcule la ecuación de regresión de X sobre Y.

b. Calcule el coeficiente de correlación.

c. Pruebe con una hipótesis la correlación.

2. Un investigador en el área de matemática de la UNH obtiene la siguiente información con respecto a horas de estudio (X) para prepararse para el examen de matemáticas, y obtener la

calificación en dicho examen (Y).

X 1 2 2 3 3 3,5 4 4 4,5 4,5 5 5,5 5,5 6

Y 8 10 12 12 16 14 16 12 14 16 18 16 18 20

a. Calcule la ecuación de regresión de X sobre Y.

b. Trace la gráfica (diagrama de dispersión).

b. Calcule el coeficiente de correlación. c. Pruebe con una hipótesis la correlación.

3. Un grupo de 8 estudiantes que se preparan para un examen de admisión se sometieron a una

prueba de habilidad mental (X), luego relacionaron con los puntajes obtenidos (Y). el resultado se tiene en le recuadro.

No. Habilidad Mental (X). Examen de Admisión (Y). 1 Félix 6 15 2 Víctor 10 18 3 Julio 15 25 4 Max 20 32 5 Ofelia 25 36 6 Abel 30 40 7 Norma 35 45 8 Gaby 40 55

a. Calcule la ecuación de regresión de X sobre Y. b. Trace la gráfica (diagrama de dispersión).

c. Calcule el coeficiente de correlación.

d. Pruebe con una hipótesis la correlación.

4. Un estudiante de matemática desea ver si existe correlación entre las notas obtenidas en las asignaturas de letras y las asignaturas de matemáticas.

Matemática 12 13 10 14 12 11 16 15 12 12 15

Letras 18 16 14 12 11 13 14 15 16 12 14

a. Calcule la correlación entre ambas asignaturas.

b. ¿Existe regresión lineal, se puede hallar su ecuación?, explique.

5. Se toma una muestra de 30 estudiantes de la especialidad de matemática, y se realiza una

relación entre peso y estatura, cuyo resultado se presenta.


Alumno. Estatura (m) Peso (kg) Alumno. Estatura (m) Peso (kg)

1 1,63 65 16 1,68 65 2 1,73 70 17 1,56 58 3 1,55 54 18 1,85 89 4 1,85 85 19 1,70 68 5 1,75 70 20 1,69 70 6 1,64 68 21 1,58 54 7 1,54 60 22 1,70 73 8 1,65 60 23 1,67 65 9 1,58 50 24 1,62 66 10 1,83 78 25 1,80 86 11 1,70 90 26 1,55 58 12 1,51 56 27 1,58 64 13 1,64 68 28 1,70 74 14 1,50 45 29 1,76 80 15 1,70 69 30 1,50 60

a. Trace la gráfica (diagrama de dispersión). b. Halle la ecuación de la regresión si existe

c. Calcule el coeficiente de correlación y.

d. Pruebe con una hipótesis la correlación.


3.6. PRUEBAS DE HIPÓTESIS NO PARAMETRICA.

A diferencia de las pruebas de hipótesis paramétricas que tienen significancia y incluye

una lista de prerrequisitos, así como están basados en supuestos de que las poblaciones

están distribuidos normalmente con parámetros media y varianza. En las pruebas de

hipótesis No paramétricas, no interesa el tipo de distribución de la población, ni sus

parámetros (no se hacen suposiciones), apenas se suponen la independencia de los datos.

Sin embargo las pruebas no paramétricas tiene algunas desventajas como las siguientes:

i) Existe perdida de información.

ii) La potencia de estas pruebas es menor que la potencia de las pruebas paramétricas.

iii) Tienden a ser conservadoras; es decir, que tienden a conducir a la aceptación de la

hipótesis nula con más frecuencia de lo que se debería.

iv) Es menos confiable.

Sin embargo, es un buen instrumento para realizar los trabajos mientras los datos son

más pequeños. En general, es verdad que cuanto menos se suponga, tanto menos puede

inferirse de un conjunto de observaciones; pero también es verdad que cuanto menos se

suponga, tanto más se amplia la aplicabilidad de nuestro método.

Las principales que tenemos son:

- U de Mann – Whitney (para 2 muestras independientes).

- T de Wilcoxon (para 2 muestras dependientes).

- H de Kruskal –Wallis (para “K” muestras independientes).

- ANOVA de Friedman (para “K” muestras dependientes).

- Chi cuadrada (para “1 sola muestra).

- Existen muchas otras pruebas más que el lector podría investigar, pero en el curso

sólo tomaremos las pruebas estadísticas citadas.

3.6.1. Pruebas de Hipótesis con Chi – Cuadrada.

Cuando se realiza un trabajo de investigación en educación, a menudo se presentan

situaciones donde es necesario verificar la hipótesis de investigación, y la más conocida es la

chi – cuadrada (2), y en su forma general se llama pruebas concernientes de diferencias de

k proporciones.

Presentamos los arreglos correspondientes

EXITOS FRACASOS

MUESTRA 1 x1. n1 – x1

MUESTRA 2 x2. n2 – x2

… … …

MUESTRA k xk. nk – xk

La chi cuadrada se puede manejar en forma paramétrica y no paramétrica; para los

fines de este libro nos restringiremos a la forma no paramétrica.

La prueba Chi cuadrada relativa a frecuencias.

Es un método útil para probar la hipótesis relacionado a la diferencia entre conjunto de

frecuencias observadas en una muestra y el conjunto correspondiente de frecuencias teóricas

o esperadas.

La ecuación correspondiente del estadístico es:


2 =

i

ii

E

EO 2)(

Oi : Frecuencia observada de realización de un acontecimiento determinado.

Ei : Frecuencia esperada o teórica.

Es necesario tomar en cuenta el grado de libertad (r), y se obtiene de la tabla de contingencia

r = (f – 1)(k – 1).

Donde: f : número de filas.

k : número de columnas.

Dado el nivel de significancia para r grados de libertad, en la tabla el valor c = 2

(1 ),r

que viene a ser el punto crítico de la prueba.

Regla de decisión:

Si 2

(cal) > c, se rechaza la hipótesis nula

Ho, caso contrario se aceptará la hipótesis

nula Ho.

EJEMPLO.

Un estudiante de Ciencias Sociales preocupado en las elecciones realiza un seguimiento. Un

partido XK asegura que el 85% de la población está a su favor. Por lo que el estudiante

obtiene una muestra aleatoria de 2 500 ciudadanos; de ellos 1800 favorecen al partido XK.

A la luz de los resultados, determinar si es falso lo que aseguran los representantes de XK.

Usar nivel de significancia 1%.

SOLUCIÓN.

Hipótesis.

Ho : p = 0,85

HA : p < 0,85

Calculando las frecuencias esperadas.

frecuencias Actitud Total

Favorecen No favorecen

Observada (Oi) 2050 450 2500

Esperada (Ei) 2125 375 2500

Se afirma que el 85% de los ciudadanos favorecen a XK, entonces:

E1 = (85%)(2500) = 2 125

E2 = (15%)(2500) = 375. o 2500 – 2125 = 375.

1-

Región crítica

c


Calculando

2

cal = 2 2(2050 2125) (450 375)

2125 375

, 2

cal = 17,65.

El valor crítico al 1%.

Se tiene k = 2 filas y c = 2 columnas,

entonces r = (2-1)(2-1) = 1,

luego 2

(1 ),r = 2

(0,99), 1r = 6,64. (ver tabla de Chi cuadrada).

Cuando se compara ambos valores, el 2

cal = 17,65 calculado es mayor que de la tabla. Por

tanto, rechazamos Ho. De aquí podemos concluir No es cierto lo que afirma XK.

Importante: cuando se tiene un solo grado de libertad se puede aplicar una prueba de

distribución normal.

EJEMPLO.

Resolver el ejemplo anterior aplicando la distribución normal.

SOLUCIÓN.

Hipótesis.

Ho : p = 0,85

HA : p < 0,85

La proporción muestra para n = 2500 es:

2050

0,822500

P 0,18Q

Calculando z.

P pz

pq

n

; sustituyendo en

0,82 0,85

(0,85)(0,15)

2500

z

= - 4,20.

Región crítica para = 0,01.

(1 – ) = 1 – 0,01 = 0,99.

Además nuestra hipótesis tiene una sola cola y a la izquierda.

Entonces Z1- = Z0,99 = 2,33. (ver tabla de distribución z).


Decisión.

º

1

Como zk = - 4,20 y pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho) y se

acepta la hipótesis alterna HA. Tal como se muestra en la figura. Se concluye que, lo que

afirma XK no es cierto.

EJEMPLO.

Determinar con base en los datos muestrales obtenidos que se presentan en la tabla,

si la proporción verdadera de compradores que favorecen el Plumón M sobre el Plumón N

es la misma en las tres ciudades. Considerar = 0,05 (5%.).

Ciudades

Actitud

Total Favorecen al

plumón M

Favorecen al

plumón N

Ayacucho 232 168 400

Huancayo 260 240 500

Tacna 197 203 400

689 611 1300

SOLUCIÓN.

Hipótesis.

Ho : pA = pH = pT

HA : pA ; pH ; pT no son todas iguales.

Hallando las frecuencias esperadas.

E11 = (689)(400)/1300 = 212.

E21 = (689)(500)/1300 = 265.

E31 = (689)(400)/1300 = 212.

E12 = (611)(400)/1300 = 188

E22 = (611)(5000)/1300 = 235

E32 = (611)(400)/1300 = 188

- 2,33

Región de rechazo

zk = - 4,20


Ciudades

Actitud

Total Favorecen al

plumón M

Favorecen al

plumón N

Ayacucho 232 212 168 188 400

Huancayo 260 265 240 235 500

Tacna 197 212 203 188 400

689 611 1300

2

cal =

212

)212197(

265

)265260(

212

)212232( 222

188

)188203(

235

)235240(

188

)188168( 222

2

cal = 6,4733.

Región crítica para = 0,05.

Se tiene k = 3 filas y c = 2 columnas, entonces r = (3-1)(2-1) = 2,

luego 2

(1 ),r = 2

(0,95), 1r = 5,99. (ver tabla de Chi cuadrada).

Como el valor de 2

cal = 6,4733 es mayor que el valor crítico 5,99 se rechaza la hipótesis

nula. Es decir, las proporciones verdaderas de compradores que favorecen el Plumón M

sobre el Plumón N en las tres ciudades no son las mismas.

E11 =212

E21 =265

E31 =212

E12 =188

E22 =235

E32 =188


A TRABAJAR CON EL SPSS.

Se inicia aperturando una nueva hoja de trabajo.

Hacer clic en Values en CIUDADES DE VENTA y registrar la codificación.

Hacer clic en Values en MARCA DE PLUMONES y registrar la codificación

Una vez realizado toda la operación ir al menú Data ---> Weight Case … (ponderar casos) y

aparece el cuadro de diálogo

Rotular los nombres y

Títulos.

Hacer clic en

Data View.

Ingresar en la columna fila los números 1, 2 y 3, que representan a Ayacucho, Hunacayo y

Tacna.

Ingresar en la

columna (columna) la opción de actitud con 1 y 2, combinando

fila y columna.

Ingresar los valores de la tabla, fila y columna.

(frecuencia Observada).

Ingresar la codificación de las ciudades como se

muestra el ejemplo

Ingresar la codificación de la marca de los plumones como se muestra el ejemplo.

Finalizar OK.


Iniciar en el menú Analyze ---> Descriptive Statistic y ---> Crosstab…

Pulsar el botón Statistic… luego seleccionar Chi square y contingency Coefficient y

Continue. Pulsar el botón Cells… luego seleccionar Expected (frecuencia esperada), y

continue y finalmente OK.

Se obtiene la tabla incluido las frecuencias esperadas.

CIUDADES DE VENTAS * MARCA DE PLUMONES Crosstabulation

CIUDADES DE VENTAS

MARCA DE PLUMONES Total

PLUMON M PLUMON N

AYACUCHO 232 168 400 212,0 188,0 400,0

HUANCAYO 260 240 500 265,0 235,0 500,0

TACNA 197 203 400 212,0 188,0 400,0

Total 689 611 1300

689,0 611,0 1300,0

Chi-Square Tests

Value df Asymp. Sig. (2-sided)

Pearson Chi-Square

6,473 2 ,039

N of Valid Cases 1300

a 0 cells (,0%) have expected count less than 5. The minimum expected count is 188,00. Symmetric Measures

Value Approx. Sig. Nominal by

Nominal Contingency

Coefficient ,070 ,039

N of Valid Cases 1300 a Not assuming the null hypothesis. b Using the asymptotic standard error assuming the null hypothesis.

Seleccionar frecuencia Observada y hacer clic en Weight cases by, como muestra el ejemplo. Finalizar OK.

Seleccionar Ciudades de venta (fila).

Seleccionar Marca de plumones (columna). Finalizar OK.

Hacer clic en Statistic… .


Corrección de yates.

La corrección fue propuesta en 1934, haciendo que las frecuencias observadas

(discretas) se aproximen a una distribución continua, solo en casos de tablas de 2x2.

Consideramos que si puede usar cuando la muestra es pequeña n < 50 , o algunas o

todas las frecuencias de las celdas son menores que 5 se puede aplicar el Chi cuadrado

corregida por Yates.

2

cal =

))()()((

5,0)(

dbcadcba

nbcadn

si la tabla es de 2x2.

a b a+b

c d c+d

a+c b+d

Con respecto a la corrección de Yates para tablas de 2x2 existe controversia entre

autores. Por EJEMPLO, citado por Wayne W. Daniel (1994; 483) “Grizzle, Lancaster,

Pearzon, y Placket han cuestionado su uso. El trabajo de Grizzle, en particular, ha reforzado

el caso en contra el uso de ésta corrección, basándose en que, con demasiada frecuencia,

conduce a una prueba demasiada conservadora; es decir, el uso de la corrección conduce con

demasiada frecuencia al no rechazo de la hipótesis nula”6. En general se ha convenido no se

requiere corrección para tablas de contingencia mas grandes.

3.6.2. Pruebas de Hipótesis de Wilcoxon

Esta prueba sirve para realizar la prueba de hipótesis cuando se trabaja con un sólo

grupo; en este caso cuando se tiene una prueba de entrada y salida en un solo grupo,

cuyo diseño de investigación es

O1 X O2.

O1: Pre test.

X: Aplicación de la variable.

O2: Post Test.

DEFINICIÓN. La prueba T de Wilcoxon considera la magnitud relativa, así como la

dirección de las diferencias y da mayor peso al par que muestra una

diferencia grande entre las dos condiciones.

Para encontrar la suma de sus rangos, es necesario tomar los valores de los rangos de las

pruebas de entrada y salida. Y multiplicar con el valor de la diferencia entre las dos pruebas

del individuo.

EJEMPLO,

Se tiene las calificaciones de examen de Trigonometría, en un solo sección, para

verificar si causa efecto el uso de cierto método a un nivel de significancia de 5% se propone

la siguiente hipótesis: que si influye el nuevo método.

6 Wayne W. Daniel. BIOESTADISTICA, Edit UTEHA, México – 1994.


No. Nombres Calificación

Entrada Salida

01 César 10 12

02 Hugo 08 13

03 Wilder 12 13

04 Ofelia 11 11

05 Máx. 12 14

06 Víctor 09 08

07 Rocío. 13 14

08 Shara 12 13

09 Abel. 11 10

10 Marcelino 10 11

11 Rufino 12 14

12 Teobaldo. 09 12

SOLUCIÓN.

Hallando el rango de la diferencia, se ordena en forma ascendente los valores de la

diferencia sin considerar los signos:

Orden 1 2 3 4 5 6 7 8 9 10 11

Diferencia 1 1 +1 +1 +1 +1 +2 +2 +2 +3 +5

Rango i), ii), iii), … 3,5 3,5 3,5 3,5 3,5 3,5 8 8 8 10 11

i) Cuando existe el valor CERO (0), ésta no se considera. En este caso la alumna

Ofelia tiene nota de 11 en prueba de entrada y nota de 11 en prueba de salida, lo

que genera cero (0) en la diferencia.

ii) Para hallar los rangos de 1 y +1, se suma los ordenes que les correspondes y

luego se divide entre la cantidad de ordenes.

1 2 3 4 5 63,5

6

.

Luego su rango de 1 y +1 es 3,5.

iii) Para hallar los rangos de 2 y +2, se suman sus ordenes que son 4 y 5

7 8 98

3

. Luego el rangos de 2 y +2 es 8.

iv) Como 3 y 5 son únicos, se considera su único orden, que es 10 y 11 en cada uno de

ellos.

v) Finalmente el valor encontrado en la fila de Rango, se multiplica con la diferencia

encontrada en la columna 5.


No. Nombres Calificación

Diferencia Rango de

la

diferencia Entrada Salida

01 César 10 12 +2 +16

02 Hugo 08 13 +5 +55

03 Wilder 12 13 +1 +3,5

04 Ofelia 11 11 0

05 Máx. 12 14 +2 +16

06 Víctor 09 08 1 3,5

07 Rocío. 13 14 +1 +3,5

08 Shara 12 13 +1 +3,5

09 Abel. 11 10 1 3,5

10 Marcelino 10 11 +1 +3,5

11 Rufino 12 14 +2 +16

12 Teobaldo. 09 12 +3 30

T() = 7

Regla de decisión. Para contrastar la hipótesis de investigación es necesario probar la

hipótesis nula.

a) Se elige el valor de , y dependiendo si la prueba es de una cola o de dos colas se

utiliza la tabla T de Wilcoxon.

b) si la hipótesis nula fuese verdadera, se esperaría que los rangos estuvieran igualmente

divididos entre valores positivos y negativos y la suma de sus rangos sean

aproximadamente iguales.

c) Se busca la suma de T() y T(+) en la columna del rango de la diferencia, y se elige

el menor para obtener TC T .

d) Si se obtiene el TC T respectivo, se rechaza la hipótesis nula, y se acepta la

hipótesis alterna; es decir que son diferentes.

Del ejemplo anterior, se tiene que T() = 7, y como se requiere información de que el

método influye significativamente, luego como la hipótesis es de dos colas, entonces

T;n = T0,05;n=11 = 11, para n = 11, porque existe un valor cuyo resultado es cero (0).

Luego probando se tiene TC T -7 11 , el cual correcto. Por tanto, se

rechaza la hipótesis nula, y se acepta la hipótesis alterna; es decir, el método tuvo

efecto.

IMPORTANTE.

Cuando n > 25, no podemos usar la tabla T de Wilcoxon. Sin embargo como la muestra es

suficientemente grande se aproximan a una distribución normal (Z).

a) La ecuación de la distribución Z:

Calificación de salida

menos de entrada. Se multiplica el valor obtenido del rango y la

diferencia


Z = ( )

T

T E T

, donde T es T() o T(+) que es el menor.

b) Luego hallemos la media (valor esperado).

E(T) = ( 1)

4

n n

c) La desviación típica.

( 1)(2 1)

24T

n n n

d) Luego la decisión toma los valores críticos para Z en la tabla de distribución

normal., dependiendo si son de dos colas o de una sola cola.

El ejemplo anterior.

Ahora, desarrollaremos con la distribución Z (esto ocurre cuando n > 25). Sin embargo,

nuestra muestra es pequeña n = 11, y cuando el SPSS realiza la operación la prueba de

Wilcoxon desarrolla a través de la distribución Z, demostraremos como se desarrolla.

Hallando su media, para ello los valores que resulten cero (0) en la diferencia no se

consideran, en nuestro caso en al tabla tenemos 12 alumnos, pero la Estudiante Ofelia no

será considerado por resultar cero (0).

e) La media (valor esperado).

E(T) = 11(11 1)

334

f) La desviación típica.

11(11 1)(2(11) 1)11,25

24T

g) Luego se utiliza la distribución Z:

Z = 7 33

2,3111,25

, donde T es T() .

Como se propone la hipótesis de investigación que si influye el nuevo método al 5%

de nivel de significancia, verificamos que la hipótesis tiene dos colas, la influencia puede ser

negativo o positivo.

Como nuestra hipótesis de investigación dice DIFIERE, significa que tiene dos colas.

Entonces se tiene que distribuir = 0,05 en dos partes.

/2 = 0,025 1- /2 = 0,975.



Decisión:

2 2

1

0

Como zk = - 2,31 y pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho) y se

acepta la hipótesis alterna HA tal como se muestra en la figura. Por tanto, la enseñanza de la

trigonometría con el método desarrollado es significativa.


-1,96


Región de aceptación 1,96

zk = -2,31


AHORA A TRABAJAR CON EL SPPSS.

Aperturar una hoja de trabajo en el SPSS.

Una vez culminado el ingreso de datos, para realizar el contraste de Wilcoxon y comprobar la hipótesis, si hay diferencia significativa entre los rangos medios de los variables: Prueba de entrada

de los alumnos y su respectiva Prueba de salida.

Elegir: Analizar Pruebas no paramétricas 2 muestras relacionadas. Tal como se muestra en el cuadro

de diálogo.

En la hoja de Vista de

Variables, rotular lo que corresponde como el EJEMPLO.

Completado la operación, hacer clic en Vista de

Datos. .

En la hoja de Vista de Datos, aparece los Rotulos de NOMBRES, ENTRADA Y SALIDA .

Ingresar los Nombres de los estudiantes en la columna. .

Ingresar las notas de entrada y

salida respectivamente. .


NOTA: Con éste cuadro de diálogo se pueden hallar otras dos pruebas no paramétricas. La

de Signo y la de McNemar.

En el siguiente cuadro se muestra el resultado. Rangos

N

Rango

promedio

Suma de

rangos

PRUEBA DE SALIDA – PRUEBA DE ENTRADA

Rangos negativos

2(a) 3,50 7,00

Rangos positivos

9(b) 6,56 59,00

Empates 1(c)

Total 12

a PRUEBA DE SALIDA < PRUEBA DE ENTRADA b PRUEBA DE SALIDA > PRUEBA DE ENTRADA

c PRUEBA DE SALIDA = PRUEBA DE ENTRADA

Estadísticos de contraste(b)

PRUEBA DE SALIDA -

PRUEBA DE ENTRADA

Z -2,358(a)

Sig. asintót. (bilateral) ,018

a Basado en los rangos negativos. b Prueba de los rangos con signo de Wilcoxon

El contraste Z = -2,358(a) p 0,018 indica que existe diferencia significativa entre la prueba de entrada y prueba de salida en la asignatura de Trigonometría utilizando el nuevo método.

NOTA: es importante aclarar que el valor calculado de manera manual en el ejemplo 1 es zk = -

2,31, y no concuerda con el valor de contraste Z = -2,358(a) calculado con el SPSS. La razón es

sencilla, porque trabajamos con n = 12 y forzamos pese que la cantidad de datos es menor que 25 (n

< 25).

!!!!que facil¡¡¡¡¡¡¡¡.

Hacer clic y seleccionar prueba de entrada, y la prueba de salida. Debe aparecer en

Selecciones actuales

variable 1 y variable 2.

Hacer clic en el botón, y aparece tal como se muestra el cuadro de diálogo. Finalmente pulsar el botón Aceptar.


3.6.3. Pruebas de Hipótesis con U de Mann Whitney.

La prueba U de Mann Whitney se usa para probar que si dos grupos independientes han

sido tomados de la misma población; es decir, se parte de que la hipótesis nula Ho pruebe

que las medias son iguales (Ho : 1 = 2 ), contra la alternativa H1 que son diferentes (H1 :

1 2 , prueba bilateral), o la hipótesis alternativa H1 de que uno de las medias de un

grupo es mayor que la del otro (caso unilateral). Ésta prueba constituye una alternativa más

útil ante la prueba paramétrica t de student, cuando el investigador no puede suponer los

parámetros de la población y la rigurosidad para la utilización de dicha prueba. Cuyo diseño

de investigación puede ser de acuerdo al trabajo realizado

I.

Comparación estática o

comparación de grupos sólo

después

X O1.

O2.

X: Aplicación de la variable experimental.

O1: Grupo que recibe el tratamiento.

O2: Grupo que no recibe el tratamiento.

II.

Dos grupos equivalentes o con

grupo control no equivalente

(grupo control no aleatorizado)

GE: O1 X O2.

GC: O3 O4.

X: Aplicación de la variable

experimental.

O1 O3 : Observación de entrada a cada grupo en forma simultánea.

O2 O4 : Observación de salida a cada

grupo en forma simultánea.

GE: Grupo Experimental.

GC: Grupo Control

III.

Dos muestras separadas y

aplicados con tratamientos

distintos

X1 O1.

X2 O2.

X1: Aplicación de la Variable 1 al grupo

1.

X2: Aplicación de la Variable 2 al grupo

2.

O1 O2 : Observación de salida a cada

grupo en forma simultánea e

independiente.

La estadística de Mann Whitney se denota con U. El valor de U se basa en la suma de

rangos de cualquiera de las dos muestras, y se define como el menor de los dos valores de

U1 y U2 de acuerdo a las ecuaciones:

U1 = 1 11

( 1)

2

n nT

U2 = 2 22

( 1)

2

n nT

Donde:

T1 = suma de los rangos de la primera muestra.

T2 = suma de los rangos de la segunda muestra.

n1 = tamaño de la primera muestra.

n2 = tamaño de la segunda muestra.

Decisión.

Para el nivel de significación y los tamaños n1 y n2 de las muestras en la tabla de valores

de la U de Man Whitney, se encuentra el valor crítico U . se rechaza la hipótesis nula Ho si

ocurre Uc U . No se rechaza caso contrario.


Importante:

Para n1 >8 y n2 >8, Mann Whitney a demostrado que la distribución U se aproxima a la

distribución normal, con

Media: U = 1 2

2

n n y

Varianza: 2

U = 1 2 1 2( 1)

12

n n n n

Por lo que se puede determinar la distribución Z.

Z = u

U

U

aproximadamente N(0;1).

EJEMPLO.

Una profesora de Educación Inicial, realiza un trabajo de investigación que consiste en

alimentar a dos grupos niños con dietas nutritivas que permitan desarrollar tanto en el peso

como en el rendimiento. Por esta vez, muestra solamente el resultado del incremento del

peso después de 15 días. La alimentación fue administrada bajo condiciones idénticas.

DIETA 1 12,0 14,9 10,7 13,2 14,5 14,7 15,1 11,8

13,5 14,0 10,1 18,4 14,3 16,3 10,2 23,6

DIETA 2 12,0 18,9 19,2 15,4 15,3 15,8 21,3 20,7

19,6 18,8 14,8 20,1 23,8 21,1 16,2 13,9

Probar la hipótesis nula de que las dos dietas son idénticas contra la hipótesis

alternativa que la dieta 2 produce un mayor aumento de peso que la dieta 1. Usar nivel de

significancia del 1% ( = 0,01).

SOLUCIÓN.

i) Hipótesis.

H0 : d1 = d2 La aplicación de las dietas 1 y 2 tienen igual resultado en

la ganancia de pesos.

HA : d1 < d2 Con la aplicación de la dieta 1 la ganancia de pesos es

menor que la ganancia de pesos que con la dieta 2.

ii) Hallando los rangos.

Para hallar los rangos se ordena los pesos de mayor a menos, se les asigna el orden

correlativo en el mismo orden ascendente. En caso de existir repetición de números

se suman el rango que les corresponde y se divide entre el número de veces que se

repite los pesos (variables).


Peso Rango Peso Rango Peso Rango Peso Rango

10,1 1 13,9 9 15,3 17 19,2 25

10,2 2 14 10 15,4 18 19,6 26

10,7 3 14,3 11 15,8 19 20,1 27

11,8 4 14,5 12 16,2 20 20,7 28

12 5,5 14,7 13 16,3 21 21,1 29

12 5,5 14,8 14 18,4 22 21,3 30

13,2 7 14,9 15 18,8 23 23,6 31

13,5 8 15,1 16 18,9 24 23,8 32

Una vez encontrado el rango se le otorga a cada uno de los pesos de los grupos aplicados

con las dietas 1 y 2.

Die

ta 1

peso 12 14,9 10,7 13,2 14,5 14,7 15,1 11,8

rango 5,5 15 3 7 12 13 16 4 75,5

peso 13,5 14 10,1 18,4 14,3 16,3 10,2 23,6

rango 8 10 1 22 11 21 2 31 106

SUMA DE RANGOS DIETA 1 (T1) 181,5

Die

ta 2

peso 12 18,9 19,2 15,4 15,3 15,8 21,3 20,7

rango 5,5 24 25 18 17 19 30 28 166,5

peso 19,6 18,8 14,8 20,1 23,8 21,1 16,2 13,9

rango 26 23 14 27 32 29 20 9 180

SUMA DE RANGOS DIETA 2 (T2) 346,5

iii). Hallando la media: U = 1 2

2

n n

U = (16)(16)

2= 128

Varianza: 2

U = 1 2 1 2( 1)

12

n n n n

2

U =(16)(16)(16 16 1)

12

= 704.

iv). Región crítica para = 0,0 (1%).

Como nuestra hipótesis alterna de investigación dice La dieta 1 tiene menor ganancia

de peso, significa que tiene una cola a la izquierda.

Si = 0,01 1- = 0,99.

Luego Z1- = Z0,99 = 2,33. Este valor encontramos en la tabla de la distribución Z.

v). Estadística de contraste. Como se desea saber sobre la dieta 1, tomamos para U el

valor de U1.


U = U1 = 1 11

( 1)

2

n nT

U = U1 = 16(16 1)

181,52

U = U1 = 45,5

Ahora, se puede determinar la distribución Z, para n1 y n2 mayores que 8.

Zk = u

U

U

.

Zk = 45,5 128

704

= – 3, 11.

vi). Decisión.

1

Como Zk = – 3,11 pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho), y se

acepta la hipótesis alterna. Existe Es cierto que la dieta 2 mejora en la ganancia de pesos.


Región de aceptación de Ho.

- 2,33

zk = –3,11


AHORA A TRABAJAR CON EL SPSS.

Iniciar una nueva hoja de trabajo en el SPSS, luego iniciar con el ingreso de los datos.

Mediante valores (values), asignamos a determinados valores de las variables. En este caso, con: 1 a la variable

dieta 1 y con 2 a la variable dieta2, de forma que cuando trabajamos con ellos nos aparecerá dieta 1 y dieta

2; al realizar cada rotulo hacer clic en Add y finalmente OK.

Finalmente aparece el cuadro.

Ingresar los pesos de ambos de ambos grupos

ordenadamente.

Asignar los códigos de las dietas. Con el número 1 a la dieta 1 y con el número 2 a la dieta 2. Hacer clic

en Variable View.

Renombrar con

pesos y dietas

Poner los Títulos en Label

luego hacer clic en la fila 2

y la columna de Value.

Hacer clic

Se visualiza el

rotulado anterior


Ahora hacer clic en Analyze ---> No parametrics Test -- -> 2 Independent Sample…

El resultado es la que se tiene a la vista.

Ranks DIETAS APLICADAS N Mean

Rank Sum of Ranks

PESOS GANADOS

DIETA 1 16 11,34 181,50

DIETA 2 16 21,66 346,50

Total 32

Test Statistics

PESOS GANADOS Mann-Whitney U 45,500

Wilcoxon W 181,500

Z -3,110

Asymp. Sig. (2-tailed) ,002

Exact Sig. [2*(1-tailed Sig.)] ,001

a Not corrected for ties. b Grouping Variable: DIETAS APLICADAS

Pasar al espacio la variable de los

pesos ganados

Pasar al espacio de Grouping Variable el

rotulado de dietas.

Hacer clic en Define

Groups.

Asignar los valores de 1 y 2, quienes representan a Dieta 1 y Dieta 2.

Finalmente Continue.


Importante: ¿Que hubiese pasado si trabajásemos con la hipótesis alterna que diga que la

dieta 2 mejora en peso?. La prueba sería con cola a la derecha, y se trabajaría

con la ecuación para hallar U y se tiene que utilizar U2 = 2 22

( 1)

2

n nT

,

aplicando a la ecuación se tendría el valor de U y se tiene que utilizar U2 =

210,5. Y finalmente la estadística de contraste es:

Zk = 210,5 128

704

= 3, 11. Resultado positivo, en este caso se hubiese

rechazado la hipótesis nula y aceptado la hipótesis alterna, el investigador tiene que tener

cuidado.

Pero el SPSS, ha trabajado con el U1 = 45,5. Por tanto la computadora solamente

utiliza la primera opción por lo que se debe de tener cuidado al desarrollar los

ejercicios.


ANÁLISIS DE VARIANZA

3.6.4. Pruebas de Hipótesis de Kruskal Wallis.

Es la generalización de la prueba de U de Mann Whitney. Esta prueba trabaja con tres o

más muestras independientes con el objeto de probar la hipótesis nula Ho que las muestras

provienen de poblaciones iguales, contra la hipótesis alterna H1 que las muestras provienen

de poblaciones diferentes. Cuyo diseño de investigación se muestra y que pueden ser

exactamente iguales o similares.

Más de dos muestras

separadas y aplicados con

tratamientos distintos (X1 , X2 , X3 , …)

X1 O1.

X2 O2.

X3 O3.

.

.

.

X1: Aplicación del Variable 1 al grupo 1.

X2: Aplicación del Variable 2 al grupo 2.

X3: Aplicación del Variable 3 al grupo 3

O1 O2 O3 . . . : Observación de salida a cada grupo en forma simultánea e

independiente.

El método es similar con la prueba de la U de Mann Whitney; es decir, asignamos el

rango a cada observación, considerando todas las muestras en conjunto; se asigna rango 1 a

la menor observación, 2 al que sigue, 3 al siguiente y asi sucesivamente, luego se suman los

rangos para cada grupo (muestra). Para calcular la prueba H es la ecuación:

Hc =

2 22 2

31 2

1 2 3

12( ... ) 3( 1)

( 1)

k

k

R RR Rn

n n n n n n

Donde:

1 2 3 ... kn n n n n , tamaño de la muestra

R1 = Suma de rangos asignados a las observaciones de la muestra 1.

R2 = Suma de rangos asignados a las observaciones de la muestra 2.

R

Rk = Suma de los rangos asignados a los nk observaciones de la muestra k – ésima.

Kruskal Wallis llegó a la conclusión de que si la hipótesis nula era verdadera, y si cada

muestra tenía al menos cinco observaciones, el estadístico H tenía una distribución de

probabilidad aproximada por la distribución 2 con (k – 1) grados de libertad.

. . .

.


Para la toma de decisión para contrastar la hipótesis nula Ho, es contrastar si HC

2

1 con un nivel de significación especificado aceptamos Ho; en caso contrario

rechazamos.

EJEMPLO

Un profesor diseñó cuatro diferentes métodos para el aprestamiento a las matemáticas en

Educación Inicial. Los alumnos de la sección fueron divididos en 4 grupos independientes, a

cada grupo se le aplicaron diferentes métodos, al 5% de nivel de significancia se desea saber

si tiene efecto la aplicación de los métodos; cuyo resultado de los ponderados se presenta en

la tabla:

METODOS PONDERADOS OBTENIDOS

METODO A 18,7 15,3 14,3 15,0 15,8 18,1 17,6

METODO B 11,6 12,4 10,8 16,1 13,8 13,4

METODO C 14,5 16,0 14,8 14,0 16,3 10,8

METODO D 17,2 17,2 17,7 13,3 16,1

SOLUCIÓN.

Ordenamos el total de las observaciones y luego asignamos rangos a cada observación en la

muestra conjunta y en seguida obtenemos las sumas de rangos para cada muestra. La

ordenación puede realizarse con la ayuda de EXCEL y otorgarle los rangos.

METODO A METODO B METODO C METODO D

Pond. Rango Pond. Rango Pond. Rango Pond. Rango

14,3 9 10,8 1,5 10,8 1,5 13,3 5

15 12 11,6 3 14 8 16,1 16,5

15,3 13 12,4 4 14,5 10 17,2 19,5

15,8 14 13,4 6 14,8 11 17,2 19,5

17,6 21 13,8 7 16 15 17,7 22

18,1 23 16,1 16,5 16,3 18

18,7 24

R1 = 116 R2 = 38 R3 = 63,5 R4 = 82,5

Ho: Los cuatro métodos tienen igual resultado en el aprestamiento a las matemáticas.

HA: Los cuatro métodos tienen diferentes resultados en el aprestamiento a las

matemáticas.

Calculando Hc de la ecuación.


Hc =22 2 2

31 2 4

1 2 3 4

12( ) 3( 1)

( 1)

RR R Rn

n n n n n n

Hc =2 2 2 212 116 38 63,5 82,5

( ) 3(24 1)24(24 1) 7 6 6 5

Hc = 8.93

Decisión:

Encontremos el valor de 2

1 = 2

0,95 con r = k – 1 grados de libertad.

Luego r = 4 –1 = 3, verificamos en la tabla y 2

0,95 = 7,82.

Como Hc = 8,93 > 2

0,95 = 7,82 rechazamos la hipótesis nula y concluimos que con la

aplicación de los métodos de aprestamientos se obtienen diferentes ponderaciones; es decir,

tuvo efecto la aplicación de los métodos.



Se apertura el SPSS una de trabajo. Luego introducimos los ponderados en la primera columna por

orden de Métodos.

Luego aparece.

Ahora ingresar a Analyze ---> Noparametric Test ---> K independent Samples …, luego aparece

la ventana

Empezar ingresando los

ponderados de las notas de

los métodos A, B, C y D

Ingresar

1 para el método A,

2 para el método B,

3 para el método C y

4 para el método D.

Hacer Clic

Escribir notas y

métodos,

Hacer Clic

Se da etiqueta a los métodos: 1 significa Método A,

2 significa Método B, 3 significa Método C y 4 significa Método D. Cada vez que se introduzca la etiqueta pulsar la tecla Añadir (ADD).

Para terminar OK.

luego en Label escribir los titulos:Resultado de Examen

y Métodos Aplicados


El resultado sale a la vista.

Ranks

METODOS

APLICADOS N Mean Rank

RESULTADO DE EXAMEN METODO A 7 16,57

METODO B 6 6,33

METODO C 6 10,58

METODO D 5 16,50

Total 24

Test Statistics

RESULTADO DE EXAMEN

Chi-Square 8,937

df 3

Asymp. Sig. ,030

a Kruskal Wallis Test b Grouping Variable: METODOS APLICADOS

Las notas pasar Test

Varible List y

Métodos a

Grouping Variable,

Seleccionar

Grouping

Varible, y hacer

clic en Define

Range…

Ingresar los valores

de los métodos

etiquetados que son desde 1 al 4, se

considera e 1 y el 4.

Pulsar continue y

finalmente OK.

El resultado obtenido al calcular con la formula de Krsukal

Wallis.


3.6.5. Pruebas de Hipótesis de Análisis de Varianza en dos direcciones por

rangos de Friedman.

Es cuando se desean comparar varias muestras o grupos de puntajes aparejadas (a cada

puntaje de un grupo le corresponde otro puntaje del otro grupo o otros grupos; también suele

llamar grupos o muestras dependientes o correlacionadas), el apareamiento puede ser

obtenido relacionando conjuntos con sujetos en una o más variables previas y aleatoriamente

asignando a cada elemento del conjunto pareado varias condiciones diferentes o, si los

mismos sujetos son elementos de cada grupo a comprobar, entonces los conjuntos pareados

resultan adecuados.

Importante: Su uso es cuando no se cumplen los requisitos básicos para el uso

de las pruebas paramétricas; es decir los puntajes de dichos

grupos no se distribuyen normalmente y no hay homogeneidad de

las varianzas.

La hipótesis nula de para el procedimiento de Friedman es que los efectos atribuidos a los

tratamientos son los mismos (no existe diferencias entre tratamientos) y la hipótesis alterna

es que si existe una diferencia entre los tratamientos.

Bloques o

Sujetos

Tratamiento

1 2 . . . j . . . k

1 Y11 Y12 . . . Y1j . . . Y1k

2 Y21 Y22 . . . Y2j . . . Y2k

. . . . . . . . . . . . . . . . . . . . .

n Yn1 Yn2 . . . Ynj . . . Ynk

Al igual que en los otros procedimientos no paramétricos, la prueba de Friedman se basa en

los rangos; para cada bloque (renglón) se asigna un rango a las observaciones comenzando

con 1 y terminando con k. La estadística de Friedman está dada por:

2 2

1

123 ( 1)

( 1)

k

r j

j

R n knk k

EJEMPLO 1.

En una Institución Educativa de Educación Especial, se solicitó a 9 fisioterapeutas que

clasificaran tres (03) modelos de estimuladores eléctricos de bajo voltaje según su

preferencia. Un rango de 1 indica la primera preferencia, rango de 2 indica la segunda

preferencia y rango de 3 indica la tercera preferencia. Los resultados se tienen en la tabla

No. 01.


Tabla No.01.

Rangos asignados por fisioterapeutas a tres modelos

de estimuladores eléctricos de bajo voltaje

Terapeuta MODELOS

A B C

1 1 2 3

2 1 2 3

3 1 2 3

4 2 1 3

5 1 3 2

6 3 1 2

7 1 2 3

8 2 1 3

9 2 1 3

Rj 14 15 25

Solución.

Ho: No existe preferencia por los modelos. (Después de sumar los rangos por cada grupo, si

la hipótesis es verdadera estas sumas serán iguales).

HA: Existe preferencia por los modelos. (Como los rangos de preferencia están de

acuerdo al orden de rango, existe la preferencia por los modelos no por iguales).

Consideremos al 5% de nivel de significancia (=0,05). Pero como los datos se

encuentran en la tabla de Friedman, no es necesario el nivel de significancia.

Luego tomamos los valores r = 9 (número de reglones-Bloques); y k = 3 (número

de columnas-Tratamientos).

2 2 2 21214 15 25 3(9)(3 1)

9(3)(3 1)r

2 8,22222r

En la Tabla V de Friedman, se puede contrastar para r = 9 (k=3), que la probabilidad de

obtener un valor de 2

r = 8,22222 tan grande debido solo al azar y que es igual a 0,016. Por

tanto se rechaza la hipótesis nula y concluye que los tres modelos no son igualmente

preferidos con =0,050,016.

Nota. Cuando los valores de “r” (filas) y “k” (columnas) exceden los valores de la

Tabla V se puede usar los valores críticos de la Tabla III (Chí cuadrada 2

r ) con

k – 1 grados de libertad.



Se apertura el SPSS y una de trabajo. Luego introducimos los ponderados en la primera columna por

orden de Métodos

Luego hacer clic en Vista de Datos y aparece la tabla:

Una vez culminado para realizar el anova de Friedman elegir Analizar Pruebas no paramétricas

k muestras relacionadas.

a) Seleccionar y transferir cada una de las tres variables (

modelo A, modelo B y modelo C) a la sección “Contrastar Variables”.

Ingresar:

Terapeuta Modelo A, Modelo B, Modelo C.

Hacer clic en vista de

variables.

Poner etiquetas.

Hacer click en Valores Para le Modelo A..

Ingresar los valores y etiquetar “Añadir” luego “Aceptar. La misma operación para los modelos B y C.

Ingresar los valores de la

Tabla No. 01. del Ejemplo

No. 01.

Terapeutas, 1, 2, 3, . . . ,9.

Modelo A,

Modelo B

Modelo C

Hacer clic en

k muestras

seleccionadas.


Los resultados se tienen en el cuadro que se presentan:

Estadísticos descriptivos

N Media Desviación

típica Mínimo Máximo

MODELO A 9 1,6667 ,70711 1,00 3,00

MODELO B 9 2,7778 ,44096 2,00 3,00

MODELO C 9 1,5556 ,72648 1,00 3,00

Analizando, se tiene que los modelos A y C tienen mejor preferencia, porque los rangos

promedios los muestran así; se espera que el modelo C sea elegido por tener el mejor rango,

y que el modelo B es el que tiene como tercera opción.

Rangos

Rango

promedio

MODELO A 1,67

MODELO B 2,78

MODELO C 1,56

La prueba de hipótesis, las diferencias entre los grupos se comprueba mediante la Tabla V

de Friedman Estadísticos de contraste(a)

N 9

Chi-cuadrado 8,222

gl 2

Sig. asintót. ,016

a Prueba de Friedman

Por tanto se rechaza la hipótesis nula y se concluye que los tres modelos no son igualmente

preferidos con =0,050,016

Ejemplo 2.

Se desea saber si existen diferencias entre cinco tipos de entrenamiento. El criterio consiste en el

rendimiento. Seis estudiantes se someten a cinco (5) tipos de entrenamiento y se mide su rendimiento

en atención.

Los resultados se tienen en la siguiente tabla.

Pulsar el botón

Estadísticos, marcar

“Descriptivos” y

pulsar continuar.

Para finalizar pulsar

el botón Aceptar

El valor obtenido al

calcular es

2

r = 8,22222

Comparando en la

Tabla V se obtiene

0,016.


Tabla No 01

Estudiante Entre. 1 Entre. 2 Entre. 3 Entre. 4 Entre. 5

1 13 25 12 25 29

2 18 19 16 21 24

3 17 23 15 22 20

4 19 25 15 20 23

5 24 30 24 36 37

6 15 21 13 19 18

Solución.

Utilizando el mismo procedimiento en el Ejemplo 1, apertura una nueva hoja de trabajo y hacer clic

en Vista de Variables y completar tal como se muestra en la figura.

Hacer clic en Vista de datos y completar la información de la Tabla No. 01 del Ejemplo 2.

Cuyo resultado se muestra en la siguiente figura:

Una vez culminado para realizar el anova de Friedman elegir Analizar Pruebas no paramétricas

k muestras relacionadas.

a. Seleccionar y transferir cada una de las tres variables (ENTREN1 a ENTREN5) a la sección

“Contrastar Variables”.


b. Hacer clic en Estadísticos y marcar Descriptivos, y pulsar el botón continuar y finalmente

pulsar el botón Aceptar.

El resultado se obtiene de la manera muy sencilla. Además con este cuadro se pueden hallar

otras dos pruebas no paramétricas. La W de Kendall y la Q de Cochran.

Estadísticos descriptivos

N Media Desviación típica Mínimo Máximo

ENTRENAMIENTO 2 6 23,8333 3,81663 19,00 30,00

ENTRENAMIENTO 3 6 15,8333 4,26224 12,00 24,00

ENTRENAMIENTO 4 6 23,8333 6,30608 19,00 36,00

ENTRENAMIENTO 1 6 18,5000 3,61939 13,00 24,00

ENTRENAMIENTO 5 6 24,3333 7,50111 18,00 37,00

Los rangos promedios de cada variable indican que los entrenamientos difieren, y el que tuvo mejor

resultado en atención y fue el Entrenamiento 2, y que el entrenamiento 1 tuvo el peor resultado. En

este caso, cuanto más alto es el puntaje, mayor será el rendimiento. Rangos

Rango promedio

ENTRENAMIENTO 1 2,42





La prueba de hipótesis (al nivel de significancia de =0,05 (5%)).

La diferencia entre los grupos se comprueban mediante el estadístico Chi cuadrado 2 2

1 0,95 (4)=

9,49 de la Tabla III, y es menor que2(4)r = 15,119 calculado mediante el SPSS (comprobar

realizando la operación manual, haciendo rangos de menor a mayor). En este caso no se puede usar la

tabla de Friedman por ser el valor de k = 6 mayor que k=4.

Estadísticos de contraste(a)

N 6

Chi-cuadrado 15,119

gl 4

Sig. asintót. ,004

a Prueba de Friedman

Por lo que se concluye que existe diferencia significativas en atención entre los cinco grupos de entrenamiento.

¡¡¡¡¡¡Que fácil!!!!!!!!!!.

C. Quintanilla C. / A. Cortavarria L. 68

EJERCICIOS.

1. Se entrevistaron a hombres y mujeres (muestras) para determinar si fumaban cigarrillos o no. Se

encontró 15 varones son fumadores de 29 y que 20 mujeres fumaban de 30. Comprobar la

hipótesis nula de que la frecuencia relativa de los varones fumadores es la misma que de las mujeres fumadoras. Dicha investigación se debe probar al 5% de nivel de significancia.

2. El siguiente cuadro refleja la reacción de una muestra aleatoria de 115 estudiantes de la UNH,

frente a la expansión del programa de Bilingüe Intercultural a otras provincias según el nivel del

curso.

Reacción Nivel del curso

Total 1er nivel 2do nivel 3er nivel

A favor 20 19 15 54

En contra 10 16 35 61

Total 30 35 50 115

Considerando al 5% de nivel de significancia, probar la hipótesis

3. Dos grupos de estudiantes (que recibieron clases regulares y los que recibieron clases por

correspondencia) se presentaron a exámenes finales de Estadística. Se obtiene que 22 de los 30 que asistieron a recibieron en clases regulares aprobaron el examen, mientras tanto, 10 de los 28

que recibieron clases por correspondencia aprobaron el examen. Comprobar la hipótesis nula al

5% de nivel de significancia, que la frecuencia relativa de los alumnos que recibieron clases

regulares y por correspondencia son iguales.

4. Se tiene el interés por conocer si la actitud de los ciudadanos del Perú respecto al diálogo entre el gobierno y el Grupo Armado es independiente de la ideología del partido a la cual pertenecen.

Una encuesta aleatoria de 500 ciudadanos clasificados por afiliación a los partidos políticos dio

los siguientes resultados:

Actitud hacia el

diálogo.

Observación según afiliación partidaria Total

APRA UN Otros Partidos

A favor 35 80 50 165

En contra 45 60 80 185

Se abstienen 20 60 70 150

Total 100 200 200 500

Considerando al 5% de nivel de significancia, probar la hipótesis de que la actitud de los ciudadanos con respecto al diálogo es independiente de la ideología partidista.

5. Un profesor de Historia realiza una investigación sobre los niveles de retención de palabras relacionados con la historia. Para ello elabora una prueba de entrada, y somete dicha prueba a 22

estudiantes de Historia y Ciencias Sociales. Luego aplica un método que ayuda a incrementar la

capacidad de retención. Los resultados son:

P ALUMNOS

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

E 72 70 68 67 73 71 72 70 69 70 68 72 69 66 73 71 70 72 70 69 72 73

S 74 72 69 68 72 73 72 74 68 73 69 70 68 69 74 73 70 74 68 71 75 76


Probar la hipótesis de que el método recibido por los estudiantes ayuda a mejorar a retener las palabras relacionados a Historia. Considerar de 5% de significancia. Utilizar Prueba del Signo.

6. Se hizo experimento con 11 estudiantes seleccionados al azar, para ver si un entrenamiento

previo, basado en la solución de rompecabezas (lógico matemático), contribuye para tener un mejor rendimiento en el aprendizaje de la teoría de conjuntos. Se aplicaron dos pruebas: una

antes y otra después del entrenamiento. Los resultados se presentan a continuación.

Prueba ALUMNOS

1 2 3 4 5 6 7 8 9 10 11

Entrada 10 11 11 08 12 12 12 12 14 13 15

Salida 12 12 14 11 13 15 12 15 12 14 18

Por medio de la prueba del signo, determine si el entrenamiento previo ayuda a mejorar el

aprendizaje de la teoría de conjuntos. Utilice un error de 5% (valor de alfa).

a. Los ejercicios (1) y (2), desarrollar a través de la Prueba de Rangos señalados de Wilcoxon

7. Los estudiantes de Ciencias Sociales e Historia, realizan un estudio sobre las comidas nativas

que nuestros antepasados utilizaron en sus dietas. Para ello realizan un experimento en la reducción de pesos a 20 señoritas subidas de peso durantes seis semanas. Los pesos antes y

después del régimen se presentan a continuación.

Ps SEÑORITAS

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

E. 90 110 87 86 79 92 96 97 93 78 96 87 125 116 108 79 146 98 90 88

S. 84 99 92 84 77 92 89 95 98 73 92 88 121 109 102 85 137 94 91 79

Utilizando la prueba de Wilcoxon, al 5% de significancia, determinar si la dieta de nuestros

antepasados tuvo efecto.

8. El Director de una Centro Educativo asegura que los docentes a quienes se les dá un

entrenamiento sobre relaciones humanas, y dan una impresión agradable entre sus alumnos. Para

probar lo anterior se seleccionaron al azar 22 docentes, dividiéndose en dos grupos de 11 cada

una. Al grupo experimental se dio un curso de relaciones humanas y trato en el salón de clases. Los resultados se presentan, de acuerdo a la tabla de calificación de 0 a 10.

Grupos Calificaciones

Experimental 3 9 8 7 3 9 7 4 9 8 7

Control 5 0 1 5 2 2 0 6 2 6 5

Utilizando la Prueba de U de Mann – Whitney, verificar si el Director tiene razón. Utilice un

nivel de significancia de alfa de 0.05.

9. Un psicólogo clínico (docente universitario) desea conocer la relación entre la agresividad y las diferencias sexuales, seleccionó un grupo de 12 niños y 12 niñas de seis años de edad. Las

puntuaciones de agresividad exhibida durante las experiencias se presentan a continuación.

Grupo PUNTUACIONES

Niños 86 69 72 65 110 65 115 46 141 104 40 50

Niñas 55 40 22 58 16 8 9 16 26 37 22 15


A través de la Prueba de Mann Whitney, al 5% de nivel significancia, pruebe:

a) Pruebe que la agresividad es la misma en ambos sexos.

b) Pruebe que la agresividad en los varones es mayor que en las mujeres.

10. Se inyectaron tres grupos de personas que sufren de depresión con una nueva droga

tranquilizante. Al grupo A se le inyectaron 0,5 mg; al grupo B 1,0 mg y al grupo C 1,2 mg. En el siguiente cuadro se muestran los tiempos que tardaron en dormirse.

Tiempo (mínimo)

A 11 13 9 14 15 13

B 9 11 10 8 12 -

C 10 5 8 6 10 6

Utilizando la prueba H de Kruskal- Wallis, al 5% de nivel d significancia, probar que las diferencias en las dosificaciones tienen efecto real en los tiempos medios necesario para

dormirse en las poblaciones de donde se producen.

11. Se quiere comprobar la efectividad de tres métodos para enseñar teoría de conjuntos. Para tal fin

se tomaron al azar 24 estudiantes homogéneos, los cuales se dividieron en tres grupos. Después

de 6 semanas de enseñar conjuntos con diferentes métodos, se aplicó el mismo examen a los tres grupos, cuyos resultados son.

METODOS Puntuación

Método A 88 92 74 68 76 80 89 70

Método B 95 80 77 69 72 76 83 66

Método C 89 93 81 71 67 92 78 64

Utilizando el método de Kruskal- Wallis, probar de que los tres métodos tienen igual efectividad para enseñar teoría de conjuntos, contra la alternativa de que son diferentes. Use el 1% de nivel

de significancia.

12. Suponga que tres tipos de estilos, A, B y C, se estudiarán por su legibilidad, y la calificación de

legibilidad se registra en la tabla:

Tipos de estilo

A 22 24 21 17 26 25

B 26 36 37 37 33 32

C 23 30 29 26 31 -

Utilizando el método de Kruskal- Wallis, probar de que los tres métodos tienen igual efectividad para enseñar teoría de conjuntos, contra la alternativa de que son diferentes. Use el 5%

de nivel de significancia.

13. Un fabricante de plumones para pizarras acrílicas, está interesado en determinar el efecto que tiene 3 ingredientes en la duración del plumón (en días). El fabricante asignó al azar cada uno de

los tres ingredientes a 10 (diez) grupos de plumones en experimento, tal como se muestra en al

tabla.


Ingred. GRUPOS

1 2 3 4 5 6 7 8 9 10

A 14 10 14 12 10 16 12 12 10 12

B 18 18 18 20 16 14 16 16 16 18

C 18 16 18 20 20 16 17 18 18 20

Utilizando la prueba de Friedman, ¿tienen efectos distintos los ingredientes en la duración de

los plumones?.

14. La UNH adquiere un lector óptico de marca SHAROX, esta máquina es capaz de leer marcas

hechas con lápiz en una forma especial. Un fabricante de SHAROX cree que su producto puede

operar igualmente bien en diversos entornos con temperatura y humedad diferentes. Para determinar si los datos de operación contradicen esta creencia, el fabricante pide a un laboratorio

de pruebas industriales muy conocido que pruebe su producto. Se seleccionaron al azar cinco

SHAROX de reciente producción y se operó con cada una de ellas en distintos entornos. Se registró el número de formas de cada una de ellas al procesar durante una hora, y se utilizó este

dato como medida de eficiencia de operación del SHAROX. Utiliza la prueba de Friedman para

determinar si hay pruebas de que las distribuciones de probabilidad de los números de formas procesadas por hora difieren en su ubicación para al menos dos de los entornos. Considere nivel

de significancia = 0,05.

Máquina No Entorno

1 2 3 4 5 6

1 7633 7601 7561 7500 7702 7600

2 7850 7820 8100 7802 7904 7819

3 8175 8101 8235 8111 8201 8102

4 7990 7932 7922 7910 7900 7892

5 8055 8025 8007 8001 8100 7991


CASOS MAS IMPORTANTES DE ANÁLISIS ESTADÍSTICO

CASOS PARAMÉTRICO NO PARAMÉTRICO

1. Comprobar 2 medias de

grupos independientes.

Ejm. Puntaje de autoestima

en dos aulas.

“t” de Student para muestras independientes.

U de Mann - Whitney

2. Comparar dos medias de dos

grupo relacionados. Ejm. Media de rendimiento

académico antes y después.

“t” de Student para muestras dependientes.

T de Wilcoxon.

3. Comparar K medias de

grupos independientes.

Análisis de varianza (anova)

o prueba (F).

Análisis de varianza de

Kruskal – Wallis.

4. Para estudio de seguimiento

comparar K medias de grupos

relacionados. Ejm. Comparar X de

rendimiento académico al

inicio, medio y final de año.


mediciones repetidas. Se usa

más en medicina.


Friedman. Se usa más en

educación.

5. Comparar dos proporciones

de grupos relacionados.

Ejm. Conocimiento: Sabe o

no sabe; actitud: favorable o desfavorable. Favorito de

candidatos.

Distribución Z para

proporciones Análisis de Mc Nemar.

6. Comparar K proporciones de grupos relacionados.

Análisis de Cochran.

7. Relación de 2 variables

cualitativas.

Ejm. Sexo y autoestima.

x2 de independencia.

8. Relación de 2 variables

cuantitativas.

Coeficiente de correlación de

Pearson

Correlación de

Spearman.


BIBLIOGRAFIA

Freud, J., Miller, I. and Miller, M. (1999). Mathematical Statistical. USA, New Yersy:

Printice Hall.

Mostellery, F. and Rourke, K. (1973). Study Statistic: Nonparametric and Order Statistic.

USA: Addisson Wesley.

Fisher, R. (1921). On the Probable Error of a Coeffient of correlation Deduced from a small

Sample. USA: Metron.

Dickinson, J. (1971). Nonparametric Statistical Inference. USA: Mc Graw Hill Book

Company.

Marqués de Cantú, M. (1991). Probabilidad y estadística: Para ciencias Químico –

Biológicas. México: Edit. McGraw – Hill.

Woolson, R. And Clarke, W. (2002). Statistical Methods for the Analysis of Biomedical

Data. USA: A John Wiley , INC., PUBLICATION

Córdova, M. (2003). Estadística: Descriptiva y Inferencial. Perú: Edit. Moshera; 5ta edición.

Gay, L. and Airasian, P. (2000). Educational Research: Competencies for Analysis and

Application. USA: Printice Hall. 6th

edition.

Martel, P. y Diez, F. (1997). Probabilidad y Estadística en Medicina. España: Ediciones Dias

de Santos.

Gonick, L. y Smith, W. (1993). La Estadística en Comic. España: Edit. Zendreria Zariquiey.

Levin, J. (1979). Fundamentos de Estadística en a Investigación Social. México: Edit.

HARLA.

Wayne, D. (1994). Bioestadística: Base para el análisis de las ciencias de la salud. México:

UTEHA, NORIEGA EDITORES.

Camacho, J. (2001). Estadística con SPSS para Windows. México: Edit. Alfaomega.

Pérez, C. (2001). Técnicas Estadísticas con SPSS. España: Edit. Printice Hall.

Eves, H. (1953). An Introduction to the History of Mathematics. USA: Rinehart and

Winston, Inc.

Hotelling, H. (1953). NEW LIGHT ON THE CORRELATION COEFFICIENT AND ITS

TRANFORMS. Journal of the Statistical Society; Ser B, 15 (1953), 193 – 232.

Download - SPSS LIBROdeESTADISTICA

Top Related