capitulo 3: la recoleccion y presentacion de · pdf fileestadística aplicada a la...

24
Estadística Aplicada a la Investigación CAP.3 Escuela de Postgrado Maestría en Ciencias de la Educación 18 CAPITULO 3: LA RECOLECCION Y PRESENTACION DE DATOS 3.1. LA RECOLECCION DE DATOS La recolección de datos, es el momento en el cual el investigador se pone en contacto con los elementos sometidos a estudio, con el propósito de captar los datos o las respuestas a las variables consideradas; a partir de ello se elabora la información estadística, se cuantificar las medidas de resumen e indicadores para el análisis estadístico 10 . Todos los trabajos de investigación, antes de empezar con el proceso de recolección de datos, presupone analizar los objetivos, precisar las variables e identificar las fuentes de datos, con la finalidad de definir que hay que recolectar y como hacerlo. En la práctica la recolección de datos, generalmente se puede realizar mediante dos modalidades: 1. Técnica de investigación documental bibliográfica 2. Técnica de trabajo de campo El trabajo de campo, se puede llevar a cabo de dos maneras: La observación y exploración en el terreno, y la encuesta y la entrevista LAS FUENTES DE DATOS La fuente de datos es el lugar, la institución, las personas o elementos donde están o poseen los datos que se necesitan para cada una de las variables de la investigación: Las fuentes de datos pueden ser: 1. Las Oficinas de Estadística: como responsables de recopilar, procesar y publicar las estadísticas que le competen. 2. Archivos ó Registros Administrativos: su función es de tipo legal y administrativo; pero constituyen fuentes valiosas de información. Por ejemplo registros de estadísticas vitales, archivos de salud publica, hospitales y clínicas, archivos de matricula en el sector educación, etc. 3. Documentos: Boletines, informes estadísticos: fundamentalmente publicados mediante medios escritos y/o electrónicos por instituciones especializadas.. 10 Tomado de Ávila Acosta, R.(2000)

Upload: tranthuan

Post on 19-Feb-2018

233 views

Category:

Documents


2 download

TRANSCRIPT

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

18

CAPITULO 3: LA RECOLECCION Y PRESENTACION DE DATOS 3.1. LA RECOLECCION DE DATOS

La recolección de datos, es el momento en el cual el investigador se pone en contacto con los elementos sometidos a estudio, con el propósito de captar los datos o las respuestas a las variables consideradas; a partir de ello se elabora la información estadística, se cuantificar las medidas de resumen e indicadores para el análisis estadístico10. Todos los trabajos de investigación, antes de empezar con el proceso de recolección de datos, presupone analizar los objetivos, precisar las variables e identificar las fuentes de datos, con la finalidad de definir que hay que recolectar y como hacerlo. En la práctica la recolección de datos, generalmente se puede realizar mediante dos modalidades: 1. Técnica de investigación documental bibliográfica 2. Técnica de trabajo de campo

El trabajo de campo, se puede llevar a cabo de dos maneras: La observación y exploración en el terreno, y la encuesta y la entrevista

LAS FUENTES DE DATOS

La fuente de datos es el lugar, la institución, las personas o elementos donde están o poseen los datos que se necesitan para cada una de las variables de la investigación: Las fuentes de datos pueden ser:

1. Las Oficinas de Estadística: como responsables de recopilar, procesar

y publicar las estadísticas que le competen. 2. Archivos ó Registros Administrativos: su función es de tipo legal y

administrativo; pero constituyen fuentes valiosas de información. Por ejemplo registros de estadísticas vitales, archivos de salud publica, hospitales y clínicas, archivos de matricula en el sector educación, etc.

3. Documentos: Boletines, informes estadísticos: fundamentalmente

publicados mediante medios escritos y/o electrónicos por instituciones especializadas..

10

Tomado de Ávila Acosta, R.(2000)

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

19

4. Encuestas y Censos: se constituyen en fuentes primarias-directas y especiales-, que se aplican en un momento determinado, recopilando datos de una parte o la totalidad de la población.

5. Elementos ó Sujetos de una población sometida a estudio (personas,

instituciones ú objetos)

Las fuentes de datos usualmente se clasifican en fuentes secundarias y primarias; en este caso las tres primeras corresponden a fuentes secundarias, mientras que las dos últimas nos permiten obtener datos originales o lo que se conoce como fuentes primarias. TÉCNICA DE RECOPILACIÓN DE DATOS Estas son diversas y dependen de muchos factores, de entre los cuales se destacan: el objetivo del estudio, el acceso con los elementos de investigación, tamaño de la muestra, de los recursos (económicos, logísticos, tiempo) y de la oportunidad los datos; así como el tipo y naturaleza de la fuente de datos.

Las técnicas de uso cotidiano en la investigación social mas frecuente son:

a. Observación: se constituye en la técnica básica en la investigación científica para obtener información de los fenómenos que nos rodea.

Esta técnica se clasifica según: i. El ámbito donde se encuentran los datos: documental, y de

campo. ii. La relación entre investigador y el objeto de estudio: directa,

indirecta, no participante, y participante y activa. iii. Los medios utilizados: no estructurada –asistemática y libre-, y

estructurada-sistemática o regulada-.

b. Técnica documental: captura de datos en documentos, fuentes escritas u otros medios documentales. Estos documentos pueden ser académicos, informes o actas de eventos ocurridos, documentos personales, u otros medios: videos, fotografías, etc.

c. Entrevista: es un acto de interrelación entre personas, es una dialogo

intencionado entre personas. La calidad de la información bajo esta técnica, esta en función de la perfomance del entrevistador

Esta técnica presenta diversas modalidades: puede ser libre,

estructurada-existe un cuestionario-, focalizada -tema especifico-, simultanea, y sucesiva.

d. Cuestionario: es un conjunto de preguntas sistemáticamente

elaboradas, con el propositito de obtener datos de las variables

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

20

seleccionadas en el estudio. Esto se formaliza a través de un formulario o cedula. Esta técnica requiere del conocimiento previo del problema a investigar, definir correctamente las unidades de análisis, plantear las preguntas adaptándose a las necesidades de investigación. Su preparación se efectúa en la fase de planeamiento de la encuesta, y debe considerarse: (i) Criterios de preparación de cuestionario: objetivos de la

investigación, tipo de variables, características del informante, procedimiento de elaboración, tiempo de aplicación;

(ii) Características formales: forma y tamaño del formulario, calidad

del papel, color de la impresión;

(iii) Clases de preguntas: abiertas, cerradas o dicotómicas-respuesta solo tienen dos alternativas-, literales- son abierta pero cuya respuesta es una palabra o cantidad-, de grados de intensidad-la respuestas expresan alguna preferencia dentro de una escala creciente o decreciente.

(iv) Pautas de redacción y contenido de las preguntas: preguntas

estrictamente necesarias, que sean claras y directas, que no sugiera respuestas, etc.

e. Encuesta: es la técnica donde se obtienen la información tal como se

necesita, preparada adecuadamente y con objetivos estadístico. Permite observar y registrar características en las unidades de análisis de una determinada población o muestra, delimitada en el espacio y en el tiempo. En toda encuesta se hace uso del cuestionario, y cuyas respuestas se registran en las cedulas o formularios.

Esta técnica, si esta dirigida a toda la población se le denomina Censo, pero si esta dirigida a una parte representativa o muestra, se llama Encuesta por muestreo.

Hay cuatro formas de obtener información con la técnica de la encuesta:

i. Entrevista cara –a-cara, dialogo o personal. ii. Entrevista telefónica

iii. Por empadronamiento, donde el empadronador registra las

respuestas en el formulario

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

21

iv. Cuestionario por auto-enumeración, que incluye Internet, correo electrónico11.

Existe un ventajas y desventajas o rendimiento relativo del uso de estas formas; mientras que la entrevista personal tiene un elevados costo monetario, el correo electrónico tiene un bajo costo. En términos de tiempo, la entrevista por teléfono es más rápida, mientras que el correo electrónico es relativamente lento. Respecto a la tasa de respuesta la entrevista personal es sumamente alta, en el correo electrónico es baja. Así mismo, la entrevista personal es más compleja que vía correo electrónico.

3.2. ORGANIZACIÓN DE LOS DATOS

En el trabajo estadístico, siempre se va a disponer de muchos datos, que de hecho deben ser clasificados, ordenados y presentados adecuadamente que permita o facilite la comprensión, descripción y análisis del fenómeno bajo estudio, y obtener conclusiones validas para la toma de decisiones. Es decir generar información estadística organizada, para proceder al análisis e interpretación de los resultados.

La organización de la información presupone realizar los siguientes pasos:

1. Evaluación: verificar la validez y confiabilidad de los datos. 2. Codificación: técnica mediante la cual las respuestas se convierten en

símbolos, números o lenguaje que permite su procesamiento.

La codificación implica definir y establecer criterios de clasificación y categorización de las variables.

3. Clasificación: establecer las categorías de las variables. 4. Procesamiento de los datos: es el registro del número de casos12 en

cada una de las categorías de las variables, de acuerdo a un plan de tabulación previamente diseñado.

11

El cual sustituye a la forma de correo tradicional. 12 Frecuencias o repetición.

La recolección de datos originales revela muy poco por si sola. Es difícil determinar el verdadero significado de un grupo de números que simplemente se han registrado en un papel, por lo que se hace necesario organizar y describir tales datos de manera concisa y significativa, de tal manera que una simple “mirada” permita tener una idea de lo que puedan decirnos.

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

22

5. Presentación de los datos: Pueden utilizarse varias herramientas básicas para describir y resumir un conjunto grande de datos. La forma más simple es el registro del número de casos en cada una de las categorías de las variables o también llamada serie ordenada13; pero su utilidad de una serie ordenada es limitada14. Por lo que se necesitan mejores técnicas para describir el conjunto de datos.

3.3. PRESENTACION DE LOS DATOS

Hay dos formas de presentar los datos estadísticos: a través de lo que se conoce como método de agrupación de datos o forma tabular: vía el uso de tablas estadísticas; así como mediante gráficos y diagramas.

3.3.1. REPRESENTACIÓN TABULAR Desde el punto de vista metodológico, es valido distinguir lo que se conoce como tablas de frecuencia o de distribuciones de frecuencia; y los cuadros estadísticos o de análisis. Antes de avanzar, es necesario considerar la parte formal, de la presentación de los datos sea tabla o cuadros estadísticos; nos referimos a las partes principales de una tabla o cuadro estadístico.

13

Este ordenamiento puede ser ascendente o descendente 14

Debido a que provee información sobre el valor máximo y mínimo de la serie, que es de poca utilidad para plantear análisis mas elaborados

Tabla Nº 01: DISTRIBUCIÓN DE FRECUENCIAS PARA

PASAJEROS DE TANS-PERU1

(Pasajeros por semana)

Xi ni hi % Ni Hi %

1

2

3

4

5

6

7

8

9

Total

1/ La mayor empresa Aerocomercial del Perú

FUENTE: Ministerio de Transportes y comunicaciones. División Aerocomercial, Lima 2003.

ELABORACIÓN propia

NUMERO DE TABLA

TITULO

UNIDAD DE MEDICION

ENCABEZAMIENTO

CUERPO

NOTA TECNICA

FUENTE

ELABORACION

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

23

Formalmente, una tabla o cuadro estadístico completo –tal como los cuadros precedentes-, pueden tener ocho partes: numero de la tabla o cuadro, titulo, unidad de medida, encabezamiento, cuerpo, nota de pie o llamada, fuente, y elaboración.

1. Numero de tabla o cuadro: es el código o elemento de identificación que

permite ubicarlo en el interior del documento. El número va precedido de la palabra “tabla” o “cuadro”. Es recomendable- si el documento lo permite-, que dicho numero sirva para identificar tanto el numero del cuadro como el capitulo de ubicación. Por ejemplo Cuadro 2.1. Significa el primer cuadro del capitulo dos.

2. Titulo: es la descripción resumida del contenido del cuadro; este debe ser

breve, claro y completo, de tal manera que permita deducir sin ambigüedad el tipo de información que contiene el cuadro. Un titulo completo, debe considerar: Que: información existe en el cuadro-característica principal-. Donde: se refiere al lugar geográfico o institución a la que corresponde la información. Como: la forma como están ordenados o clasificados los datos en el cuadro. La variable que esta en la fila se identifica con la preposición “por” y la que esta en la columna por la preposición “según”. Cuando: es el momento o periodo de tiempo al que esta referida la información.

3. Unidad de medida: se anota debajo del titulo, se utiliza para abreviar la

escritura de las cifras y para expresar llas unidades de medida de la variable.

CUADRO Nº 13

DEPARTAMENTO DE PIURA: VIVIENDAS PARTICULARES1 POR

TIPO DE MATERIAL DE CONSTRUCCION PREDOMINANTE, SEGÚN PROVINCIAS. CENSO 1993

(Valores Porcentuales)

PROVINCIAS

TOTAL Tipo de material de construcción

Ladrillo Adobe Quincha Otros

PIURA

SULLANA

TALARA

PAITA

SECHURA

MORROPON

AYABACA

HUANCABAMBA

TOTAL DPTO.

1/ Vivienda particular es aquella destinada a servir de alojamiento uno o mas hogares

FUENTE: INEI. Censos Nacionales de 1993. Resultados definitivos. Dpto. de Piura, Tomo II

ELABORACION: Propia

NUMERO DE CUADRO

TITULO

UNIDAD DE MEDICION

ENCABEZAMIENTO

CUERPO

NOTA TECNICA

FUENTE

ELABORACION

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

24

4. Encabezamiento: es la descripción de las filas y columnas de un cuadro

estadístico. Indica las variables, sus categorías o intervalos; así como también puede indicar un periodo de tiempo.

5. Cuerpo del Cuadro: Es la parte donde se colocan los datos de las

características de las variables indicados en el encabezamiento. Es el contenido numérico del cuadro.

6. Nota de pie de página: sirve fundamentalmente para aclarar algunos

términos o siglas.

7. Fuente: sirve para indicar de donde proviene los datos. Pueden ser de Fuentes primarias-si se obtiene por ejemplo de encuestas-, o secundarias- cuando se ha recurrido a información ya publicada.

8. Elaboración: Sirve para mencionar al responsable. Indica la

responsabilidad de la publicación del cuadro.

A. LAS TABLAS DE DISTRIBUCION DE FRECUENCIA

Son tablas de trabajo estadístico, que presentan la distribución de un conjunto de elementos de acuerdo a las categorías de las variables. Sirve para verificar la frecuencia o repetición de cada uno de los valores de la variable, que se obtiene después de realizada la fase de tabulación. Estas tablas presentan diferentes tipos de frecuencias: absolutas, relativas, acumuladas, etc. Estas tablas se utilizan además para organizar los datos y calcular algunos indicadores o medidas de resumen.

En toda tabla de frecuencia completa, se identifican los siguientes elementos:

1. Valor de la variable o intervalo de clase; que resulta de la

clasificación o categorización de la variable. Se representa por i

Y a los

puntos -, y por si

LL a los intervalos de clase.

2. Frecuencia absoluta: es el número de veces que se repite un

determinado valor de las variables-para variables cuantitativas discretas-. En el caso de intervalos, será el numero de observaciones pertenecientes a dicho intervalo.

Se representa por i

n mi ,...,1

, donde “m” representa el numero de

valores distintos que asume la variable, o el numero de intervalos considerados.

3. Frecuencia relativa: es el cocienten

nh i

i ; es decir el ratio de la

frecuencia absoluta respecto al total de observaciones.

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

25

4. Frecuencia absoluta acumulada: es el proceso de acumular

sucesivamente las frecuencias absolutas, se representa por i

N mi ,...,1

.

Donde:

nnNnnnnN

nNnnnN

nNnnN

nN

mmmm

1321

323213

21212

11

...

........................................

5. Frecuencias relativas acumuladas: es el proceso de acumular o

sumar sucesivamente las frecuencias relativas, se representa por i

H

mi ,...,1 , tal como:

11321

323213

21212

11

mmmmhHhhhhH

hHhhhH

hHhhH

hH

...

........................................

6. Marca de clase: es el punto medio de cada intervalo 2

si

i

LLY

Propiedades de las frecuencias15:

a. Las frecuencias absolutas i

n y las frecuencias absolutas acumuladas

iN son números enteros no negativos y no mayores que n .

nni0 nN

i0

b. Las frecuencias relativas i

h y las frecuencias relativas acumuladas i

H son

números fraccionarios no negativos y no mayores que la unidad 1 .

10 i

h 10 i

H

c. La suma de todas las frecuencias absolutas es igual al tamaño de la

muestra. nnm

i

i

1

d. La suma de todas las frecuencias relativas es igual a la unidad. 11

m

i

ih

15

La frecuencias relativas pueden ser expresadas en referente la unidad, o para facilitar el análisis en referente 100; para lo cual hay que multiplicar la frecuencia relativa en referente unitario por 100.

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

26

e. La última frecuencia absoluta acumulada es igual al tamaño de la muestra,

debido a que incluye a todos los valores. nNm

f. La última frecuencia relativa acumulada es igual a la unidad. 1m

H

A continuación se presentan las tablas de contingencia para variables cuantitativas, sean estas discretas o continuas sea en simbología de puntos o por intervalos. Aquí es necesario precisar que los intervalos generalmente se aplican cuando las variables son continuas. En el caso de variables discretas cuando el numero de observaciones suficientemente elevados.

Tabla de Distribución de Frecuencias (Simbología puntos)

iY

Valores de la

variable

in

Frecuencia absoluta

ih

Frecuencia relativa

iN

Frecuencia absoluta

acumulada

iH

Frecuencia relativas

acumulada

1Y

1n

nn

1 1N

1H

2Y

2n

nn

2 2N

2H

… … … …

nY

mn

nn

m nNm 1

mH

TOTAL n 1

Tabla de Distribución de Frecuencias

(Simbología intervalos)

SILL

Intervalos de clase

iY

Marca de

clase

in

Frecuencia absoluta

ih

Frecuencia relativa

iN

Frecuencia absoluta

acumulada

iH

Frecuencia relativa

acumulada

silLI

1

1Y

1n

nn

1 1N

1H

silLI

2

2Y

2n

nn

2 2N

2H

simLLI

mY

mn

nn

m nNm 1

mH

m

n 1

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

27

El número de intervalos m es arbitrario. Sin embargo es necesario tener en

cuenta: la naturaleza de la variable, el número de observaciones, el recorrido de la variable, la sensibilidad de la variable (unidad de medida), y los objetivos del estudio que utiliza la información.16

El numero de intervalos y su amplitud, deben estar en relación con la naturaleza y contexto del estudio. Sin embargo, se prefiere determinar el número de intervalos mediante la formula propuesta por H.A. Sturgers17:

nm log322.31

Para facilitar los cálculos, es recomendable que la amplitud de los intervalos se redondee al número sencillo más cercano e inmediatamente superior. Se recomienda que las clases o intervalos sean iguales. La amplitud de cada clase se define por:

m

XX

m

RCi

minmax

Donde:

R se define como el recorrido de la variable, maxX : el máximo valor de la

variable, minX : el mínimo valor que ostenta la variable, m : el numero de

intervalos.

A continuación se presentan ejemplos de tablas de frecuencias: 1. Caso cuantitativo discreto:

Ejemplo 1: Nº de Miembros Perceptores de Ingresos del Hogar, de 50 Hogares Seleccionadas al Azar

1 2 2 3 2 1 2 1 1 1 1 1 3 3 3 2 2 3 2 1 1 2 2 2 1 2 2 2 4 1 2 1 3 1 1 2 1 2 2 1 1 2 1 3 1 1 2 3 1 2

16

El número de intervalos o clases en una tabla de frecuencias es arbitrario; sin embargo muy pocas clases no revelan ningún detalle sobre los datos, y demasiadas clases será tan confusa como el quantum de datos originales 17

Una forma alternativa, es la que se propone en Webster (2001), a través de la siguiente regla

nc 2 , en donde n es el numero de observaciones. El numero de clases o intervalos es la menor

potencia a la cual se eleva 2, de tal manera que el resultado sea igual o mayor que el numero de

observaciones. Si n=50 , 5026 , donde 6426 . Esta regla sugiere que deben haber seis clases

en la tabla de frecuencias.

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

28

TABLA 3.1: Distribución de Frecuencias del Número de Perceptores de Ingresos

TABLA 3.2. Número de personas ocupadas de 100 empresas con menos

de 9 Personas Ocupadas seleccionadas al azar

2. Caso Cuantitativo Continuo:

Ejemplo 1: Rendimiento de Km/galón de n = 36 automóviles en área urbana 38.10 36.20 36.70 34.00 34.90 33.98 34.60 34.50 33.80 31.57 31.54 36.96 37.85 36.80 36.00 30.16 36.88 36.23 34.55 38.24 36.57 35.93 33.20 35.47 37.10 36.20 33.00 35.61 33.15 33.29 32.91 30.00 35.40 31.60 40.00 34.51 Y = Rendimiento Km/galón

iY Nº DE

PERCEPTORES

in

Frecuencia absoluta

(Nº DE HOGARES)

ih

Frecuencia relativa

(% DE HOGARES)

iN

Frecuencia absoluta

acumulada (ACUM.

HOGARES)

iH

Frecuencia relativa

acumulada (%ACUM.

HOGARES)

1 21 42 21 42

2 20 40 41 82

3 8 16 49 98

4 1 2 50 100

TOTAL 50 100

iY

Nº personas ocupadas

in

Frecuencia absoluta

ih

Frecuencia relativa

iN

Frecuencia absoluta

acumulada

iH

Frecuencia relativa

acumulada

1 5 0.05 5 0.05

2 14 0.14 19 0.19

3 18 0.18 37 0.37

4 25 0.25 62 0.62

5 20 0.20 82 0.82

6 10 0.10 92 0.92

7 5 0.05 97 0.97

8 3 0.03 100 1.00

TOTAL 100 1

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

29

TABLA 3.3: Rendimiento de Km/galón de n = 36 automóviles en área urbana

3. Caso Cualitativo

En las tablas de frecuencia de variables cualitativas o atributos generalmente no tiene sentido determinar frecuencia acumulada; sin embargo cuando la variable es de orden resulta de suma importancia la frecuencia acumulada. Por ejemplo para las categorías de la variable calidad: muy buena, buena, regular, mala, pésima.

En muchos casos se estila codificar las categorías de las variables, antes de elaborar la tabla de frecuencias.

TABLA 3.4: Población de 200 personas por sexo.

[Intervalo de clases]

(Rendimiento)

IY

(Rendimiento medio)

In

(Automóviles)

Ih

(% de automóvil

es)

iN

(Acum.

Automov.)

iH

(% Acum. Automóviles)

[30.00, 31.25) 30.625 2 5.6 2 5.6

[31.25, 32.50) 31.875 3 8.3 5 13.9

[32.50, 33.75) 33.125 5 13.9 10 27.8

[33.75, 35.00) 34.375 8 22.2 18 50.0

[35.00, 36.25) 35.625 7 19.4 25 69.4

[36.25, 37.50) 36.875 6 16.7 31 86.1

[37.50, 38.75) 38.125 4 11.1 35 97.2

[38.75, 40.00) 39.375 1 2.8 36 100

TOTAL 36 100

SEXO

FRECUENCIA ABSOLUTA

FRECUENCIA RELATIVA

FRECUENCIA RELATIVA (%)

1. HOMBRE

120 (120/200)= 0.60 60

2. MUJER 80

(80/200)= 0.40

40

TOTAL 200 1.00 100

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

30

TABLA 3.5: Población formada por 1000 familias, según tipo de vivienda

TIPO DE VIVIENDAS NUMERO DE VIVIENDAS

FRECUENCIA RELATIVA

% DE VIVIENDAS

1. Casa independ. 300 0.30 30

2.Dpto. en edificio 80 0.08 8

3. Viv. En quinta 200 0.20 20

4. Casa vecindad 320 0.32 32

5. Otro tipo 100 0.10 10

TOTAL 1000 1.00 100

B. LAS TABLAS DE CONTINGENCIA O CUADROS DE ANALISIS

Es el resultado de trabajos previos, dentro del proceso de investigación estadística, a decir: la planeación, recopilación o captura de datos, tabulación, cálculos, etc. Un cuadro de análisis puede adoptar una forma particular; sin embargo se sugiere uniformizar criterios para presentar los datos. En un Cuadro de “doble entrada”, bidimensional o de dos variables, se distinguen una Variable Principal colocada en forma horizontal y la Variable Secundaria colocada en forma vertical.18

CUADRO Nº 3.1.

PEA DE 15 Y MAS AÑOS DE EDAD DE LA REGION LORETO POR NIVEL DE EDUCACION ALCANZADO SEGÚN PROVINCIAS.

(Distribución Porcentual)

PROVINCIAS TOTAL PEA

NIVEL EDUCATIVO2

TOTAL SIN NIVEL

PRIM-ARIA

SECUN- DARIA

SUPE-RIOR

A. AMAZONAS 22508 100.0 13.5 52.2 24.3 10.0

LORETO 11038 100.0 12.5 60.5 19.7 7.3

MAYNAS 78890 100.0 5.2 36.0 38.1 20.7

M. RAMON CASTILLA 6564 100.0 14.0 53.8 23.5 8.7

REQUENA 11828 100.0 7.2 58.5 25.5 8.8

UCAYALI 10922 100.0 4.4 59.7 27.1 8.8

TOTAL DPTO1. 141750 100.0 7.5 44.1 32.4 16.0

1/ Excluye a los que no especificaron nivel de educación

2/ Se refiere a algún grado o año de estudios

FUENTE: INEI. Censos Nacionales de 1993. Resultados definitivos. Dpto. de Piura, Tomo II

ELABORACION: Propia

18

No es la única manera de presentar datos, pero es la mas usual si es que la naturaleza de las variables lo permiten.

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

31

3.3.2. REPRESENTACION GRAFICA19

Los gráficos también son métodos útiles para describir un conjunto de datos. Aquí podemos incluir los Histogramas, diagramas de barras, diagramas circulares, etc. Histogramas20. Coloca las clases de una distribución de frecuencias en el eje horizontal y las frecuencias en el eje vertical. Son barras verticales presentadas una a continuación de otra. Permite presentar datos cuantitativos continuos. Es un gráfico muy utilizado. Propiedades: 1. El ancho de cada columna es igual en todo el gráfico y representa la

amplitud de clase. 2. La altura está en función a la frecuencia de la clase.

Ejemplo 01. Histograma de frecuencias de la edad de los conductores de servicio de taxi en distrito de Piura

19

Existen formas diversas de representación gráfica de los datos. Aquí, solamente se ilustra los caso mas comunes. Así

mismo, hoy en día es indispensable la utilización de herramientas informáticas para el procesamiento y representación de los datos, como por ejemplo EXCEL, E-VIEWS, SPSS-cuyas instrucciones básicas se anexa como parte del presente modulo 20

Importante tener en cuenta si es variable discreta o continua; y si las frecuencias son absolutas , relativas o acumulativas

EDAD

36.0

34.0

32.0

30.0

28.0

26.0

24.0

22.0

20.0

18.0

16.0

EDAD

Freq

uenc

y

30

20

10

0

Std. Dev = 5.60

Mean = 24.3

N = 148.00

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

32

Ejemplo 02. Histograma de frecuencias para cociente intelectual de niños menores de 10 años

Diagrama de Barras: se utiliza para representar datos cuantitativos discretos o datos cualitativos.

Las barras son de igual ancho. La longitud es proporcional a la frecuencia de la categoría. El espacio entre barras debe ser homogéneo, para evitar efecto visual.

Ejemplo 01. Número de hijos en edad escolar

por médico del Hospital Central

Cociente intelectual

160.0150.0

140.0130.0

120.0110.0

100.090.0

80.070.0

60.050.0

Cociente intelectual

Freq

uenc

y

20

10

0

Std. Dev = 22.67

Mean = 101.7

N = 149.00

0

5

10

15

20

25

30

0 1 2 3 4 5

Nº de Médicos

Nº hijos en edad escolar

Fuente: Departamento de Personal

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

33

El diagrama circular El círculo se divide en segmentos circulares, de tamaño proporcional a la frecuencia de la categoría

EJEMPLO: PACIENTES ATENDIDOS EN CONSULTORIOS EXTERNOS HOSPITAL REGIONAL

POR TRIMESTRE AÑO 2004

3.5. CASO PRÁCTICO

A: CONJUNTO DE DATOS

Asumiendo que hemos preguntado a un conjunto de N personas qué opinión tienen acerca de la subvención que el gobierno pretende otorgar a los mas pobres del país. Las N respuestas se encuentran en una escala que va de 1 a 9, donde 1 representa un total desacuerdo con la subvención, mientras que 9 quiere significar un acuerdo total21.

El resultado de la medición es el siguiente:

21

La respuesta (1) total desacuerdo con probabilidad 100%, (2) desacuerdo con (75%) de probabilidad, (3)

desacuerdo con (50%) de probabilidad, (4) desacuerdo con (25%) de probabilidad. La respuesta (5) les es indiferente. La respuesta (6) de acuerdo con (2%%) de probabilidad, respuesta (7) de acuerdo con (50%) de probabilidad, respuesta (8) de acuerdo con (75%) de probabilidad, y respuesta (9) totalmente de acuerdo.

1er trim., 20.4, 13%

2do trim., 27.4, 17%

3er trim., 90, 57%

4to trim., 20.4, 13%

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

34

Tabla 01: Conjunto original de datos

7 5 6 8 6 5 9 5 8 6 5 7 5 5 4 5 8 5 4 2 6 6 4 6 4 8 4 3 4 3 3 1 1 4 5 6 5 8 5 4 7 4 3 5 3 4 9 4 2 6 3 4 2 4 1 3 6 3 1 2 4 4 6 2 4 7 4 2 4 6 4 4 6 7 5 8 5 7 6 5 6 5 7 5 6 4 5 4 1 6 5 6 5 5 5 4 6 2 5 5 6 5 4 4 3 5 5 9 4 3 6 5 7 3 2 4 4 7 4 2 1 8 2 7 4 5 5 7 5 5 1 5 8 5 6 7 6 6 7 7 5 2 5 6 5 8 5 3 6 5 5

Responda a las siguientes preguntas: a. Cuántas personas fueron encuestadas b. Cuál fue la respuesta más frecuente c. Cuántas personas tienen, como máximo, una actitud de cuatro puntos en

la escala (es decir, cuántas personas se encuentran en desacuerdo con la subvención)

Como personas tenemos dificultades para procesar o tener en cuenta mucha información de forma simultanea. La tabla 1 muestra demasiados datos como para responder a las preguntas anteriores con seguridad.

Una alternativa al repaso repetitivo de la tabla 1 es organizar los datos de tal forma que tengan una disposición que facilite la lectura. En este sentido, la primera acción a realizar es ordenar los datos desde el que posee el valor más pequeño hasta el que cuenta con el valor mayor.

Tabla 02: Conjunto ordenado de datos

1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 9 9 9

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

35

Observe que tiene lugar una “ganancia” al pasar de la tabla 1 a la tabla 2. Parece que ésta es más fácil de interpretar. No ha desaparecido ninguna información; el único cambio está en la ordenación de los mismos datos.

No obstante, la solución es parcial, puesto que aún debe ser mejorada (sigue siendo difícil responder a las preguntas).

Si observamos la tabla 2, contiene una sucesión de datos con valores repetidos. Por ejemplo, el valor 1 se encuentra presente en seis ocasiones. Luego, una buena estrategia es mostrar una sola vez cada valor y hacerlo seguir por su frecuencia, es decir, por la cantidad de ocasiones en que aparece. Siguiendo este criterio, hemos conseguido la tabla 3:

Tabla 03: Conjunto ordenado de "valores" y "frecuencias"

1(6), 2(11), 3(12), 4(30), 5(40), 6(25), 7(14), 8(9), 9(3)

Aún se puede disponer la información de tal forma que resulte extremadamente fácil responder a preguntas del mismo tipo que las que hemos planteado. En la tabla 3 se ha mantenido la misma disposición que en la tabla 2. Esto es innecesario. Para disponer la información de manera óptima, vamos a generar una tabla que tenga dos columnas. En la columna primera se presentarán los valores, que representaremos con la letra X mientras que en la segunda columna se dispondrán las frecuencias, que representaremos con la letra f. Observemos el resultado en la tabla 4:

Tabla 04: Tabla de frecuencias

X f

1 6

2 11

3 12

4 30

5 40

6 25

7 14

8 9

9 3

Total 150

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

36

Como la tabla 4, se trata de una tabla de frecuencias, ahora sí nos permite responder a las preguntas planteadas con facilidad:

¿Cuántas personas fueron encuestadas? Solución: 150

¿Cuál fue la respuesta más frecuente? Solución: 5 (40 datos)

¿Cuántas personas tienen, como máximo, una actitud de cuatro puntos en la escala? Solución: 59 (6+11+12+30)

B. ACUMULACION DE FRECUENCIAS

No todas las preguntas que planteadas sobre el mismo conjunto de datos han exigido el mismo esfuerzo. Así, mientras que las preguntas sobre el número de datos y el valor más frecuente se han respondido con una lectura de la tabla, la tercera pregunta ha necesitado de algunas operaciones.

Para responder a esa pregunta hemos tenido que realizar una suma de todas las frecuencias comprendidas entre el primer valor de la tabla y el valor que nos interesa, ambos inclusive. Esta cantidad final recibe el nombre de frecuencia acumulada.

Muchos interrogantes requieren respuestas que se basan en las frecuencias acumuladas. Luego, es recomendable escribir esta nueva información en la tabla, de tal forma que permita respuestas directas en el futuro.

Tabla 05: Tabla de frecuencias de tres columnas

X f F

1 6 6

2 11 17

3 12 29

4 30 59

5 40 99

6 25 124

7 14 138

8 9 147

9 3 150

Total 150

Si suponemos ahora que hemos preguntado a 25 personas por su distrito de nacimiento, obteniendo los siguientes resultados:

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

37

Sullana, Cotabamba, Huancavelica, Guzmán Valle, Guzmán Valle, Callao, Huancavelica, Ancón, Sullana, Mala, Jaén, Huancavelica, Ancón, Sullana, Cotabamba, Ancón, Mala, Cotabamba, Mala, Ancón, Mala, Sullana, Callao, Jaén, Callao.

Si se solicitara construir una tabla de frecuencias con la información sobre los distritos de nacimiento, utilizando la siguiente codificación:

Distrito Código

Ancón 1

Callao 2

Cotabamba 3

Guzmán Valle 4

Huancavelica 5

Jaén 6

Mala 7

Sullana 8

Quizá tu respuesta haya sido ésta: ERROR

Tabla 06: Distribución por distritos

Distrito Código F F

Ancón 1 4 4

Callao 2 3 7

Cotabamba 3 3 10

Guzmán Valle 4 2 12

Huancavelica 5 3 15

Jaén 6 2 17

Mala 7 4 21

Sullana 8 4 25

¿Qué sentido tiene acumular frecuencias en el problema que se ha planteado sobre los distritos? Por ejemplo, ¿Qué significado tiene la cantidad 12 que acompaña al valor 4 (Guzmán Valle)? Sólo se puede hacer una lectura: hay doce personas que han nacido en Guzmán Valle. No podemos afirmar que Cotabamba, Callao o Ancón sean menos distrito de nacimiento que Guzmán Valle.

La diferencia esencial entre el problema de los distritos de nacimiento y el de las respuestas a la escala de acuerdo, se encuentra en el tipo de variable. En el caso de

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

38

los distritos, éstos no pueden ordenarse en función de ser más o ser menos "distritos de nacimiento" (se pueden ordenar según número de habitantes, extensión, altitud media, etc. Pero no en función de ser más o ser menos distrito de nacimiento).

Luego, la acumulación de frecuencias sólo procede si los valores de la variable que se está estudiando se pueden ordenar. Así, la respuesta correcta al problema debe ser:

Tabla 07: Distribución por distritos

Distrito Código f

Ancón 1 4

Callao 2 3

Cotabamba 3 3

Guzmán Valle 4 2

Huancavelica 5 3

Jaén 6 2

Mala 7 4

Sullana 8 4

C. FRECUENCIAS RELATIVAS

Retomamos ahora el problema de las actitudes frente a la subvención. La tabla de frecuencias no termina aun. Se puede añadir más información útil en la que basar respuestas para otras preguntas.

Por ejemplo ¿Cuántas personas han respondido con una actitud media (valor 5)? Solución: 40. Observa ahora la siguiente tabla y responde a la misma pregunta.

Tabla 08: Nueva tabla de frecuencias

X F

1 200

2 170

3 120

4 60

5 40

6 60

7 120

8 170

9 200

Total 1140

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

39

¿Qué ocurre ahora?

En la tabla 08 ha cambiado el conjunto de datos. Ahora son 1140, frente a los 150 del caso inicial. Una misma frecuencia, en este caso f=40, no tiene la misma interpretación en ambas tablas. ¿Qué ha cambiado?: la importancia relativa de la frecuencia, puesto que f=40 frente a n=150 es diferente a f=40 frente a n=1140. De hecho, el valor 5 pasa incluso de ser el más frecuente al menos presente.

La solución se encuentra en expresar las frecuencias en términos relativos en vez de absolutos. Esto es precisamente lo que consiguen las proporciones: expresar una cantidad con respecto al total. Así, añadimos una nueva columna, conteniendo las frecuencias relativas (fr) que surgen de hacer la operación fr = f / n. Observa el resultado comparando el obtenido con cada una de las dos tablas afectadas en este problema (4 y 8):

Tabla 09: Comparación entre dos tablas de frecuencias

X Datos anteriores Nuevos datos

f fr F fr

1 6 0.0400 200 0.1754

2 11 0.0733 170 0.1491

3 12 0.0800 120 0.1053

4 30 0.2000 60 0.0526

5 40 0.2667 40 0.0351

6 25 0.1667 60 0.0526

7 14 0.0933 120 0.1053

8 9 0.0600 170 0.1491

9 3 0.0200 200 0.1754

Total 150 1.0000 1140 1.0000

Observa que el valor 5 pasa de contar con una frecuencia relativa fr=0,2667 (más de la cuarta parte) a fr=0,0351 al ser comparado, respectivamente, con un total de n=150 a n=1140.

Un aspecto de interés se encuentra en la fila de los totales. Observa que el resultado es 1.0000 en los dos casos. Esto debe ocurrir siempre. Lo que se hace al traducir las frecuencias absolutas a las relativas es unificar el referente. En el conjunto de datos de la tabla 4, el referente absoluto es 150. En el conjunto de datos de la tabla 8, el referente absoluto es 1140.

No podemos comparar frecuencias de conjuntos de datos diferentes porque los referentes son diferentes. Para que la comparación sea factible es necesario

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

40

unificar. Dado que las proporciones se expresan en tantos por uno, es posible comparar frecuencias entre tablas. En otros términos: para interpretar una frecuencia absoluta necesitamos conocer el número total de datos puesto que, según hemos visto, el número de datos condiciona la importancia de una frecuencia. Pero para interpretar una frecuencia relativa expresada como una proporción no es necesario conocer el número total de datos, puesto que aquí el referente es constante de una tabla a otra: 1.0000.

Sin embargo, no se termina el proceso de enriquecimiento de la tabla. Las proporciones se expresan siempre en cantidades que se sitúan entre 0 y 1. Es decir, las proporciones son números decimales. Y lo anterior es hasta cierto incomodo, ¿Cuál es la solución?

D. TABLA DE FRECUENCIAS

Por lo general, cuando se exponen los resultados de una encuesta en un medio de comunicación, lo habitual es utilizar otro tipo de frecuencias relativas: los porcentajes.

El principio que rige la utilización de los porcentajes es el mismo que para las proporciones: utilizar un referente fijo de tal forma que no sea necesario contar con el número total de datos para interpretar una frecuencia. La diferencia entre los porcentajes y las proporciones es que los primeros utilizan el referente 100, mientras que las proporciones utilizan el 1.

Luego, conseguir los porcentajes es muy fácil si se cuenta con las proporciones; bastará con multiplicar a éstas por 100:

Tabla 10: Tabla de frecuencias con porcentajes

X f fr %

1 6 0.0400 4.00

2 11 0.0733 7.33

3 12 0.0800 8.00

4 30 0.2000 20.00

5 40 0.2667 26.67

6 25 0.1667 16.67

7 14 0.0933 9.33

8 9 0.0600 6.00

9 3 0.0200 2.00

Total 150 1.0000 100.00

Estadística Aplicada a la Investigación CAP.3

Escuela de Postgrado Maestría en Ciencias de la Educación

41

Podemos completar también la tabla que se refiere a los distritos de nacimiento:

Tabla 11: Distribución por Distritos

Distrito Código f fr %

Ancón 1 4 0.16 16

Callao 2 3 0.12 12

Cotabamba 3 3 0.12 12

Guzmán Valle 4 2 0.08 8

Huancavelica 5 3 0.12 12

Jaén 6 2 0.08 8

Mala 7 4 0.16 16

Sullana 8 4 0.16 16

TOTAL 25 1.00 100

Además, como sabemos, la variable actitud frente a la subvención admite orden entre sus valores. Luego, para completar la tabla, bastará con acumular sus frecuencias:

Tabla 12: Tabla de frecuencias completa

X f fr % F Fr %

1 6 0.0400 4.00 6 0.0400 4.00

2 11 0.0733 7.33 17 0.1133 11.33

3 12 0.0800 8.00 29 0.1933 19.33

4 30 0.2000 20.00 59 0.3933 39.33

5 40 0.2667 26.67 99 0.6600 66.00

6 25 0.1667 16.67 124 0.8267 82.67

7 14 0.0933 9.33 138 0.9200 92.00

8 9 0.0600 6.00 147 0.9800 98.00

9 3 0.0200 2.00 150 1.0000 100.00

Total 150 1.0000 100.00