guía estadística

55
UNIVERSIDAD DE LA HABANA GUÍA DE ESTUDIO CARRERA: Sociología, Historia, Estudios Socio Culturales, Bibliotecología y Ciencias de la Información, Psicología TIPOS DE CURSO: Universalización de la enseñanza DISCIPLINA: Metodología de la Investigación. ASIGNATURA: Estadística AÑO: Segundo SEMESTRE:.Segundo. TOTAL DE HORAS: 16 horas. EVALUACIÓN: Examen final. OBJETIVOS GENERALES. GENERALES EDUCATIVOS: 1.Contribuir a que los estudiantes reconozcan el papel auxiliar que otras ciencias representan para la Sociología 2.Contribuir a que los estudiantes se identifiquen con la utilización de los métodos estadísticos que le permitan clasificar, describir y 1

Upload: memememe

Post on 11-Dec-2015

224 views

Category:

Documents


1 download

DESCRIPTION

Guía de estadística de la universidad de la Habana

TRANSCRIPT

Page 1: Guía Estadística

UNIVERSIDAD DE LA HABANA

GUÍA DE ESTUDIO

CARRERA: Sociología, Historia, Estudios Socio Culturales, Bibliotecología y

Ciencias de la Información, Psicología

TIPOS DE CURSO: Universalización de la enseñanza

DISCIPLINA: Metodología de la Investigación.

ASIGNATURA: Estadística

AÑO: Segundo

SEMESTRE:.Segundo.

TOTAL DE HORAS: 16 horas.

EVALUACIÓN: Examen final.

OBJETIVOS GENERALES.

GENERALES EDUCATIVOS:

1. Contribuir a que los estudiantes reconozcan el papel auxiliar que otras

ciencias representan para la Sociología

2. Contribuir a que los estudiantes se identifiquen con la utilización de los

métodos estadísticos que le permitan clasificar, describir y presentar la

información obtenida a través de métodos y técnicas sociológicas.

GENERALES INSTRUCTIVOS:

Que el estudiante sea capaz de:

1. Clasificar las variables de acuerdo a la escala de medición.

2. Utilizar los estadísticos elementales adecuados para el análisis de los

datos obtenidos a través de los métodos y técnicas sociológicas.

3. Reconocer las posibilidades de los procedimientos estadísticos, en el

estudio de relaciones causales entre dos variables

1

Page 2: Guía Estadística

TEMA 1: Estadística descriptiva.

OBJETIVOS:

Que el estudiante sea capaz de, dado un conjunto de datos:

1. Resumir adecuadamente la información de manera analítica y/o gráfica.

2. Presentar los resultados para su debida interpretación.

CONTENIDO.

Sistema de conocimientos:

El objeto de estudio de la Estadística. Utilidad de la Estadística Descriptiva.

Clasificación de variables. Tablas de frecuencias (absolutas, relativas,

absolutas acumuladas y relativas acumuladas). Representación gráfica de las

tablas de frecuencias. Otras representaciones gráficas. Interpretación de las

tablas de frecuencias y/o de sus correspondientes gráficas.

Sistema de habilidades.

Que el estudiante sea capaz de:

1. Reconocer el tipo de variable a la cual responde la información que se

posee para su análisis.

2. Construir tablas de frecuencias.

3. Representar gráficamente las tablas de frecuencias.

4. Interpretar tablas de frecuencias y/o sus gráficas

CANTIDAD DE HORAS: 4 horas

TIPO DE CLASE: Clase-encuentro

EVALUACIÓN: Si

2

Page 3: Guía Estadística

TEMA 2: Medidas de posición.

OBJETIVOS:

Que el estudiante sea capaz de resumir adecuadamente, dado un conjunto de

datos, la información de manera analítica mediante el uso de las estadísticas

de posición e interpretar dicho resultado.

CONTENIDO:

Sistema de conocimientos:

Utilidad de los estadísticos de posición. La media aritmética. La mediana. La

moda. La media geométrica. La media armónica. La media ponderada.

Cuartiles, deciles y percentiles.

Sistema de habilidades.

Que el estudiante sea capaz de:

1. Calcular estadísticos de posición de conjuntos de datos agrupados o no.

2. Interpretar las estadísticas de posición.

CANTIDAD DE HORAS: 4 horas

TIPO DE CLASE: Clase-encuentro

EVALUACIÓN: Si

TEMA 3: Medidas de dispersión.

OBJETIVOS:

Que el estudiante sea capaz de, dado un conjunto de datos:

Resumir adecuadamente la información de manera analítica mediante el uso

de las estadísticas de dispersión e interpretar dicho resultado

CONTENIDO:

Sistema de conocimientos:

3

Page 4: Guía Estadística

Utilidad de los estadísticos de dispersión La amplitud. La desviación media.

La varianza. La desviación estándar. El coeficiente de variación. La amplitud

(rango) intercuartílica(o). El coeficiente de variación Amplitud (rango) semi-

intercuartílica(o).

Sistema de habilidades.

Que el estudiante sea capaz de:

1. Calcular estadísticos de dispersión de conjuntos de datos agrupados o

no.

2. Interpretar las estadísticas de dispersión.

CANTIDAD DE HORAS: 4 horas

TIPO DE CLASE: Clase-encuentro

EVALUACIÓN: Si

TEMA 4: Medidas de asociación.

OBJETIVOS:

Que el estudiante sea capaz de, dada la información contenida en un conjunto

de datos que representan a dos o más variables:

Determinar si existe correlación (asociación) lineal entre pares de variables y

la intensidad de la misma.

Desarrollar, a partir de una tabla de contingencia de r x k, la prueba de

independencia entre dos variables usando el estadístico Chi-Cuadrado.

Conozca la posible uso de los coeficientes de correlación parcial y múltiple.

CONTENIDO:

Sistema de conocimientos:

El problema de la asociación entre dos variables. El coeficiente de correlación

lineal de Pearson. El diagrama de dispersión como una medida gráfica de la

4

Page 5: Guía Estadística

correlación o asociación lineal entre dos variables. El coeficiente de

correlación lineal de Spearman o coeficiente de correlación por rangos.

Interpretación práctica del valor del coeficiente de correlación lineal. Tablas

de contingencia. Prueba de independencia usando el estadístico de Chi-

Cuadrado. Coeficiente de contingencia. Correlación múltiple y parcial.

Sistema de habilidades.

Que el estudiante sea capaz de:

1. Calcular coeficiente de correlación lineal.

2. Calcular el coeficiente de correlación por rangos.

3. Construir gráficas de dispersión.

4. Interpretar el valor de los estadísticos mencionados en (1) y (2), así

como el gráfico resultante de un diagrama de dispersión.

5. Construir tablas de contingencia de r x k

6. Calcular e interpretar el coeficiente de contingencia.

7. Realizar la prueba estadística basada en el estadístico Chi-Cuadrado

para probar independencia e interpretar el resultado.

8. Reconocer la utilidad de los coeficientes de correlación parcial y

múltiple.

CANTIDAD DE HORAS: 4 horas

TIPO DE CLASE: Clase-encuentro

EVALUACIÓN: Si

BIBLIOGRAFÍA MÍNIMA.

1. Bouza C . y Sistachs, V. (----): Estadística Básica: Teoría y Ejercicios.

(Entregado para publicar)

5

Page 6: Guía Estadística

2. Freund, J. “Estadística Elemental Moderna”. Editorial Pueblo y

Educación. La Habana, 1984.

INTRODUCCIÓN

Como es conocido, la Estadística es una herramienta muy útil con la que

cuenta el hombre en su empeño por conocer y dominar, para su beneficio, las

leyes que rigen la naturaleza y la sociedad. En la actualidad no hay área del

saber humano que pueda prescindir de la Estadística para la realización de

estudios e investigaciones. Los investigadores en Ciencias Sociales, y en

general aquellos que investigan en cualquier otra área del saber, pueden hallar

en la Estadística los procedimientos adecuados para la planeación de la

obtención de la información, el análisis de ésta y la presentación e

interpretación de los resultados obtenidos, de los cuales podrán tomar las

decisiones oportunas.

En lo que corresponde al aspecto de la obtención de la información, la

Estadística cuenta con los procedimientos de muestreo o del diseño de

experimentos según convengan. Con ellos el investigador contará con la

metodología pertinente para recolectar la información adecuada de una manera

eficiente, que permita un mínimo de esfuerzo, tiempo y costo, según los fines

y objetivos del estudio o investigación que se pretende efectuar.

Una vez obtenida la información pertinente, información que dicho sea de

paso se expresa en términos cuantitativos, surge la necesidad de su análisis

para extraer de ella lo relevante sobre el fenómeno objeto de estudio. En este

empeño la Estadística con sus métodos y técnicas nos suministra las

6

Page 7: Guía Estadística

herramientas capaces de lograr este objetivo, si las mismas son utilizadas

adecuadamente acorde con el tipo de datos que se posee, las condiciones bajo

las cuales fueron obtenidos y algunos supuestos teóricos.

Los resultados del análisis estadístico por si solo no son suficientes para

cualquier investigación. Para completar el estudio es necesario interpretar

éstos resultados estadísticos y vincularlos, claro está, con el significado en el

contexto del fenómeno que se estudia. Dicho de otro modo, sacar las

conclusiones apropiadas y tomar las decisiones oportunas. Pero no sólo eso,

hace falta además, comunicar de manera clara y precisa estas conclusiones. En

todo este conjunto de actividades mencionadas antes, la Estadística puede

coadyuvar con técnicas y procedimientos específicos.

Ahora bien, la utilidad de la Estadística sólo se materializará, en tanto sus

técnicas y procedimientos sean empleados en cada ocasión de una manera

correcta. Para ello es necesario conocer los fundamentos de estas técnicas y

procedimientos. Con la extensión del uso de las técnicas de la computación y

en especial de los sistemas estadísticos implementados en computadoras,

muchos han mal entendido las ventajas que esto trae aparejado y confunden el

conocimiento y dominio de la Estadística con el hábil manejo de uno o varios

de estos sistemas estadísticos. El uso de cualquier técnica o procedimiento

estadísticos que aparecen en un sistema estadístico sólo será válido si se

conoce el fundamento de dicha técnica o procedimiento.

Limitándonos a los aspectos del análisis de los datos, interpretación y

presentación de los resultados, se acostumbra a considerar que la Estadística

está integrada por dos partes esenciales: la estadística descriptiva y la

estadística inferencial o inferencia estadística. Realmente esta división suele

7

Page 8: Guía Estadística

ser de utilidad en lo que respecta al estudio de la Estadística. Sin embargo, en

la actividad práctica, es decir, cuando se está trabajando en la solución de

cualquier problema vía la aplicación de la metodología estadística, en

ocasiones se torna muy difícil poder asegurar que sólo se está empleando la

estadística descriptiva o la inferencial. En general, la frontera entre lo

descriptivo y lo inferencial se vuelve impreciso y en esto ha contribuido, sin

dudas, el desarrollo de potentes medios de cómputo como los actualmente

existen, lo cual permite el uso de métodos de ambas áreas, que lejos de

entorpecerse, coadyuvan a análisis más completos, incorporando mayor

credibilidad a las conclusiones que se obtengan.

En el contenido de la presente asignatura, la mayor parte pertenece a los

métodos descriptivos de la estadística, quizás los más clásicos y sólo una

pequeña parte incursiona dentro del terreno de la estadística inferencial. En

general, la asignatura posee un nivel elemental. Con el conocimiento de la

matemática del preuniversitario será suficiente para cursar exitosamente la

asignatura. En los contenidos se excluye el estudio de las probabilidades, las

variables aleatorias, las principales distribuciones probabilísticas, la teoría de

la estimación y las pruebas de hipótesis. Si bien esto simplifica el volumen en

cuanto a contenido, puede hacer difícil la exposición y lo que sería más

importante, la comprensión por parte del estudiante. En consecuencia aparece

la necesidad de desarrollar el curso haciendo hincapié en la metodología

estadística en lo que respecta a su utilidad y en la interpretación de los

resultados, fundamentando el uso de cada técnica o procedimiento a la luz de

su lógica interna y no con complicadas demostraciones.

8

Page 9: Guía Estadística

Es importante destacar que la Estadística no es Matemática. Esta distinción no

está justificada por el hecho de que en general se observa una tendencia de

que los estudiantes de Ciencias Sociales presentan un cierto rechazo por la

Matemática, sino por el propio objeto de estudio de la Estadística. Si bien el

objeto de estudio de la Matemática está caracterizado por la consideración de

fenómenos determinísticos, es decir, aquellos que están muy bien explicados,

es decir, que se conocen las leyes que lo rigen, en el caso de la Estadística los

fenómenos que se consideran son los del tipo aleatorio. Los fenómenos

aleatorios son aquellos en los cuales no se conocen las leyes que lo rigen y por

tanto el resultado de su realización es impredecible de manera exacta. De aquí,

el importantísimo papel que desempeña la Estadística en el proceso del

conocimiento de la realidad, para el dominio de sus leyes en beneficio de toda

la humanidad. Esta última declaración está también avalada por la práctica.

Hoy en día, existen aplicaciones de la Estadística en muy diferentes áreas del

conocimiento humano, por no decir que en todas, como ya de alguna manera

fue señalado en el primer párrafo de esta introducción.

Es importante destacar que la teoría de las probabilidades se encargan del

estudio de las leyes que rigen el comportamiento de los fenómenos aleatorios.

De hecho se ocupa de la modelación estocástica de los mismos. Mientras que

la Estadística, una vez establecida la ley de distribución de probabilidad en

menor o mayor grado, la utiliza para el análisis de la información sujeta a la

incertidumbre que produce el carácter aleatorio del fenómeno que se

considera. La incertidumbre se pone de manifiesto en las observaciones que se

realizan sobre el fenómeno aleatorio de interés, a través de la variabilidad

intrínseca de los valores de los datos numéricos. No puede esperarse que en

un grupo de jóvenes de una misma edad, los cuales residen en una misma

9

Page 10: Guía Estadística

zona, con idénticos intereses en la vida y que fueron criados y educados de

manera muy similar, dediquen el mismo tiempo diario a informarse del

acontecer nacional e internacional. Incluso, no puede esperarse que un mismo

joven dedique diariamente el mismo tiempo a obtener el tipo de información

mencionada antes. Las fluctuaciones que se observan en estos datos son

producto de la incertidumbre provocada por el carácter aleatorio del hecho que

se considera. Se podrá conocer muchísimos factores que influyen en el tiempo

de dedicación para informarse del acontecer nacional e internacional, así

como, la interrelación de ellos, pero realmente no se conocen todos los

factores e incluso la totalidad de sus interrelaciones, por lo cual se torna

imposible predecir el tiempo exacto que cada uno de los jóvenes dedica a la

actividad de informarse. En consecuencia, hay incertidumbre en la respuesta

que se obtenga y la mejor forma de tratar esta información es a través de las

técnicas y procedimientos estadísticos.

Aclarados estos aspectos generales, se puede pasar al objetivo fundamental de

este documento, el cual no es otro que el de orientar al estudiante cómo cursar

satisfactoriamente esta asignatura apropiándose de la manera más eficiente de

los diferentes conocimientos y habilidades que se indican en el programa

analítico.

Una primera sugerencia general consiste en recomendar al estudiante que

asista en la medida de lo posible, a cada uno de los encuentros con la lectura

previa de los capítulos del libro de texto correspondiente a los contenidos que

se tratarán en cada uno de ellos. Entiéndase por el libro de texto el de J.

Freund, titulado “Estadística Elemental Moderna”. El segundo libro que se

señala en la bibliografía puede considerarse de mucha utilidad para la

10

Page 11: Guía Estadística

ejercitación práctica de los contenidos. Para facilitar esta sugerencia a

continuación se señalan los capítulos del libro de texto que corresponden a

cada encuentro.

En el primer encuentro se aborda el tema 1, es decir, la estadística descriptiva.

Los capítulos del libro de texto que corresponden al contenido de este primer

encuentro es el. En el segundo encuentro se aborda el tema 2, cuyo contenido

se relacionan a las medidas de posición y el cual aparece en el libro de texto

en el capítulo 1, como ua sección. El encuentro 3 se dedica al estudio de las

medidas de dispersión. El libro de texto aborda esta temática en otra sección

del capítulo 1. El cuarto y último encuentro aborda lo referente al estudio de la

asociación y dependencia entre variables. Para este encuentro los capítulos 5 y

7.

Con el objetivo de dar una mínima organización a las sugerencias que se

brindan, esta guía de estudio se ha estructurado por tema.

TEMA 1

En relación con el capítulo 1 del texto este es dedicado al estudio de los

problemas de la “Estadística Descriptiva”, y se discute plenamente el tema

La exposición del texto esta particularmente enfocado a este tipo de curso

básico. Conviene apuntar en el significado de “estadística” o como también

suele aparecer en otros textos especializados bajo los nombres de

“estadístico” o “estadígrafo”. Este último empleado con mucha frecuencia en

libros de autores españoles o sencillamente traducidos al español en España.

Cuando se haga referencia a un estadístico y quede muy bien establecido que

no se refiere a aquella persona que trabaja en el área de la Estadística, lo que

11

Page 12: Guía Estadística

se pretende significar es una función que depende de los datos y que produce

un valor numérico. Este concepto es esencial. Por ejemplo, si un trabajador

social observa en cada núcleo familiar que le corresponde atender el ingreso

per cápita, dando por resultado los valores que se muestran en la tabla 1.1,

Tabla 1.1

Núcleos

familiares

1 2 3 4 5 6 7 8 9

Ingreso per –

cápita en

pesos

58 60 46 67 70 29 50 59 69

varios son las estadísticas o estadísticos que pueden ser calculados. El máximo

de los ingresos per cápita (70), el mínimo de estos ingresos per cápita (29), y

la media aritmética o promedio de los ingresos per cápita (56.44) son ejemplos

de estadísticos. En realidad este concepto no es importante en este primer

tema, si no más bien en los temas 2 y 3, pero el autor del texto lo introdujo

desde el primer capítulo y se entendió necesario abundar un `poco más al

respecto.

En el capítulo 2 del texto se comienza la exposición de una técnica estadística

para agrupar datos provenientes de la observación de alguna característica de

interés del fenómeno que se estudia. Esta técnica es la de las tablas de

frecuencias, la cual en esencia consiste en formar grupos o clases de valores o

justamente cada uno de los valores diferentes de la característica observada,

asociándole a cada uno un número que representa la cantidad de veces que

12

Page 13: Guía Estadística

dicha clase o valor ocurre dentro del conjunto de datos. Con la aplicación de

esta técnica se logra reducir el volumen de los datos a manipular, pero no la

información esencial o relevante contenida en ellos, siempre y cuando se

seleccione adecuadamente la cantidad de clases de valores diferentes.

En el caso en que las clases corresponden a cada uno de los valores

diferentes, ellos de por sí serán los grupos con un solo elemento y no hay

motivo para preocuparse por la cantidad de clases, ya que ésta queda bien

establecida. Cabe entonces la pregunta, ¿cuándo formar o no clases de valores

para la confección de la tabla de frecuencias?

La respuesta a esta pregunta está dada por el tipo de dato que se maneja. Si se

retoma el tercer párrafo de la introducción se aprecia que se señaló –“ la

Estadística con sus métodos y técnicas nos suministra las herramientas

capaces de lograr este objetivo, si las mismas son utilizadas adecuadamente

acorde con el tipo de datos que se posee, las condiciones bajo las cuales

fueron obtenidos y algunos supuestos teóricos”. Obsérvese que se puntualiza

que el tipo de datos es uno de los requisitos para el empleo adecuado de una

técnica o procedimiento estadístico.

En el libro de texto no se trata con toda extensión el aspecto del tipo de datos,

por tal motivo se dedican unas líneas a este rubro.

De alguna manera con anterioridad ya se estableció la necesidad de que la

información susceptible a cualquier análisis estadístico se exprese mediante

valores numéricos. Estos valores a su vez constituyen la expresión de la(s)

característica(s) que se considere(n) de interés observar en el estudio o

13

Page 14: Guía Estadística

investigación. Comúnmente esta(s) característica(s) se le(s) conoce(n) con el

nombre de variable(s). Consecuentemente se dice que existen cuatro tipos

de variables o cuatro tipos de datos (numéricos) atendiendo a la escala

mediante la cual se expresan sus valores. Esta clasificación es la siguiente:

Las variables categóricas o nominales son aquellas que mediante sus valores

indican una cualidad. Por ejemplo, el color de los ojos de las personas, la

presencia o ausencia de una cualidad o atributo, la raza de un tipo de animal,

el estado civil de las personas. Esta clase de variable es de tipo cualitativo y su

representación numérica carece de valor para el uso de estadísticos. Variables

de este tipo se dicen que son discretas atendiendo a la cantidad de valores

diferentes que pueden ellas tomar. Más adelante retomaremos esta otra

clasificación que se basa en la cantidad de valores diferentes que pueden

tomar las variables o los datos.

14

Tipos de variables o de datos

Categórico o nominal

Ordinal

De intervalo

De razón

Page 15: Guía Estadística

Las variables ordinales son aquellas que no sólo indican una cualidad, sino

que también establecen un orden. Por ejemplo, el nivel escolar de las

personas, los diferentes estados de salud de un paciente. Una variable del tipo

ordinal es una del tipo nominal que permite establecer un orden entre sus

diferentes valores. Estas variables o datos son también del tipo discreto.

Las variables de intervalo son aquellas cuyos valores expresan no tan sólo un

orden, sino que además se conoce la distancia entre dos valores cualesquiera.

Para este tipo de variable se tiene una unidad de medida común y constante

que asigna un número real. Con este tipo de variable la proporción de dos

intervalos cualesquiera es independiente de la unidad de medida y del punto

cero. En realidad, para las variables de este tipo la unidad de medida y el cero

son arbitrarios. Un ejemplo clásico de este tipo de variable es la medición de

la temperatura. La temperatura puede medirse en una escala de grados

centígrados y en una escala Fahrenheit. Como se conoce

,

lo que permite la transformación de una escala en otra.

Por ejemplo, el congelamiento del agua ocurre a los cero grados centígrados

en la escala de centígrados y la ebullición a los 100 grados. En la escala

Fahrenheit, el congelamiento ocurre a los 32 grados y la ebullición a los 212.

Por otro lado, la razón en la escala centígrados del intervalo entre las

temperaturas 30 – 10 respecto a 10 – 0 es 2. En el caso de la escala Fahrenheit

estas temperaturas son 86 – 50 a 50 – 32, lo cual produce nuevamente 2.

15

Page 16: Guía Estadística

Las variables del tipo de razón son aquellas que además de ser del tipo de

intervalo tienen un punto cero real en su origen. Es decir, el cero representa la

ausencia. Para este tipo de variable la proporción de un valor a otro cualquiera

es independiente de la unidad de medida. Un ejemplo es cuando se mide el

peso en una escala de onzas y en una escala de libras. Estas escalas tienen un

verdadero punto cero, lo cual indica la ausencia de peso. Además, si se mide

el peso de dos objetos en ambas escalas la razón o proporción de los dos pesos

es la misma en ambas escalas. Así, si el objeto 1 pesa 2 libras y el objeto 2

pesa 4 libras, en la escala de onzas da como resultado 32 y 64 onzas

respectivamente. Evidentemente 2/4 = 32/64 = 0.5.

Como ya se anunció antes, otra posible clasificación de las variables o de los

datos puede realizarse atendiendo a la cantidad de valores diferentes que

puedan tomar. Si una variable puede tomar un número infinito de posibles

valores, se dice que la variable es del tipo continuo. En cambio, si la variable

sólo puede tomar un número finito o a lo más infinito numerable de valores

diferentes, entonces se dice que la variable es del tipo discreto. Ejemplos de

variables del tipo discreto son los siguientes: la cantidad de personas que

integran un núcleo familiar, el número de habitantes de una comunidad y la

cantidad de personas que llegan en una hora a un punto de recepción para

solicitar un servicio, Como ejemplos de variables del tipo continuo pueden

mencionarse las siguientes: el peso de una persona, la estatura de un niño de

10 años y el tiempo que dedica un joven a informarse del acontecer nacional e

internacional diariamente.

Las variables del tipo de razón y de intervalo son del tipo continuo. En

contraposición las variables del tipo nominal u ordinal son del tipo discreto.

16

Page 17: Guía Estadística

Volviendo al libro de texto, este comienza por el estudio de las tablas de

frecuencias considerando variables del tipo continuo, bien sean de razón o de

intervalo.

Para iniciar la confección de una tabla de frecuencias es necesario definir

cuántas clases o grupos de valores se considerarán. Con esta definición la

amplitud de cada clase quedará bien determinada. O por el contrario, definir la

extensión de cada clase y así quedaría bien determinado el número de ella.

Como bien se señala en el libro no hay nada definido respecto al número más

adecuado de clases, de forma tal que se logre la mejor reducción del volumen

del conjunto de los datos sin afectar sensiblemente la información relevante

sobre el fenómeno bajo estudio. En el libro de texto se señala que un número

de clases no menor de 6 y no mayor de 15 es adecuado, según la experiencia

práctica. Más recientemente apareció una fórmula que permite determinar el

número de clases. Esta fue propuesta por T.P. Ryan (1989) en su libro titulado

“Statistical Methods por Quality Improvement”, mismo que fue editado por la

editora Wiley. La expresión en cuestión es

,

donde n representa la cantidad de datos del conjunto y ”a” la cantidad de

clases. Es decir, la cantidad de clases “a” debe escogerse de manera tal que la

relación anterior se satisfaga. Por ejemplo, si n = 100, entonces 26 < 100 < 27,

de donde la cantidad de clases sería 7. Como se aprecia, este criterio hace

depender el número de clases de la cantidad de datos que se posean en

contraposición al criterio que se menciona en el libro de texto.

Definitivamente no puede establecerse ninguno de los dos criterios como la

17

Page 18: Guía Estadística

solución absoluta al problema de determinar el número de clases, pero si

puede usarse el criterio dado por Ryan como guía para determinar el número

entre 6 y 15, cuando esto sea factible.

El segundo problema consiste en como considerar los intervalos que definen

las clases. Es recomendable que la amplitud de las clases sea la misma.

Cuando todas las clases son de igual amplitud se suele facilitar el trabajo de

confección de la tabla y el procesamiento posterior de los datos agrupados. No

obstante, hoy en día, con los sistemas estadísticos instrumentados en

computadoras esta ventaja es insignificante. En el epígrafe 2.2 titulado

Distribuciones numéricas, se hace una detallada exposición de este aspecto.

Sólo se considera necesario agregar que en ocasiones puede resultar más

cómodo el uso de la simbología mediante la cual se denotan los intervalos

reales cerrados y abiertos para indicar cada una de las clases. Por ejemplo, si

los datos son expresados hasta con una precisión de las décimas, digamos,

35.6, 45.8, 50.1, ..., las clases pudiesen ser las siguientes:

(30.0 ; 35.0], (35.0 ; 40.0], (40.0 ; 45.0],.... lo cual nos indica que para cada

clase el número del límite inferior del intervalo no pertenece a dicha clase,

sino a la anterior, mientras que el número que indica el extremo superior de la

clase si pertenece a esa clase. En el caso de que los intervalos que representan

las clases sean del tipo [a ; b), entonces el extremo que pertenece a la clase es

en inferior, mientras que el superior pertenece a la siguiente clase.

Como ya el estudiante debe conocer del libro de texto, existen dos tipos

básicos de frecuencias que pueden asociarse a una tabla de frecuencia. A

saber, las frecuencias absolutas, las cuales aquí denotaremos por “n” y las

frecuencias relativas, las que denotaremos por “f”. En una tabla de frecuencia

18

Page 19: Guía Estadística

puede ocurrir que sólo se muestre una de éstas frecuencias o ambas, según

convenga. Asociadas a estas frecuencias, se definen las frecuencias

acumuladas absolutas y las frecuencias acumuladas relativas. Una de estas

últimas o ambas también pueden aparecer señaladas en una misma tabla de

frecuencia. En definitiva, todo dependerá de lo que se desee señalar o resaltar

en la tabla.

Las frecuencias absolutas y las relativas cumplen una serie de propiedades, las

cuales nos permiten, entre otras cosas, chequear si la tabla está bien

confeccionada. Así se tiene que la suma de las frecuencias absolutas de una

tabla de frecuencias es igual a la cantidad de datos del conjunto a partir del

cual se construyó dicha tabla de frecuencias. Por su lado, las frecuencias

relativas satisfacen que su suma es la unidad. Toda frecuencia absoluta es

mayor o igual que cero y menor o igual que “n” (la cantidad total de datos del

conjunto). Toda frecuencia relativa es mayor o igual que cero y menor o igual

que 1. Existe otras propiedades que el estudiante si está interesado puede

consultar el libro “Estadística” editado por la editorial Pueblo y Educación,

año 1987

La representación gráfica de las tablas de frecuencias para datos continuos

más usada es la del histograma de frecuencias, tal y como se detalla en el

libro. En el caso de que se desea representar gráficamente las frecuencias

acumuladas, las gráficas adecuadas son las llamadas “ojivas”.

Cuando se trata de datos del tipo discreto, producidos por variables del tipo

nominal u ordinal, no hay que preocuparse por el número de clases ni la

amplitud de las mismas, ya que cada clase esta determinada por cada uno de

19

Page 20: Guía Estadística

Categoría No. de

estudiantes

No graduados 10,942

Postgraduados 1,844

Profesionales 889

los valores diferentes de la variable. Cuando éste sea el caso y la variable que

se mida sea del tipo nominal no tiene sentido hablar de las frecuencias

acumuladas. En el caso de una variable ordinal si puede tener sentido

considerarse las frecuencias acumuladas.

En el libro de texto para la representación gráfica de las tablas de frecuencias

sólo se menciona la del tipo de un pastel, sin embargo, puede usarse un

gráfico de barras, parecido al histograma. Tomemos el ejemplo clásico

siguiente:

El gráfico de barras correspondiente pudiese ser

20

Page 21: Guía Estadística

Otra forma para este gráfico de barra es

Para toda aplicación de un método o procedimiento estadístico se supone una

colección bien definida de entes o elementos, sobre la cual uno desea conocer

ciertas características, bien sea por la observación de todos los entes que la

componen o sencillamente mediante la observación de una parte de este todo.

La colección o conjunto se denomina población y la parte que pudiese ser

observada recibe el nombre de muestra. Parecería normal pensar que lo más

adecuado es observar todos los entes que componen la población, sin embargo

no siempre esto es factible por un problema de tiempo o de recursos o

sencillamente porque la observación implica la destrucción de los entes

observados y no tendría sentido práctico ni económico este proceder. En

consecuencia, la observación de sólo parte de la población, es decir, la

muestra, tiene sentido. Cuando lo que se observa es la muestra y se concluye

sobre la población el estudio estadístico se dice que es del tipo inferencial o

inductivo, ya que desde una parte se infiere sobre un todo. Los métodos

21

Page 22: Guía Estadística

estadísticos que hacen posible lo señalado antes están dentro del campo de la

inferencia estadística o estadística inductiva. Por otra parte, cuando se tiene

toda la información sobre la población que es objeto de estudio, la inferencia

estadística nada tiene que hacer y en su lugar los métodos descriptivos pasan a

jugar su rol. Incluso, estos últimos pueden emplearse, y de hecho así se hace,

no sólo sobre la información tomada de toda la población, sino también sobre

aquella que produce una muestra. En este caso, la estadística descriptiva sirve

para explorar los datos y de alguna manera corroborar hipótesis o supuestos

teóricos necesarios para la aplicación de los métodos de la inferencia

estadística. Los elementos de una población dependerán de hasta donde se

pretende que abarque el estudio o investigación que se realiza. En ocasiones la

población será muy concreta, sin embargo hay muchas situaciones prácticas

donde la población podemos decir que es hipotética. Cuando nos estamos

refiriendo a una investigación donde se desea estudiar cuál es el tiempo

promedio que actualmente dedican los jóvenes de una comunidad a la

actualización del acontecer nacional e internacional, queda bien establecida

que la población que se estudia es el conjunto de jóvenes de esa comunidad. Si

de esta población sólo se observa una parte, ésta será la muestra. Con los

resultados de la muestra se inferirá entonces respecto al tiempo promedio de

toda la población que se ha considerado. Como se aprecia en este caso la

población es bien concreta y es además de tamaño finito. La misma está

integrada por todos los jóvenes que residen en la comunidad en cuestión. Otro

caso sería considerar una investigación que tiene como interés principal el

estudio de los factores que inciden en la motivación de los jóvenes respecto al

tiempo que dedican a su actualización del acontecer nacional e internacional.

Nótese que estamos hablando de todos los jóvenes que existan y existirán. En

este caso la población se dice que es de tipo hipotético, ya que si bien se

22

Page 23: Guía Estadística

conocen cuáles son sus elementos que la integran, en este caso los jóvenes que

residan o residirán en esa comunidad, no se tienen a todos disponibles en el

momento en que se realice el estudio. Este tipo de población es de tamaño

infinito. Ahora bien, la población que se dispone para realizar el estudio es el

conjunto de jóvenes que en ese momento residen en la comunidad. A este

conjunto algunos denominan población objeto. En ocasiones la población

objetivo y la población objeto coinciden. Por ejemplo, si lo que se desea es

conocer los factores que inciden en la motivación de los jóvenes que residen

actualmente en la comunidad respecto al tiempo que dedican a la actualización

del acontecer nacional e internacional, ambas poblaciones, la población

objetivo y la población objeto coinciden.

Por último, debe destacarse que de la calidad de la muestra depende la calidad

de las inferencias que se obtengan. Para que una inferencia tenga credibilidad

es necesario que la muestra sea representativa de la población, en otras

palabras que la muestra sea una réplica en miniatura de la población objetivo.

Una muestra no representativa de una población sesgará los resultados y con

ello las inferencias. Si del conjunto de alumnos de una escuela seleccionamos

una muestra donde estén aquellos estudiantes más pequeños, sin duda que el

promedio de estatura estará por debajo de la media del grupo, luego si de este

promedio calculado a partir de la muestra inferimos sobre todo el grupo,

obviamente estaremos subestimando la estatura promedio de la población

objetivo.

Ejercicios propuestos

23

Page 24: Guía Estadística

1.-Un sociólogo planifica un estudio en una comunidad. Parte de este estudio

implica la necesidad de realizar entrevistas a un grupo de personas de las

cuales va a obtener información sobre las siguientes variables. Edad, sexo,

ocupación, nivel escolar, ingreso mensual, opinión sobre los servicios de salud

del área y sobre la programación televisiva. Para cada una de las variables

identifique su tipo atendiendo a la escala de medición y atendiendo a la

cantidad de posibles valores que puedan tomar.

2.-Un trabajador social obtiene de su área de acción información sobre el

número de personas que componen cada uno de los núcleos familiares. Los

datos son los siguientes:

1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4

4 4 4 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 8 10

2.1) ¿Qué tipo de datos son éstos atendiendo a su escala de medición?

2.2) ¿Qué tipo de datos son éstos atendiendo a la posible cantidad de valores

diferentes que pueden tomar?

2.3) Construya una tabla de frecuencias, donde aparezcan reflejadas las

frecuencias absolutas, las relativas y las acumuladas de cada una de las

anteriores.

2.4) Represente gráficamente la tabla de frecuencias atendiendo a las

frecuencias absolutas y las relativas, mediante gráficos circulares (de

pastel) y de barras.

2.5) Saque sus conclusiones al respecto a partir de la tabla de frecuencias.

3.- Dada la siguiente tabla de frecuencias, obtenga el conjunto original de

valores de la variable considerada, así como las frecuencias absolutas de cada

una de las clases.

Estado civil Frecuencia relativa

Soltero 0.28

24

Page 25: Guía Estadística

Casado 0.16

Divorciado 0.33

Otro 0.23

4.- Represente gráficamente la tabla de frecuencias del ejercicio 3, mediante

un gráfico de pastel para las frecuencias relativas y uno de barras para las

frecuencias absolutas.

5.- En una investigación que se efectuó para conocer sobre el estado y

conservación de las viviendas, así como, las condiciones de vida de los

habitantes de la zona en estudio, se observaron varias variables. Entre estas

variables se hallaban el estado de la vivienda y el número de metros cuadrados

por ocupante de cada una de las viviendas. Los datos originales fueron:

Para el estado de la vivienda: (B: buen estado; R: estado regular; I:

inhabitable)

B R I B B R R R I I I B I B R I R B B B R I B B I R R R R B B B I I B B B R

R R B B B I R R B B I B.

Metros cuadrados por ocupante:

0.80 6.49 5.45 4.78 3.23 4.39 6.12 2.98 3.98 5.31

0.94 5.90 6.20 1.02 1.86 5.76 6.00 3.03 4.45 5.33

1.60 4.99 5.33 2.10 1.56 4.97 5.66 3.05 4.36 4.66

1.96 5.00 5.45 2.02 3.01 3.97 4.99 2.21 5.39 5.01

25

Page 26: Guía Estadística

1.56 6.30 3.78 3.00 4.06 3.76 3.78 2.08 3.91 4.44

5.1) ¿Qué tipo de variables son éstas, atendiendo a la escala de medición y

respecto a sus posibles valores?

5.2) Confeccione una tabla de frecuencias relativas para la variable estado de

la vivienda y represéntela gráficamente.

5.3) Confeccione una tabla de frecuencias absolutas que contenga 8 clases de

igual amplitud para la otra variable. Represéntela gráficamente.

5.4) En las respuestas de los incisos 1 y 2 intente dar una interpretación a tenor

con los resultados obtenidos.

5.5) A partir de la tabla de frecuencias del inciso 5.2 intente recuperar los

valores originales de la variable área (m2) por habitante de cada vivienda. Si

no logra la recuperación de todos y cada uno de los valores, analice el motivo.

6.-Se recomienda al estudiante que trate de resolver todos los ejercicios del

libro de texto y los ejercicios tipos del libro complementario.

TEMA 2

Si bien en el tema anterior se centró la atención fundamentalmente en la

caracterización gráfica de los conjuntos de datos, en éste y el que viene se

tratará de resumir la información con el cálculo de algunos estadígrafos. En

este segundo tema nos encargaremos de los estadígrafo de posición y en el

próximo de los que indican la variabilidad. En cualquiera de las dos

26

Page 27: Guía Estadística

situaciones, se acostumbra a decir que la caracterización del conjunto de datos

se realiza de forma analítica. Debe aclararse que estas caracterizaciones no se

contradicen, sino al contrario, se complementan.

Dentro de las medidas de posición, las más usadas son las que de alguna

manera intentan darnos una idea del centro de la distribución de frecuencias.

Dentro de éstas, las más populares son la media aritmética (promedio) o

media muestral y la mediana. La mediana es de por si la que señala el valor

central de la distribución del conjunto de datos. La media muestral o

promedio, nos brinda una medida del valor que debe esperarse ocurra, aunque

éste realmente no tiene que ocurrir en ninguno de los datos que se poseen. La

mediana tiene sentido aplicarse cuando la escala de valores de los datos es al

menos del tipo ordinal. La media tiene sentido cuando la escala es al menos

del tipo de intervalo.

Cuando la escala de medición es del tipo nominal o categórico la moda, la

cual indica cuál es la cualidad o atributo más frecuente, es la medida

apropiada para de alguna manera tener una idea sobre la forma de la

distribución del conjunto de datos. No obstante, la moda puede ser calculada

en cualquier tipo de conjuntos de datos.

Las otras medidas de posición, tales como: la media geométrica, la media

armónica y la media ponderada aparecen bien detalladas en el libro de texto,

así como sus posibles aplicaciones, las cuales son algo más limitadas.

Nótese que cuando se dispone de los datos originales, es decir, cuando están

sin agrupar en una tabla de frecuencias absolutas o relativas, las expresiones

27

Page 28: Guía Estadística

para el cálculo toman una forma diferente cuando los datos han sido

previamente agrupados en clases mediante una tabla de frecuencias.

En el caso de datos continuos se destaca que se pierde información respecto al

conjunto original de los datos y en consecuencia el valor numérico que se

obtiene al calcular la media o la mediana, etc. no coincide exactamente con el

valor que resulta de calcular el mismo estadístico pero con los datos sin

agrupar. No obstante, esto hecho no es alarmante. El estudiante debe poner

especial atención a las expresiones para el cálculo de los estadísticos en

cuestión cuando los datos están agrupados o no en tablas de frecuencias.

Vale aclarar que cuando la agrupación se efectúa sobre datos discretos, donde

cada clase está constituida por cada valor diferente de la variable, no hay en

realidad pérdida de información respecto a los valores de la variable del

conjunto original y por lo tanto, los valores de los estadísticos coinciden, estén

o no los datos agrupados.

Ejercicios propuestos

1.- Con relación al ejercicio propuesto número 2 del tema 1, calcule el

estadístico que nos dé una idea sobre el número promedio de personas que

componen cada núcleo familiar. Considere los datos sin agrupar. Interprete los

resultados.

2.- ¿Existirá una composición de núcleo familiar que más se repita? ¿Cuál es

éste? Considérese el mismo ejercicio propuesto 2 del tema 1 y los datos sin

agrupar. Interprete los resultados.

3.- Repita los ejercicios 1 y 2 pero considerando los datos agrupados.

28

Page 29: Guía Estadística

4.- ¿Cuál es el valor mediano del conjunto de los datos a que se refiere el

ejercicio 2 del tema 1? Calcúlese éste considerando los datos sin agrupar y

agrupados. Interprete los resultados.

5.- Tomando la tabla de frecuencias del ejercicio propuesto 3 del tema 1,

aplique usted los estadísticos de posición que entienda oportuno para la

caracterización analítica de dicha distribución de frecuencias. Interprete los

resultados.

6.- Con los datos del ejercicio propuesto 5 del tema 1, calcule la media, la

mediana, la moda, la media geométrica, la media armónica, los cuartiles 1, 2 y

3. Interprete los resultados.

7.- Repita los cálculos indicados en el ejercicio anterior, pero tomando ahora

los datos agrupados obtenidos con la tabla de frecuencias que se elaboró como

una de las respuestas del ejercicio propuesto 5 del tema 1. Interprete los

resultados.

8.- Se recomienda al estudiante que trate de resolver todos los ejercicios del

libro de texto y los ejercicios tipos del libro complementario.

TEMA 3

Este tema se dedica al estudio de otros estadígrafos, los cuales tienen como

objetivo indicar de alguna manera la dispersión del conjunto de los datos. Es

ya conocido por el estudiante, que toda observación sujeta a incertidumbre

presenta una variación en sus valores.

Cuando se utilizan los estadísticos de posición se trata de obtener un patrón

del conjunto de datos del cual se dispone. Cuando se calcula un estadístico de

variación o de dispersión, lo que se intenta es determinar el grado de variación

29

Page 30: Guía Estadística

en torno al patrón. En consecuencia, los estadígrafos de posición y de

dispersión se complementan en el objetivo de caracterizar conjuntos de datos.

Supóngase dos conjuntos de observaciones correspondientes a los ingresos

personales de los pobladores de dos consejos populares dentro de un

municipio. El primero de ellos reporta un ingreso anual personal de 2000

pesos y el segundo de 2500. En principio todo parece indicar que los

pobladores del segundo conjunto tienen un poder adquisitivo superior. Sin

embargo, cuando se calcula un estadístico de variación, resulta que el segundo

conjunto muestra una mayor variación que el primero. ¿Qué significa esto?

Sencillamente que en el segundo conjunto hay personas que tienen un alto

ingreso y por ende un mayor poder adquisitivo. Existirán en este mismo

conjunto pobladores que sus ingresos serán bajos y con ello su poder

adquisitivo. Sin embargo, en el primer conjunto el ingreso personal es más

parecido en todos pobladores, ya que la variación que presentan los datos es

más pequeña. Respecto a la variable que se mide, el primer conjunto es más

homogéneo.

Las medidas de variación que se estudian en este tema son: la amplitud o

recorrido, la desviación media o desviación promedio, la desviación estándar o

desviación típica, la varianza de la población, la varianza muestral, el

coeficiente de variación, la amplitud intercuartílica, la amplitud semi-

intercuartílica y el coeficiente de variación intercuartílico. de todas ellas las

más usadas son: la desviación estándar, la varianza y el coeficiente de

variación.

Nótese que la única diferencia entre la varianza de la población y la de la

muestra consiste en que en la primera se divide por la cantidad de datos del

30

Page 31: Guía Estadística

conjunto y en la segunda por esa misma cantidad menos uno. Este hecho

responde a que en el segundo caso la inferencia que se realiza respecto a la

variación de toda la población, cuando se trata de un problema inferencial,

posee propiedades que la hacen ser más adecuadas. En consecuencia, la

varianza muestral suele ser utilizada también para medir la variación de un

conjunto de observaciones. Es también posible hablar de la desviación

estándar como la raíz cuadrada positiva de la varianza muestral.

El coeficiente de variación es muy útil cuando se trata de comparar la

variación entre dos o más conjuntos de observaciones, ya que de la propia

definición de este estadístico, el resultado numérico es independiente de las

unidad de medida.

Ejercicios propuestos

1. Con relación al ejercicio propuesto número 2 del tema 1, calcule todos

los estadísticos de variación estudiados en este tema. Interprete los

resultados.

2. Repita el ejercicio 1 considerando los datos agrupados.

3. Tomando la tabla de frecuencias del ejercicio propuesto 3 del tema 1,

cree usted oportuno y factible el cálculo de algunos de los estadísticos

de variación. En caso de que su respuesta sea positiva, calcule el

estadístico en cuestión.

4. Con los datos del ejercicio propuesto 5 del tema 1, calcule los

estadísticos de dispersión estudiados de los datos correspondientes a los

metros cuadrados por ocupante de las viviendas. Interprete los

resultados.

31

Page 32: Guía Estadística

5. Repita los cálculos indicados en el ejercicio anterior, pero tomando

ahora los datos agrupados obtenidos con la tabla de frecuencias que se

elaboró como una de las respuestas del ejercicio propuesto 5 del tema 1.

Interprete los resultados.

6. Se recomienda al estudiante que trate de resolver todos los ejercicios del

libro de texto y los ejercicios tipos del libro complementario.

TEMA 4

En este tema, el cual está dedicado a estudiar la asociación entre variables, se

incursiona ligeramente dentro de la estadística inferencial, en lo que respecta a

las tablas de contingencia, las cuales en su completa solución necesitan de las

llamadas pruebas estadísticas de hipótesis. El coeficiente de correlación lineal,

así como, el coeficiente de correlación lineal por rangos, aunque pueden ser

utilizados para corroborar estadísticamente el grado de asociación lineal, los

mismos puede prescindir de la realización de una prueba estadística de

hipótesis, sirviendo sus valores como una mera indicación de la tal asociación.

El problema de las pruebas es tema de otro curso más avanzado.

Ejercicios propuestos

1.- En un estudio sociocultural se está interesado en probar estadísticamente

con un margen de error del 0.05 que las variables nivel cultural y estado civil

son dependientes. A partir de la muestra obtenida se confeccionó la siguiente

tabla de contingencia

32

Page 33: Guía Estadística

soltero casado divorciado

primaria 49 20 32

secundaria 25 33 48

preuniversitaria 15 54 29

universitaria 18 51 11

Realice usted el análisis estadístico pertinente y diga sus conclusiones.

2.- En un consejo popular se ha obtenido una muestra de núcleos familiares en

los cuales se han observado las variables ingreso anual y tiempo de dedicación

promedio de horas por semana que el núcleo dedica a la recreación y

actividades culturales. Los resultados fueron los siguientes:

Núcleos

1 2 3 4 5 6 7 8 9 10

ingre-

so

2.8 3.9 4.9 6.4 5.5 4.8 3.0 7.1 5.6 3.7

tiem-

po

1 2 4 6 5 5 2 6 5 4

(*) El ingreso anual se expresa en miles de pesos.

Analice gráficamente si existe o no una relación lineal entre esas variables.

Indique sus conclusiones.

3.- Investigue analíticamente si existe relación lineal o no entre las variables

del ejercicio 2. Interprete el resultado.

33

Page 34: Guía Estadística

4.- Al conjunto de valores que toman las variables del ejercicio 2, aplique el

coeficiente de correlación basado en los rangos. Interprete el resultado.

5.- Aplique el coeficiente de contingencia al problema 1. Interprete el

resultado.

6.- ¿Es posible calcular el coeficiente de contingencia a los datos del problema

2? En caso de que su respuesta sea positiva, indique cómo hacerlo.

7.- Se recomienda al estudiante que trate de resolver todos los ejercicios del

libro de texto y los ejercicios tipos del libro complementario.

Confeccionado por:

Dr. Carlos Bouza HerreraDpto. Matemática Aplicada.Fac. Matemática y Computación.UH.

34