estruct

Objetivos de aprendizaje

Estructura del módulo

Estadísticas y datos

Descripción de los datos

Recopilación de datos

Población y muestras

Inferencia

Explicación y predicción

Bienvenido al Módulo 1. En este módulo se inicia la revisión de la estadística, o al menos la

estadística que es pertinente a la evaluación de la educación. Este módulo le permitirá

comprender ciertos conceptos preliminares importantes, necesarios para iniciar el estudio de la estadística.

Objetivos de aprendizaje:

Al término de este módulo, usted …

Comprenderá mejor lo que es la estadística; Comprenderá mejor conceptos clave tales como: datos, inferencia, población y muestra; Distinguirá las principales funciones de la estadística, esto es, descripción, explicación y

predicción.

Estructura del modulo

2.1 Estadística y datos

2.2 Descripción

2.3 Recopilación de datos

2.4 Poblaciones y muestras

2.5 Inferencia

2.6 Explicación y predicción

Estadísticas y datos

A qué nos referimos con los términos estadística y datos? En nuestra era

inundada de información, la palabra ‘estadística’ ha llegado a ser casi sinónimo del término

‘datos’; no sólo datos sin elaborar y desorganizados, sino datos significativos que proporcionan

información acerca de aspectos pertinentes para nuestras sociedades. Para el ciudadano

promedio, los medios de comunicación le proporcionan la mayor parte de esta ‘información

estadística’, entre la que se incluyen ‘estadísticas económicas’, tales como tasas de inflación;

‘estadísticas políticas’, habitualmente en la forma de encuestas de opinión; ‘estadísticas

policiales’, tales como tasas anuales de delincuencia, etc. Aunque con limitaciones, esta concepción racional de la estadística es, hasta cierto punto, correcta.

En términos técnicos, “la disciplina de la estadística trata de los principios y

procedimientos para recopilar, describir y sacar conclusiones de los datos” (Freund y Wilson,

1997: 1). La Asociación Estadística de los Estados Unidos afirma que la estadística es “la ciencia

de aprender de los datos”. En efecto, la estadística nos permite: (1) recopilar datos

(proporcionando un conjunto de métodos y reglas para obtener los datos en forma adecuada);

(2) describir los datos en forma directa sobre la base de una población o en forma indirecta a

través del uso de una muestra; (3) apoyar o rechazar explicaciones acerca de la forma en que

diferentes elementos del mundo real se relacionan entre sí; y (4) tratar de predecir sucesos

futuros basándonos en los sucesos del pasado. En este curso trataremos principalmente el tema de la descripción.

Los datos son la materia esencial de la estadística. Lo que llamamos datos son cualquier

información empírica acerca de algún aspecto del mundo real en el cual estamos interesados.

En un lenguaje más técnico, un conjunto de datos “es una colección de valores observados que

representan una o más características de algunos objetos o unidades” (Freund y Wilson, 1997: 1).

Cuadro 1. Características de tres maestros de escuela secundaria.

Maestro Experiencia

(años) Calificaciones Método de

enseñanza Salario mensual

(US$)

Ali 5 Educación

terciaria B 300

María 36 Educación

secundaria A 550

Lee 22 Educación

terciaria C

450

En los datos proporcionados por el cuadro, ¿puede usted identificar cuáles son:

(a) unidades, (b) características, (c) observaciones y (d) valores? Piense

independientemente y escriba sus respuestas antes de continuar. Las respuestas

correctas se ofrecen a continuación.

a. Las “unidades de análisis” son en este caso los “profesores” o, más exactamente, los

“profesores de escuelas secundarias de la India”. Las unidades de análisis son aquellas

cosas (objetos o sujetos) sobre los cuales estamos principalmente interesados en

obtener información.

b. Cuando hablamos de “características” nos referimos a las características de las unidades

de análisis. Así, las características nos proveen de información acerca de las unidades de

análisis o, en el ejemplo, los profesores secundarios en India. En otras palabras, las

características son “características” de los “profesores secundarios en India”. El cuadro

nos provee de información respecto de cuatro características de los profesores: (i)

‘experiencia’ medida en años de ejercicio de la profesión docente; (ii) ‘calificaciones’

medidas por el nivel de educación de cada profesor; (iii) ‘método de enseñanza’ medido

por el tipo de método (A, B o C) usado por cada profesor; y (iv) ‘salario mensual’

medido en dólares. c. Las observaciones son ‘Ali,’ ‘María’ y ‘Lee.’ Las observaciones son las unidades de

análisis (maestros de escuelas secundarias) ‘observadas’ en el mundo real. Estamos

interesados en comprender a los ‘profesores de educación secundaria de la India’ como

categoría general, pero ello sólo podemos realizarlo a través de la observación de

profesores concretos, de carne y hueso (Ali, María y Lee), quienes poseen características

concretas y variadas. Desde la perspectiva de la estadística no son las observaciones

sobre las unidades individuales (‘Ali,’ ‘María’ o ‘Lee) las que son de interés, sino el

‘comportamiento agregado’, es decir, lo que en estadísticas se llama la ‘distribución’ de

las observaciones. d. Finalmente, los ‘valores’ son los resultados concretos obtenidos de las ‘mediciones’ de

cada una de las observaciones respecto de cada una de las características relevantes. En

otras palabras, obtenemos un valor cada vez que medimos las características de un

objeto o sujeto. Por ejemplo, en términos de ‘experiencia’ (una de las características de

los maestros que estamos interesados en medir), Ali tiene un valor observado de ‘5’,

María un valor de ‘36’ y Lee un valor de ‘22’; mientras que en términos de

‘calificaciones’, Ali tiene un valor observado de ‘educación terciaria’, etc. Finalmente,

para medir necesitamos lo que en estadísticas se llaman escalas de medición (explicadas

más adelante) y unidades de medición adecuadas, tales como dólares, metros, tipos de métodos de enseñanza, etc).

Descripción de los datos

Una función principal de la estadística es la descripción de datos. El proceso consta de al

menos tres pasos: recopilación, organización y análisis (o interpretación) de los datos.

1. Se deben recopilar los datos según estrictos procedimientos que minimicen la

probabilidad de error, de modo que los datos recopilados realmente representen

lo que se desea describir. 2. Los datos deben estar organizados de modo que permitan su análisis y

comparación. Los estadísticos organizan los datos en lo que denominan

‘distribuciones’ o ‘distribuciones de frecuencias’ (un tema que trataremos más

adelante). 3. Los datos, organizados en forma de distribuciones, deben ser analizados.

Para describir una distribución se requiere usar al menos dos tipos de indicadores:

medidas de tendencia central (por lo general, la ‘media’ o promedio) y medidas

de dispersión (por lo general, la desviación estándar); estos indicadores también se tratarán en la parte III de esta guía.

¿ Puede identificar un artículo, proyecto de investigación o documento relacionado

con su trabajo en que se hayan seguido estas pautas generales para describir los

datos?

Recopilación de datos

Los datos necesitan ser primero recopilados antes de poder ser interpretados y

transformados en información útil, sobre cuya base tomar decisiones. La manera en que

este procedimiento de recopilación de datos se lleva a cabo es clave para determinar el

posterior valor de cualquier descripción, explicación y predicción que se realice con dichos

datos. Como consumidor de información, usted no debería olvidar jamás que el modo en

que los datos son recolectados es siempre crítico para su valor posterior como información.

Es así de simple: si la base del análisis es basura, el resultado del análisis, no importa cuán

sofisticado, también será basura. Si utilizare, sin advertirlo, datos recogidos con

procedimientos inadecuados, entonces sus conclusiones y decisiones basadas en el análisis de dichos datos serán igualmente inadecuadas.

Desafortunadamente, cuando consumimos información no siempre (y de hecho

casi nunca) tenemos acceso a los métodos utilizados para recoger los datos. Este es un

problema serio, incluso para profesionales de la estadística. Pero esta no es la única “mina”

que usted encontrará en el peligroso campo de la interpretación y uso de información

estadística. Lamentablemente, la manipulación de la información (o ‘estatistipulación’ como

la llama Darrel Huff, 1954, p.100), a pesar de ser tremendamente dañina, es práctica

común y, a veces, extremadamente sofisticada.

Poblaciones y muestras

Una distinción crucial en la estadística descriptiva es aquella entre la descripción

propiamente tal y la inferencia. Esta distinción descansa en los conceptos de “población” y “muestra”.

Una población consta del universo de todos los objetos (o sujetos) que nos interesa

describir. Una muestra, como el nombre lo indica, consta sólo de una porción de la

población de interés.

El siguiente ejemplo ilustra los conceptos de población y muestra. Supongamos que nos

interesa averiguar qué (distribución de) métodos de enseñanza utilizan los maestros

primarios de India. Es decir, deseamos obtener una descripción de la distribución de los

métodos de enseñanza en las escuelas primarias de India. En este caso, ¿cuál es nuestra

población de interés? Nos interesa conocer una de entre las muchas características de (todos) los maestros primarios de India: sus métodos de enseñanza.

¿ Cómo podemos obtener la información que buscamos acerca de nuestra

población de interés? En realidad, tenemos dos opciones mutuamente excluyentes.

Opción 1: ‘Observar’ a todos los maestros de escuelas primarias de India y así obtener

los datos acerca de los métodos de enseñanza que utilizan. Opción 2: ‘Observar’ sólo una

porción (relativamente pequeña) de los maestros primarios de India y luego ‘inferir’ de

los métodos de enseñanza de estos, los métodos de enseñanza utilizados por todos los

maestros primarios de India. En la jerga estadística, la opción 1 se denomina realizar un ‘censo’, mientras que la opción 2 consiste en llevar a cabo un ‘muestreo’.

Así, se podría realizar un censo de toda la población de maestros primarios, o bien inferir

información acerca de la población mediante los datos obtenidos sobre la base de una

pequeña porción de los maestros, es decir, sobre la base de una muestra. Para efectuar

un censo de toda la población sería necesario consultar u observar directamente a cada

maestro en la India, es decir, ‘observar’ aproximadamente 2 millones de maestros. Esto

significaría un esfuerzo en extremo costoso. Un censo sería además muy poco eficaz,

dado que la alternativa, es decir, llevar a cabo un muestreo utilizando las técnicas

estadísticas adecuadas, nos proveería normalmente de información bastante confiable y

precisa sobre dicha población a un costo muchísimo menor que el de un censo. Es por

esto que los profesionales de la estadística prefieren normalmente el método de

muestreo por sobre los censos. Volviendo a nuestro ejemplo sobre la India, no es

necesario consultar a cada maestro primario en India para describir los métodos de

enseñanza que ellos utilizan. Dichos métodos se pueden inferir sobre la base de la

observación de sólo unos cuantos cientos de maestros primarios y luego ‘aplicar’ las conclusiones a toda la población.

Trate de identificar ejemplos de datos recopilados mediante un censo y mediante

muestreo que sean pertinentes a (o que usted utilice frecuentemente) en su trabajo.

Inferencia

Utilizamos una muestra (o múltiples muestras) para recopilar datos cuando resulta

relativamente efectivo desde un punto de vista económico o cuando no es posible

acceder a toda la población. En este caso, las características de la población se infieren

sobre la base de los datos obtenidos en la muestra. En otras palabras, lo que aprendemos sobre la base de la muestra se usa como medio para describir la población.

Para los reformadores de la educación, la inferencia es un área fundamental de la

disciplina de la estadística, ya que, como se decía antes, normalmente los profesionales

favorecen el uso del muestreo antes que del censo para describir y analizar realidades

sociales complejas. De hecho, buena parte de la información sobre educación que usted

utiliza como autoridad responsable se obtiene mediante la técnica del muestreo,

incluyendo prácticamente la totalidad de la investigación sobre educación llevada a cabo

por una variedad de científicos sociales, incluidos sociólogos, economistas, politólogos, educadores, psicólogos, etc.

El mayor desafío del muestreo consiste en lograr un grado razonable de “confianza” (o

probabilidad) en que las inferencias realizadas acerca de la población sobre la base de la

muestra sean adecuadas. Para tener “confianza” en que una inferencia realizada sobre la

base de una muestra representa adecuadamente a la población, la muestra se debe

seleccionar y luego interpretar siguiendo determinados procedimientos estadísticos

estrictos que aseguren un grado de mínimo de certeza. En otras palabras, se deben

recopilar y analizar los datos de la muestra utilizando métodos que permitan inferir con

precisión (o con una probabilidad mínima de error) las características de la población sobre la base de esa muestra.

La precisión de la inferencia depende, entre otros factores, del tamaño de la muestra.

Esta relación, sin embargo, no es obvia, es decir, la mejor muestra no es la que contiene

un mayor número de observaciones. A medida que la muestra aumenta de tamaño, el

costo de recopilar y analizar la información también aumenta. Hasta cierto punto,

podríamos ganar en precisión, pero pagar demasiado caro por ella. Además, después de

determinado punto, el costo de cada observación se eleva vertiginosamente con

respecto a lo que se gana en precisión, que se vuelve poco o nada. Lo que hacen los

estadísticos es determinar el ‘grado de precisión’ que desean para obtener para sus

inferencias (esto es, determinar la probabilidad de error que están dispuestos a tolerar)

y luego emplear procedimientos técnicos para calcular el tamaño de la muestra que

necesitan para lograr dicho objetivo. Se puede lograr un grado de precisión

razonablemente alto mediante muestras relativamente pequeñas. Consideremos, por

ejemplo, que el tamaño de las encuestas de opinión de Estados Unidos utilizadas para

predecir el resultado de las elecciones presidenciales nacionales con una exactitud

razonable es de poco más de 1.000 observaciones, para una población en edad de votar cercana a los 200 millones de personas!

Es importante mantener una permanente actitud de escepticismo frente a la información

estadística recibida. Como consumidor de información estadística, usted al menos

necesita estar al tanto de la importancia que el método de selección de una muestra

tiene sobre el valor de la información. Es necesario preguntarse, a lo menos, si dicha

información fue producida sobre la base de una muestra adecuada (normalmente se

tratará de una ‘muestra aleatoria,’ es decir, una muestra en la cual todos los objetos de

una población tienen una idéntica probabilidad de ser seleccionados como parte de la muestra) que es de hecho representativa de la población de interés.

Por ejemplo, en 1936, en los Estados Unidos, una publicación de amplia circulación

predijo que el demócrata Franklin Delano Roosevelt sería derrotado en la elección

presidencial por su oponente republicano. Roosevelt ganó la elección por un amplísimo

margen. El error en la predicción de la publicación fue resultado del simple hecho de que

la encuesta de opinión se había llevado a cabo por teléfono. En aquellos tiempos, sólo

las personas de dinero poseían un teléfono en sus hogares, por lo que la muestra no era

representativa del conjunto de los electores y en cambio estaba “sesgada” a favor del candidato republicano.

Por razones de tiempo y espacio, a pesar de la enorme influencia que los métodos de

inferencia y muestreo utilizados tienen sobre el valor de la información obtenida, estos

temas no son tratados con suficiente profundidad en esta guía. Para aquellos que tengan

un interés en estudiar en mayor detalle estos importantes temas, Phillips (1996,

capítulos 7 y 8) provee una muy accesible introducción a la inferencia estadística.

Explicación y predicción

Como reformador de la educación, usted no sólo está interesado en la descripción, sino

también, y principalmente, en la relación entre diferentes ‘objetos’ (o ‘variables,’ en la

jerga estadística). Usted quisiera saber qué explica o qué causa la realidad educativa de

su país. También desearía poder, en alguna medida, predecir las consecuencias

concretas de las diferentes opciones de reforma educativa. Por ejemplo, si desea

aumentar la matrícula de las niñas en zonas rurales, le gustaría saber qué elementos o

acciones tendrán un efecto positivo en aumentar la matrícula de las niñas. ¿Construir

escuelas más cerca de sus casas? ¿Contratar más maestras del sexo femenino? ¿Reducir

las tasas de delincuencia? La estadística constituye una fuente crucial de apoyo para

identificar estos elementos.

Los profesionales de la estadística miden lo que denominan “correlación” para

determinar la fuerza de la relación entre dos elementos, como el número de maestras

mujeres en la escuela y la proporción de niñas matriculadas en zonas rurales, etc. Otra

herramienta usada en forma generalizada para medir las relaciones entre variables es el

análisis de regresión. El objetivo del análisis de regresión no sólo es medir la fuerza de

una relación, sino también generar un modelo de esa relación (llamado “función”), de

modo de poder predecir el comportamiento de una cosa basándose en el

comportamiento de la otra. Por ejemplo, se usa la regresión para tratar de predecir la

oferta de maestros sobre la base del pago que ellos reciben. Esta regresión o relación

específica entre salario y oferta de trabajo se usa de manera generalizada en economía y

se denomina “curva de oferta de trabajo”. (En general, la relación entre el precio de un

bien y la cantidad ofrecida y demandad es central en economía y estudiada bajo el título de análisis de oferta y demanda.)

Es necesario ser siempre muy cautelosos en nuestras conclusiones respecto de

explicaciones y predicciones estadísticas. En el mejor de los casos, la estadística puede

establecer lo que los especialistas llaman una “correlación” entre diferentes elementos

(“variables”), es decir, establecer que los elementos que se están midiendo se

comportan como si estuvieran correlacionados. Por cierto, también puede establecer que

no hay ninguna relación entre los objetos estudiados. Pero la estadística no puede

establecer causalidad. En otras palabras, no se puede inferir causalidad sobre la base de una correlación.

Por ejemplo, si en un país se mediera la relación entre las habilidades aritméticas de los

estudiantes primarios y sus estaturas, se concluiría que existe una correlación positiva

entre habilidades y estatura, o sea, que mientras mayor es la altura del estudiante,

mayores son sus habilidades aritméticas. Ahora, obviamente afirmar que las habilidades

aritméticas de un individuo son consecuencia de su estatura no tiene sentido. Lo que

ocurre en este caso es que existe un tercer factor que es la causa simultánea del

aumento de las habilidades aritméticas de los estudiantes y del aumento en su estatura,

este factor es la ‘edad’ de los estudiantes. De modo que no es que los estudiantes más

altos sean mejores para la aritmética, sino que los estudiantes de más edad son más

altos y al mismo tiempo tienen mayores habilidades aritméticas.

Debemos ser muy cuidadosos. La presencia de causalidad sólo podrá sostenerse en

forma razonable luego de haber propuesto una teoría aceptable para explicar la relación

meramente fáctica entre los elementos o ‘variables’. En términos estrictos, aun cuando

se haya propuesto una teoría aceptable para explicar una relación que también parece

estar respaldada por los hechos, ésta será siempre una “hipótesis” en espera de ser, tarde o temprano, rebatida.

Una hipótesis es una afirmación acerca de la relación empírica existente entre dos

variables. Una hipótesis no podrá nunca ser definitivamente comprobada, ya que incluso

cuando los hechos del mundo real nunca han contradicho dicha hipótesis, siempre existe

la posibilidad de que ello ocurra en el futuro. La estadística sólo puede apoyar o rechazar

una determinada hipótesis acerca de las relaciones entre los objetos que nos interesan,

pero nunca probarla.

estruct

Technology