-
Pg. 1
MDULO DE ESTADSTICA
1. Introduccin y conceptos generales.
La estadstica es una disciplina cientfica dedicada a la realizacin de
inferencias vlidas a partir de datos experimentales u observacionales. El estudio de la
variabilidad, incluyendo la construccin de diseos muestrales y experimentales, y la
creacin de modelos que describen la variabilidad es lo que caracteriza a las actividades
de investigacin en el campo de la estadstica. Un principio bsico es que: todas las mediciones estn sujetas a variabilidad. Ms especficamente la estadstica est ligada al mtodo cientfico en la toma, organizacin, recopilacin, presentacin y anlisis de
datos, tanto para la deduccin de conclusiones como para la toma de decisiones
razonables de acuerdo con tales anlisis.
Se llama poblacin al conjunto de mediciones posibles de obtener de una caracterstica del conjunto de individuos o elementos bajo estudio o experimentacin.
El proceso de medir una o ms caractersticas de todos los componentes de
la poblacin claramente definida recibe el nombre de censo. Las caractersticas globales de una poblacin (generalmente desconocida o no observable), reciben el nombre de
parmetros.
Una muestra corresponde a los datos que realmente son recolectados en el transcurso de una investigacin, es un subconjunto de las observaciones que componen
la poblacin. Parte de la informacin que contiene la muestra respecto de los
parmetros se expresa mediante valores numricos calculados a partir de sta, llamados
estadgrafos o estadsticos. Cuando cada elemento de la poblacin tiene la misma posibilidad de ser elegido en la muestra, o ms precisamente, cuando todas las
muestras posibles de tamao n sean igualmente probables de ser elegidas, hablaremos
de muestras aleatorias simples o de muestreo al azar. El estudio de los mtodos de muestreo junto con la formulacin de esquemas o modelos matemticos para un
experimento, y los problemas que tales mtodos implican, estn comprendidos en la
rama de la estadstica llamada Diseo Muestral y Experimental.
Si una muestra es representativa de una poblacin, se pueden deducir
importantes conclusiones acerca de la poblacin a partir del anlisis de la muestra, pero
al no poder estar absolutamente seguro de la veracidad de tales generalizaciones, se
debe utilizar ciertos niveles de confianza o posibilidades de error, expresados en
porcentajes o en trmino de probabilidades. La parte de la estadstica que trata de las
condiciones bajo las cuales tales inferencias son vlidas se llama Estadstica Inductiva o
Estadstica Inferencial.
-
Pg. 2
2. Estadstica Descriptiva.
La parte de la Estadstica que trata solamente de describir y analizar un
grupo de datos, sin sacar conclusiones o inferencias de un grupo mayor, se llama
Estadstica Descriptiva o Estadstica Deductiva, por ende la Estadstica Descriptiva incluye las tcnicas que se relacionan con el resumen, la descripcin y presentacin de
datos.
Los aspectos principales que es necesarios tener en cuenta en la descripcin
de un conjunto de datos son:
a) El resumen y descripcin del patrn global de los datos mediante la presentacin de
tablas y grficos; el examen de la forma global de los datos graficados, para visualizar
caractersticas importantes como simetras o divergencias y buscar en el grfico
observaciones inusuales o atpicas.
b) El clculo de algunas caractersticas numricas (estadsticos) como por ejemplo un
valor representativo o tpico que indique el centro de los datos, la cantidad de variacin
o dispersin presente en los datos, grado de asimetra, etctera.
Las caractersticas medidas a cada elemento de una muestra son
representadas a travs de smbolos (generalmente una letra), los cuales reciben el
nombre de variables o variables aleatorias. Una variable cuantitativa es aquella que puede tomar un valor cualquiera en un cierto conjunto numrico llamado codominio de
la variable. Una variable cuantitativa que tericamente puede asumir cualquier valor
en un intervalo de nmeros reales se llama variable continua, en caso contrario, si la variable puede asumir algunos valores, generalmente slo valores enteros, se llama
variable discreta.
Las observaciones o datos que son representados por una variable discreta o
continua se llaman datos discretos o continuos respectivamente. En general las
mediciones dan origen a datos continuos, mientras que las enumeraciones o conteos
originan datos discretos. En los datos continuos siempre existe la llamada unidad de precisin del instrumento utilizado, y se debe tener en cuenta que el ltimo decimal de los datos se encuentra aproximado, as por ejemplo, si se registra una altura de un rbol
como 5.4 metros significa que la altura verdadera se encuentra entre 5.35 y 5.45 metros.
Consecuente con esto, debe siempre aplicarse en los clculos la regla clsica de
aproximacin.
Tambin existen las llamadas variables cualitativas (ordinales y nominales) que son aquellas que asumen valores no numricos, permitiendo clasificar a los
elementos observados. Generalmente es posible sustituir tales variables por una
-
Pg. 3
cuantitativa discreta codificando los valores no numricos, pero se debe tener presente
que no tiene la misma interpretacin que una variable de este tipo.
Nominales Ordinales
Cualitativas
Discretas Continuas
Cuantitativas
Variables
3. Distribucin de frecuencias.
Cuando tenemos un registro de datos tal cual fueron obtenidos, sin ninguna
ordenacin o clasificacin, diremos que se tiene datos no agrupados. Cuando se dispone de un gran nmero n de datos, es til distribuirlos en clases o categoras, que se definen subdividiendo excluyentemente el recorrido de la variable, y determinar el
nmero de observaciones perteneciente a cada clase, es decir, determinar la llamada
frecuencia absoluta de cada clase. Una ordenacin tabular de este tipo se conoce con el nombre de tabla de distribucin de frecuencias, y por lo tanto, en tal caso, diremos que se tienen datos agrupados. Esta tabulacin permite conocer como estn distribuidos los datos, es decir, como vara la concentracin o densidad de los datos en el recorrido de la
variable, teniendo con ello un conocimiento del comportamiento de la variable bajo
estudio.
En una tabla de frecuencia se distinguen los intervalos de clase,
caracterizados por su lmite inferior (Ii) y el lmite superior (Si) que definen una cierta categora o clase. Cuando se trabaja con variables continuas, es posible distinguir
adems los llamados lmites reales o fronteras de clases (Li), que corresponden a los lmites (aparentes) inferiores y superiores menos o ms media unidad de precisin u,
respectivamente. Adems de la frecuencia absoluta (ni) se puede determinar la llamada
frecuencia relativa (fi = ni/n), frecuencia porcentual (fi% = 100fi), frecuencia acumulada absoluta (Ni = Ni-1 + ni, N0 = 0), acumulada relativa (Fi = Ni/n) y acumulada porcentual (Fi% = 100Fi).
-
Pg. 4
Una metodologa que es posible aplicar en la construccin de una tabla de
distribucin de frecuencia, para una variable continua, a partir de datos no agrupados
incluye los siguientes pasos:
1.- Encontrar el valor mnimo xmin y el valor mximo xmx y calcular el rango R = xmx - xmin. Y establecer la unidad de precisin u de los datos registrados.
2.- Elegir el nmero k de intervalos de clases de igual longitud que cubre el recorrido de los datos. El nmero de intervalos de clase debe verificar que 5 k 15. Tambin se
puede determinar a partir del tamao de la muestra utilizando la regla k = 1 +
3.3*log(n).
3.- Determinar la amplitud a = R/k de las clases, que debe tener la misma precisin de los datos, es decir, la misma cantidad de decimales que los datos.
4.- Verificar que efectivamente se cubre el recorrido de todas las observaciones
calculando el excedente E = k*a - R - u. El excedente debe ser no negativo, en caso
contrario, la amplitud debe ser aumentada en una unidad de precisin y recalculado el
excedente. (Estos ltimos valores corregidos son los que se utilizan en los clculos
posteriores).
5.- Calcular el primer lmite inferior I1 = xmin - E/2, el cual debe tener la misma precisin de los datos.
6.- Calcular los lmites inferiores siguientes, sumndole la amplitud al lmite inferior
anterior, (Ii = Ii-1 + a).
Fk = Nk/n Nk = n1 +...+ nk fk% = fk*100 fk = nk/n nk Xk Lk-1, Lk
... ... ... ... ... ... ...
Fi = Ni/n Ni = n1 +...+ ni fi% = fi*100 fi = ni/n ni Xi Li-1, Li
... ... ... ... ... ... ...
F1 = N1/n N1 = n1 f1% = f1*100 f1 = n1/n n1 X1 L0, L1
Frecuencia Acumulada Relativa
Frecuencia Acumulada Absoluta
Frecuencia Porcentual
Frecuencia Relativa
Frecuencia Absoluta
Marca de
Clase
Intervalos
-
Pg. 5
7.- Calcular el primer lmite superior restando una unidad de precisin al lmite inferior
de la clase siguiente (S1 = I2 - u)
8.- Calcular los lmites superiores siguientes sumndole la amplitud al lmite superior
anterior, (Si = Si-1 + a).
9.- Contar el nmero de observaciones en los datos que pertenecen a cada intervalos de
clase, para obtener la frecuencia absoluta de cada clase (ni).
10.- Determinar los otros tipos de frecuencias, los lmites reales o fronteras de clase (Li-1
= Ii - u/2 Li = Si + u/2) y las marcas de clase (xi = (Li-1 + Li)/2), si se necesitan.
Ejemplo:
Puntaje Lenguaje Simce 2005 - 4 Bsico - Los ngeles
Establecimientos PorcentajePorcentaje
Acumulado
175 184 2 2,6% 2,6%
185 194 2 2,6% 5,3%
195 204 5 6,6% 11,8%
205 214 8 10,5% 22,4%
215 224 5 6,6% 28,9%
225 234 12 15,8% 44,7%
235 244 9 11,8% 56,6%
245 254 10 13,2% 69,7%
255 264 7 9,2% 78,9%
265 274 5 6,6% 85,5%
275 284 5 6,6% 92,1%
285 294 3 3,9% 96,1%
295 304 2 2,6% 98,7%
305 314 1 1,3% 100,0%
Puntajes
Las frecuencias (no acumuladas) pueden ser representada grficamente
mediante un histograma (grfico de barra) o un polgono de frecuencia y las frecuencias acumuladas mediante una ojiva. Tambin es posible utilizar esta tabla de distribucin de frecuencias para calcular los estadsticos que sean de inters.
-
Pg. 6
El histograma es un grfico de columnas, donde cada barra representa la frecuencia de cada clase, cuyas bases estn definidas por las fronteras o lmites reales de
las clases y su altura est dada por la correspondiente frecuencia (absoluta, relativa o
porcentual).
Ejemplo:
Simce 2005 - 4 Bsico - Los ngeles
Lenguaje
310,0
300,0
290,0
280,0
270,0
260,0
250,0
240,0
230,0
220,0
210,0
200,0
190,0
180,0
Lenguaje
Frecuencia
14
12
10
8
6
4
2
0
Desv. tp. = 29,64
Media = 239,9
N = 76,00
El polgono de frecuencias es un grfico de lneas, donde se unen mediante un segmento rectilneo cada uno de los puntos adyacentes definidos por las marcas de
clases y su correspondiente frecuencia, en cualquiera de las escalas (absoluta, relativa o
porcentual). El grfico se completa considerando marcas de clases adicionales en los
extremos con frecuencia nula. Es til para comparar datos provenientes de dos o ms
poblaciones.
Ejemplo:
-
Pg. 7
Simce 2005 - 4 Bsico - Los ngeles
0
5
10
15
20
25
165 185 205 225 245 265 285 305 325 345
Puntaje
Nmero de Establecimientos
Lenguaje Matemtica Comprensin
La ojiva es un grfico de lneas donde cada uno de los puntos adyacentes que se unen mediante un segmento rectilneo, estn definidos por las fronteras
superiores y su correspondiente frecuencia acumulada en cualquiera de las escalas. El
grfico se completa considerando la primera frontera inferior con frecuencia acumulada
nula. La ojiva permite estimar grficamente los distintos percentiles de una
distribucin de datos continuos.
Ejemplo:
Simce 2005 - 4 Bsico - Los ngeles
0,0%
20,0%
40,0%
60,0%
80,0%
100,0%
175 185 195 205 215 225 235 245 255 265 275 285 295 305 315
Puntaje en Lenguaje
Porcentaje Acumulado
-
Pg. 8
Nmero Simce de alumnos por establecimiento 2005 4 Bsico Los ngeles
Frecuencia Tallo&Hoja
32 0 . 00000000000000000001111111111111
19 0 . 2222222222333333333
11 0 . 44444445555
12 0 . 666666677777
3 0 . 889
4 1 . 0011
1 Extremes (>=177)
Stem width: 100
Each leaf: 1 case(s)
Otra forma de tabular u ordenar los datos no agrupados es mediante un
diagrama de tallo y hoja en el cual se definen categoras, denominados tallos, considerando el o los primeros dgitos de los datos y luego se utiliza el siguiente dgito,
las hojas, para clasificar cada dato en su correspondiente tallo. Se recomienda que el
nmero de tallos est entre 5 y 15, si es necesario se pueden dividir un tallo en dos,
clasificando en la primera mitad las hojas 0, 1, 2, 3, 4 y en la siguiente mitad las hojas 5,
6, 7, 8 y 9. Tambin es posible fusionar dos tallos adyacentes a objeto de reducir el
nmero total de tallos. Para la construccin de este tipo de diagrama las hojas se
ordenan ascendentemente dentro de cada tallo y finalmente se calcula la profundidad
de cada tallo, que corresponde a la frecuencia acumulada absoluta ascendente en la
primera mitad y a la frecuencia acumulada absoluta descendente en la segunda mitad.
Si existe una nica clase central la profundidad de sta corresponde a su frecuencia
absoluta.
Ejemplo:
Tambin dentro de otras forma de representacin grfica se utiliza el
llamado box-plot o grfico de caja, que es un grfico que se construye a escala que indica mediante un rectngulo el cincuenta por ciento central de los datos, es decir, este
rectngulo queda limitado por el primer y tercer cuartil de los datos. La caja o
rectngulo se subdivide en la localizacin de la mediana y se agregan segmentos
rectilneos en los extremos, llamados bigotes, que se extienden hasta L1 = mx{xmin, Q1 -
1.5RQ} en el lmite inferior, y hasta L2 = min{xmx, Q3 + 1.5RQ} en el lmite superior. Si
existen datos inferiores a L1 o mayores a L2 se indican mediante puntos y se consideran
datos atpicos o anmalos. Tambin se puede indicar mediante un asterisco la
-
Pg. 9
ubicacin del valor del promedio. Este tipo de grfico permite adems detectar niveles
de dispersin y asimetra, y son de gran utilidad para comparar grficamente grupo de
datos provenientes de distintas poblaciones.
Ejemplo:
Simce 2005 4 Bsico Los ngeles
3716136 11623N =
Grupo
EDCBA
Matemtica
340
320
300
280
260
240
220
200
180
160
Ruralidad
R
U
40