Transcript
  • Pg. 1

    MDULO DE ESTADSTICA

    1. Introduccin y conceptos generales.

    La estadstica es una disciplina cientfica dedicada a la realizacin de

    inferencias vlidas a partir de datos experimentales u observacionales. El estudio de la

    variabilidad, incluyendo la construccin de diseos muestrales y experimentales, y la

    creacin de modelos que describen la variabilidad es lo que caracteriza a las actividades

    de investigacin en el campo de la estadstica. Un principio bsico es que: todas las mediciones estn sujetas a variabilidad. Ms especficamente la estadstica est ligada al mtodo cientfico en la toma, organizacin, recopilacin, presentacin y anlisis de

    datos, tanto para la deduccin de conclusiones como para la toma de decisiones

    razonables de acuerdo con tales anlisis.

    Se llama poblacin al conjunto de mediciones posibles de obtener de una caracterstica del conjunto de individuos o elementos bajo estudio o experimentacin.

    El proceso de medir una o ms caractersticas de todos los componentes de

    la poblacin claramente definida recibe el nombre de censo. Las caractersticas globales de una poblacin (generalmente desconocida o no observable), reciben el nombre de

    parmetros.

    Una muestra corresponde a los datos que realmente son recolectados en el transcurso de una investigacin, es un subconjunto de las observaciones que componen

    la poblacin. Parte de la informacin que contiene la muestra respecto de los

    parmetros se expresa mediante valores numricos calculados a partir de sta, llamados

    estadgrafos o estadsticos. Cuando cada elemento de la poblacin tiene la misma posibilidad de ser elegido en la muestra, o ms precisamente, cuando todas las

    muestras posibles de tamao n sean igualmente probables de ser elegidas, hablaremos

    de muestras aleatorias simples o de muestreo al azar. El estudio de los mtodos de muestreo junto con la formulacin de esquemas o modelos matemticos para un

    experimento, y los problemas que tales mtodos implican, estn comprendidos en la

    rama de la estadstica llamada Diseo Muestral y Experimental.

    Si una muestra es representativa de una poblacin, se pueden deducir

    importantes conclusiones acerca de la poblacin a partir del anlisis de la muestra, pero

    al no poder estar absolutamente seguro de la veracidad de tales generalizaciones, se

    debe utilizar ciertos niveles de confianza o posibilidades de error, expresados en

    porcentajes o en trmino de probabilidades. La parte de la estadstica que trata de las

    condiciones bajo las cuales tales inferencias son vlidas se llama Estadstica Inductiva o

    Estadstica Inferencial.

  • Pg. 2

    2. Estadstica Descriptiva.

    La parte de la Estadstica que trata solamente de describir y analizar un

    grupo de datos, sin sacar conclusiones o inferencias de un grupo mayor, se llama

    Estadstica Descriptiva o Estadstica Deductiva, por ende la Estadstica Descriptiva incluye las tcnicas que se relacionan con el resumen, la descripcin y presentacin de

    datos.

    Los aspectos principales que es necesarios tener en cuenta en la descripcin

    de un conjunto de datos son:

    a) El resumen y descripcin del patrn global de los datos mediante la presentacin de

    tablas y grficos; el examen de la forma global de los datos graficados, para visualizar

    caractersticas importantes como simetras o divergencias y buscar en el grfico

    observaciones inusuales o atpicas.

    b) El clculo de algunas caractersticas numricas (estadsticos) como por ejemplo un

    valor representativo o tpico que indique el centro de los datos, la cantidad de variacin

    o dispersin presente en los datos, grado de asimetra, etctera.

    Las caractersticas medidas a cada elemento de una muestra son

    representadas a travs de smbolos (generalmente una letra), los cuales reciben el

    nombre de variables o variables aleatorias. Una variable cuantitativa es aquella que puede tomar un valor cualquiera en un cierto conjunto numrico llamado codominio de

    la variable. Una variable cuantitativa que tericamente puede asumir cualquier valor

    en un intervalo de nmeros reales se llama variable continua, en caso contrario, si la variable puede asumir algunos valores, generalmente slo valores enteros, se llama

    variable discreta.

    Las observaciones o datos que son representados por una variable discreta o

    continua se llaman datos discretos o continuos respectivamente. En general las

    mediciones dan origen a datos continuos, mientras que las enumeraciones o conteos

    originan datos discretos. En los datos continuos siempre existe la llamada unidad de precisin del instrumento utilizado, y se debe tener en cuenta que el ltimo decimal de los datos se encuentra aproximado, as por ejemplo, si se registra una altura de un rbol

    como 5.4 metros significa que la altura verdadera se encuentra entre 5.35 y 5.45 metros.

    Consecuente con esto, debe siempre aplicarse en los clculos la regla clsica de

    aproximacin.

    Tambin existen las llamadas variables cualitativas (ordinales y nominales) que son aquellas que asumen valores no numricos, permitiendo clasificar a los

    elementos observados. Generalmente es posible sustituir tales variables por una

  • Pg. 3

    cuantitativa discreta codificando los valores no numricos, pero se debe tener presente

    que no tiene la misma interpretacin que una variable de este tipo.

    Nominales Ordinales

    Cualitativas

    Discretas Continuas

    Cuantitativas

    Variables

    3. Distribucin de frecuencias.

    Cuando tenemos un registro de datos tal cual fueron obtenidos, sin ninguna

    ordenacin o clasificacin, diremos que se tiene datos no agrupados. Cuando se dispone de un gran nmero n de datos, es til distribuirlos en clases o categoras, que se definen subdividiendo excluyentemente el recorrido de la variable, y determinar el

    nmero de observaciones perteneciente a cada clase, es decir, determinar la llamada

    frecuencia absoluta de cada clase. Una ordenacin tabular de este tipo se conoce con el nombre de tabla de distribucin de frecuencias, y por lo tanto, en tal caso, diremos que se tienen datos agrupados. Esta tabulacin permite conocer como estn distribuidos los datos, es decir, como vara la concentracin o densidad de los datos en el recorrido de la

    variable, teniendo con ello un conocimiento del comportamiento de la variable bajo

    estudio.

    En una tabla de frecuencia se distinguen los intervalos de clase,

    caracterizados por su lmite inferior (Ii) y el lmite superior (Si) que definen una cierta categora o clase. Cuando se trabaja con variables continuas, es posible distinguir

    adems los llamados lmites reales o fronteras de clases (Li), que corresponden a los lmites (aparentes) inferiores y superiores menos o ms media unidad de precisin u,

    respectivamente. Adems de la frecuencia absoluta (ni) se puede determinar la llamada

    frecuencia relativa (fi = ni/n), frecuencia porcentual (fi% = 100fi), frecuencia acumulada absoluta (Ni = Ni-1 + ni, N0 = 0), acumulada relativa (Fi = Ni/n) y acumulada porcentual (Fi% = 100Fi).

  • Pg. 4

    Una metodologa que es posible aplicar en la construccin de una tabla de

    distribucin de frecuencia, para una variable continua, a partir de datos no agrupados

    incluye los siguientes pasos:

    1.- Encontrar el valor mnimo xmin y el valor mximo xmx y calcular el rango R = xmx - xmin. Y establecer la unidad de precisin u de los datos registrados.

    2.- Elegir el nmero k de intervalos de clases de igual longitud que cubre el recorrido de los datos. El nmero de intervalos de clase debe verificar que 5 k 15. Tambin se

    puede determinar a partir del tamao de la muestra utilizando la regla k = 1 +

    3.3*log(n).

    3.- Determinar la amplitud a = R/k de las clases, que debe tener la misma precisin de los datos, es decir, la misma cantidad de decimales que los datos.

    4.- Verificar que efectivamente se cubre el recorrido de todas las observaciones

    calculando el excedente E = k*a - R - u. El excedente debe ser no negativo, en caso

    contrario, la amplitud debe ser aumentada en una unidad de precisin y recalculado el

    excedente. (Estos ltimos valores corregidos son los que se utilizan en los clculos

    posteriores).

    5.- Calcular el primer lmite inferior I1 = xmin - E/2, el cual debe tener la misma precisin de los datos.

    6.- Calcular los lmites inferiores siguientes, sumndole la amplitud al lmite inferior

    anterior, (Ii = Ii-1 + a).

    Fk = Nk/n Nk = n1 +...+ nk fk% = fk*100 fk = nk/n nk Xk Lk-1, Lk

    ... ... ... ... ... ... ...

    Fi = Ni/n Ni = n1 +...+ ni fi% = fi*100 fi = ni/n ni Xi Li-1, Li

    ... ... ... ... ... ... ...

    F1 = N1/n N1 = n1 f1% = f1*100 f1 = n1/n n1 X1 L0, L1

    Frecuencia Acumulada Relativa

    Frecuencia Acumulada Absoluta

    Frecuencia Porcentual

    Frecuencia Relativa

    Frecuencia Absoluta

    Marca de

    Clase

    Intervalos

  • Pg. 5

    7.- Calcular el primer lmite superior restando una unidad de precisin al lmite inferior

    de la clase siguiente (S1 = I2 - u)

    8.- Calcular los lmites superiores siguientes sumndole la amplitud al lmite superior

    anterior, (Si = Si-1 + a).

    9.- Contar el nmero de observaciones en los datos que pertenecen a cada intervalos de

    clase, para obtener la frecuencia absoluta de cada clase (ni).

    10.- Determinar los otros tipos de frecuencias, los lmites reales o fronteras de clase (Li-1

    = Ii - u/2 Li = Si + u/2) y las marcas de clase (xi = (Li-1 + Li)/2), si se necesitan.

    Ejemplo:

    Puntaje Lenguaje Simce 2005 - 4 Bsico - Los ngeles

    Establecimientos PorcentajePorcentaje

    Acumulado

    175 184 2 2,6% 2,6%

    185 194 2 2,6% 5,3%

    195 204 5 6,6% 11,8%

    205 214 8 10,5% 22,4%

    215 224 5 6,6% 28,9%

    225 234 12 15,8% 44,7%

    235 244 9 11,8% 56,6%

    245 254 10 13,2% 69,7%

    255 264 7 9,2% 78,9%

    265 274 5 6,6% 85,5%

    275 284 5 6,6% 92,1%

    285 294 3 3,9% 96,1%

    295 304 2 2,6% 98,7%

    305 314 1 1,3% 100,0%

    Puntajes

    Las frecuencias (no acumuladas) pueden ser representada grficamente

    mediante un histograma (grfico de barra) o un polgono de frecuencia y las frecuencias acumuladas mediante una ojiva. Tambin es posible utilizar esta tabla de distribucin de frecuencias para calcular los estadsticos que sean de inters.

  • Pg. 6

    El histograma es un grfico de columnas, donde cada barra representa la frecuencia de cada clase, cuyas bases estn definidas por las fronteras o lmites reales de

    las clases y su altura est dada por la correspondiente frecuencia (absoluta, relativa o

    porcentual).

    Ejemplo:

    Simce 2005 - 4 Bsico - Los ngeles

    Lenguaje

    310,0

    300,0

    290,0

    280,0

    270,0

    260,0

    250,0

    240,0

    230,0

    220,0

    210,0

    200,0

    190,0

    180,0

    Lenguaje

    Frecuencia

    14

    12

    10

    8

    6

    4

    2

    0

    Desv. tp. = 29,64

    Media = 239,9

    N = 76,00

    El polgono de frecuencias es un grfico de lneas, donde se unen mediante un segmento rectilneo cada uno de los puntos adyacentes definidos por las marcas de

    clases y su correspondiente frecuencia, en cualquiera de las escalas (absoluta, relativa o

    porcentual). El grfico se completa considerando marcas de clases adicionales en los

    extremos con frecuencia nula. Es til para comparar datos provenientes de dos o ms

    poblaciones.

    Ejemplo:

  • Pg. 7

    Simce 2005 - 4 Bsico - Los ngeles

    0

    5

    10

    15

    20

    25

    165 185 205 225 245 265 285 305 325 345

    Puntaje

    Nmero de Establecimientos

    Lenguaje Matemtica Comprensin

    La ojiva es un grfico de lneas donde cada uno de los puntos adyacentes que se unen mediante un segmento rectilneo, estn definidos por las fronteras

    superiores y su correspondiente frecuencia acumulada en cualquiera de las escalas. El

    grfico se completa considerando la primera frontera inferior con frecuencia acumulada

    nula. La ojiva permite estimar grficamente los distintos percentiles de una

    distribucin de datos continuos.

    Ejemplo:

    Simce 2005 - 4 Bsico - Los ngeles

    0,0%

    20,0%

    40,0%

    60,0%

    80,0%

    100,0%

    175 185 195 205 215 225 235 245 255 265 275 285 295 305 315

    Puntaje en Lenguaje

    Porcentaje Acumulado

  • Pg. 8

    Nmero Simce de alumnos por establecimiento 2005 4 Bsico Los ngeles

    Frecuencia Tallo&Hoja

    32 0 . 00000000000000000001111111111111

    19 0 . 2222222222333333333

    11 0 . 44444445555

    12 0 . 666666677777

    3 0 . 889

    4 1 . 0011

    1 Extremes (>=177)

    Stem width: 100

    Each leaf: 1 case(s)

    Otra forma de tabular u ordenar los datos no agrupados es mediante un

    diagrama de tallo y hoja en el cual se definen categoras, denominados tallos, considerando el o los primeros dgitos de los datos y luego se utiliza el siguiente dgito,

    las hojas, para clasificar cada dato en su correspondiente tallo. Se recomienda que el

    nmero de tallos est entre 5 y 15, si es necesario se pueden dividir un tallo en dos,

    clasificando en la primera mitad las hojas 0, 1, 2, 3, 4 y en la siguiente mitad las hojas 5,

    6, 7, 8 y 9. Tambin es posible fusionar dos tallos adyacentes a objeto de reducir el

    nmero total de tallos. Para la construccin de este tipo de diagrama las hojas se

    ordenan ascendentemente dentro de cada tallo y finalmente se calcula la profundidad

    de cada tallo, que corresponde a la frecuencia acumulada absoluta ascendente en la

    primera mitad y a la frecuencia acumulada absoluta descendente en la segunda mitad.

    Si existe una nica clase central la profundidad de sta corresponde a su frecuencia

    absoluta.

    Ejemplo:

    Tambin dentro de otras forma de representacin grfica se utiliza el

    llamado box-plot o grfico de caja, que es un grfico que se construye a escala que indica mediante un rectngulo el cincuenta por ciento central de los datos, es decir, este

    rectngulo queda limitado por el primer y tercer cuartil de los datos. La caja o

    rectngulo se subdivide en la localizacin de la mediana y se agregan segmentos

    rectilneos en los extremos, llamados bigotes, que se extienden hasta L1 = mx{xmin, Q1 -

    1.5RQ} en el lmite inferior, y hasta L2 = min{xmx, Q3 + 1.5RQ} en el lmite superior. Si

    existen datos inferiores a L1 o mayores a L2 se indican mediante puntos y se consideran

    datos atpicos o anmalos. Tambin se puede indicar mediante un asterisco la

  • Pg. 9

    ubicacin del valor del promedio. Este tipo de grfico permite adems detectar niveles

    de dispersin y asimetra, y son de gran utilidad para comparar grficamente grupo de

    datos provenientes de distintas poblaciones.

    Ejemplo:

    Simce 2005 4 Bsico Los ngeles

    3716136 11623N =

    Grupo

    EDCBA

    Matemtica

    340

    320

    300

    280

    260

    240

    220

    200

    180

    160

    Ruralidad

    R

    U

    40


Top Related