estadistica tratamiento estadistico de datos

54
SUMARIO: 1.1.- Introducción 1.2.- Datos e Información 1.3.- Algo más Formal sobre Muestras 1.3.1.- Caracterización de Muestras 1.3.2.- Obtención de Información a partir de los Datos de una muestra 1.3.3.- Ordenamiento de Datos 1.3.4.- Tabulación de Datos 1.4.- Tabulación de Datos 1.4.1.- Frecuencias absolutas y relativas 1.4.2.- Tablas de Frecuencias 1.5.- Gráficos de Frecuencias 1.6.- Cuantiles de una Muestra 1.6.1.- Definiciones y Determinación Gráfica 1.6.2.- Diagrama de Caja 1.7.- Algoritmos para el Cálculo de Cuantiles 1.8.- Medidas de Tendencia Central y Dispersión 1.8.1.- La Media Aritmética y Otras Medidas de Tendencia Central 1.8.2.- La Media y la Mediana de una misma Muestra 1.8.3.- La Media Cortada de una Muestra 1.8.4.- Medidas de Dispersión 1.8.5.- Media y Varianza de Datos Agrupados 1.8.6.- Media y Varianza de Funciones de X 1.9.- Más sobre Dispersión 1.9.1.- Simplificación de Cálculos 1.9.2.- Cuantiles y Medidas de Dispersión 1.9.3.- Otros Diagramas y Representaciones Gráficas de una Muestra 1.9.4.- Valores Aberrantes detectados en Diagramas de Caja 1.10.- Trabajo con dos o mas Variables 1.10.1.- Coeficiente de variación 1.10.2.- Gráficos Q-Q 1.11.- Estadística Descriptiva Multivariada 1.11.1.- Vector de Medias y Matriz de Covarianzas 1.11.2.- Coeficiente de Correlación de Muestras 1.12.- Observación de Procesos en el Tiempo 1.12.1.- Series Temporales y Filtros 1.12.2.- Patrones y Filtrado de Datos 1.12.3.- Causas de Variación de un Proceso 1.13.- Datos Cualitativos 1.13.1.- Escalas de Medidas 1.13.2.- Escalas de Clasificación Objetivos del Capítulo Que el lector llegue a: 1) Diferenciar entre dato e información. 2) Diferenciar muestra y población objetivo. 3) Ser capaz de agrupar los datos de una muestra y construir tablas de frecuencias relativas. 4) Ser capaz de entender y determinar estadísticos de orden. 5) Ser capaz de construir gráficos de frecuencia relativa como histogramas, ojivas, polígonos y diagramas de cajas. 6) Identificar en la ojiva qué son los cuartiles, deciles y percentiles de una muestra. 7) Calcular cualquier cuantil muestral utilizando estadísticos de orden 8) Entender los conceptos relacionados con tendencia central y dispersión muestral. 9) Calcular medidas de correlación entre dos variables de una misma muestra. 10) Identificar fenómenos representables por series temporales y filtrarlas de ser necesario. Tratamiento Estadístico de Datos 1

Upload: barto

Post on 07-Jul-2015

19.628 views

Category:

Documents


8 download

TRANSCRIPT

Page 1: Estadistica    tratamiento estadistico de datos

SUMARIO:

1.1.- Introducción 1.2.- Datos e Información 1.3.- Algo más Formal sobre Muestras

1.3.1.- Caracterización de Muestras 1.3.2.- Obtención de Información a partir de los Datos de una muestra 1.3.3.- Ordenamiento de Datos 1.3.4.- Tabulación de Datos

1.4.- Tabulación de Datos 1.4.1.- Frecuencias absolutas y relativas 1.4.2.- Tablas de Frecuencias

1.5.- Gráficos de Frecuencias 1.6.- Cuantiles de una Muestra

1.6.1.- Definiciones y Determinación Gráfica 1.6.2.- Diagrama de Caja

1.7.- Algoritmos para el Cálculo de Cuantiles 1.8.- Medidas de Tendencia Central y Dispersión

1.8.1.- La Media Aritmética y Otras Medidas de Tendencia Central 1.8.2.- La Media y la Mediana de una misma Muestra 1.8.3.- La Media Cortada de una Muestra 1.8.4.- Medidas de Dispersión 1.8.5.- Media y Varianza de Datos Agrupados 1.8.6.- Media y Varianza de Funciones de X

1.9.- Más sobre Dispersión 1.9.1.- Simplificación de Cálculos 1.9.2.- Cuantiles y Medidas de Dispersión 1.9.3.- Otros Diagramas y Representaciones Gráficas de una Muestra 1.9.4.- Valores Aberrantes detectados en Diagramas de Caja

1.10.- Trabajo con dos o mas Variables 1.10.1.- Coeficiente de variación 1.10.2.- Gráficos Q-Q

1.11.- Estadística Descriptiva Multivariada 1.11.1.- Vector de Medias y Matriz de Covarianzas 1.11.2.- Coeficiente de Correlación de Muestras

1.12.- Observación de Procesos en el Tiempo 1.12.1.- Series Temporales y Filtros 1.12.2.- Patrones y Filtrado de Datos 1.12.3.- Causas de Variación de un Proceso 1.13.- Datos Cualitativos 1.13.1.- Escalas de Medidas 1.13.2.- Escalas de Clasificación Objetivos del Capítulo Que el lector llegue a: 1) Diferenciar entre dato e información. 2) Diferenciar muestra y población objetivo. 3) Ser capaz de agrupar los datos de una muestra y construir tablas de frecuencias relativas. 4) Ser capaz de entender y determinar estadísticos de orden. 5) Ser capaz de construir gráficos de frecuencia relativa como histogramas, ojivas, polígonos y diagramas de cajas. 6) Identificar en la ojiva qué son los cuartiles, deciles y percentiles de una muestra. 7) Calcular cualquier cuantil muestral utilizando estadísticos de orden 8) Entender los conceptos relacionados con tendencia central y dispersión muestral. 9) Calcular medidas de correlación entre dos variables de una misma muestra. 10) Identificar fenómenos representables por series temporales y filtrarlas de ser necesario.

Tratamiento Estadístico de Datos 1

Page 2: Estadistica    tratamiento estadistico de datos

2

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

1.1.- INTRODUCCIÓN

Este capítulo es la presentación de lo que es la Estadística en sus más elemental expresión; todas las secciones, excepto una, el único requerimiento matemático que poseen es el que ostenta un bachiller recién graduado. Se comienza diferenciando información de dato y se instruye al lector acerca de cómo tratar muestras de datos cuantitativos, llevándolo a construir tablas, gráficos y diagramas, así como a calcular cuantiles, particularmente mediana, deciles, percentiles y los cuartiles primero y tercero. Se introduce como medidas de dispersión el rango muestral y el rango intercuartil. Destaca la ojiva entre los gráficos de frecuencia que se construyen. En una siguiente etapa se define y cuantifica la tendencia central de una muestra así como las mas usuales medidas de dispersión muestral; teniendo el capítulo una de sus secciones especialmente trabajadas en la que se hace referencia a la determinación de cuantiles, utilizando estadísticos de orden. La presencia de valores poco usuales o aberrantes es también tratada en este capítulo, se explica su incidencia en los valores que miden tendencia central y se hace uso del diagrama de caja para diagnosticar su presencia. Igualmente se discute ventajas y desventajas del agrupamiento de datos y como determinar indicadores a partir de esta situación. Se presentan también una introducción al tratamiento de datos ligados al tiempo, series temporales, creación de “filtros” para suavizar las series. También se introduce la noción de tratamiento simultáneo de varias características de una misma Población Objetivo, en una sección a la que se denomina ”Estadística Descriptiva Multivariada” y que es la única en la que se requiere conocimiento de operaciones con matrices, para construir matrices de datos y matrices de varianzas y covarianzas e una muestra. Existe una última sección en la que se presentan escalas de datos y se sugiere como tratar variables cualitativas.

1.2 .- DATOS E INFORMACIÓN

En Estadística tratamos en primer lugar con datos, esto es, con una cantidad n de mediciones no procesadas, sean estas numéricas (cuantitativas) o categóricas (cualitativas), que llenan nuestro cuaderno de apuntes o reposan en un instrumento de almacenamiento de datos, sea éste un disco duro, “flash memory”, o sencillamente un CD. Finalmente reposarán en una base de datos para su manejo o en una bodega de datos

Población Objetivo Conjunto bien definido de elementos que son objeto de medición

Page 3: Estadistica    tratamiento estadistico de datos

3

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

(warehouse) para su almacenamiento histórico y posterior tratamiento con Minería de Datos. Estas mediciones son efectuadas a elementos de algún conjunto bien definido, al que llamaremos población objetivo. A los elementos de la población objetivo, los llamaremos unidades de investigación. Para efectos de este primer análisis vamos a suponer que las medidas efectuadas son cuantitativas. Supondremos además que el tamaño de la población objetivo es N y que de este conjunto seleccionamos un subconjunto de n unidades de investigación, sobre los cuales vamos a efectuar las mediciones de alguna de sus características. No mediremos entonces la característica investigada a todos los elementos de la población objetivo sino a parte de ellos, esto significa que N > n. Sin discutir, por ahora, la manera que efectuamos la selección de las n unidades de investigación, al total de los n valores medidos los llamaremos muestra. Cada valor incluido en la muestra es una observación. Estamos seguros que el lector ha reparado en la sutil, pero importante, diferencia entre “observación” y “unidad de investigación”. Diremos entonces que hemos tomado una muestra de tamaño n de una “población” de tamaño N, o que tenemos una muestra constituida por n observaciones. Ejemplo 1.1

Sea una Población Objetivo que está conformada por seis unidades de investigación, N=6; supongamos que la medida de interés X toma valores, a, b, c, d, e, f. Indicar cómo seleccionar la muestras de tamaño n = 2 de esta población. Desarrollo. El conjunto de valores de donde podemos escoger una de las muestras requeridas es:

{ a, b, c, d, e, f }

Si se necesita tomar una muestra de tamaño n = 2 ; son muchas las opciones que pueden seleccionarse, bien podría ser que la muestra elegida sea {a,b}; también puede ser {a,c} o cualquiera de las opciones como, {a,d}; {a,e}; {a,f}; {a,f}; {b,c}; y así sucesivamente, hasta considerar la opción {e,f}. ♦

Pensando en casos numéricos mas específicos, puede ser que de los N=12537 estudiantes matriculados en una universidad, a cien de ellos, n=100, les preguntemos cuál es el número de materias en las que se encuentran registrados al momento de la

Unidades de Investigación Elementos de la población objetivo

Muestra Subconjunto de n unidades de investigación tomados de la población

Observación Cada valor incluido en la muestra

Page 4: Estadistica    tratamiento estadistico de datos

4

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

entrevista, o que a esos mismos estudiantes les midamos su estatura en metros. En el caso de la primera pregunta, las respuestas conforman una muestra de tamaño cien que está constituida por números enteros, en tanto que las cien estaturas lo mas probable es que las representemos como números reales con al menos dos decimales de precisión. Nótese que “medir” en términos estadísticos puede significar que le hagamos una pregunta a quien investiguemos o que utilizando un instrumento cuantifiquemos alguna de sus características distintivas, o que le pidamos se pronuncie sobre un asunto en particular. Algo mas, los elementos de la Población Objetivo, o unidades de investigación, pueden ser también entes irracionales o inanimados, a quienes no es posible hacerles preguntas. Pensemos que la característica que nos interesa es el porcentaje de hierro contenido en las rocas que yacen en el lecho de un río, o que en una provincia del país, nos interesa la proporción de ganado vacuno infectado de fiebre aftosa. Para el primer caso, los datos serán obtenidos en un laboratorio, en el segundo, un veterinario dictaminará la presencia o no de ese mal.

1.3.- ALGO MÁS FORMAL SOBRE MUESTRAS 1.3.1.- Caracterización de muestras

Si representamos por X a una característica de interés de cierta población objetivo, a una muestra de tamaño n tomada de esta población, la representaremos por,

{X1, X2, ... , Xn}

Es también válido representar esta muestra por un vector X en Rn de la siguiente forma:

XT = (X1 X2... Xn)

Donde XT representa al vector transpuesto de X. Se usa la transpuesta del vector X y no el vector X en sí, por razones de edición.

Page 5: Estadistica    tratamiento estadistico de datos

5

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Ejemplo 1.2

A cinco estudiantes politécnicos se les pregunta en cuántos semestres, a partir del momento de la entrevista, estiman que van a graduarse; determine la muestra si lo que se obtiene como respuesta es: siete, cinco, ocho, cinco y cuatro semestres. Desarrollo. En este caso, n = 5 y además, X1 = 7; X2 = 5; X3 = 8; X4 = 5 y X5 = 4. La muestra igualmente puede ser escrita como:

XT = (7 5 8 5 4) ♦ Nótese que hasta el momento, una muestra es solo un conjunto X de datos que no ha recibido procesamiento alguno.

1.3.2.- Obtención de información a partir de los datos de una muestra

Si bien el proceso de “toma de datos” es vital en Estadística, a tal punto que ha merecido desarrollos teóricos importantes y las consecuentes técnicas a ser aplicadas, por el momento no nos preocuparemos de aquello y supondremos simplemente que contamos con los datos. Algo mas, los datos, como tales, no son mas que materia prima dispuesta a ser procesada, ellos por sí solo poco o nada pueden decirnos. Para que podamos tomar decisiones racionales, necesitamos procesarlos, esto es convertirlos en información. Si nos encontramos frente a una muestra de tamaño n, ¿Qué es lo que nosotros necesitamos hacer para que pase a ser material estadísticamente útil?, esto es, para que pase a ser información. Cuatro son las acciones que con el conocimiento que al momento suponemos maneja el lector, pueden tomarse, y estas son: i) Ordenar los datos; ii) Tabular los datos ordenados; iii) Graficar los datos ordenados utilizando el concepto de frecuencia relativa; y, iv) Calcular a partir de la muestra cantidades que representen “peculiaridades” siempre presente en las muestras que son relevantes para la toma de decisiones.

1.3.3.- Ordenamiento de datos La primera acción, esto es ordenar los valores constitutivos de una muestra, es sencilla, aunque pudiera ser tediosa, cuando se

Información Conjunto de datos procesados que nos permiten tomar decisiones racionales

Page 6: Estadistica    tratamiento estadistico de datos

6

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

trabaja con muestras de tamaño relativamente grande y no disponemos de una máquina procesadora de datos. Para representar una muestra ordenada debemos definir que es lo que se entiende por un estadístico de orden. Dada una muestra X de tamaño n, al primer estadístico de orden lo denotamos por X(1) y lo definimos como el mínimo valor que constituye la muestra, esto es,

X(1) = min{X1 , X2, ..., Xn}

El estadístico de orden n se lo denota como X(n) y lo definimos como el máximo valor que constituye la muestra, esto es,

X(n) = max{X1 , X2, ..., Xn}

De forma similar definimos al estadístico de orden dos, tres, y así pasando por el i-ésimo orden, llegamos al de orden (n-1) y orden n, esto significa que:

X(1) ≤ X(2) ≤ ... ≤ X(i) ≤ … ≤ X(n-1) ≤ X(n) Ejemplo 1.3

A partir del Ejemplo 1.2 determine los estadísticos de orden que correspondan. Desarrollo. En el mencionado ejemplo, consideramos una muestra de tamaño cinco en la que,

X1 = 7; X2 = 5; X3 = 8; X4 = 5 y X5 = 4

Concordante con las definiciones previas,

X(1) = min{ 7 ; 5 ; 8 ; 5 ; 4}= 4

X(n) = X(5) = max{7 ; 5 ; 8 ; 5 ; 4 }= 8

Considerando ahora la muestra ordenada,

X (1) = 4; X (2) = 5; X (3) = 5; X (4) = 7; y X (5)= 8 ♦ Nótese que el número cinco, como valor observado, tiene doble calidad; es el estadístico de orden dos y de orden tres al mismo tiempo, ya que este valor se encuentra repetido en la muestra.

Page 7: Estadistica    tratamiento estadistico de datos

7

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

1.3.4.- Tabulación de Datos

Para tabular datos cuantitativos, y así facilitar la exploración estadística de los mismos, se requiere definir algunos términos y efectuar ciertos supuestos. Los términos que necesariamente deben definirse son: clase, marca de clase, frecuencia absoluta, frecuencia relativa, frecuencia acumulada absoluta, frecuencia acumulada relativa y tabla de frecuencias. Cualquier dato en una muestra es mayor o igual a su mínimo valor X(1), pero menor o igual a su máximo valor X(n); teniendo en cuenta esto, vamos a considerar un intervalo cerrado de números reales al que denominaremos A y cuyo extremo inferior lo denominaremos a1 y cuyo extremo superior es ak+1, tal cual se lo bosqueja en la Figura 1.1

Figura 1.1 Intervalo A de Números Reales que incluye todo los datos en la muestra

A= {x∈R | a1 ≤ x < ak+1}= [a1, ak+1)

Necesariamente a1 debe ser menor o igual que X(1) así como también que ak+1 debe ser mayor o igual que X(n). Particionamos ahora el intervalo A así definido, en k subintervalos semiabiertos y ordenados de tal manera que dichos subintervalos, a) tengan igual longitud; b) su unión sea igual al intervalo A; y, c) la intersección entre cualquiera de estos subintervalos sea vacía. Diremos que estos intervalos son exhaustivos y mutuamente excluyentes y a cada uno de ellos lo denominaremos clase. Hemos definido entonces k clases para una muestra de tamaño n. Obviamente k es mucho menor que n y dicho valor se lo escoge de acuerdo a las instrucciones que nos dé el profesor en clase, o de acuerdo a la experiencia de la persona que está haciendo el análisis de los datos. Quien no tiene experiencia, ni tiene cercano un profesor pero sí una computadora, verá resuelto su problema consultando o dejando funcionar libremente a paquetes computacionales especializados en Estadística, ya que

• • •• X(n) ak+1X(1)a1

Clase Intervalos exhaustivos y mutuamente excluyentes en una muestra

Page 8: Estadistica    tratamiento estadistico de datos

8

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

dichos paquetes, tales como MINITAB*, SPSS** o SYSTAT**, realizan automáticamente esta tarea, si así lo requerimos. Un valor sugerido de partida es k ≥ 7. Formalizando lo definido anteriormente se tiene que

A= {x∈R | a1 ≤ x < ak+1}= [a1, ak+1) Además tenemos: a) Se ha definido,

primera clase = [a1, a2) segunda clase = [a2, a3)

.

.

. k-ésima clase = [ak , ak+1)

Recuérdese que el intervalo semiabierto

[ai , ai+1) = {x∈R ⏐ai ≤ x < ai+1}

En tanto que:

[ak-1, ak) = {x∈R ⏐ak-1 ≤ x < ak}

Existiendo además el supuesto de que la longitud L de cada una de las clases es la misma, esto es,

L = d(a1 , a2) = d(a2 , a3) = ... = d(ak , ak+1)

Donde la expresión d(a , b) simboliza la “distancia” del número real a al número real b, que no es mas, en este caso, que el valor absoluto de la diferencia entre a y b. Esto es, d(4 , 5) =⏐4-5⏐= d(5 , 4) =⏐5-4⏐ = 1 ó d(-3 , 3) =⏐-3 - 3⏐ = 6. b) La unión de los k subintervalos es A; lo cual significa que:

[a1, a2)∪[a2 , a3)∪...∪[ak , ak+1) = A = Uk

1i=

[ai , ai+1)

c) La intersección de los k subintervalos es vacía, esto es,

[a1, a2) ∩ [a2 , a3)∩... ∩ [ak , ak+1) = ∅ =Ik

1i=

[ai , ai+1)

Al valor central de cada una de las clases, se lo obtiene sumando sus extremos y dividiendo para dos, este valor central se denomina marca de clase, lo cual significa que:

la primera marca de clase = (a1 + a2)/2; la segunda marca de clase = (a2 + a3)/2;

.

Marca de Clase Valor central de cada una de las clases

Page 9: Estadistica    tratamiento estadistico de datos

9

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

.

. y, la k-ésima marca de clase = (ak + ak+1)/2.

Ejemplo 1.4

Supongamos que se tiene una muestra de tamaño n = 50 datos y que el mínimo X(1) es igual a 42 y el máximo X(50) es 106. Se requiere determinar clases y marcas de clase para la muestra. Desarrollo. Se nos sugiere tomar k = 7, de tal manera que

A= {x∈R ⏐40 ≤ x < 110} = [40, 110) Esto hace posible que:

la primera clase = [40, 50); la segunda clase = [50 , 60);

.

.

. y, la séptima clase = [ 100 , 110)

Bajo estas condiciones, la primera marca de clase es (40+50)/2 =45; la segunda marca de clase es 55; la tercera es 65; y de esta manera hasta llegar a la séptima marca de clase que es 105. ♦

Así construida la resolución del problema, la misma goza de las siguientes características: El intervalo A contiene a todos los n = 50 valores que conforman la muestra ya que X(1) así como también X(50) pertenecen al intervalo A. Cada una de las siete marcas de clase está perfectamente establecida y tienen la misma longitud (diez unidades); El intervalo A es igual a la unión de las k = 7 clases (las clases son exhaustivas); y, Ninguna clase comparte elementos con otra (las clases son mutuamente excluyentes); Para tener una idea gráfica de lo contenido en este problema, imaginemos una figura como la que denomináramos Figura 1.1 en líneas previas y ubique los valores a1 que es 40, a2 que es 50; hasta llegar a a8 = 110. Recuérdese que k = 7, pero que

Page 10: Estadistica    tratamiento estadistico de datos

10

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

tenemos que llegar hasta ak+1 que en este caso es 110. A continuación la Figura 1.2 Figura 1.2 Intervalo A (unión de las siete clases)

A= {x∈R ⏐40 ≤ x < 110} = [40, 110)

1.4.- TABULACIÓN DE DATOS 1.4.1.- Frecuencias absolutas y relativas

Para tabular datos con el propósito de hacer un análisis estadístico exploratorio de los mismos, aun necesitamos efectuar algunas definiciones que se relacionan con el tamaño de la muestra y el número de observaciones que la muestra tiene en cada una de las k clases que hayamos determinado. Supóngase que ya hemos ordenado los datos y que además se han determinado las k clases que creemos pertinentes; vamos a darle un tratamiento adicional a esta muestra ordenada. Recordemos que ordenada o no, la muestra tiene n observaciones y que por la forma que se definen las clases, sin ambigüedad podemos afirmar que todos los elementos de la muestra pertenecen a alguna de las k clases. Denotaremos f1 al número de observaciones en la muestra, que pertenecen a la primera clase, esto es al intervalo [a1, b1) y a f1 lo denominaremos frecuencia absoluta de la primera clase o simplemente primera frecuencia absoluta. En el mismo contexto f2, será la segunda frecuencia absoluta, y así sucesivamente hasta llegar a fk, que es la k-ésima frecuencia absoluta o el número de observaciones que pertenecen a la muestra y que al mismo tiempo se ubican en la k-ésima clase. La suma de las frecuencias absolutas de una muestra es n, esto es,

f1 + f2 + ... + fk = n =∑=

k

1iif

Recuérdese que fi es un número mayor o igual que cero y menor o igual que n. Pasamos a definir frecuencia relativa de una clase. La frecuencia relativa de la primera clase resulta de dividir f1 para el tamaño n de la muestra; de manera similar la frecuencia

Frecuencia Absoluta Número de observaciones en la muestra que pertenecen a cada una de las clases

Frecuencia Relativa División de la frecuencia absoluta de cada una de las clases para el tamaño n de la muestra

40 50 60 70 80 90 100 110

a1 ak+1

[ )

[ )

[ )

[ )

[ )

[ )

[ )

Page 11: Estadistica    tratamiento estadistico de datos

11

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

relativa de la segunda clase se obtiene al dividir f2 para n. Y así pasando por la frecuencia relativa de la i-ésima clase, llegamos a la frecuencia relativa de la k-ésima clase que calculamos dividiendo fk para n. Toda frecuencia relativa es un número mayor o igual a cero pero menor o igual que uno, esto es,

0 ≤ nif ≤ 1; siendo, i = 1, 2,..., k.

F1, la frecuencia acumulada absoluta de la primera clase, se la define igual a f1; la de la segunda clase F2 = f1 + f2; y así sucesivamente la frecuencia acumulada de la k-ésima clase es:

Fk = f1 + f2 + ... + fk-1 + fk Es claro que Fk es igual a n. Véase Figura 1.3 Con estos antecedentes es evidente como definir la frecuencia acumulada relativa de la i-ésima clase, esto es, la misma resulta de dividir Fi para n, siendo i = 1; 2;...; k.

Ocurre por tanto que nFk es igual a uno.

Figura 1.3 Definición de Frecuencia Acumulada

1.4.2.- Tablas de frecuencias

Dada una muestra ordenada de tamaño n, una Tabla de frecuencias es un arreglo rectangular que tiene siete columnas y k filas, sin incluir la rotulación; la primera columna es para el “ordinal de la clase”, la segunda para definir la clase, luego la marca de clase, frecuencia absoluta, frecuencia relativa, frecuencia absoluta acumulada y la séptima columna para la frecuencia relativa acumulada. Véase la Figura 1.4

F1 = f1F2 = f1 + f2F3 = f1 + f2 + f3F4 = f1 + f2 + f3 + f4F5 = f1 + f2 + f3 + f4 + f5F6 = f1 + f2 + f3 + f4 + f5 + f6F7 = f1 + f2 + f3 + f4 + f5 + f6 + f7

* Para efectos visuales el valor de k es siete (k=7)

Tabla de Frecuencias Arreglo rectangular que tiene siete columnas y k filas, sin incluir la rotulación

Page 12: Estadistica    tratamiento estadistico de datos

12

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Figura 1.4 Tabla General de Frecuencias

Ordinal Clase Marca de Clase

Frecuencia Absoluta

Frecuencia Relativa

Frecuencia Absoluta

Acumulada

Frecuencia Relativa

Acumulada

1 [a1,a2) (a1+a2)/2 f1 f1/n F1 F1/n 2 [a2,a3) (a2+a3)/2 f2 f2/n F2 F2/n 3 [a3,a4) (a3+a4)/2 f3 f3/n F3 F3/n . . . . . . . . . . . . . . . . . . . . . k [ak,ak+1) (ak+ak+1)/2 fk fk/n FK= n FK/n = 1

Téngase en cuenta que al multiplicar por cien cualquier tipo de frecuencia relativa se obtiene un porcentaje. Construida una Tabla de frecuencia, estamos en capacidad de efectuar algunas afirmaciones que no podríamos hacer si observáramos solamente al dato “puro” llegado desde el campo u obtenido en el laboratorio. Podríamos decir por ejemplo cuál es la proporción de observaciones que se encuentran en una clase, al utilizar la frecuencia relativa; cuál es el porcentaje de observaciones que pertenecen a una clase y a todas las previas, si utilizamos la frecuencia relativa acumulada multiplicada por cien; o, qué porcentaje de observaciones pertenecen a las clases siguientes a la i-ésima si utilizamos (1-Fi/n).100, etc., etc.

Hemos ya dado un paso relevante en la exploración estadística de datos, los comenzamos a convertir en información. Recomendamos siempre utilizar los valores de las frecuencias relativas y no valores de las frecuencias absolutas; la razón de esta sugerencia será obvia cuando en capítulos subsiguientes hagamos inferencias estadísticas sustentadas en principios probabilísticos. Las frecuencias absolutas deben ser utilizadas como valores de paso, cuya utilidad es al final obtener valores relativos con los que se puedan efectuar generalizaciones. Ejemplo 1.5

Se tiene un conjunto de n = 50 datos que luego de ordenarlos, configuran la siguiente muestra:

2 3 3 45 6 6 7 9

10 10 12 13 14 14 1515 15 16 16 17 17 18 18 18 19 19 1921 21 23 24 24 25 25 25 2527 28 28 29 2931 32 33 35 3536 39 39

Estos cincuenta datos representan el número de fallas cosméticas y estructurales detectados en los edificios de una

Page 13: Estadistica    tratamiento estadistico de datos

13

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

comunidad urbana que va a ser regenerada por la municipalidad del cantón. Construir la correspondiente Tabla de Frecuencias. Desarrollo. Dado el resultado del ordenamiento notamos que X(1)= 2 y X(50)= 39. De igual manera optamos por construir k = 8 clases de longitud cinco unidades, siendo la primera definida por el

intervalo [0, 5), su marca de clase es 5.22

50=

+; su frecuencia

absoluta es cuatro y la frecuencia relativa de esta clase es

080.0504

= ; la frecuencia acumulada absoluta F1 es cuatro y la

frecuencia acumulada relativa es también 0.080 por ser la primera clase y por tanto no existe clase previa. Para la segunda clase , como puede verse en la Figura 1.5, la frecuencia absoluta f2 es cinco; la frecuencia relativa es 0.10 ; la frecuencia acumulada absoluta F2 es nueve y la marca de clase 7.5. Véanse detalles en la figura que se presenta a continuación. ♦

Figura 1.5 Tabla de Frecuencias

Ordinal Clase Marca de Clase

Frecuencia Absoluta

Frecuencia Relativa

Frecuencia Absoluta

Acumulada

Frecuencia Relativa

Acumulada

1 [0,5) 2.5 4 0.080 4 0.080 2 [5,10) 7.5 5 0.100 9 0.180 3 [10,15) 12.5 6 0.120 15 0.300 4 [15,20) 17.5 13 0.260 28 0.560 5 [20,25) 22.5 5 0.100 33 0.660 6 [25,30) 27.5 9 0.180 42 0.840 7 [30,35) 32.5 3 0.060 45 0.900 8 [35,40) 37.5 5 0.100 50 1.000

1.5.- GRÁFICOS DE FRECUENCIAS

A partir de una tabla de frecuencias obtenida para una muestra X de tamaño n,

XT = (X1 X2... Xn)

es posible construir representaciones gráficos que revelan de manera sencilla, mucho de la información contenida en la misma. Entre estas representaciones están los histogramas de frecuencia, polígonos de frecuencia, ojivas y diagramas de caja, que pasamos a describir a continuación.

Page 14: Estadistica    tratamiento estadistico de datos

14

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Un histograma de frecuencia es un gráfico bidimensional de “barras” en cuyo eje horizontal están señaladas las k clases que se han determinado para construir la Tabla de Frecuencia; en el eje vertical se representan las frecuencias relativas de cada clase. El gráfico contendrá k barras cuyo “ancho” coincide con la longitud de la clase y cuya “altura” es igual la frecuencia relativa de la clase. El histograma de frecuencia, debe ser graficado de tal manera que se respeten las escalas, nos presenta una imagen visual acerca de la información relacionada con la proporción de observaciones en cada clase, las comparaciones e interrelaciones que con ellas pueden hacerse. Véase Figura 1.6 la misma que corresponde a los cincuenta datos presentados en el Ejemplo 1.5. Son ocho clases de longitud cinco, la primera de las cuales es [0,5) y la última (octava) es [35,40)

Figura 1.6 Histograma de Frecuencia

Un gráfico derivado del correspondiente histograma de frecuencia, es el Polígono de frecuencia, que resulta al determinar un polígono, utilizando como vértices del mismo, los puntos centrales superiores de las barras del histograma. Para obtener intersección entre el polígono y el eje horizontal se crean artificialmente dos nuevas “clases”, una antes de la primera, a la cual llamaremos “clase cero” y otra luego de la última, que pasa a ser la “clase (k+1)-ésima”. De esta manera, el primer vértice del polígono lo situamos en la marca de clase de la clase cero y el último vértice en la marca de clase de la clase (k+1)-ésima. Véase Figura 1.7 en que se construye un Polígono de Frecuencia con los datos del Ejemplo 1.5. El polígono de frecuencia en términos generales contiene información similar que la presentada por el histograma de frecuencias, sin embargo es recomendable construirlo si la característica que se investiga en la población objetivo, es continua.

Histograma de Frecuencia Gráfico bidimensional de “barras” en cuyo eje horizontal están señaladas las k clases, y en el eje vertical se representan las frecuencias relativas de cada una de ellas

Polígono de Frecuencia Gráfico derivado del histograma de frecuencia que utiliza como vértices los puntos centrales superiores de las barras del histograma y que para obtener la intersección con el eje horizontal crea artificialmente dos nuevas “clases”.

0,000

0,050

0,100

0,150

0,200

0,250

0,300

[0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40)

Intervalos de Clase

Frec

uenc

ia R

elat

iva

X

Page 15: Estadistica    tratamiento estadistico de datos

15

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Figura 1.7 Polígono de Frecuencia

Uno de los mas útiles gráficos en Estadística es la Distribución de Frecuencia Acumulada o simplemente Ojiva. Este esquema gráfico, representa en el eje horizontal la característica cuantitativa X, que estamos investigando y ubica sobre el mismo eje, las k clases en que hemos decidido organizar la muestra de tamaño n, o podríamos decir también la muestra constituida por n observaciones. En el eje vertical ubicamos la frecuencia acumulada relativa. Obviamente que los valores en el eje horizontal dependen de la característica X que medimos; pueden ser dólares si en una “Encuesta de Hogares” investigamos los ingresos de n hogares que constituyen una comunidad; pueden ser centímetros si medimos la estatura de n estudiantes; gramos si lo que hacemos es pesar n camarones que hemos tomado de una piscina de acuicultura, o, resistencia a fuerzas cortantes de un material si en un laboratorio de Mecánica de Sólidos investigamos tal característica. En el eje vertical, no importa qué se investigue, allí se ubica la frecuencia acumulada relativa, esto significa que solo se utilizarán, en este eje, valores que comiencen en cero y terminan siempre en uno. Recordando que la muestra con la que tratamos ya ha sido ordenada y que además se supone ya tenemos determinadas las k clases que se necesitan; el gráfico de una Ojiva se construye determinando (k+1) puntos y luego conectándolos de manera sucesiva y con trazos continuos, de la siguiente manera: El primer punto tiene coordenadas (a1, 0) donde a1 es el extremo inferior de la primera clase, el segundo punto tiene coordenadas (a2, F1/n) siendo a2 el extremo inferior de la segunda clase; el tercer punto tiene coordenadas (a3, F2/n) y así sucesivamente hasta llegar al penúltimo punto que tiene como coordenadas (ak,

Distribución de Frecuencia Acumulada (Ojiva) Gráfico que representa en el eje horizontal la característica cuantitativa X que se está investigando y en el eje vertical la frecuencia acumulada relativa

0,000

0,050

0,100

0,150

0,200

0,250

0,300

[0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40)

Intervalos de Clase

Frec

uenc

ia R

elat

iva

X

Page 16: Estadistica    tratamiento estadistico de datos

16

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Fk-1/n); siendo el último punto el que tiene coordenadas (ak+1, Fk/n). El gráfico de una ojiva es continuo; recuérdese además que Fk/n es igual a uno. Obsérvese la Figura 1.8 Figura 1.8 Distribución de Frecuencia Acumulada (Ojiva) La Ojiva es utilizada con profusión para comparar situaciones en las que bajo distintas circunstancias o a distintos entes se mide una misma característica; por ejemplo, el ingreso mensual en dos distintas comunidades de los jefes de hogares o las notas en dos distintas materias que obtiene un mismo grupo de estudiantes. Obsérvese en la Figura 1.9, las ojivas A y B. Si ellas representaran los ingresos en dólares de dos comunidades, ¿En cuál de las dos quisiera usted vivir?. Si se tratara de las notas obtenidas por un mismo grupo humano en dos cursos diferentes que han tomado en una universidad ¿Cuál curso presenta mayor grado de dificultad para aprobarlo?. Figura 1.9 Ingresos en dólares de Dos Comunidades (A y B)

0

0,25

0,5

0,75

1

4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68

Frec

uenc

ia A

cum

ulad

a R

elat

iva

Q1 Q2 Q3 Q1 Q2 Q3 X

A B

0

0,25

0,5

0,75

1

4 8 12 16 20 24 28 32

Frec

uenc

ia A

cum

ulad

a R

elat

iva

Q1 Q2 Q3

X

Page 17: Estadistica    tratamiento estadistico de datos

17

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

1.6.- CUANTILES DE UNA MUESTRA 1.6.1.- Definiciones y determinación gráfica

La Ojiva es además un excelente instrumento para ilustrar definiciones de orden cuantitativo que se efectúan cuando se exploran estadísticamente los datos de una muestra ordenada, para obtener la información en ella contenida. Como definición diremos que el Primer Cuartil o Cuartil Inferior de una muestra en la que se investiga una característica continua X, es un valor Q1 de X, tal que no mas del veinticinco por ciento de las observaciones en la muestra ordenada toman valores menores o iguales que Q1. En tanto que el Segundo Cuartil o Cuartil Central de una muestra se denota por Q2 y se lo define como el valor de X tal que, no mas del cincuenta por ciento de los valores en la muestra son menores o iguales que Q2. Al Tercer Cuartil o Cuartil Superior de una muestra se lo denota Q3 y se lo define en términos del setenta y cinco por ciento de los elementos en la muestra tomando valores menores o iguales que Q3, o equivalentemente el veinticinco por ciento de los valores en la muestra son mayores que Q3. A los tres cuartiles definidos se los puede representar en una ojiva muy claramente como se bosqueja en la Figura 1.8

Se tiene en esta figura una ojiva y en el eje vertical marcados los valores 0.25; 0,50 y 0.75. Para ubicar, sobre el eje horizontal, el valor del primer cuartil Q1, se traza un segmento de recta horizontal que contenga al punto A de coordenadas (0, 0.25) y que sirve además para determinar el punto A´ en el que la ojiva y la recta tiene su intersección; incluyendo A´ se traza un segmento de recta perpendicular al eje horizontal; en la intersección del segmento con este eje se encuentra el valor Q1, que es el Primer Cuartil.

Nótese que el Primer Cuartil Q1 no es un punto sobre el plano sino una coordenada sobre el eje horizontal, esto es, Q1 es un valor numérico. Utilizando el mismo procedimiento constructivo, se determinan gráficamente Q2 y Q3 esto es, los cuartiles segundo y tercero ya definidos. Al segundo cuartil de la muestra se lo denomina también Mediana Muestral y en secciones venideras abundaremos sobre este valor y la forma de calcularlo.

Primer Cuartil (Q1) Valor de X tal que nos mas del veinticinco por ciento de las observaciones en la muestra toman valores menores o iguales que Q1

Segundo Cuartil (Q2) Valor de X tal que nos mas del cincuenta por ciento de las observaciones en la muestra son menores o iguales que Q2

Tercer Cuartil (Q3) Valor de X tal que el setenta y cinco por ciento de los elementos en la muestra toman valores menores o iguales que Q3

Page 18: Estadistica    tratamiento estadistico de datos

18

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Así como se definieron tres cuartiles, es posible definir nueve Deciles y noventa y nueve Percentiles de la muestra. Los deciles muestrales se los denota D1, D2, D3, hasta D9; pudiendo decirse que cuando mas el diez por ciento de los elementos en la muestra toman valores menores o iguales al Primer Decil D1; el veinte por ciento de los elementos en la muestra toman valores menores o iguales a D2; y así hasta llegar al Noveno Decil, D9, cuando el noventa por ciento de las observaciones que conforman la muestra toman valores menores o iguales que D9. Se encarga al lector determinar el significado de los percentiles muestrales P1, P2, ..., P99; indicando que el uno por ciento de los elementos en la muestra toman valores menores o iguales que P1, el Primer Percentil de la muestra, y que el noventa y nueve por ciento son menores o iguales que P99 el Nonagésimo Noveno Percentil de la muestra. De igual manera se exhorta al lector a ubicarlos en el eje horizontal de una ojiva. Es procedente decir que Q1 = P25, que Q2 = D5 = P50 o que Q3 = P75.

De igual manera puede complementarse lo hasta aquí expresado sobre estos cuantiles, esto es percentiles, deciles y cuartiles, que cuando mas, el setenta y cinco por ciento de las observaciones en la muestra toman valores mayores a Q1; que el cincuenta por ciento de las observaciones “centrales” de la muestra se encuentra entre Q1 y Q3; que el noventa por ciento de los valores observados está entre P5 y P95, o que el sesenta por ciento de las observaciones se encuentran entre D2 y D8.

Insistimos, los cuantiles de una muestra no son puntos en el plano, son valores numéricos; además los cuantiles no tienen que necesariamente ser valores que pertenezcan a la muestra. Téngase en cuenta que la ojiva es una función creciente en X, en realidad monótona creciente, y por tanto cuando se la utiliza para estimar cuantiles, éstos quedan determinados unívocamente.

1.6.2.- Diagrama de caja

Un subproducto de la ojiva una vez que se han determinado los cuartiles muestrales, es el denominado Diagrama de Caja, esquema gráfico que nos permite obtener de manera rápida, aunque no necesariamente exacta, la distribución de los datos que conforman la muestra. Véase la Figura 1.10

Page 19: Estadistica    tratamiento estadistico de datos

19

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Figura 1.10 Diagrama de Caja Si bien este diagrama comúnmente se lo “adosa” a una ojiva, es posible presentarlo aislado, tal cual se lo hace en la Figura 1.10, siempre que se tengan los valores correspondientes a Q1 , Q2 y Q3, así como los valores máximo y mínimo en la muestra, esto es X(n) y X(1). En la Figura 1.10 se presenta un Diagrama de Caja; como puede verse está constituido por un rectángulo (caja) y dos segmentos de recta (bigotes). La longitud de la caja es Q3 – Q1; el bigote del lado izquierdo del lector se inicia en el valor mínimo X(1) y termina en Q1, mientras que el bigote del lado derecho comienza en Q3 y termina en X(n). El segmento de recta punteado, al interior de la caja, determina el valor de la Mediana o Segundo cuartil Q2. En la presencia de Valores Extremos o Valores Aberrantes, se debe reconceptualizar la construcción del Diagrama de Caja, y en particular la longitud de los bigotes. Sobre este tema volveremos en próximas secciones.

1.7.- ALGORITMOS PARA EL CÁLCULO DE CUANTILES

Dada una muestra XT= (X1 X2... Xn) de tamaño n, el valor mínimo X(1) (o cualquier estadístico de orden i) puede ser también visto como un cuantil, puesto que la proporción p =1/n de los datos observados son menores o iguales a X(1). Recuérdese que de igual manera podemos decir que el (1/n)100 por ciento de los elementos de la muestra son menores o iguales a X(1) . Puede ocurrir eso sí, que el valor (1/n)100 =100/n no sea un número entero y nos enfrentaríamos a un cuantil de tipo aun no definido, particular que trataremos de superar en esta sección. Consideremos dos estadísticos de orden que sean consecutivos, llamémoslos X(i) y X(i+1); i = 1,2,…,n-1 si definimos el

Diagrama de Caja Esquema gráfico que nos permite obtener de manera rápida, aunque no necesariamente precisa, la distribución de los datos que conforman muestra

1

0.00 10.00 20.00 30.00 40.00

Q1 Q2 Q3

X(1) X(n)

• • • • X

Page 20: Estadistica    tratamiento estadistico de datos

20

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

promedio X(i) y X(i+1) , esto será denotado como X(i.5) y explícitamente:

X(i.5) = ( X(i)+ X(i+1))/2 = X(i) +( X(i+1)- X(i))/2 ;

= X(i) + 0.50( X(i+1) - X(i)) ; i = 1,2,…,n-1 De manera similar podemos definir:

X(i.2 ) = X(i) + 0.20( X(i+1) - X(i)); i = 1,2,…,n-1.

X(i.4) = X(i) + 0.40( X(i+1) - X(i)); i = 1,2,…,n-1. ; ó,

X(i.95) = X(i) + 0.95( X(i+1) - X(i)); i = 1,2,…,n-1. Podríamos, en general, definir X(i.a), de la siguiente manera:

X(i.a) = X(i) + 0.a( X(i+1) - X(i)); i = 1,2,…,n-1 , a real positivo.

No intentamos darles nombres específicos a estos estadísticos de orden, pero su significado es aparentemente obvio. Ejemplo 1.6

Supongamos que una muestra de tamaño n=5 es

XT = (2 3 8 7 4). Aquí la muestra nos permite determinar que, X(1) = 2; X(2) = 3; X(3 )= 4; X(4) = 7, y que X(5) = 8. El estadístico de orden m es X(m) = X(n+1)/2, donde definimos m como igual a (n + 1)/2; en este caso m es (5+1)/2=3; por tanto X(m) es X(3) =4 , que en este caso (n es un número impar) es el segundo Cuartil Muestral Q(2) o también conocido como Mediana de la Muestra. Alteremos un poco la muestra previamente analizada y supongamos que ella ahora es XT = (2 3 8 5 7 9) y nuevamente intentemos calcular X(m). Tenemos en la nueva muestra X(1 )= 2; X(2) = 3; X(3) = 5; X(4) = 7, X(5 )= 8 y X(6) = 9. Siendo ahora n=6, m ya no es un número entero sino que es igual a 3.5. Para calcular Q2 debemos determinar por tanto X(3.5) , que es el valor que le corresponde a Q(2) Procedamos, primero de la manera tradicional y luego aplicando la definición de X(i.a) :

Q2 = (X(4)+ X(3))/2 = 0.5( 7+5)=6. De igual manera

Page 21: Estadistica    tratamiento estadistico de datos

21

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Q(2) = X(3.5) = X(3) + 0.5( X(4) - X(3)) = 5 + 0.5( 7-5) = 6 ♦ En el caso de la primera muestra su mediana es 3 y a su vez es válido decir que la mediana muestral es un valor que pertenece a la muestra, en el segundo caso la mediana es 6 y este valor, no pertenece a la muestra. En el primer caso el tamaño n de la muestra es impar y en el segundo es par. Así como hemos calculado el segundo cuartil de la muestra, puede calcularse el primero Q1 o el tercero Q3 haciendo m = 0.25(n+1) ó m = 0.75(n+1) respectivamente, sin importar si el tamaño es par o impar. Siguiendo este patrón se puede determinar los percentiles muestrales que definiéramos previamente y que pasamos a ilustrar a continuación. Se aconseja nunca perder el sentido de la realidad. Ejemplo 1.7

En un laboratorio de Química Analítica se determina el número de partes por millón de un metal pesado que se encuentra disuelto en las aguas de un río del litoral ecuatoriano. Luego de efectuar veinte observaciones se obtiene una muestra que es la siguiente.

XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)

Para esta muestra determinar el primer Decil, el Primer Cuartil, Tercer Cuartil, la mediana y el percentil noventa y cinco (nonagésimo quinto).

Desarrollo. Muestra ordenada

2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12 Sea m = 0.1(n+1) = 0.1(21) = 2.1 D(1) = X(2,1) = X(2) + 0.1(X(3) - X(2)) = 3 + 0.1(3 - 3) = 3 Sea m = 0.25(n+1) = 0.25(21) = 5.25 Q(1) = X(5,25) = X(5) + 0.25(X(6) - X(5)) = 4 + 0.25(4 - 4) = 4 Sea m = 0.75(n+1) = 0.75(21) = 15.75

Page 22: Estadistica    tratamiento estadistico de datos

22

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Q(3) = X(15,75) = X(15) + 0.75(X(16) - X(15)) = 9 + 0.75(9 - 9) = 9 Sea m = 0.5(n+1) = 0.5(21) = 10.5 Mediana = Q(2) Q(2) = X(10,5) = X(10) + 0.5(X(11) - X(10)) = 6 + 0.5(7 - 6) = 6.5 Sea m = 0.95(n+1) = 0.95(21) = 19.95 P(95) = X(19,95) = X(19) + 0.95(X(20) - X(19)) = 11 + 0.95(12 - 11) = 11.95 ♦

1.8.- MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN 1.8.1.- La media aritmética y otras medidas de Tendencia Central

Las tablas de frecuencias y los gráficos y diagramas que hasta ahora hemos construido, nos han dado una representación visual de lo que es la información contenida en una muestra y los cuantiles alguna información cuantitativa de la misma, sin embargo, aun no hemos puesto suficiente énfasis en el análisis cuantitativo de la información contenida en los n datos muestrales. Comencemos por buscar un valor numérico que pudiera sintetizar o representar todos los datos, estamos hablando de la Tendencia Central o de la Medida de Posición de los mismos. El primero y mas utilizado por su facilidad para calcularlo y “por la noción intuitiva ” del mismo es lo que se denomina Media Aritmética de la Muestra, se lo denota x y se lo define como el promedio de los n datos contenidos en la misma, esto es:

x = (X1 + X2 + ... +Xn)/n = ∑=

n

1ii n/X

También es una medida de posición o tendencia central el Segundo Cuartil Q2 o Mediana Muestral, que ya hemos presentado, de manera informal cuando construíamos la Ojiva Muestral; y, de manera formal cuando presentamos la forma de calcular percentiles utilizando estadísticos de orden.

Media Aritmética Promedio de los n datos contenidos en la muestra

Mediana (Q2) Valor de X tal que cuando mas el cincuenta por ciento de las observaciones en la muestra toman un valor menor o igual a él

Page 23: Estadistica    tratamiento estadistico de datos

23

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Dijimos que Q2 es también el percentil cincuenta y por tanto, cuando mas el cincuenta por ciento de las observaciones toman un valor menor o igual a él. También dijimos que Q2 es el estadístico de orden m, siendo m=(n + 1)/2, donde como siempre en el contexto de esta capítulo, n es el tamaño de la muestra en consideración. Esto significa que

Q2 = X([n + 1]/2)

Hay quienes hacen análisis exploratorio de datos y prefieren definir la mediana muestral, considerando si el tamaño de la muestra es par o impar, en cuyo caso señalan que la mediana Q2 es el promedio de los estadísticos de orden X(n/2) y X([n/2]+1) si n es par; y, que es igual a X([n +1]/2) si n es impar. Nótese que las definiciones son equivalentes, cuando hemos definido estadísticos de “orden racional positivo” como X(i.5) y no solo de orden entero positivo como X(i). Sobra decir que estamos hablando de una muestra ordenada, caso contrario no estaríamos en capacidad de determinar estadísticos de orden. Otra medida de tendencia central con alta frecuencia utilizada es la Media Ponderada de la Muestra, la denotaremos por Mw. Cuando calculamos la media aritmética, cada observación Xi tiene igual “peso” o ponderación, en el procedimiento que se utiliza para determinarla; lo contrario ocurre para determinar esta nueva medida de posición que pretendemos introducir, para calcularla, cada observación tiene un peso wi, condicionado a que la suma de los n pesos sumen uno. Definimos de esta manera a la Media Ponderada Mw de la muestra de la siguiente manera:

Mw = w1X1 + w2X2 + … + wnXn. = ∑=

n

1iiiXw ; i=1,2,…,n;

∑=

=n

1ii 1w

Los casos de utilización de esta medida de posición son abundantes, los vive por ejemplo, un estudiante cuando al iniciar el semestre su profesor le indica como va a ser calculada su nota, sobre cien puntos, del curso que toma. Si le dice que obtendrá cinco por ciento por tareas realizadas fuera de clase, veinticinco por ciento por lecciones rendidas en clase y el resto por un examen; esto significa que su nota es una media ponderada de tres notas sobre cien , donde w1=.05; w2 =.25 ; y, w3=.70 . En tanto que X1 es la nota que sobre cien obtenga por “tareas”; X2 es lo que obtendría, sobre cien, por lecciones; y, X3 es su nota del examen, también sobre cien.

Media Ponderada Sumatoria de cada observación Xi multiplicada por su peso o ponderación correspondiente wi

Page 24: Estadistica    tratamiento estadistico de datos

24

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Por tanto su nota ponderada, Mw es:

Mw = w1X1 + w2X2 +w3X3

Nótese que en principio, la media aritmética es una media ponderada, solo que los ponderadores toman el mismo valor, esto es:

w1 = w2 = ... = wn = n1

1.8.2.- La media y la mediana de una misma muestra

Es evidente que si se toman datos en una investigación es para que sean aprovechados lo mas posible; como medida de tendencia central la media aritmética utiliza cada una de las observaciones en la muestra, en tanto que la mediana utiliza cuando mas dos de ellas, claro está que de una muestra ordenada. Puede por tanto decirse que para la determinación de la media aritmética se utilizan todos los datos contenidos en la muestra, sea esta ordenada o no, en tanto que para calcular la mediana, no se lo hace; esto permite a muchos pensar que debe preferirse siempre la media aritmética a la mediana, pero no es tanto así, puesto que en presencia de valores extremos o aberrantes, el efecto de éstos sobre la mediana es imperceptible en tanto que el valor de la media aritmética se ve afectado de manera notoria, pudiendo en el último caso, no ser la media aritmética muestral una buena medida de lo que es la verdadera tendencia central que se trata de determinar. Recuérdese que los valores aberrantes ocurren por múltiples razones, unas indeseables y otras inevitables. Entre los indeseables aparecen los errores de lecturas que se dan en el operativo de campo o en el laboratorio durante investigación, donde, por ejemplo, se apunta una estatura de 2.45 metros para una unidad de investigación, cuando se debió apuntar 1.45; o, en la digitación, donde en el reporte de campo aparece 1.45, pero al digitar se lo ingresa como 2.45. Estos errores no estadísticos o “ajenos al muestreo” se los debe detectar en una de las etapas de una encuesta o experimento, que se denomina “Crítica de Datos” la misma que se efectúa antes y después de la digitación. Antes, para tener la oportunidad de volver al laboratorio y verificar cualquier valor que se salga del patrón que muestren los datos; y, después de la digitación porque no siempre “el dedo humano” ingresa lo que corresponde o porque el lector óptico puede, por mala caligrafía o efectos ambientales, interpretar una cantidad por otra.

Page 25: Estadistica    tratamiento estadistico de datos

25

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

1.8.3.- La Media Cortada de una muestra

Un remedio que se ha sugerido para obviar la sensibilidad de la Media Aritmética a los datos aberrantes y al mismo tiempo poder utilizar la mayor cantidad de datos contenidos en la muestra, es la construcción de otra medida de tendencia central a la que se denomina Media Cortada de la Muestra; se la denota por Tα y se la define como la media aritmética del (1-α).100 por ciento de los datos, suprimiendo, en una muestra

ordenada, 2α %100 de datos de la “parte superior” y 2

α %100 de

la “parte inferior” en la muestra. Este “recorte” supone que los valores extremos, si existen, no serán considerados en el cálculo de Tα. Aunque con una muestra restringida, se aspira que la Media Cortada disfrute simultáneamente de las “virtudes” de la Media Aritmética y la Mediana, esto es, utilización máxima de los datos disponibles e insensibilidad a valores extremos. Lo usual es tomar α = 0.10 es decir, se calcula T.10. Ejemplo 1.8

En el Ejemplo 1.7 se consideró la siguiente muestra,

XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)

Calcular la media aritmética, la mediana y la media cortada T.10. Desarrollo.

x = (X1 + X2 + ... +X20)/20 = ∑=

20

1ii 20/X

= (7+12+10+3+4+7+3+9+6+9+2+4+6+4+4+9+7+4+7+11)/20 =6.40

Ordenando la muestra, ésta queda compuesta por:

2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12 Esto es:

X(1 )= 2; X(2 )= 3; X(3) = 3;…; X(19) = 11; X(20) = 12;

Para calculara la media cortada X.10, debemos prescindir, en la muestra original, de X(1) = 2 y de X(20) = 12, por lo que el noventa por ciento restante de la muestra X es el vector,

YT= (3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11)

Media Cortada de la Muestra Media aritmética del (1-α)100% por ciento de los datos

Page 26: Estadistica    tratamiento estadistico de datos

26

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Resultando así que X.10 es: X.10 = (3+3+4+4+4+4+4+6+6+7+7+7+7+9+9+9+10+11)/18 =

6.3333 Calculando la mediana Q(2) = X(10.5) = X10 + 0.5(X(11) – X(10)) = 5.5. En síntesis, la media aritmética de la muestra es 6.40; la media cortada X.10 es 6.33 y la mediana muestral es 5.5, de tal manera, la moda de la muestra, que es el valor que mas se repite es 4, pues aparece cinco veces en la muestra. ♦

En capítulos posteriores hablaremos de cómo evitamos, determinando Tα , una posible “contaminación” de la muestra y que el valor de Tα que lo que obtenemos es un “estimador robusto” del “verdadero” parámetro µ que mide la tendencia central de la población.

1.8.4.- Medidas de Dispersión

Tener la medida de lo que es la tendencia central es importante, pero no basta; no podemos sorprendernos que dos muestras que posean conformación numérica distinta tengan la misma media aritmética pero represente, estadísticamente, muy diferentes realidades. Veamos las cuatro siguientes muestras:

X1T = (1 2 3); X2

T = (-5 2 9);

X3T = (-10 -3 0 2 3 20); X4

T = (0 2 4)

Ellas poseen algo en común, las cuatro tienen la misma media aritmética, que es dos, pero difieren en su conformación numérica; nótese que incluso la tercera tiene un tamaño, seis, que es distinto al que tienen las demás, que es tres. El mensaje aquí parecería ser: una medida de tendencia central es relevante pero, no lo dice todo; en realidad falta algo mas. Vamos a observar la distancia desde cada uno de los valores Xi en la muestra a la media aritmética x , esto es,

d(Xi , x ) =⎟ Xi - x ⎟ Recordando que en todos los casos del ejemplo bajo análisis las muestras tienen media aritmética igual 2, tenemos para la primera muestra: d(1,2) = 1 ; d(2,2) = 0 y d(3,2) = 1. Para la segunda muestra d(-5,2) = 7 ; d(2,2) = 0 y d(9,2) = 7. Para la tercera muestra d(-10,2) = 12 ; d(-3,2) = 5 ; d(0,2) = 2; d(2,2) =0 ; d(3,2) =1 y d(20,2) = 18.

Page 27: Estadistica    tratamiento estadistico de datos

27

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Para la cuarta muestra d(0,2) = 2 ; d(2,2) = 0 y d(4,2) = 2. Si sumásemos las distancias de la media aritmética a cada observación obtendríamos una medida de cuan “lejos” o dispersos se encuentran cada uno de los datos muestrales con respecto a la media. Para el primer caso tal suma de distancias es 2; para el segundo 14; para el tercero 38, y para el último 4. Véase Figura 1.11 que ilustra de manera gráfica lo que de manera numérica hemos determinado. Figura 1.11 Cuatro Rectas representando cuatro Muestras señalando las Distancias Puede creerse que el número de observaciones en la tercera muestra obligó a que la suma de las distancias sea mayor, pero aunque es necesario reconocer que el número de observaciones puede influir en la medida de la dispersión de una muestra, piénsese en una muestra en la que todas las observaciones tomen el mismo valor, sin importar el tamaño de la muestra, siempre la suma de las distancias que hemos definido será cero. Nótese que esta suma de distancias bajo ninguna circunstancia puede ser negativa, pues se trata de sumas de distancias “euclideanas” que como tal están definidas en términos de valores absolutos de números reales. Con esta idea de dispersión con respecto a la media aritmética que hemos desarrollado en líneas previas, trataremos de construir de una manera explícita, una o varias medidas para cuantificar esta característica implícita en toda muestra. En primer lugar la dispersión es un valor relacionado o relativo a otro valor, pero este último no tiene necesariamente que ser la media aritmética, puede ser algún otro pero tiene sus ventajas que sea la media o al menos un valor que mida la tendencia central de la muestra.

0 1 2 3

0 2 9-5

0-3 2 3 20

0 2 4

X1

X2

X3

X4

Page 28: Estadistica    tratamiento estadistico de datos

28

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Ejemplo 1.9

Dada una muestra XT = (X1 X2 … Xn), determinar la media y la varianza de una muestra y que consiste de las n observaciones cuantitativas de la muestra X a las que se les resta su media aritmética. Desarrollo. Para el caso dado, YT = [ (X1 - x ) (X2 - x ) … (Xn - x ) ] = (Y1 Y2 … Yn) Por lo que,

y = ∑=

n

ii nY

1

/ = ∑=

−n

1ii n/)xX(

= n1 [ (X1 - x ) + (X2 - x ) + … + (Xn - x )

= n1 [ (X1 + X2 + … + Xn) - n x )

= n1 [ n x - n x ] = 0

Por lo tanto, si Yi = Xi - x , i = 1, 2, …, n, entonces: y = 0 Como ilustración numérica, Si XT = (1 2 3 4), entonces x =2.5 Si Yi = Xi - x , esto es YT = (-1.5 -0.5 0.5 1.5)

Por lo que Y = 0 ♦

Lo primero que se nos ocurriría para medir la dispersión sería

una expresión del tipo )xX(n

1ii∑

=

− , pero existe un inconveniente;

no importa cuál sea la muestra, como ya hemos visto, siempre es cierto que,

)xX(n

1ii∑

=

− = (X1 - x ) + (X2 - x ) + ... + (Xn- x )

= ΣXi - n x = n x - n x = 0 Por lo tanto éste es un resultado muy relevante, sobre todo para simplificar cálculos, pero no lo es para medir dispersión.

Page 29: Estadistica    tratamiento estadistico de datos

29

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Ésta es la razón fundamental por la que para estos fines se usan

sumas cuadráticas del tipo )xX(n

1ii∑

=

− 2; y, la primera medida de

dispersión con respecto a la media que utilizaremos será la Varianza Muestral s2 que se la define como:

s2 = )xX(n

1ii∑

=

− 2/( n –1)

Este valor no puede ser negativo y será cero cuando y solo cuando, todas las observaciones adopten el mismo valor, lo cual significa que la media es igual a tal valor y cada una de las diferencias que constituyen la suma cuadrática son cero. La medida de dispersión así definida no viene dada en las mismas unidades que los valores observados, sino en unidades cuadráticas, es decir, que si medimos cantidad de precipitación pluvial en centímetros cúbicos, la varianza estará en centímetros cúbicos al cuadrado. Por esta razón es común utilizar la raíz cuadrada positiva de la varianza; medida a la que llamamos desviación estándar o desviación típica de la muestra. Se la denota por s y se la define como ya indicáramos, igual a la raíz cuadrada positiva de la varianza,

s = 1n

)xX( 2i

−−

+

Una pregunta que surge inmediatamente después que se repara en cómo está definida la varianza muestral, es la presencia en el denominador de (n-1) cuando nuestra intuición nos dice que mas naturalmente “se ve” n, como es el caso de la Media Aritmética. Una respuesta parcial es “podríamos haberlo utilizado” y de hecho se lo utiliza, pero la respuesta con soporte teórico vendrá en capítulos posteriores, cuando estudiemos “estimación de parámetros poblacionales”, mientras tanto utilizaremos axiomáticamente (n-1) en el denominador de la definición de la varianza muestral. Ejemplo 1.10

Considérese la muestra previamente estudiada,

XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) Calcúlese su varianza y desviación típica. Desarrollo.

Varianza Muestral Medida de Dispersión de una variable X con respecto a la media

Desviación Estándar Raíz cuadrada positiva de la varianza

Page 30: Estadistica    tratamiento estadistico de datos

30

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Siendo n = 20 hemos encontrado que 40.6=x por lo tanto:

s2 = )xX(n

1ii∑

=

−2/( n –1)

s2 = [(2 - 6.40)2 + (3 - 6.40)2 + … + (11 - 6.40)2 + (12 - 6.40)2]/19

s2 = 8.36

De donde la desviación típica de la muestra es:

s = 1n

)xX( 2i

−−

+

s = + 89.236.8 = ♦

1.8.5.- Media y Varianza de datos agrupados

No siempre es obvio para quien comienza a adentrarse en el quehacer estadístico, cómo calcular la Media Aritmética o la Varianza de datos agrupados; aunque en realidad explicando la lógica tras del algoritmo todo parece sencillo. Recordemos que la agrupación de datos se da en k clases y que cada clase tiene una marca de clase. Llamemos Yi a la i-ésima marca de clase y supongamos que fi es la frecuencia absoluta de esa clase. Esto hace que la Media Aritmética X de los datos agrupados sea igual a:

x =∑=

k

1i

fi Yi / n

En tanto que la varianza de los datos agrupados es igual a:

s2 = ∑=

k

1ifi (Yi - x )2 / (n –1)

Nótese que las sumatorias tienen k términos y no n. Ejemplo 1.11

Durante cinco horas se efectúa un conteo de vehículos en una calle que corre de norte a sur en Guayaquil. Se reportan datos cada cinco minutos. En la primera columna de la tabla adjunta consta la frecuencia con que ocurren valores en cada una de las clases que se definen en la segunda columna. Cinco veces “pasaron” entre cinco y quince vehículos; ocho veces entre quince y veinticinco, y así hasta que cinco veces pasaron entre sesenta y cinco y setenta y cinco vehículos. Calcular x y s2.

Page 31: Estadistica    tratamiento estadistico de datos

31

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Figura 1.12 Tabla de Datos

Frecuencia Absoluta Clase Marca de

Clase 5 [5,15) 10 8 [15,25) 20

10 [25,35) 30 15 [35,45) 40 10 [45,55) 50 7 [55,65) 60 5 [65,75) 70

Desarrollo. Este es un caso de datos agrupados, n = 60 y k = 7

X= número de vehículos que “pasan” cada cinco minutos Las correspondientes marcas de clase son: 10, 20, 30, 40, 50, 60, 70. Por tanto:

x = ∑=

k

1ifi Yi / n , donde Yi son las ocho marcas de clase, no

las sesenta observaciones.

67.3960

)70(5)60(7)50(10)40(15)30(10)20(8)10(5x =++++++

=

Calculando la varianza de estos datos agrupados.

023.288

160)67.3970(5...)67.3920(8)67.3910(5s

2222 =

−−++−+−

=

Mientras que la desviación estándar S de los datos agrupados es:

s = + 97.16023.288 = ♦

1.8.6.- Media y Varianza de funciones de X

Supóngase que dada una muestra X de tamaño n en la que se investiga una característica X, definimos Yi = αXi + β. Donde α y β son constantes reales y el subíndice i varía de 1 hasta n. Pretendemos encontrar el valor de la media y la varianza de Y=αX + β.

Page 32: Estadistica    tratamiento estadistico de datos

32

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Por definición:

Y = ∑=

n

1i

Yi /n =∑=

n

1i

(αXi + β)/n

= α(∑=

n

1iXi/n) + nβ/n = α x + β .

Por lo tanto la media aritmética de Y es igual a α que multiplica a la media aritmética x de X, mas el valor de la constante β. De manera similar se puede probar que el valor de la varianza de Y, cuando Yi = αXi + β, es igual a:

Var(Y) = s 2y =∑

=

n

1i

[(αXi + β) −(α x + β )] 2/( n- 1)

= α2 ∑=

n

1i(Xi − x ) 2/( n- 1)

= α2 Var(X) = α2 s 2x .

Lo cual significa que el coeficiente α que multiplica a X aparece de manera cuadrática en el valor de la varianza de Y, pero la constante β no afecta al valor de s 2

y . Ejemplo 1.12

Dada una muestra XT = (X1 X2 … Xn) “estandarizarla” y calcular su media y su varianza. Desarrollo. “Estandarizar” una muestra significa definir una nueva variables Y, en términos de los valores observados X, de tal manera que:

sxX

Y ii

−=

La muestra estandarizada sería por tanto,

YT = ⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −⎟⎟⎠

⎞⎜⎜⎝

⎛ −⎟⎟⎠

⎞⎜⎜⎝

⎛ −

x

n

x

2

x

1s

xX...

sxX

sxX

Siendo sx la desviación típica de X. Con lo desarrollado en el ejemplo primero Y = 0; veamos cuanto resulta ser la varianza

( ) ( )∑=

−=n

1i

2i

2y 1-nYYs

Page 33: Estadistica    tratamiento estadistico de datos

33

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

( )( ) ( )[ ]∑∑==

−−

=−−=n

1i

2xi

n

1i

2xi SxX

1n1YSxX

1-n1

[ ] 2y

n

1ix

2i S1SxX

1n1

==−−

= ∑=

Consecuentemente, toda muestra estandarizada, tiene media cero y varianza uno. Si a la muestra XT = (1 2 3 4) la “estandarizamos” se

transforma en YT = ⎟⎠⎞

⎜⎝⎛ −−−−

291.1

5.24

291.1

5.23

291.1

5.22

291.1

5.21

Puesto que ( ) ( ) ( ) ( ) 291.1325.2425.2325.2225.21 =−+−+−+−= ⎥⎦⎤

⎢⎣⎡xS .

Realizando los cálculos correspondientes, resulta que:

YT = ( )1619.13873.03873.01619.1 −−

De donde y = 0 y,

( )∑=

−=4

1

231

s2

iYiY

y

( ) ( ) ( ) ( )

3

201619.1203873.0203873.0201619.1 −+−+−−+−−=

133

3

3500.11500.01500.03500.1===

+++

Luego 1s0s

=∧=⇒−

= yx

ii Y

xXY ♦

1.9.- MÁS SOBRE DISPERSIÓN 1.9.1.- Simplificación de cálculos

Obviamente que también existe una Desviación Estándar “cortada” sα en la que se calcula el valor de la desviación, eliminado el α100% de las observaciones superiores e inferiores, de la misma manera que señaláramos para la Media Cortada Tα. Es conocido que no siempre las expresiones que definen una medida estadística son las más adecuadas para efectuar los cálculos que permiten determinarla numéricamente, es el caso de la Varianza Muestral. Optaremos por encontrar una expresión

Desviación Estándar Cortada Valor de la desviación estándar muestral eliminando α100% de las observaciones superiores e inferiores

Page 34: Estadistica    tratamiento estadistico de datos

34

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

que facilite el cálculo para que a un estudiante al igual que un experto pueda programar en un lenguaje computacional. Observemos que:

∑=

n

1i

(Xi − x )2 = ∑=

n

1i

Xi2 − 2 x ∑

=

n

1i

Xi + n x 2

de donde,

=∑=

n

1iXi

2 − 2∑=

n

1iXi/n∑

=

n

1iXi + n x 2

=∑=

n

1i

Xi2 − [2(∑

=

n

1i

Xi)2 /n]+ n(∑=

n

1i

Xi)2/n2 .

= [n∑=

n

1iXi

2 − (∑=

n

1iXi)2] /n

Este resultado nos permite calcular la varianza muestral de X de una manera que computacionalmente es mucho más simple que la dada en la definición:

s 2x =∑

=

n

1i(Xi − x )2/( n −1) = [n∑

=

n

1iXi

2 − (∑=

n

1iXi)2]/n(n – 1)

Ejemplo 1.13

Calcular la varianza de la muestra XT = (1 2 3 4) aplicando las expresiones determinadas en la presente sección. Desarrollo.

Necesitamos ∑=

n

1iiX y ∑

=

n

1i

2iX

=∑=

4

1iiX 1 + 2 + 3 + 4 = 10

∑=

4

1i

2iX = 12 + 22 + 32 + 42 = 1 + 4 + 9 + 16 = 30

Por tanto,

( ) =−∑=

4

1i

2i xX [ 4(30) – (10)2]/4 = [120 - 100]/4 = 5

Por lo tanto

( )∑ ==−= 667.13/53/s22 xX ix

Verificándose además que sx = 1.291 ♦

Page 35: Estadistica    tratamiento estadistico de datos

35

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

1.9.2.- Cuantiles y medidas de dispersión

Es también medida de dispersión el Rango Muestral R, que se define como:

R= X(n) - X(1)

Este valor mide la dispersión de la muestra en términos de sus valores extremos, es decir con la longitud (mínima) de un intervalo en el que se ubica el 100% de las observaciones que constituyen la muestra. Otra medida de dispersión es el denominado Rango Intercuartil, RI, que se define como la diferencia entre el tercer cuartil y el primero, determinando así la longitud de un intervalo que incluye el “cincuenta por ciento central” de observaciones en la muestra. El Rango Intercuartil matemáticamente se lo expresa como:

RI = Q(3) – Q(1) .

Ejemplo 1.14

En el ejemplo 1.8 se utiliza la muestra de tamaño 20,

XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) Determinar el Rango y el Rango Intercuartil de esta muestra. Desarrollo. Se determinó ya que X(1) = 2 y X(n) = X(20) = 12, por lo tanto el rango muestral es

R = 12 – 2 = 10 Con los algoritmos estudiados en la sección 1.7 e ilustrados en los Ejemplos 1.6 y 1.7 se encuentra que

Q1 = X(5.25) = 4

y Q3 = X(15.75) = 9

Por lo que el Rango Intercuartil de la muestra es

R = 9 – 4 = 5 ♦

1.9.3.- Otros Diagramas y Representaciones Gráficas de una Muestra

Si bien los Histogramas de Frecuencia ya aparecen en los medios de comunicación masiva y son asimilados por sus

Rango Muestral (R) Diferencia entre el valor máximo y el valor mínimo de la muestra

Rango Intercuartil (RI) Diferencia entre el tercer cuartil y el primero. Intervalo que incluye el cincuenta por ciento central de observaciones en la muestra

Page 36: Estadistica    tratamiento estadistico de datos

36

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

lectores o televidentes, las primeras y mas comprensibles representaciones estadísticas que se popularizaron entre el gran público, son los “Pasteles”, que no son mas que círculos cuya superficie aparece repartida en k diferentes secciones; el área de cada una de estas secciones es proporcional al “peso” o ponderación que en un todo, tengan cada una de sus k partes. Si por ejemplo una compañía que elabora productos cárnicos, tiene cuatro proveedores de materia prima, y uno de ellos, A, le entrega el 45% del total de la materia prima; otro, B, le entrega el 20%; un tercero, C, el 15%; y el último, D, entrega el 20% restante. Un pastel que represente esta situación será un círculo con el 45% de su área para A; el 20% para B; el 15% para C; y, el 20% de su área para D. Véase Figura 1.13 Figura 1.13 Gráfico de Pastel Existen detractores del agrupamiento de datos, y sus razones tienen, ya que al agrupar se gana la idea de clasificación grupal y distribución espacial de los datos, pero se pierde la individualidad del dato y lo mejor que se consigue es que los fi datos individuales ubicados en la i-ésima clase sean representados por un solo valor, la i-ésima marca de clase. Esta situación ha llevado a reconocer méritos a los denominados Diagramas de Tallo y Hojas. Observemos una ilustración en el Esquema que presentamos en la Figura 1.14 para comprender este tipo de diagrama. Figura 1.14 Diagrama de Tallo y Hojas

fi Tronco Hojas 8 40 1 2 2 3 3 5 7 9 10 50 1 2 4 4 5 5 8 8 8 9 (14) 60 2 3 3 3 4 4 4 4 5 6 6 6 7 7 9 70 1 2 3 4 6 6 7 8 8 6 80 0 3 4 6 7 9 3 90 5 6 7

Longitud de cada hoja = 1.

Proveedor B

Proveedor C

Proveedor D

Proveedor A20%

15%

20%

45%

Pasteles Círculos cuya superficie aparece repartida en k diferentes secciones, cada una de las cuales es proporcional al peso que en un todo tengan cada una de sus k partes

Page 37: Estadistica    tratamiento estadistico de datos

37

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Se tienen 50 observaciones distribuidas en seis clases de diez unidades de longitud, la primera clase es [40,50) y la sexta [90,100). Existen ocho observaciones en la primera clase, diez en la segunda, catorce en la tercera y así hasta llegar a la sexta clase que contiene tres observaciones. El primer “tronco” de este árbol es 40; el segundo 50; y, el sexto 90. En la primera clase las ocho observaciones están determinadas por los ocho dígitos que constituyen las “hojas” del “árbol” y sus valores son: 41; 42; 42; 43; 43; 45; 47; y, 49. En la segunda clase las diez observaciones son: 51; 52; 54; 54; 55; 55; 58; 58; 58; y, 59. Las tres observaciones en la sexta clase son: 95; 96; y, 97. Debemos reconocer que con el Diagrama de Tallo y Hojas, a la vez que conservamos la individualidad de las observaciones , tenemos idea también de su distribución espacial, tal cual lo hace un histograma de frecuencias. Nótese que, en la ilustración dada, la frecuencia de la tercera clase aparece entre paréntesis, eso significa que en esta clase se encuentra la Mediana Muestral que es:

Q2 =X([n+1]/2) = X(25.5) =(X(25)+ X(26))/2 = ( 64 + 64)/2 =64.

No olvidar que el tamaño n de la muestra considerada es 50. A fin de definir la Profundidad de un Conjunto de Datos llamaremos, en una muestra ordenada XT= (X(1) X(2) ... X(n)) , clases inferiores a aquellas que contiene observaciones de menor valor que las de la clase que contiene la mediana muestral; y, clases superiores a las que se ubican luego de la que contiene la mediana. Supongamos que los datos se han distribuido en k clases, la Profundidad de una clase, para las clases inferiores, es igual a su frecuencia acumulada absoluta. Para el caso de las clases superiores la profundidad de la k-ésima clase es fk; la de la clase (k–1) es (fk + fk-1); la de la clase (k-2) es (fk + fk-1 + fk-2); y con este patrón de cálculo, hasta llegar a la clase previa a la que incluye la mediana. Para el ejemplo en el que presentáramos los diagramas de tallo y hojas, la profundidad de la primera clase es 8; la de la segunda 18; la de la sexta 3; la de la quinta 9; la de la cuarta 18; la clase central contiene a la Mediana, tiene catorce observaciones. La primera y la segunda son clases inferiores, en tanto que la cuarta, quinta y sexta son superiores.

Diagrama de Tallo y Hojas Conserva individualidad de observaciones y nos da la idea de su distribución espacial

Clases Inferiores Clases que contienen observaciones de menor valor que las de la clase que contiene la mediana muestral

Clases Superiores Clases que se ubican luego de la clase que contiene la mediana

Page 38: Estadistica    tratamiento estadistico de datos

38

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

1.9.4.- Valores aberrantes detectados en diagramas de caja

En Estadística, los valores aberrantes o valores extremos son motivo de notable preocupación y estudio; y, en la misma línea que se construye la media cortada Tα, es cada vez mas difundido, sobre todo entre los fabricantes de “paquetes estadístico computacionales” restringir la muestra utilizando el concepto de Rango intercuartil RI, lo cual permite construir las denominadas Cercas; la Cerca Interior y la Cerca Exterior de la muestra. Utilizando un diagrama de caja, se considera que una observación constituye un presunto valor aberrante, si se ubica a 1.5RI abajo de Q1 o 1.5RI arriba de Q3. La Cerca Interior de un conjunto de datos está a 1.5RI a la izquierda de Q1, mientras que la Cerca Exterior está a 1.5RI, a la derecha de Q3. Véase Figura 1.15 Formalizando, un valor observado se constituye en un presunto valor aberrante si: a) toma un valor menor que max[ X(1) , Q1 – 1.5RI ]; o, b) toma un valor mayor que min[ X(n) , Q3 + 1.5RI ] Si realmente el valor bajo sospechas es “aberrante”, esto es, no proviene de la población objetivo de la que se ha tomado la muestra, debe ser determinado a través de un análisis de consistencia de los datos. Ejemplo 1.15

En el ejemplo 1.13 se encontró que Q1 = 4 y Q3 = 9. Determine que valores observados serían “sospechosos” de convertirse en valores aberrantes. Desarrollo. Tenemos que,

RI = Q3 – Q1 = 9 – 4 = 5 Luego,

(1.5)RI = 1.5(5) = 7.5 Por tanto una observación podría ser un valor aberrante si es mayor que:

(7.5) + 9 = 16.5 = (1.5)RI + Q3

O si es menor que:

Page 39: Estadistica    tratamiento estadistico de datos

39

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

4 – 7.5 = -3.5 = Q1 – (1.5) RI

Por lo tanto, en la muestra

XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)

No existe valor aberrante ya que

X(1) > -3.5 y X(20) < 16.5 ♦ En la Figura 1.15 encontramos el caso donde el diagrama de cajas enuncia observaciones sospechosas de ser valores aberrantes, cuatro en el extremo superior y tres en el inferior, allí se grafica el significado de 1.5RI. Figura 1.15 Valores Aberrantes detectados en un Diagrama de Caja

1.10.- TRABAJO CON DOS O MÁS VARIABLES 1.10.1.- El Coeficiente de Variación

En las secciones previas hemos estudiado una muestra de tamaño n, sobre la que se investiga una sola característica, mas, lo usual es que al tener una Población Objetivo constituida por N unidades de investigación, tratemos de conocer mas de una característica de la misma y probablemente, la idea sea buscar relaciones entre las distintas características objeto de estudio. Con tal fin, en esta sección presentaremos técnicas estadísticas que permiten establecer relaciones entre distintas características de una misma población. Dos características correspondientes a una misma población objetivo, pueden cuantitativamente diferir en escala por estar medidas en diferentes unidades o por que comparativamente difieren aun estando medidas en las mismas unidades; esto se lo detecta graficando de manera simultánea los dos diagramas de caja de cada una de ellas y estableciendo las comparaciones que

-30 -20 -10 0 10 20 30 40 50 60 70

1.5RI 1.5RI

RI

Page 40: Estadistica    tratamiento estadistico de datos

40

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

correspondan. Las diferencias en tendencia central y dispersión quedan establecidas claramente en la Figura 1.16 Figura 1.16 Diagramas de Caja Diferenciados Si bien el Coeficiente de Variación V está definido para una muestra, permite, de alguna forma comparar dos variables o características. Dada una muestra XT = (X1 X2 ... Xn) que tiene media aritmética x y desviación estándar s, se define a V=s/ x . Se supone que mide la “dispersión relativa” de X con respecto a x , de igual manera puede servir como una medida comparativa entre dos variables X y Y, cuando las escalas en que se las mide, difieren de manera notoria; dígase por ejemplo que X es estatura en centímetros y que Y es ingreso en dólares.

1.10.2.- Gráficos Q - Q

Otro instrumento de alta utilidad para comparar variables de una misma muestra o una misma variable correspondiente a distintas muestras, son los denominados Gráficos Q-Q; estos gráficos ubican los cuantiles de una variable en el eje horizontal y los de la otra en el eje vertical. Si las variables cuyo Gráfico Q-Q se obtiene, son equivalentes, el gráfico será una recta con pendiente uno y cuya intersección con el eje vertical es cero. Si la pendiente de la recta es mayor que uno, esto significa que la variabilidad de la característica representada en el eje horizontal es mayor que la de la representada en el eje vertical. El argumento se revierte cuando la pendiente es menor que uno. La utilidad de los Gráficos Q-Q ha sido realzada por quienes efectúan Control de Calidad en distintos ámbitos productores de bienes o servicios.

Variable 1

Variable 2

-2.50 0.00 2.50 5.00 7.50 10.00 12.50

Page 41: Estadistica    tratamiento estadistico de datos

41

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

1.11.- ESTADÍSTICA DESCRIPTIVA MULTIVARIADA 1.11.1- Vector de Medias y Matriz de Covarianzas

Si se investigan p características a las unidades de una población objetivo, a través de una muestra aleatoria de tamaño n, se van a generar nxp valores, contenidos en n vectores de la forma,

Xi = [ xi1 xi2 ... xip]T; i = 1; 2; … ; n.

Cada uno de estos vectores Xi contiene los datos que se reportan en uno de los n formularios o cuestionarios que se hayan administrado y llenado en la investigación; ellos constituyen las columnas de una matriz Y∈Mpxn, la que se denomina Matriz de Datos, esto es,

Y = [X1 X2 ... Xn] =

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

pnpp

n

n

xxx

xxxxxx

21

22221

11211

La fila i-ésima de Y representa las n lecturas de la i-ésima característica investigada en la población objetivo, mientras que el valor xij corresponde al j-ésimo valor de la i-ésima característica. Recuérdese que i varía de uno a n y j varía de uno a p. Las medias aritméticas muestrales

−ix = ∑

=

n

1jijx

n1

así como las covarianzas muestrales

sik = 1n1− ∑

=

−−n

1j

kkjiij )xx)(xx( = ski

Es posible conformar un Vector de Medias Muestrales

x = [ 1x 2x ... nx ]T

y una Matriz de Varianzas y Covarianzas Muestrales

S=( sik) ; i, k=1,2, ...p

Page 42: Estadistica    tratamiento estadistico de datos

42

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Podría parecer extremadamente complicado calcular el vector de medias muestrales así como la matriz S de varianzas y covarianzas muestrales, sin embargo, si utilizamos matrices esto se vuelve relativamente simple, mucho mas si disponemos de los paquetes estadísticos adecuados. El vector 1n∈Rn, es definido como 1n = (1 1 ... 1)T , lo constituyen n números uno y nos permite, con la ayuda adicional de la matriz de datos Y, definir el vector de medias muestrales de la siguiente manera,

x =

n1 Y1n

Mientras que la matriz S es igual a,

S=1n

1−

Y(I - n1 1n 1n

T )YT.

En la última expresión I es la matriz identidad nxn. Nótese que sii es igual a 2

is , esto es, la covarianza muestral entre Xi y Xi es la varianza muestral de Xi.

Ejemplo 1. 16

A cinco estudiantes de nivel superior se les pregunta durante una encuesta piloto, su edad en años, número de hermanos e ingreso promedio mensual de su hogar, en dólares, respondiendo ellos de la siguiente manera: Figura 1.17 Tabla de Datos

Estudiante Edad Número de Hermanos

Ingreso Mensual

1 19 3 930

2 18 0 750

3 19 4 785

4 21 1 1230

5 20 3 955

Se requiere determinar el vector de medias aritméticas de la muestra y la correspondiente matriz de covarianzas. Desarrollo. Se cuenta con p = 3 características de una población objetivo constituida por estudiantes de nivel superior. X1 que es la edad de los estudiantes, X2 es el número de hermanos y X3 constituye el ingreso mensual en dólares de sus

Page 43: Estadistica    tratamiento estadistico de datos

43

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

correspondientes hogares. El tamaño de la muestra es n = 5. Los vectores que constituyen la muestra son:

X1 = [ 19 3 930 ]

X2 = [ 18 0 750 ]

X3 = [ 19 4 785 ]

X4 = [ 21 1 1230]

X5 = [ 20 3 955]

Cada vector está constituido por los p=3 datos que entrega cada uno de los n=5 informantes; estos cinco vectores constituyen las cinco columnas de la Matriz de Datos Y, que consecuentemente es una matriz 3x5; por lo que la matriz de datos es :

Y = [ X1 X2 X3 X4 X5]

Reemplazando los valores numéricos extraídos de la Figura 1.17, tenemos que

Y = ⎥⎥⎥

⎢⎢⎢

9551230785750930314032021191819

Para obtener el vector de medias aritméticas que es igual

51 Y15 , siendo 15 la matriz 5x1 que tiene el número “uno” en

cada una de sus cinco posiciones que la constituyen, en realidad 15 ∈R5.

51 Y15 = [19.40 2.20 930]T

Significando esto, que la edad promedio de los entrevistados es 19.40 años; el número promedio de hermanos es 2,20; y, el ingreso medio de los correspondientes hogares es 930 dólares al mes. La matriz de varianzas y covarianzas S de la muestra es una matriz simétrica 3x3, que como quedó establecido es igual a S=

1n1−

Y(I - n1 1n 1n

T )YT. Siendo n = 5; esta matriz se la

presenta a continuación:

S =

⎥⎥⎥

⎢⎢⎢

−−

50.3601225.5125.20125.5170.215.025.20115.030.1

Page 44: Estadistica    tratamiento estadistico de datos

44

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

1.11.2.- Coeficiente de correlación de muestras

Talvez el mas utilizado indicador de relaciones entre dos variables X y Y de una misma muestra, esto es, se han medido dos distintas características de una misma población objetivo, es el denominado Coeficiente de Correlación Lineal rxy de una muestra, cuyo objetivo es medir la “fortaleza” de la relación lineal que existe entre dos variables X y Y. Este “coeficiente” Se lo define y denota de la siguiente manera:

rxy = ∑= −−

−−n

1i2

i2

i

ii

)yY()xX(

)yY)(xX(= Corr(X,Y)

Se supone que X y Y son medidas de forma “pareada”, es decir Xi y Yi son medidas de dos diferentes características de la misma unidad de investigación, llamémosla ui; puede ser por ejemplo que a un grupo humano se le pregunte al mismo tiempo su edad y el número de hijos; o, que a una mata de banano se le registre su altura y edad; o, que a un mismo circuito eléctrico se le mida su impedancia y amperaje. Centraremos nuestra explicación en dos variables, pero será obvio que la misma puede ser extendida a las p variables motivo de estudio, que usualmente se presentan en lo que se denomina la matriz de datos Y que ya hemos comentado e ilustrado en líneas previas. La definición dada para rij es equivalente a:

ji

ijssr s

ij =

Donde sij es la covarianza entre Xi y Xj, mientras que si es la desviación típica de Xi y sj la de Xj. Como ya la señaláramos esta definición de correlación lineal puede ser extendida a mas de dos variables, digamos que a p de ellas lo cual hace posible que calculemos dos, tres o mas “correlaciones”, la de X1 con X2; la de X1 con X3; y, la de X2 con X3 si fuera el caso de p = 3. Nótese que de acuerdo con la definición de coeficiente de correlación se tiene que

Corr(Xi ,Xj) = Corr(Xj ,Xi) = rij. Si p = 3, podemos construir una matriz simétrica R que es 3x3 y que en la posición (i,j) contenga Corr(Xi ,Xj) = rij. Esta matriz se denomina matriz de correlación de la muestra,

R = ( rij)∈S3x3

Coeficiente de Correlación Lineal Mide la fortaleza de la relación lineal que existe entre dos variables X y Y

Page 45: Estadistica    tratamiento estadistico de datos

45

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Donde S3x3 es el conjunto de las matrices simétricas 3x3.

r = ⎥⎥⎥

⎢⎢⎢

333231

232221

131211

rrrrrrrrr

Nótese que rii es “uno” y representa la correlación entre Xi y Xi, lo cual significa que todos los elementos de una diagonal de esta matriz de correlación son unos. Se puede probar que rij toma valores entre –1 y 1. Un valor de rij igual a uno indica la existencia de una relación lineal “perfecta” entre X y Y, dicha relación tiene pendiente positiva lo que significa que si X crece Y también crece; si rij toma el valor –1, la relación lineal es decreciente, es decir que mientras X crece, Y decrece y viceversa. Valores intermedio de rij (entre 1 y 0 o entre -1 y 0) significan que la relación lineal va deteriorándose y cuando llega a cero, sea desde la izquierda o desde la derecha, la relación lineal desaparece. Téngase en cuenta que cuando se miden n veces dos o mas características de una misma población objetivo, la muestra ya no es un vector en Rn sino una matriz de p filas y n columnas. Si se midieran tres características X1, X2, y X3 a cuatro personas la matriz de datos Y, que representa la muestra sería,

YT =

⎥⎥⎥⎥

⎢⎢⎢⎢

434241

333231

232221

131211

XXXXXXXXXXXX

Siendo Xij la j-ésima característica medida a la i-ésima persona. Ejemplo 1.17

Con los datos del problema previo calcular la matriz R y con ello los tres coeficientes de correlación. Desarrollo. Téngase en cuenta que

ji

ijijr

ss

s=

Donde sij es la covarianza muestral entre la característica i-ésima, Xi, y la característica j-ésima, Xj. Además si es la desviación típica de Xi y sj la de Xj. Aplicando lo

Page 46: Estadistica    tratamiento estadistico de datos

46

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

previamente señalado, obtenemos que R es la matriz simétrica siguiente:

R = ⎥⎥⎥

⎢⎢⎢

−−

1164.0930.0164.01080.0

930.0080.01

0.080 es r12, 0.930 es r13, y -0.64 es r23. Esto nos dice que existe una fuerte relación lineal entre X1 y X3, y que es positiva, mientras que la relación entre X2 y X3 es negativa y relativamente débil. Sobre la diagonal existen números “uno” que son en realidad varianzas de las variables Xi

“estandarizadas”. ♦ 1.12.- OBSERVACIÓN DE PROCESOS EN EL TIEMPO 1.12.1.- Series Temporales y Filtros

Siempre estaremos preocupados de la distribución de frecuencias de una variable, de su tendencia central y dispersión, sin embargo es cada vez mas frecuente hacer mediciones de una variable aleatoria X con igual espaciamiento en el tiempo t, durante un periodo finito T o un lapso abierto. Todos podemos observar el valor X(t) que toma la cantidad de Kilovatios hora que consumimos cada mes en nuestro hogar o en el lugar que trabajamos, o la cantidad de dólares que mensualmente ganamos o lo que en cada edición de los periódicos aparece que no son mas que los precios de acciones en la bolsa de valores. Este mismo tipo de series están presentes en los procesos industriales cuando cada hora anotamos el valor de una característica de un producto que está en la línea de producción, con lo que pretendemos verificar la calidad del producto y el estado mismo del proceso. Hablamos de Series Temporales o Series de Tiempo. En la Figura 1.18 aparece una Serie de tiempo, (t,X(t)), que representa un proceso temporal que realmente ha ocurrido, se trata de la serie semanal del número de “robos agravados” denunciados en el Ministerio Público de la ciudad de Guayaquil, durante el año 2006 y el primer semestre el año 2007. Esta es una investigación realizada por el Centro de Estudios e Investigaciones Estadísticas, en colaboración con la Fiscalía del Guayas, y el Municipio de Guayaquil.

Page 47: Estadistica    tratamiento estadistico de datos

47

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Figura 1.18 Serie Temporal del Delito: Robo Agravado* Correspondiente al período de 31 de Diciembre de 2005 a 13 de Abril de 2007

Fuente de datos: Ministerio Fiscal de Guayaquil Elaborado por: Centro de Estudios e Investigaciones Estadísticas ICM-ESPOL

Lo primero que se trata de descubrir en una serie temporal es si es “estacionaria” esto es si se estabiliza alrededor de algún valor o si no es estacionaria pero tiene tendencia a crecer o decrecer a partir de indeterminado valor del tiempo. Si bien el análisis de las tendencias de una serie temporal es motivo de cursos especializados; para efectos de este libro nos centraremos en la presencia de perturbaciones no controladas dentro del proceso, también denominadas ruido, perturbaciones que producen valores que hacen difícil determinar la presencia de un determinado patrón de comportamiento de la serie temporal bajo consideración. Una forma de reducir este ruido es mediante la construcción de filtros supresores de oscilaciones extremas. Muchas son las técnicas de filtrado que pueden utilizarse, pero una muy popular y ampliamente utilizada por su simplicidad y eficiencia es la de Filtros de Medias Móviles, que consiste en reemplazar cada observación X(t) por el promedio de ese valor y los (k-1) valores previamente observados, éste es un Filtro de Medias Móviles de k-términos. En definitiva, al aplicar un filtro de medias móviles de k-términos, la observación X(t) leída al tiempo t del proceso, se la reemplaza por el valor Y(t) definido como:

)]1kt(X...)1t(X)t(X[(k1)t(Y +−++−+=

Ruido Perturbaciones no controladas dentro del proceso

Filtro de Medias Móviles de k-términos Reemplazo de cada observación X(t) por el promedio de ese valor y los (k-1) valores previamente observados

Semanas

131

154

131

146

118

99

87

71

98100

152

96105

124

107

116

112

126

119

125

107

166

129

101

122

109104

83

105111110

117

81

106

89

78

99

7884

98

117

136

949696

103

8994

108

100

128

111100

136137130

94

118

9993

129

97

109

100

112

98

86

0

20

40

60

80

100

120

140

160

180

Se

Robo Agravado

Año 2007 Año 2006

Núm

ero

de D

elito

s

Page 48: Estadistica    tratamiento estadistico de datos

48

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

En la Figura 1.19 se muestra la serie temporal del delito denominado “robo simple”, en el mismo período que la anterior serie de delito; también se observa la serie filtrada, o suavizada, utilizando un filtro de cuatro términos. Nótese que X(1) y Y(1) coinciden; que Y(2) es el promedio de solo dos términos previamente observados; Y(3) solo de tres valores observado; y, recién Y(4) y los posteriores valores calculados, son el resultado de aplicar, en su extensión un filtro de cuatro términos. Véase tabla adjunta a Figura 1.19 Figura 1.19 Serie Temporal del Delito: Robo Simple Correspondiente al período de 31 de Diciembre de 2005 a 13 de Abril de 2007

Fuente de datos: Ministerio Fiscal de Guayaquil Elaborado por: Centro de Estudios e Investigaciones Estadísticas ICM-ESPOL

1.12.2.- Causas de Variación de un Proceso

Una vez filtrada la serie, es importante observar su gráfico para así intentar descubrir patrones que denuncien si la serie es estacionaria o si crece o decrece en determinado lapso y a partir de un punto específico; es también relevante reflexionar sobre las causas que producen estas variaciones. Todo proceso está sujeto a variación, puede que las causas que lo hacen variar le sean inmanentes o pudiera que se trate de efectos impredecibles o que se presentan periódicamente. El primer tipo de causas de variación se denominan causas comunes y el segundo tipo causas especiales. Para remover una causa común, se requiere modificar el proceso en sí, en cambio las causas especiales se las puede remediar con medidas de detección y corrección durante el proceso.

209

235

257

238

217229

233

204

300

285

246 246

287 287

231

205

218

194

250

211

259

232223

240

193

265

204

230

191

166

208 206

151

180176

202

174

155

131

186

251255

120

135

178

154162

211

108

184

169

200 198

143

187

225

193

248

188

152

112

128

161

123

172

173 173

0

50

100

150

200

250

300

350

S

Año 2007 Año 2006

Robo Simple

Semanas

Núm

ero

de D

elito

s

Page 49: Estadistica    tratamiento estadistico de datos

49

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

1.12.3.- Cartas de Control

Cuando a mediados del siglo veinte se da pábulo a la filosofía de la “calidad sobre la cantidad” ya se contaba con uno de los instrumentos hasta hoy profusamente utilizados en ingeniería de la calidad y particularmente en el Control Estadístico de la Calidad: las Cartas de Control. Estos instrumentos fueron inventados por Schewart, en las primeras décadas del siglo veinte, para controlar la variabilidad en el tiempo de una característica cuantitativa que corresponde a un producto, sea este bien o servicio, que esté en proceso de elaboración. En la Figura 1.20 se presenta como luce una de estas cartas; consiste de un gráfico en el plano en el que destacan tres líneas, una Central, una superior y otra inferior, estas dos últimas equidistantes de la central. La primera de las nombradas se denomina Línea Central de la Carta, y representa el nivel medio deseado para la característica; la superior se denomina Línea Superior de Control y se encuentra a tres desviaciones típicas arriba de la Línea Central. Debajo de la Línea central y a tres desviaciones de distancia se encuentra la Línea Inferior de Control. Estas cartas tienen sus reglas de decisiones, que permiten declarar a un sistema de producción, “fuera de control” o “bajo control”. Figura 1.20 Cartas de Control

1.13.-DATOS CUALITATIVOS 1.13.1.- Escalas de medidas

De lo desarrollado hasta el momento parecería que las técnicas estadísticas son solo aplicables a mediciones cuantitativas, lo cual no es cierto, pues si bien estas técnicas se desarrollan en base a principios matemáticos y por tanto bajo nociones cuantitativas, siempre es posible habilitar un camino que permita tratar estadísticamente variables no cuantitativas, inclusive en el caso de que ellas no tengan un orden establecido.

0

5

10

15

20

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Línea Superior

Línea Central

Línea Inferior

Car

acte

ríst

ica

de In

teré

s

t

Page 50: Estadistica    tratamiento estadistico de datos

50

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Una variable cualitativa puede tener un orden, por ejemplo nivel de educación formal, tipo de delito, o punto de vista sobre determinado asunto de interés de las personas entrevistada; o puede que no tenga un orden, como el color de los ojos de las personas, la raza de un grupo humano, el género o la religión. Uno de los primeros instrumentos que utiliza la Estadística para tratar variables cualitativas son las Escalas; el primer tipo es la Escala Nominal, utilizada cuando la medición efectuada no solo que está exenta de una noción cuantitativa sino que tampoco puede asignársele a sus valores una posición u orden, simplemente se les asigna categorías, esto último hace que a las variables cualitativas no ordenables también se las denomina variables categóricas. Son ejemplos de variables categóricas la raza humana, con sus valores negro, amarillo y blanco y sus diferentes mezclas; el colegio donde se graduó un bachiller ecuatoriano, con sus valores fiscal, particular laico, particular religioso, fisco misional e internacional. Si bien en caso de escalas nominales puede ocurrir que a cada uno de los valores que tome la variable, para efectos del tratamiento informático, se le asigne un código numérico a sus valores, este código no sirve de modo alguno para calcular medias, varianzas o cuantiles ya que la noción cuantitativa u ordinal está ausente. En la Figura 1.21 se muestra un diagrama de barras de la variable categórica “tipo de bachiller graduado en la ESPOL”. Figura 1.21 Diagrama de Barras de la variable categórica “Tipo de Bachiller graduado en la ESPOL” Esto es solo una muestra de cómo agrupar y mostrar algún tratamiento estadístico de datos categóricos, en posteriores capítulos volveremos a tratar este tipo de variable a fin de determinar la “independencia” de dos o mas de este tipo de variables.

Cuando está presente algún tipo de ordenamiento en los valores de una variable cualitativa, es posible utilizar Escalas

Escala Nominal Escala utilizada cuando la medición efectuada no solo que está exenta de una noción cuantitativa sino que tampoco puede asignársele a sus valores una posición u orden, simplemente se les asigna categorías

Variables categóricas Variables cualitativas no ordenables

0,01

0,01

0,02

0,02

0,03

0,03

0,06

0,08

0,73

0,00 0,20 0,40 0,60 0,80

Otras

Sociales

Ciencias

Electrónica

M ecánica

Químico Biólogo

Informát ica

Electricidad

Físico M atemático

Page 51: Estadistica    tratamiento estadistico de datos

51

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Ordinales, este tipo de escala produce un escalafón o “ranking”. Quien logra el número 1 es el que muestra la mayor cantidad de la variable medida, puede ser la cantidad de ansiedad que muestren las personas bajo ciertas condiciones o la posición en la que arriben en una competencia un grupo de atletas. La escala ordinal sin embargo, no determina diferencias entre posiciones consecutivas, en cuanto a magnitud de la variable; bien puede ser que el atleta que llega en la primera posición tenga una diferencia de dos segundos con el que llega en la segunda posición, pero el tercero llega a un minuto del segundo. La escala solo provee información sobre orden, no sobre cuanto de la variable medida existe. Este tipo de escalas son usualmente una primera etapa de clasificación, para posteriormente lograr medidas de mas alta precisión.

1.13.2.- Escalas de Clasificación

Cuando se trata de dar una opinión o establecer una posición usualmente se plantea al entrevistado una proposición sobre la que debe pronunciarse, y de esta forma son requeridas las Escalas de Clasificación, o escalas Likert, las mismas que requieren que el informante se pronuncie sobre una proposición, no sobre una pregunta; el pronunciamiento tiene que efectuarse concordante con una escala arbitraria que comienza en el número uno, que debe ser marcado por quienes están en “Completo Desacuerdo” con la proposición, hasta llegar al número cinco cuyo valor es marcado por quienes están en “Completo Acuerdo” con lo propuesto; el dos es “Desacuerdo” el tres “Indiferencia” y el cuatro “Acuerdo” pero no “Completo Acuerdo” que como ya dijimos, se lo señala con cinco. En la Figura 1.22 se presenta el histograma de una proposición que se les consultara a un grupo de graduados de la Politécnica del Litoral durante el proceso de Autoevaluación de dicha institución el año 2006; en la Figura 1.23 se presentan gráficos simultáneos de las respuestas dadas por una misma población, a varias proposiciones. En esta última figura se puede observar cómo el pronunciamiento de un grupo humano sobre distintos tópicos, puede compararse de manera efectiva, utilizando un gráfico sumamente sencillo. Figura 1.22 Proposición: “En la enseñanza que ofrece la ESPOL se equilibra lo teórico y lo práctico”

Escala Ordinal Escala en la que está presente algún tipo de ordenamiento en los valores de una variables cualitativa. Produce un escalafón o ranking

Escalas de Clasificación Llamadas también escalas Likert. Requieren que el informante se pronuncie sobre una proposición, no sobre una pregunta y el pronunciamiento tiene que efectuarse concordante con una escala arbitraria que comienza en el número uno por quienes están en “Completo Desacuerdo” hasta llegar al número cinco por quienes están en “Completo Acuerdo” con lo propuesto

0.040.08

0.13

0.31

0.44

0.000.050.100.15

0.200.250.300.350.400.450.50

CompletoDesacuerdo

ParcialDesacuerdo

Indiferencia ParcialAcuerdo

CompletoAcuerdo

Page 52: Estadistica    tratamiento estadistico de datos

52

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Fuente: Centro de Estudios e Investigaciones Estadísticas ICM ESPOL Figura 1.23 Gráficos Simultáneos de características consultadas a un grupo de graduados de la ESPOL durante su proceso de Autoevaluación institucional el año 2006 Características Generales Fuente: Centro de Estudios e Investigaciones Estadísticas ICM ESPOL

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

CompletoDesacuerdo

ParcialDesacuerdo

Indiferencia Parcial Acuerdo CompletoAcuerdo

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00El Profesional Politécnico desarrolla suact ividad favoreciendo al medio ambientey haciendo uso racional de los recursospuestos a su disposición.

Programas de educación a distancia ysemipresenciales son opciones válidas enel contexto de la educación politécnica.

Cada vez son mas escasas lasoportunidades de trabajo, por lo que elprofesional de hoy y del futuro debeposeer “ Espíritu Emprendedor” , para enmuchos casos generar su propiaocupación.Una vez que me he graduado y realizadoact ividades fuera de las aulas politécnicas,comprendo que es importante aprendercon la ayuda de un profesor, pero masimportante es que se llegue a “ saberaprender” sin esa ayuda.No siempre el Profesional Politécnicorecibe una remuneración concordante consu preparación.

La recept ividad del empleador es siemprelo suf icientemente amplia para que se lepermita al profesional politécnico sugerire implantar nuevos esquemas de trabajo,para los procesos que efectúa la empresa.

La carrera de la que soy graduado de laESPOL cumplió con mis expectat ivas.

La formación que la ESPOL da a susgraduados supera los requerimientos delos puestos en las organizacionesecuatorianas.

La ESPOL se preocupa de mantener unacomunicación con sus graduados.

La ESPOL a través de su act ividaddocente da respuestas válidas a lasnecesidades de desarrollo del país.

Es evidente, que la ESPOL es unainst itución con capacidad para mejorar de manera permanente y continua, en loreferente a las act ividades que comocentro de educación superior ejecuta.

Page 53: Estadistica    tratamiento estadistico de datos

53

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

Acerca de la ESPOL Fuente: Centro de Estudios e Investigaciones Estadísticas ICM ESPOL

Un grupo de variables cualitativas han sido cuantitativamente analizadas dando una magnitud a las respuestas de los entrevistados.

Este tipo de escalas, de clasificación, pueden también ser utilizadas cuando se desea investigar características humanas o de productos que sean representables por los distintos grados que toma un adjetivo y su negación. En el extremo izquierdo, inferior, coincidiendo con el “cero” está el adjetivo Deshonesto, por ejemplo y en el extremo derecho o “superior” coincidiendo con el número cinco, está el adjetivo honesto. Se le puede proponer a los miembros de la Población Objetivo que se

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

CompletoDesacuerdo

ParcialDesacuerdo

Indiferencia Parcial Acuerdo CompletoAcuerdo

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00 En t érminos generales la f ormación que da la ESPOLgarant iza el éxit o de los prof esionales que f orma.

La f ormación Matemát ica que recibí durant e mi est adí acomo est udiant e en la ESPOL f ue la adecuada.

La f ormación en Ciencias Nat urales (Fí sica, Quí mica,Biologí a) que recibí durant e mi est adí a como est udiant een la ESPOL f ue la adecuada.

La f ormación en Ciencias Humaní st icas que recibídurante mi est adía como est udiantes en la ESPOL f ue laadecuada.

La f ormación en Inf ormát ica que recibí durant e miest adí a como est udiant e en la ESPOL f ue la adecuada.

En la enseñanza que of rece la ESPOL se equilibra lo t eór icoy lo práct ico.

La ESPOL deberí a involucrarse de f orma cont inua en Proyectos de Invest igación que sean t rascendent es parala sociedad.

Desde mi perspect iva como prof esional polit écnico, enest e momento puedo asegurar que la calidad delprof esorado por el cual f ui f ormado, t ení a un nivel t eór icoy de práct ica profesional que era sat isf act orio.

La present ación y comport amient o de un graduado de laESPOL son siempre adecuados para la ocasión.

Uno de los mayores obst áculos para el desarrollo delprof esional polit écnico es su escasa f ormación encomunicación oral.

Uno de los mayores obst áculos para el desarrollo delprof esional polit écnico es su escasa f ormación encomunicación escr it a.

Uno de los mayores obst áculos para el desarrollo delprof esional polit écnico es su escasa habilidad pararelacionarse con t erceros.

Uno de los mayores obst áculos para el desarrollo delprof esional polit écnico es su escasa habilidad parat rabajar en equipo.

Uno de los mayores obst áculos para el desarrollo delprof esional polit écnico es su escasa habilidad paraorganizar y planif icar.

Uno de los mayores obst áculos para el desarrollo delprof esional polit écnico es su escasa habilidad para t omardecisiones oport unas.

Uno de los mayores obst áculos para el desarrollo delprof esional polit écnico es su escasa capacidad paraadapt arse a los cambios.

Uno de los mayores obst áculos para el desarrollo delprof esional polit écnico es su escasa habilidad para innovary crear.

Page 54: Estadistica    tratamiento estadistico de datos

54

G. Zurita ESTADÍSTICA Fundamentos y Aplicaciones

pronuncie en esa escala, cuando la proposición es “Todo funcionario público es honesto”. Quien crea que los funcionarios públicos son en general deshonesto le asignará el valor “cero” y quienes lo tipifiquen como honesto marcarán el “cinco”. Todo lo intermedio puede ser utilizado, por ejemplo un tres para quienes les resulte indiferente el tema, o un cinco para quienes estén convencidos que los funcionarios públicos son honestos. El autor ha ensayado con recomendable éxito, escalas de clasificación en la que se le pide al informante calificar el grado de acuerdo o aceptación que sienten frente a una proposición, con un número entre cero y diez, siendo cero completo desacuerdo y diez completa satisfacción o completo acuerdo. Teniendo en cuenta que no todos los miembros de la población objetivo están obligados a diferenciar entre número real y número entero; se les sugiere no escribir mas de dos decimales de precisión, con esto se ha logrado que los mas ilustrados sepan con qué “grado de precisión” pueden trabajar y los menos ilustrados saben que pueden ir mas allá de los enteros. Se presenta en la Figura 1.24 un cuadro utilizado en un reporte técnico efectuado con “escala real” por el Centro de Estudios e Investigaciones Estadísticas ICM-ESPOL. Figura 1.24 Cuadro con Escala Real Población Objetivo: Estudiantes

No Proposición

Escriba en esta columna

su Calificación (Sobre Diez)

1.- En términos generales, se puede afirmar que el profesorado de la ESPOL emplea técnicas e instrumental didáctico moderno para el desarrollo del proceso enseñanza aprendizaje.

8.50

Fuente: Centro de Estudios e Investigaciones Estadísticas ICM ESPOL