8686224-matematicas-2-fasciculo21

8
Estadística Localización, variabilidad y concentración Con el concurso de la estadística, el Centro de Atención Nutricional Infantil Antímano –CANIA– ha logrado diseñar programas eficientes para la planificación y ejecución de acciones orientadas a prevenir la malnutrición infantil y promocionar el buen estado de salud. www.cania.org.ve Fotografía: Carlos Rivodó. Estos fascículos están disponibles en línea, visitando la página web: http://www.fpolar.org.ve/matematica2 Una lección muy importante del análisis de datos: mirar los datos. W. Edwards Deming Físico-matemático y estadístico norteamericano (1900-1993).

Upload: oscar-noel-angulo-molina

Post on 09-Mar-2016

221 views

Category:

Documents


1 download

DESCRIPTION

Estos fascículos están disponibles en línea, visitando la página web: http://www.fpolar.org.ve/matematica2 www.cania.org.ve Una lección muy importante del análisis de datos: mirar los datos. Fotografía: Carlos Rivodó. Físico-matemático y estadístico norteamericano (1900-1993). W. Edwards Deming

TRANSCRIPT

Page 1: 8686224-MATEMATICAS-2-fasciculo21

E s t a d í s t i c a L o c a l i z a c i ó n ,v a r i a b i l i d a d yc o n c e n t r a c i ó n

Con el concurso de la estadística, el Centro deAtención Nutricional Infantil Antímano –CANIA– halogrado diseñar programas eficientes para laplanificación y ejecución de acciones orientadas aprevenir la malnutrición infantil y promocionar elbuen estado de salud.

www.cania.org.veFotografía: Carlos Rivodó.

Estos fascículos están disponibles en línea, visitando lapágina web: http://www.fpolar.org.ve/matematica2

Una lección muy importante del análisis de datos:

mirar los datos.

W. Edwards DemingFísico-matemático y estadístico norteamericano(1900-1993).

Page 2: 8686224-MATEMATICAS-2-fasciculo21

Jugador Liga AVG1 M. Mora Americana 0,3892 C. Guillén Americana 0,3253 M. Ordóñez Americana 0,3134 O. Vizquel Americana 0,3025 B. Abreu Nacional 0,3026 M.Scutaro Americana 0,2927 C. Izturis Nacional 0,2908 V. Martínez Americana 0,2859 M. Cabrera Nacional 0,28410 R. Hidalgo Nacional 0,27611 J. Castillo Nacional 0,27412 O. Infante Americana 0,27013 R. Chávez Nacional 0,26914 E. Alfonzo Nacional 0,26415 M. Cairo Americana 0,26316 A. Blanco Americana 0,25917 E. Chávez Nacional 0,25618 J. Rivera Nacional 0,25019 T. Pérez Nacional 0,24520 R. Hernández Nacional 0,24321 A. Escobar Americana 0,24122 L. González Nacional 0,23623 A. Prieto Americana 0,23524 L. Rivas Americana 0,22525 A. González Nacional 0,20426 H. Blanco Americana 0,19427 E. Pérez Nacional 0,18928 Y. Torrealba Nacional 0,18229 R. Reyes Nacional 0,12830 R. Cedeño Nacional 0,08331 R. Olmedo Nacional 0,000

Interesante:

La mediana (Me) sólo se puede obtener a partir de datos previamenteordenados y no está influida por los valores de la serie. Se caracterizaporque divide el conjunto de datos en dos partes iguales, tiene la ventajacon respecto a la media que no está influenciada con los valores extremosdel conjunto de datos y se puede aplicar en el caso de distribuciones abiertas.

Localización de una distribución

Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21162

Una vez precisada la forma general de la distribución de un lote de

datos, interesa caracterizar numéricamente su centro y su variabilidad.

Para ilustrar como lograr esto usaremos la tabla mostrada al lado.

El valor central de la distribución se conoce como la mediana del

conjunto de datos. Para su determinación se requiere que los datos

estén ordenados en forma ascendente (o descendente). Su obtención

depende de que el número n de datos sea par o impar. En el primer

caso la mediana se calcula como el promedio de los valores que ocupan

las posiciones y +1. Cuando n es impar la mediana es el valor

que ocupa la posición . ¿Cuál es la mediana de los datos de bateo

de los jugadores venezolanos en las Grandes Ligas? Como n = 31, la

mediana es el valor que ocupa la posición =16. Basta con observar

el dato que ocupa la posición 16 (promedio de bateo de A. Blanco) para

señalar que la mediana es 0,259.

Cuando se tiene el lote de datos organizado mediante un dispositivo

de tallos y hojas, se facilita la determinación de la mediana porque ya

los datos están ordenados.

El centro de la distribución se puede caracterizar de otra manera usando

el promedio aritmético simple del lote de datos. Esta característica que

denominaremos media y que denotamos por x se define para x1, ..., xn

como:

x=

Si consideramos los datos x1, ..., xn como “masas”, la media x se puede

interpretar como el centro de gravedad del conjunto de datos.

La media es sensible a valores atípicos. En el caso de los promedios

de bateo de la tabla anterior es x = 0,244. Si hubiese sido calculada sin

incluir los promedios de R. Olmedo y R. Cedeño su valor habría sido

0,258.

n2

31+12

Reto:

Calcula la media de los promedios de bateo de los jugadores venezolanosen cada de una de las Ligas. ¿Qué conclusiones sacas de la comparaciónde esas medias?

n+12

x1+ ...+ xnn

n2

y

y

50%

Me

100%Frecuencia

Page 3: 8686224-MATEMATICAS-2-fasciculo21

Mínimo0,000

Cuarto inferior0,230

Mediana0,259

Cuarto superior0,2845

Máximo0,389

75% de los datos

50% de los datos

25% de los datos 50% central de los datos

Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21 163

Medición de la variabilidadLa variabilidad de un conjunto de datos también se puede “medir” empleandovarios resúmenes numéricos. El más sencillo de éstos es la diferencia entre elmáximo y el mínimo valor del conjunto de datos, que denominaremos Rango (R).En ocasiones esta medida resulta útil, pero cuando los extremos del lote de datosson valores muy lejanos (valores “atípicos”) R pierde valor como medida dedispersión. Una mejor forma de proceder en estas situaciones es calcular el rangodel 50% central del conjunto de datos. La delimitación del 50% central de este conjunto se logra determinandodos valores que denominamos cuarto inferior (Ci) y cuarto superior (Cs). El cuarto inferior es el valor por debajodel cual queda una cuarta parte del lote de datos cuando éstos se ordenan en forma ascendente. El cuarto superiores el valor por debajo del cual quedan tres cuartas partes del conjunto de datos cuando éstos se ordenanascendentemente. Los cuartos son pues a su vez medianas de mitades tal como se indica en el gráfico siguiente:

Actuando según las explicaciones antes dadas se obtienen:

Podemos organizar la mediana, los cuartos y los extremosen un resumen de cinco números que señala no sólo elcentro sino también la variabilidad del lote de datos. Paralos datos de bateo este resumen es:

0,259

0,230

0,000

0,2845

0,389

¿Qué nos dice este resumen numérico? Nos dice que, hasta el 25/05/04, una mitad de los bateadores tenía unpromedio de bateo que no excedía de 0,259 (≤0,259), y que la otra mitad tenía promedio de bateo no menor de0,259 (≥0,259). También nos dice que la mitad de los jugadores tenían un promedio de bateo comprendido entre0,230 y 0,2845 y existen dos jugadores que representan los valores extremos de la serie (0,000 R. Olmedo y 0,389M. Mora). Una representación más vívida de este resumen de cinco números se logra con un dispositivo denominadográfico de caja que mostramos a continuación.

0,000

1 2 3 4

0,230 0,2845

0,259

0,389

0,270

0,389

0,194

0,4

0,3

0,2

0,1

0,0

0,2475

0,302

0,083

R. Olmedo

Un gráfico de cajas es particularmente útil para lacomparación de distintos lotes de datos. A continuaciónpresentamos un gráfico de cajas para los bateadoresvenezolanos de la Liga Americana y de la Liga Nacional,en el que podemos representar el valor central y lavariabilidad de los promedios de bateo en cada Liga.Adicionalmente se puede apreciar la asimetría de ladistribución de los datos respecto a la mediana y lapresencia de valores atípicos.

Page 4: 8686224-MATEMATICAS-2-fasciculo21

El mayor valor de la desviación estándar de los promedios de bateo en la Nacional, indica que hay mayor variablilidaden torno a la media en la Liga Nacional que en la Americana y, por lo tanto, podemos concluir que los jugadoresvenezolanos de la Americana son más consistentes al bate. Esto lo podemos apreciar en la siguiente representacióngráfica de los promedios de bateo.

Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21164

Desviación estándarLa desviación estándar, denotada con S, es la medida de variabilidad utilizadacon más frecuencia en la investigación por ser la más estable de todas y sebasa en los desvíos de los datos originales con respecto a la media x. Cuandopara un conjunto de datos x1, ..., xn se calcula este resumen numérico sólocon propósito descriptivo, se usa la fórmula:

Electrum es un grupo derock instrumental

progresivo radicado enNew England, EE.UU. En

el año 2002 grabaron eldisco Standard Deviation

(Desviación Estándar).

S=(x1 - x)2 + ... + (xn - x)2

n

En cambio, cuando el propósito es hacer inferencias, se divide la sumaindicada en el numerador [(x1 - x)2 + ... + (xn - x)2], que se representa∑(xi - x)2, entre n-1

Para ilustrar el cálculo y la interpretación de la desviación estándar consideraremos los promedios de bateo de losjugadores venezolanos de las Ligas Mayores. Para mayo de 2004 la media de nuestros peloteros en la Liga Nacionalera de 0,221, mientras que en la Liga Americana alcanzaba 0,276. Así pues se puede apreciar que los venezolanosen la Liga Americana exhibían un mayor poder ofensivo, en promedio, que los de la Liga Nacional. El cálculo de ladesviación estándar en cada liga nos permite apreciar la consistencia al bate de nuestros peloteros en cada unade las dos ligas.

S=(0,194-0,276)2+ ... + (0,389-0,276)2

13 ≈ 0,048 S=(0,000-0,221)2+ ... + (0,302-0,221)2

18 ≈ 0,077

Promedio de bateo de jugadores venezolanosen las Ligas Mayores (mayo 2004)

Desvío máximo = 0,000-0,221

Media=0,221

Desvío mínimo = 0,302-0,221

Liga Nacional

Media=0,276

Desvío máximo =0,389-0,276Desvío mínimo = 0,194-0,276

0,0 0,1 0,2 0,3 0,4

Liga Americana

Interesante:

El cuadrado de S se conoce como varianza (S2) y es también una medida de variabilidad del conjunto de datos entorno a la media, expresada en unidades al cuadrado. Si no existe variabilidad, es decir si todos los valores coincidencon la media, S = S2 = 0. En toda otra situación S y S2 > 0. Si algunos valores están alejados de la media, S tomarávalores elevados. Así como la media es muy sensible a la presencia de valores atípicos también lo son S y S2,porque en esencia también son medias. Cuando hay valores atípicos puede resultar una mejor idea recurrir al usodel resumen de cinco números para indicar el centro y la variabilidad del conjunto de datos.

Liga Americana Liga Nacional

Reto: En el caso de los jugadores en la Liga Americana, calcula la media y la desviación estándar sin tomar encuenta los promedios de M. Mora y H. Blanco. ¿Qué observas?

i=1

n

Page 5: 8686224-MATEMATICAS-2-fasciculo21

Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21 165

El estadístico italiano Corrado Gini estudió la concentración a comienzos delsiglo XX y entonces propuso un modo para obtener un índice de concentración.Esta proposición fue en principio bien acogida y aplicada extensamente, perodespués se redujo la atención a ella. A finales de ese siglo se inició un movimientoque ha reavivado el interés en el tema estudiado por Gini.

ConcentraciónA partir de una distribución de frecuencias se pueden obtener otras distribuciones que, en algunos casos, hacenevidentes cuestiones importantes. Por ejemplo, de la población de una ciudad se ha obtenido una distribución defrecuencias de los ingresos individuales por mes, y basándose en dicha distribución se han elaborado otras. En elcuadro siguiente se presentan estas distribuciones.

Ingreso Número Cantidad de % % % %individual de ingreso Nº de Acumulado Cantidad Acumulado

(Bs) personas Bs. personas Nº de de cantidad de personas ingreso ingreso

150 000 230 000 34,5 x 108 46 46 5,9 5,9

300 000 150 000 45 x 109 30 76 7,7 13,6

1 x 106 80 000 80 x 109 16 92 13,7 27,3

5 x 106 35 000 175 x 109 7 99 29,9 57,2

50 x 106 5 000 250 x 109 1 100 42,8 100,0

Total 500 000 584,5 x 108 100 - 100,0 -

Si todas las personas recibieran igual cantidad de ingreso, la distribución porcentual acumulada del número depersonas sería igual a la distribución porcentual acumulada de la cantidad de ingreso.

A este caso corresponden los puntos marcados en la bisectriz delcuadrado (linea de equidistribución) trazada en el gráfico al lado.

En un caso como el del ejemplo, en el cual hay desigualdad en ladistribución, los puntos correspondientes son los marcados fuerade la bisectriz. El cociente de dividir el área coloreada por la deltriángulo de vértices (0;0), (100;0) y (100;100) es denominado razónde concentración. Con esta razón se mide la cuantía de ladesigualdad en la distribución del ingreso. Su valor fluctúa entre 0y 1, valores que corresponden, respectivamente, a las situacionesde igualdad y desigualdad extremas. Es usual obtener unaaproximación de la razón de concentración aplicando la fórmula:

∑ (yi-yi’)∑yi

en la cual y es un porcentaje acumulado de la cantidad de ingresoen el caso de igualdad, el yi’ es el correspondiente porcentajeacumulado de la cantidad de ingreso en el caso de desigualdad.

20 40 60 80 100

20

40

60

80

100

% acumulado decantidad de ingreso

Corrado GiniEconomista italiano

(1884-1965).

46%

76%

92%99%

57,2%

27,3%

13,6%5,9%

% acumulado deNº de personas

En el ejemplo que nos ocupa, el valor aproximado de la razón deconcentración es

(46 - 5,9) + (76 - 13,6) + (92 - 27,3) + (99 - 57,2)46 + 76 + 92 + 99

≈ 0,67 ≈ 67%

Interesante:Como es de pensar, el cálculo de la razón de concentración puedetambién ser útil en el caso de variables que no sean la cantidad deingreso. La concentración ha sido enfocada desde otro punto de vistacomo se muestra en el gráfico que corresponde a la distribución delnúmero de quejas según el tipo de causas de dichas quejas.

20

40

60

80

100

I II III IV VTipo de causa

i

i

Fre

cue

nci

a d

e q

ue

jas

Page 6: 8686224-MATEMATICAS-2-fasciculo21

Interesante:

La estadística ha permitido también hacer notorias las evidencias en cuanto a que la lactancia maternafavorece el vínculo madre-hijo, previene la obesidad del niño, disminuye sus caries dentales y disminuye lapropensión al cáncer mamario y ovárico de la madre.

Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21166

Estadística y lactancia materna

"Cuantos más detalles se tienen acerca de macro y micronutrientes específicosen la leche materna, tanto más claro es que la composición de ésta es idóneapara lactantes humanos.

El pediatra no necesita una justificación para recomendar el amamantamiento,pero sí la requiere para sustituirlo con el uso de la leche de vaca"

Amamantar a un hijo es una de la experiencias más gratas de la vida de unamujer, ya que la leche constituye un alimento ideal para el niño durante losprimeros 4 a 6 meses de vida. Según la Organización Mundial de la Salud-OMS-, podrían salvarse en el mundo más de un millón de niños al año si lasmadres alimentaran exclusivamente con leche materna a sus hijos durante losprimeros 4 meses de vida. Así mismo, la lactancia materna cobra importanciapor el rol que ésta tiene en la prevención de anomalías dentomaxilofaciales.

La lactancia materna disminuye en un 50% los indicadores de maloclusióndentaria (apifiamiento, resalte, mordida cruzada posterior, mordida abierta) queafecta la estética y la función dentofacial del niño.

Aproximadamente a las 16 semanas, el feto esboza espontáneamente elmovimiento de mamar. A las 27 semanas algunos se chupan el dedo en el útero,por tanto, la boca del recién nacido está adaptada para la función primordialdel amamantamiento.

Si la lactancia materna se ve frustrada, el niño a lo largo de su vida irá creando sustitutos, por ejemplo: tenderá achuparse el dedo o la lengua en un esfuerzo por satisfacer su instinto de succión, o puede ponerse objetos extrañosen la boca, morderse las uñas, el pelo, el brazo, los labios; todos estos hábitos incorrectos, son causa de maloclusión.

A partir del año 1993, investigadores de la Escuela de Medicina "Luis Razetti" y la Facultad de Odontología de laUniversidad Central de Venezuela (UCV), iniciaron un estudio dirigido a establecer la relación entre el período delactancia materna, el tipo de perfil facial, y hábitos viciosos de succión y deglución en una muestra al azar depreescolares (122 de la Gran Caracas y 150 de la Etnia Pemón del Municipio Gran Sabana del Edo. Bolívar), siendoevaluados por especialistas odontólogos, previo entrenamiento. En el análisis de los datos se utilizaron dispositivosgráficos de cajas y de barras.

Dra. Ruth LawrenceYale New Haven HospitalEstados Unidos.

Page 7: 8686224-MATEMATICAS-2-fasciculo21

Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21 167

Los resultados muestran a los pemones conuna mediana de tiempo de lactanciasignificativamente superior, con una mayorvariabilidad y fuerte asimetría hacia unmayor tiempo de lactancia.

Por su parte, los niños del área urbanamanifiestan un gran parecido entre sí en sutiempo de lactancia, con leve asimetría(gráfico 1).

Por otro lado, los pemones exhiben menorpresencia de hábitos orales viciosos (gráfico2) y mayor proporción de perfiles facialesrectos (gráfico 3).

Los resultados son evidencias importantesde que la alimentación a través del senomaternal, contribuye a evitar la adquisiciónde hábitos deformantes bucales y previenelas anomalías dentomaxilofaciales (perfilescóncavos/convexos).

Lactancia y diseño de experimentoA continuación presentamos un diseño de experimento que utiliza un cuadrado latinode orden 3. Un cuadrado latino de orden n, es un arreglo cuadrado de n filas yn columnas que contiene en cada celda uno de n símbolos (por ejemplo letraslatinas), de forma tal que cada letra aparece una sola vez por fila y una sola vezpor columna. Este tipo de arreglos se emplea en el diseño estadístico deexperimentos, para controlar el efecto indeseable que pudieran ejercer dosvariables perturbadoras sobre la variable respuesta. En la investigación sobreel valor alimenticio que pudieran tener tres fórmulas lactantes alternativas (A,By C), en niños que durante sus primeros cuatro meses de vida presentan reaccionesalérgicas a la lactosa de la leche materna, el peso de los niños y el tiempo deembarazo podrían perturbar la relación entre la variable respuesta (evaluaciónclínica de su estado nutricional) y los tratamientos (fórmulas para lactantes). Enesta situación procederíamos a clasificar nueve niños por categorías de peso(P1, P2 y P3) y por tiempo de embarazo (T1, T2 y T3), y luego emplearíamos uncuadrado latino de tamaño 3 seleccionado aleatoriamente entre todos los existentesde ese tamaño, para determinar de qué forma se asignarían las tres fórmulaslactantes a los niños participantes en el experimento. El resultado de tal selecciónaleatoria podría haber sido el siguiente, lo que permitiría asegurarnos que enesta experiencia los resultados obtenidos sean confiables.

Page 8: 8686224-MATEMATICAS-2-fasciculo21

2

1

Fundación Polar • Últimas Noticias • El mundo de la matemática • Estadística • 21168

Cuadrados latinos

Los narradores de juego de "base-ball" hacían referencia al "fatídico 222"que se presentaba cuando, habiéndose realizado 2 "out" previamente, elbateador de turno lIegaba a la cuenta de 2 "strikes" y 2 bolas. AI presentarsetal situación anunciaban que el bateador de turno sería puesto "out". EIfatídico 222 parece haber sido descartado por falso. ¿Fue acaso descartadoporque no existe fundamento frecuencial para la predicción que se hacíacuando se presentaba? ¿Podrías comprobar que en efecto fue así? ¿Cómolo harías?

Tengo que pensarlo

¿Cuántos cuadrados latinos hay de tamaño 3? Constrúyelosempleando nueve cartas de una baraja de naipes francesesconsistentes de sirvientes (J), reinas (Q) y reyes (K) de corazones.

3Un conjunto de 10 profesores tienen promedio de 8 años de experiencia.Uno de ellos tiene 30 años de experiencia, cuatro de ellos poseen 5 añosy dos tienen 10. ¿Podrán tener los otros dos más de 10 años deexperiencia?

Fatídico 222

Experiencia docente

4En una población vegetal a la cual se le ha determinado la altura (en cm)se tiene un dispositivo de tallos y hojas como el siguiente:

Tallos Hojas0 731 22732 03345683 1237

¿Cuántos elementos tiene la población ¿Cuál es la mediana? Realice elgráfico de cajas correspondiente.

Tallos y hojas

Respuestas:

1. 12 cuadrados; 3. imposible; 4. 17 elementos tiene la población y lamediana es 23.

Esta planta, comúnmente llamada “Hala”, crecehasta los 10 metros de altura. Esta especietiene más de 250 millones de años antigüedad.