estad´ıstica -...

27
Estad´ ıstica UNIDAD DID ´ ACTICA 8 1 o de Bachillerato CCSS Diana Barredo Blanco 1 1 Profesora de Matem´aticas

Upload: others

Post on 28-Sep-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

Estadıstica

UNIDAD DIDACTICA 8

1o

de Bachillerato CCSS

Diana Barredo Blanco1

1Profesora de Matematicas

Page 2: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1. INTRODUCCION

1. Introduccion

La estadıstica se configura como la tecnologıa del metodo cientıfico que proporciona instrumentos para latoma de decisiones cuando estas se adoptan en ambiente de incertidumbre, siempre que esta incertidumbrepueda ser media en terminos de probabilidad. Por ello, la Estadıstica se preocupa de los metodos derecogida y descripcion de los datos, ası como de generar tecnicas para el analisis de esta informacion.

La Estadıstica se divide en dos ramas:

La Estadıstica descriptiva, que se dedica a los metodos de recoleccion, descripcion, visualizacion yresumen (numerico o grafico) de datos originados a partir de los fenomenos en estudio.

La Inferencia Estadıstica, que se dedica a la generacion de los modelos, inferencias y prediccionesasociadas a los fenomenos en cuestion teniendo en cuenta la aleatoridad e incertidumbre en las ob-servaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la poblacion deestudio. Estas inferencias pueden tomar la forma de repuestas a preguntas si/no (test de hipotesis),estimaciones de caracterısticas numericas (estimacion puntual e intervalos de confianza) o mode-lamiento de relaciones entre variables (analisis de regresion).

Corresponde a este curso solo el estudio de la primera parte (estadıstica descriptiva). La inferenciaestadıstica se estudiara en el proximo curso.

2. Estadıstica descriptiva unidimensional

2.1. Definiciones basicas

Poblacion: Es el conjunto de todos los elementos que cumplen una determinada caracterıstica y que sonobjeto de nuestro estudio, es decir, sobre los cuales queremos obtener un resultado. Cada uno delos elementos de la poblacion recibe el nombre de individuo.

Muestra: No siempre es factible estudiar todos y cada uno de los elementos de la poblacion, ya sea porrazones de coste, de rapidez en la obtencion de la informacion, o porque los elementos se destruyenen el propio proceso de investigacion, por lo que es necesario acudir a examinar solo una parte deesta poblacion, que se denomina muestra. Por lo tanto, muestra sera todo subconjunto representativode la poblacion.

Caracter estadıstico: Es la caracterıstica que estamos estudiando sobre la poblacion objeto de nuestroestudio y que permite clasificar a los individuos de dicha poblacion.

Existen dos tipos de caracteres estadısticos, segun la naturaleza de los posibles valores que tomandichos caracteres:

Atributos: Son caracteres cualitativos, es decir, que no se medir en terminos numericos y expresanuna cualidad del individuo cuyos valores reciben el nombre de modalidades, no pudiendosedeterminar ninguna relacion de orden entre ellas.

Ejemplos: color de ojos, color de pelo, lugar de nacimiento, sexo, intencion de voto . . .

Variables Estadısticas: Son caracteres cuantitativos, es decir, que se pueden medir y expresanuna magnitud cuyos valores son numericos y, por lo tanto, susceptibles de ser ordenados.

Ejemplos: estatura, peso, sueldo mensual, numero de hijos, numero de ventas de un artıculo. . .

Existen dos tipos de variables estadısticas, segun el numero de valores que tomen:

Discretas: Son aquellas variables estadısticas que reciben un numero aislado de valores, esdecir, un numero finito o numerable de valores.Ejemplos: Numero de hijos, Edad en anos, numero de mascotas, numero de discos vendidospor un grupo musical, numero de alumnos matriculados en un instituto. . .

Continuas: Son aquellas variables estadısticas que reciben un numero infinito no numerablede valores, es decir, que pueden tomar cualquier valor intermedio entre dos valores dados.Ejemplos: Estatura, Peso, temperatura, velocidad, grado de humedad, . . .

Tamano muestral: Es el tamano de la muestra, es decir, el numero total de individuos de que constala muestra. En general, se representa por N.

2 Autor: Diana Barredo

Page 3: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

Frecuencia absoluta de un valor: Es el numero de veces que se repite dicho valor en la muestra.En general, se representa por ni la frecuencia absoluta del valor xi. Ademas, la suma de todas lafrecuencia absolutas debe de coincidir con el tamano muestral.

n1 + n2 + · · ·nn = N

Frecuencia relativa de un valor: Es el cociente entre la frecuencia absoluta de dicho valor y el numerototal de individuos de la muestra (tamano muestral). En general, se representa por fi la frecuenciarelativa del valor xi.

fi =ni

N∀i ∈ {1, 2, . . . , n}

Ademas, la suma de todas las frecuencias relativas es siempre igual a 1.

f1 + f2 + · · · + fn =n1

N+

n2

N+ · · · + nn

N=

n1 + n2 + · · · + nn

N=

N

N= 1

Frecuencia absoluta acumulada de un valor: Es la suma de las frecuencias absolutas de los valoresmenores o iguales que dicho valor. En general, a la frecuencia absoluta acumulada del valor xi sela representa por Ni:

Ni = n1 + n2 + n3 + · · · + ni ∀ i = 1, 2, . . . n

Ademas, la frecuencia absoluta acumulada del ultimo valor, coincide siempre con el tamano mues-tral.

Nn = N1 + N2 + · · ·Nn = N

Frecuencia relativa acumulada de un valor: Es la suma de las frecuencias relativas de los valoresmenores o iguales que dicho valor. En general, a la frecuencia relativa acumulada del valor xi se larepresenta por Fi:

Fi = f1 + f2 + f3 + · · · + fi ∀ i = 1, 2, . . . n

Ademas, la frecuencia absoluta acumulada del ultimo valor, coincide siempre con uno, por ser unola suma de todas las frecuencias relativas.

Fn = f1 + f2 + · · · + fn = 1

Ejemplo:

Supongamos que queremos realizar un estudio sobre el gasto mensual en gasolina de los conductoresceutıes en el pasado mes. Para dicho estudio, se ha elegido aleatoriamente a 20 conductores de ceuta, deforma representativa, preguntandoles acerca de su gasto en gasolina en el pasado mes.

en este caso, la poblacion sera el conjunto de todos los residentes en ceuta que dispongan de carnet deconducir, mientras que la muestra son, exclusivamente, los 20 individuos de dicha poblacion que fueronelegidos, aleatoria y representativamente, para realizar el estudio.

El caracter estadıstico que estudiamos es el gasto en gasolina en el pasado mes, que se trata de un caracterestadıstico cuantitativo (variable estadıstica) y de tipo continuo.

Los 20 datos muestrales (valores que se obtuvieron al preguntar a los 20 individuos que constituyen lamuestra), ordenados de menor a mayor fueron:

15,23; 18,00; 18,00; 18,00; 19,00; 19,00; 20,00; 20,00; 20,00; 22,00;

22,00; 22,00; 22,00; 22,00; 24,34; 27,80; 34,20; 34,20; 45,50; 54,80;

Como puede observarse, el menor gasto ha sido 15,23 euros, lo que le convierte en el primer valor. Ademas,su frecuencia es uno, pues unicamente, un individuo de la muestra ha hecho ese gasto.

El gasto de 18 euros, siguiente valor, se ha repetido tres veces en la muestra, lo que significa que lafrecuencia absoluta del segundo valor es 3 y, al ser N = 20 el tamano de la muestra, la relativa sera 3

20.

Ademas, su frecuencia acumulada sera de 4, pues hay cuatro valores menores o iguales a 18 euros y, larelativa acumulada, sera 4

20.

Autor: Diana Barredo 3

Page 4: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

2.2. Recuento y agrupacion de datos

Escogidos los individuos que componen la muestra, seguiremos estos pasos:

1. Recogida de los datos: Consiste en la toma de datos procedentes de la muestra.

En nuestro ejemplo anterior, consistirıa en preguntar a cada uno de los 20 conductores elegidoscuanto gasto en gasolina el mes pasado.

2. Ordenacion de los datos: Consiste en colocar los datos ordenados de menor a mayor.

En nuestro ejemplo anterior, serıa:

15,23; 18,00; 18,00; 18,00; 19,00; 19,00; 20,00; 20,00; 20,00; 22,00;

22,00; 22,00; 22,00; 22,00; 24,34; 27,80; 34,20; 34,20; 45,50; 54,80;

3. Recuento de frecuencias: Efectuaremos el recuento de los datos repetidos, obteniendo las frecuenciasabsolutas de cada dato. Cada valor se escribira una unica vez, anotando su frecuencia absoluta, esdecir, el numero de veces que dicho dato aparecıa repetido.

x1 = 15,23(n1 = 1); x2 = 18,00(n2 = 3); x3 = 19,00(n3 = 2); x4 = 20,00(n4 = 3); x5 = 22,00(n5 = 5)

x6 = 24,34(n6 = 1); x7 = 27,80(n7 = 1); x8 = 34,20(n8 = 2); x9 = 45,50(n9 = 1); x10 = 54,80(n10 = 1)

4. Agrupacion de los datos: Si la variable es discreta con un gran numero de datos, o es continua, seagrupan los datos en intervalos o clases.

Es aconsejable escoger todos los intervalos de la misma amplitud y abiertos por la izquierda ycerrados por la derecha.

El numero de intervalos es de libre eleccion pero, normalmente, se tomara un numero deintervalos aproximadamente igual a la raız cuadrada del tamano de la muestra.

Es aconsejable tomar los extremos de los intervalos en multiplos de 5 o de 10.

El punto medio de cada intervalo se llamara “marca de clase”.

Ejemplo:

Al ser el gasto en gasolina una variable continua, podrıamos agrupar los datos de nuestro ejemploen intervalos. Al ser el tamano muestral 20 y la raız cuadrada de 20 es cuatro y pico, tomaremoscinco intervalos de la misma amplitud, cuyos extremos sean multiplos de 10 y abarque todos losvalores de la muestra.

(10, 20] ; (20, 30] ; (30, 40] ; (40, 50] ; (50, 60] ;

5. Elaboracion de la tabla estadıstica: Se trata de poner en forma tabular, la informacion obtenida dela muestra, en los pasos anteriores. En dicha tabla deben de figurar los valores de de la variable(en el caso de que la variable la hayamos agrupado en intervalos, figuraran los extremos inferiory superior y la marca de clase); ası como las frecuencias absolutas y relativas de cada valor (ointervalo). A veces, es conveniente incluir tambien las frecuencias absolutas y relativas acumuladas.

Ejemplo:

xi ni fi Ni Fi

15,23 1 0,05 1 0,0518,00 3 0,15 4 0,2019,00 2 0,10 6 0,3020,00 3 0,10 9 0,4522,00 5 0,25 14 0,7024,34 1 0,05 15 0,7527,80 1 0,05 16 0,8034,20 2 0,10 18 0,9045,50 1 0,05 19 0,9554,80 1 0,05 20 1

20 1

(Li−1, Li] xi ni fi Ni Fi

(10, 20] 15 9 0,45 9 0,45(20, 30] 25 7 0,35 16 0,80(30, 40] 35 2 0,10 18 0,90(40, 50] 45 1 0,05 19 0,95(50, 60] 55 1 0,05 20 1

20 1

4 Autor: Diana Barredo

Page 5: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

Considerando N3 y F3 (para datos no agrupados), que son las frecuencias acumuladas del tercervalor de la muestra, a saber 19 euros, se tiene:

N3 = 6 significa que hay exactamente 6 individuos cuyo gasto en gasolina, en el pasado mes,fue menor o igual que 19 euros.

F3 = 0,30 significa que el 30 % de los individuos de la muestra tuvo un gasto en gasolina, enel pasado mes, menor o igual a 19 euros.

Podemos sacar mas conclusiones de la tabla, interpretando conjuntamente las frecuencias acumu-ladas y no acumuladas. Por ejemplo, ¿sabrıas decir que porcentaje de conductores de la muestragasto en gasolina, el pasado mes, menos de 34,20 euros?

Al agrupar en intervalos, se pierde informacion. En la tabla de datos agrupados se observa que:

N1 = 9 significa que hay exactamente 9 individuos cuyo gasto en gasolina, en el pasado mes,fue menor o igual que 20 euros.

F1 = 0,45 significa que el 45 % de los individuos de la muestra tuvo un gasto en gasolina, enel pasado mes, menor o igual a 20 euros.

pero no serıamos capaces de saber, en dicha tabla, cuantos tuvieron un gasto inferior a 19, comoen la tabla anterior

6. Representar graficamente la distribucion: Segun sea la distribucion utilizaremos los siguientes tiposde graficos:

A) Para atributos: Diagrama de Sectores

Este grafico se construye dividiendo un cırculo en sectores, cada uno de los cuales tiene un areaproporcional a las frecuencias de cada modalidad.

B) Para variables estadısticas:

1) Diagrama de barras (distribuciones no agrupadas en intervalos)Este grafico se construye, levantando sobre cada valor una barra de altura igual a la fre-cuencia absoluta de cada valor.

2) Histograma (distribuciones agrupadas en intervalos)Este grafico consiste en una yuxtaposicion de rectangulos, cuya base es el intervalo o clasecorrespondiente y su area proporcional a la frecuencia absoluta de dicho intervalo.Para ello, bastara tomar como altura hi calculada como sigue

Si todos los intervalos tienen la misma amplitud:

hi = ni ∀ i = 1, 2, . . . n

Si tienen distinta amplitud:

hi =ni

ci

∀ i = 1, 2, . . . n

siendo ci la amplitud del intervalo (Li−1, Li) y ni su frecuencia absoluta.

Ejemplo:

En el ejemplo anterior, dibujamos el diagrama de barras (datos no agrupados) y el histograma (datosagrupados), respectivamente:

xi

ni

15,23 18 19 20 22 24,34 27,8 34,2 44,5 54,8

1

2

3

5

xi

ni

10 20 30 40 50 60

1

2

7

9

Autor: Diana Barredo 5

Page 6: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

1. Se quieren hacer los siguientes estudios:

a) La profesion que piensa tener cada alumno de tu clase.

b) el numero de horas diarias que ven la T.V. los chicos y chicas de tu ciudad de entre 14 y 16 anosde edad.

c) Intencion de voto de cada espanol con derecho a votar.

Responde, razonadamente, si cada uno de estos estudios se pueden hacer tomando las respectivaspoblaciones o habrıa que tomar muestras.

2. Tenemos distintos colectivos:

a) En una fabrica de aspiradores se quiere hacer un control de calidad. Para llevar esto a cabo seseleccionan 50 aspiradores y se analizan.

b) El huerto de un companero de tu clase tiene 20 arboles frutales. el desea ensayar un nuevo tipo deabono, para lo cual, despues de echado este, mide el crecimiento que han experimentado.

c) Deseamos conocer la intencion de voto de los ciudadanos ceutıes. Para ello, seleccionamos 1000ciudadanos.

Razona si los anteriores colectivos son poblaciones o muestras.

3. Clasifica los siguientes caracteres estadısticos:

a) Numero de huesos de cada ser vivo.

b) Intencion de voto.

c) Velocidad que en un instante dado, llevan los vehıculos que circulan por las carreteras espanolas.

d) Talla de calzado de los alumnos de tu centro.

e) Tipos de zumos que prefieren los adolescentes.

4. Di, en cada caso, cual es la poblacion y cual la variable que se quiere estudiar y si esta es cualitativao cuantitativa, especificando si es discreta o continua.

a) Tiempo dedicado a las tareas domesticas por los hombres y mujeres que trabajan fuera del hogar.

b) Estudios que quieren hacer los alumnos de un centro escolar al terminar la ESO.

c) Intencion de voto en unas elecciones autonomicas.

5. Al contar el numero de asignaturas suspendidas por cada alumno en la 1a evaluacion de 3o de ESO,hemos obtenido estos datos:

1, 1, 2, 3, 2, 6, 0, 0, 1, 0, 4, 5, 0, 0, 0, 3, 2, 1, 3, 1, 1, 1, 0, 1, 2, 0, 0, 5, 4, 2

Haz una tabla de frecuencias absolutas y relativas y el diagrama de barras correspondiente.

6. Con los datos del problema anterior, calcula los siguientes porcentajes:

a) Estudiantes que aprobaron todo.

b) Estudiantes con uno o dos suspensos.

c) Estudiantes que suspenden 3 o mas asignaturas.

Haz un diagrama de sectores con esos tres grupos.

7. En un cierto paıs, las lluvias caıdas en sus 100 estaciones meteorologicas durante un ano, se hanrepresentado en la siguiente tabla:

Precipitaciones (60,70] (70,80] (90,100] (100,110] (110,120] (120,130]No de estaciones 16 30 15 20 13 6

Representa los datos anteriores en un histograma de frecuencias.

8. El director de una fabrica de objetos de vidrio desea hacer un estudio para comprobar durante cuantotiempo los objetos que fabrica pueden resistir una cierta temperatura. Para ello, dispone de un hornoque se puede mantener a una temperatura fija todo tiempo que se desee.

6 Autor: Diana Barredo

Page 7: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

a) Para este estudio, ¿elegirıas una muestra o toda la poblacion?

b) Explica como harıas tu este estudio.

9. Se quiere hacer un estudio sobre la nacionalidad de los turistas que visitan Espana en el mes de julio.Para ello, se eligen como muestra los turistas que llegan al aeropuerto de Palma de Mallorca duranteese mes.

a) ¿Cual es la poblacion?

b) ¿Es accesible esta poblacion o tenemos que recurrir a una muestra?

c) ¿Es representativa la muestra tomada?.

10. Las edades de los empleados de una empresa son:

25, 26, 25, 50, 28, 45, 43, 42, 38, 28, 23, 25, 29, 30, 32, 33, 38, 40, 45, 50, 55, 60, 23,26, 27, 29, 30, 32, 33, 37, 38, 39, 36, 37, 38, 32, 40.

a) Construye una tabla de frecuencias absolutas y relativas para esos datos.

b) Dibuja el grafico mas adecuado para la anterior muestra de datos sin agrupar.

c) Agrupa los datos en intervalos de 5 anos, y construye una tabla de frecuencias absolutas y relativas.

d) Dibuja el grafico mas adecuado para la anterior muestra de datos agrupados.

e) Clasifica los empleados en dos categorıas: “noveles” y“veteranos” segun que sean, respectivamente,menores o mayores de 30 anos.

f) Dibuja el grafico mas adecuado para representar esta nueva variable estadıstica.

11. Investigados los precios por habitacion de 50 hoteles de una ciudad se han obtenido los siguientesresultados:

700, 300, 500, 400, 500 , 700 , 400, 750, 800 , 500,500, 750, 300, 700, 1000, 1500, 500, 750, 1200, 800,400, 500, 300, 500, 1000, 300 , 400, 500, 700 , 500,300, 400, 700, 400, 700 , 500 , 400, 700, 1000, 750,700, 800, 750, 700, 750 , 800 , 700, 700, 1200, 800,

Determınese

– La distribucion de los precios (tabla de frecuencias)

a) Con datos sin agrupar

b) Con datos agrupados en 5 intervalos de igual amplitud

– Representacion grafica de dichas distribuciones.

12. Realizada una encuesta en un acuidad se han agrupado los establecimientos hoteleros por el numerode plazas, obteniendose la siguiente distribucion

plazas nohoteles(0, 100] 25(100, 200] 37(200, 300] 12(400, 500] 22(500, 600] 21(600, 700] 13(700, 800] 5(800, 900] 3(900, 1000] 2

Calcula

a) El numero de establecimientos con mas de 300 plazas

b) El porcentaje de establecimientos que tienen mas de 100 plazas y menos de 400.

c) Representese graficamente la distribucion.

Autor: Diana Barredo 7

Page 8: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

2.3. Medidas de posicion

La tabla estadıstica nos ofrece toda la informacion disponible, pero el investigador se encuentra en nu-merosos casos incapaz de interpretar toda esa extensa informacion, por lo que intenta resumirla en unasere de expresiones.

En este proceso de sıntesis, buscamos unos valores que nos fijen el comportamiento global del fenomenoa partir de los datos individuales recogidos en la informacion disponible. Estos valores resumen son lasllamadas medidas de posicion.

Las mas importantes son la media aritmetica, la moda, la mediana y los percentiles.

Media aritmetica :La media aritmetica, que se denota por X se define como la suma de todos los valores de ladistribucion dividida entre el numero total de datos. Es decir:

X =x1 · n1 + x2 · n2 + x3 · n3 + · · · + xn · nn

N=

1

n�k=1

xi · ni

Donde, xi son los distintos valores de la variable (para datos no agrupados), o bien, las marcas declase de los intervalos (para datos agrupados); ni es la frecuencia correspondiente y N el tamanomuestral, es decir, la suma de todas las frecuencias absolutas.

Ejemplo:

Vamos a calcular la media aritmetica en el ejemplo anterior, tanto para los datos sin agrupar comopara los datos agrupados.

Para ello, conviene anadir una nueva columna, a la tabla de frecuencias, donde iremos poniendo losproductos xi · ni:

xi ni xi · ni

15,23 1 15,2318,00 3 54,0019,00 2 38,0020,00 3 60,0022,00 5 110,0024,34 1 24,3427,80 1 27,8034,20 2 68,4045,50 1 45,5054,80 1 54,80

20 498,07

X =498,07

20= 24,9

(Li−1, Li] xi ni xi · ni

(10, 20] 15 9 135(20, 30] 25 7 175(30, 40] 35 2 70(40, 50] 45 1 45(50, 60] 55 1 55

20 480

X =480

20= 24

Moda :La moda es el valor de la variable que mas veces se repite, y en consecuencia, en una distribucionde frecuencias, es el valor de la variable que tiene la maxima frecuencia.

Para el calculo de la moda, en distribuciones:

– NO agrupadas en intervalos, basta observar la columna de las frecuencias absolutas y, aquelvalor de la variable al que le corresponde la mayor frecuencia sera la moda.

– agrupadas en intervalos, una vez determinada la mayor frecuencia, tendremos un intervalomodal. De entre todos lo valores comprendidos en el intervalo modal, aunque hay varios crite-rios, nosotros consideraremos siempre la marca de clase como moda.

Ejemplo:

- Para la distribucion no agrupada la maxima frecuencia absoluta es 5, que se corresponde conel valor 22,00, luego dicho valor sera la moda. Mo = 22,00

- Para la distribucion agrupada en intervalos, la maxima frecuencia es 9, que se corresponde conel primer intervalo (10, 20] luego, dicho intervalo es el intervalo modal, y tomaremos comomoda su marca de clase Mo = 15.

8 Autor: Diana Barredo

Page 9: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

Mediana :

a) La mediana es aquel valor de la distribucion, supuesta esta ordenada de menor a mayor, quedeja a su izquierda y a su derecha el mismo numero de valores, es decir, el valor que ocupa ellugar central.

- Si el numero de datos es impar, hay un unico valor central, y este sera la mediana.

- Si el numero de datos es par, hay dos valores medianos, y se tomara como mediana lamedia aritmetica de ellos.

Ejemplo:

Dada los siguientes datos:

13 10 9 12 2 15 30 22 8 7 1

ordenamos los datos de menor a mayor:

1 2 7 8 9 10 12 13 15 22 30

como el numero de datos es 11 (impar), existe un unico valor que deja el mismo numero dedatos a su izquierda que a su derecha. En este caso, dicho valor es 10, porque hay 5 datos asu izquierda y 5 datos a su derecha. Me = 10

Ejemplo:

Si eliminamos el ultimo dato del ejemplo anterior:

13 10 9 12 2 15 30 22 8 7

ordenamos los datos de menor a mayor:

2 7 8 9 10 12 13 15 22 30

como el numero de datos ahora es 10 (par), existen dos valores centrales . En este caso, dichosvalores son 10 y 12 , porque hay 4 datos a su izquierda y 4 datos a su derecha. Entonces, lamediana sera la media entre dichos valores centrales

Me =10 + 12

2= 11

b) Tambien puede definirse como mediana, aquel valor de la distribucion al que le correspondeuna frecuencia absoluta acumulada de N

2

Si los datos estadısticos presentasen diferentes frecuencias, el metodo de calculo mas comodo ypractico serıa buscar el valor cuya frecuencia absoluta acumulada fuera N

2.

Para ello, distinguiremos dos casos, segun si los datos vienen agrupados en intervalos o no:

No agrupados: Se buscarıa, en la columna de las frecuencias absolutas acumuladas, el valor N2

(oel inmediatamente posterior, si este no se encontrase de forma exacta) y, el valor de la variableal que correspondiese esa frecuencia serıa la mediana.

Agrupados: En este caso, procederıamos como en el caso anterior, encontrando no un valor, sinoun intervalo mediano. Supongamos que es (Li−1, Li] Ahora, habrıa que seleccionar el valor dedicho intervalo, por interpolacion, al que corresponderıa exactamente la frecuencia acumuladade N

2, obteniendo el siguiente:

Me = Li−1 +N2− Ni−1

ni

· ci

siendo, Li−1 el extremo inferior del intervalo mediano; ni la frecuencia absoluta de dichointervalo; ci su amplitud y Ni−1 la frecuencia absoluta acumulada del intervalo inmediatamenteanterior.

Autor: Diana Barredo 9

Page 10: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

Ejemplo:

Volviendo al ejemplo que venıamos trabajando, como N = 20, buscamos el valor con frecuenciaabsoluta acumulada de 10:

xi ni Ni

15,23 1 118,00 3 419,00 2 620,00 3 9

22,00 5 14 Me = 22,0024,34 1 1527,80 1 1634,20 2 1845,50 1 1954,80 1 20

20

(Li−1, Li] xi ni Ni

(10, 20] 15 9 9

(20, 30] 25 7 16 Me = 20 +10 − 9

7· 10 = 21,4

(30, 40] 35 2 18(40, 50] 45 1 19(50, 60] 55 1 20

20

En la primera tabla de frecuencias (datos sin agrupar), buscamos en la columna de las frecuenciasabsolutas acumuladas, el valor 10 y, como no se encuentra, tomamos el inmediatamente mayor, asaber, 14 que se corresponde con el valor de la variable 22. Ası pues, esta sera la mediana de ladistribucion.

En la segunda tabla de frecuencias (datos agrupados), buscamos en las frecuencias absolutas acu-muladas el valor 10 o el inmediatamente superior, que es 16. Dicho valor se corresponde con elintervalo mediano, a saber:

(Li−1, Li] = (20, 30]

Dicho intervalo tiene una amplitud:

ci = Li − Li−1 = 30 − 20 = 10

y, una frecuencia de

ni = 7

Aplicando la formula para el calculo de la mediana, se tiene:

Me = Li−1 +N2− Ni−1

ni

· ci = 20 +10 − 9

7· 10 = 21,4

Cuartiles :

a) Los cuartiles son aquellos valores de la distribucion, supuesta esta ordenada de menor a mayor,que la dividen en cuatro partes iguales. Hay tres cuartiles, que denotaremos por Q1, Q2 y Q3.

El primer cuartil (Q1) deja a su izquiera la cuarta parte (el 25 %) de los datos

El segundo cuartil (Q1) deja a su izquierda las dos cuartas partes (el 50 %) de los datos

El tercer cuartil (Q1) deja a su izquierda las tres cuartas partes (el 75 %) de los datos

b) Tambien pueden definirse como cuartiles, aquellos tres valores de la distribucion a los que lescorresponden, respectivamente, una frecuencia absoluta acumulada de N

4, 2N

4; 3N

4

Hay que observar que el segundo cuartil, coincide siempre con la mediana, pues Q2 es aquel valorque deja a su izquierda las dos cuartas partes de la distribucion (la mitad de la distribucion) yası era, justamente, como habıamos definido a la mediana.

Para la obtencion del Qk ∀ k = 1, 2, 3 se procederıa de forma similar a la mediana:

No agrupados: Se buscarıa, en la columna de las frecuencias absolutas acumuladas, el valor k · N2

(o el inmediatamente posterior, si este no se encontrase de forma exacta) y, el valor de lavariable al que correspondiese esa frecuencia serıa el Qk.

10 Autor: Diana Barredo

Page 11: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

Agrupados: En este caso, procederıamos como en el caso anterior, encontrando no un valor, sinoun intervalo cuartılico. Supongamos que es (Li−1, Li] Ahora, habrıa que seleccionar el valor dedicho intervalo, por interpolacion, al que corresponderıa exactamente la frecuencia acumuladade k · N

2, obteniendo el siguiente:

Qk = Li−1 +k · N

2− Ni−1

ni

· ci

siendo, Li−1 el extremo inferior del intervalo cuartılico; ni la frecuencia absoluta de dichointervalo; ci su amplitud y Ni−1 la frecuencia absoluta acumulada del intervalo inmediatamenteanterior.

Ejemplo:

Volviendo al ejemplo que venıamos trabajando, vamos a buscar el primer y tercer cuartil, para locual, buscamos en la columna de las frecuencias absolutas acumuladas, los valores de 20

5y 3·20

4:

xi ni Ni

15,23 1 118,00 3 4

19,00 2 6 Q1 = 19,0020,00 3 922,00 5 14

24,34 1 15 Q1 = 19,0027,80 1 1634,20 2 1845,50 1 1954,80 1 20

20

(Li−1, Li] xi ni Ni

(10, 20] 15 9 9 Q1 = 14,4

(20, 30] 25 7 16 Q3 = 28,5

(30, 40] 35 2 18

(40, 50] 45 1 19

(50, 60] 55 1 2020

– En la primera tabla de frecuencias (datos sin agrupar):

Como 4 no se encuentra, tomamos el inmediatamente mayor, a saber 6, que se correspondecon el valor de la variable 19. Ası pues, este sera el primer cuartil.

Q1 = 19

La frecuencia acumulada de 15 sı se encuentra, y se corresponde con el valor 24.34 luego, estesera el tercer cuartil.

Q3 = 24,34

– En la segunda tabla de frecuencias (datos agrupados):

Como 4 no se encuentra, tomamos el inmediatamente mayor, a saber 9, que se correspondecon el intervalo cuartılico (10, 20]. Ası pues, el primer cuartil sera:

Q1 = 10 +4 − 0

9· 10 = 14,4

La frecuencia acumulada de 15 tampoco se encuentra, tomamos el inmediatamente mayor, asaber 16, que se corresponde con el intervalo cuartılico (20, 30]. Ası pues, el tercer cuartil sera:

Q3 = 20 +15 − 9

7· 10 = 28,5

Deciles :

a) Los deciles son los 9 valores de la distribucion que dividen a esta, supuesta ordenada de menora mayor, en diez partes iguales. Se denotan por

D1, D2, D3, D4, D5, D6, D7, D8, D9

b) El decil Dk, se define como aquel valor de la distribucion al que le corresponde una frecuenciaabsoluta acumulada de k·N

10, ∀ k = 1, 2, . . . 10

Para el caso de distribuciones agrupadas en intervalos, una vez localizado el intervalo adecuado, seaplicara la siguiente formula:

Dk = Li−1 +k · N

10− Ni−1

ni

· ci ∀k = 1, 2 . . . 10

Autor: Diana Barredo 11

Page 12: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

Percentiles :

a) Los deciles son los 99 valores de la distribucion que dividen a esta, supuesta ordenada de menora mayor, en cien partes iguales. Se denotan por

C1 , C2 , C3 , . . . C99

.

b) El centil Ck, se define como aquel valor de la distribucion al que le corresponde una frecuenciaabsoluta acumulada de k·N

100, ∀ k = 1, 2, . . . 100

Para el caso de distribuciones agrupadas en intervalos, una vez localizado el intervalo adecuado, seaplicara la siguiente formula:

Ck = Li−1 +k · N

100− Ni−1

ni

· ci ∀k = 1, 2 . . . 100

Es facil darse cuenta de algunas relaciones entre los deciles, cuartiles, mediana y percentiles:

Me = Q2 = D5 = C50

Q1 = C25

Q3 = C75

D1 = C10 D2 = C20 . . . D9 = C90

Ejemplo:

Volviendo al ejemplo que venıamos trabajando, vamos a buscar el percentil 70, es decir, el valor de ladistribucion que deja a su izquierda, supuesta esta ordenada de menor a mayor, el 70 % de los valores.Dicho de otra forma, aquel valor tal que el 70 % de los valores son menores o iguales que el:

Buscarıamos la frecuencia absoluta acumulada de

k · N

100= 70 · 20

100= 14

caso de no encontrarse de forma exacta, buscarıamos la inmediatamente superior:

xi ni Ni

15,23 1 118,00 3 419,00 2 620,00 3 9

22,00 5 14 C70 = 2224,34 1 1527,80 1 1634,20 2 1845,50 1 1954,80 1 20

20

(Li−1, Li] xi ni Ni

(10, 20] 15 9 9

(20, 30] 25 7 16 C70 = 27,14

(30, 40] 35 2 18

(40, 50] 45 1 19

(50, 60] 55 1 2020

– En la primera tabla de frecuencias (datos sin agrupar):

La frecuencia acumulada de 14 sı se encuentra, y se corresponde con el valor 22.00 luego, este sera el70 percentil.

C70 = 22

– En la segunda tabla de frecuencias (datos agrupados):

Como 14 no se encuentra, tomamos el inmediatamente mayor, a saber 16, que se corresponde conel intervalo (20, 30]. Ası pues, el setenta percentil sera:

C70 = 20 +14 − 9

7· 10 = 27,14

12 Autor: Diana Barredo

Page 13: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

13. En tu clase hay 9 chicos morenos, 4 rubios y 2 pelirrojos.

a) ¿Cual es la variable estadıstica que se estudia?

b) ¿De que tipo es?

c) ¿Cual es la moda?

14. Calcula la media aritmetica de las notas de Juan el ano anterior en Matematicas. Son las siguientes:

6 7 7 6 3 8 5 6 5 6

15. Calcula la media, la moda y la mediana de los siguientes datos:

1 1 2 2 3 3 4 4 4 5 5 6 7

16. Las notas de Matematicas de un grupo de alumnos han quedado distribuidas de la siguiente forma:

Notas 1 2 3 4 5 6 7 8 9 10NoAlumnos 2 2 3 5 7 5 3 2 2 1

Calcula la media, moda y mediana de las notas de Matematicas

17. El numero de aparatos de radio que hay en los hogares de un grupo de familias viene dado por:

no radios 0 1 2 3 4 5No familias 3 19 18 6 3 1

a) Calcula la media. ¿Cual es la mediana?

b) ¿Cuantos aparatos de radio y cuantas familias hay en la muestra?

c) Calcula los cuartiles

d) Calcula el numero de radios tal que el 90 % de las familias tiene menos de ese numero de radiosen su casa.

e) Calcula cuantas radios tiene una familia si sabemos que el 20 % de las familias tiene mas radiosque ella.

18. Las edades de los empleados de una empresa son:

25, 26, 25, 50, 28, 45, 43, 42, 38, 28, 23, 25, 29, 30, 32, 33, 38, 40, 45, 50, 55, 60, 23,26, 27, 29, 30, 32, 33, 37, 38, 39, 36, 37, 38, 32, 40.

a) Calcula, las medidas de centralizacion (media, moda, mediana) en el ejercicio anterior para cadacaso:

Datos sin agrupar

Datos agrupados

b) Que edad tiene que tener un empleado en esa empresa para que el 30 % de los empleados sea masjoven que el.

c) Juan acaba de entrar a trabajar y se ha dado cuenta de que las tres cuartas partes de sus com-paneros son mayores que el. ¿Que edad tendra Juan?.

19. Las notas de un examen de Matematicas en una clase fueron:

Notas 1 2 3 4 5 6 7 8 9 10no alumnos 4 3 2 1 7 3 2 8 3 2

a) Halla la nota media de los alumnos suspensos.

b) Halla la nota media de los alumnos aprobados.

c) ¿Como se puede hallar la nota media de todos los alumnos conociendo las dos anteriores mediassolamente y el numero de alumnos aprobados y suspensos?

Autor: Diana Barredo 13

Page 14: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

2.4. Medidas de dispersion

En el apartado anterior definıamos una sere de medidas de posicion cuyo objetivo era sintetizar todala informacion de que se disponıa. Pues bien, en este apartado vamos a ver hasta que punto, ,para unadeterminada distribucion de frecuencias, estas medidas de posicion son representativas como sıntesis detoda la informacion.

Medir la representatividad de esas medidas de posicion equivale a cuantificar la separacion de los valoresde la distribucion respecto a dicha medida. Una medida de posicion sera tanto mas representativa de unavariable cuanto mas agrupados en torno a ella esten los valores de la distribucion.

Ejemplo:

Supongamos que tenemos las siguientes distribuciones de frecuencias, que resumen las puntuacionesobtenidas por en un examen por los 20 alumnos de la clase “A ” y los 40 alumnos de la clase ”B”:

Calificaciones Clase “A”

Notas Noalumnosxi ni xi · ni

0 5 01 3 32 2 48 2 169 3 2710 5 50

20 100

Calificaciones Clase “B”

Notas Noalumnosxi ni xi · ni

4 1 4

4,5 4 18

5 30 150

5,5 4 22

6 1 6

40 200

Como puede observarse, si calculamos la nota media en ambas clases se obtiene el mismo resultado: lanota media es 5, tanto en la clase “A” como en la clase ”B”.

XA = 5 XB = 5

Es evidente que:

La calificacion “5” es representativa, como resumen de las notas de la clase ”B” (todos los alumnosobtuvieron notas muy proximas a dicha calificacion);

La calificacion “5” no es representativa de las notas de la clase “A” (todos los alumnos obtuvieronnotas muy diferentes al 5, aunque al mediar, las notas altas se compensaron con las bajas)

A la mayor o menor separacion de los valores respecto a la medida, que ser pretende sea su sıntesis, se lellama dispersion o variabilidad.

Ejemplo:

En el ejemplo anterior, la dispersion de la distribucion de las notas es muy alta en la clase “A” y muybaja en la clase “B”.

Como medidas de dispersion tenemos las siguientes:

Desviacion media: Es la media aritmetica de los valores absolutos de las diferencias entre los valoresde la variable y la media aritmetica.

Dx =1

n�i=1

|xi − x|ni

Ejemplo:

Vamos a calcular la desviacion media como medida de la dispersion de las dos distribuciones denuestro ejemplo. Como ya habıamos observado, la distribucion de la clase “A” es mucho mas dispersaque la de la clase “B”. En efecto:

14 Autor: Diana Barredo

Page 15: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

Calificaciones Clase “A”

Notas Noalumnos

xi ni |xi − x| |xi − x| · ni

0 5 5 251 3 4 122 2 3 68 2 3 69 3 4 1210 5 5 25

20 86

Calificaciones Clase “A”

Notas Noalumnos

xi ni |xi − x| |xi − x| · ni

4 1 1 1

4,5 4 0,5 2

5 30 0 0

5,5 4 0,5 2

6 1 1 1

40 6

Calculamos la desviacion media en cada distribucion:

DA =1

n�i=1

|xi − x|ni =86

20= 4,3 DB =

1

n�i=1

|xi − x|ni =6

40= 0,15

Como ya habıamos intuıdo, la dispersion de las notas, en torno a su media, es mucho mayor en laclase “A” (DA = 4,3) que en la clase “B” (DB = 0,15).

Varianza: Es la media aritmetica de los cuadrados de las desviaciones, de los valores de la variable a lamedia aritmetica.

σ2 =1

n�i=1

(xi − x)2ni

Operando en la expresion anterior, y teniendo en cuenta ciertas propiedades, se obtiene el siguienteresultado:

σ2 =1

n�i=1

x2

i ni − (X)2

Es decir, la varianza tambien se puede definir como la media aritmetica de los cuadrados de losvalores, menos el cuadrado de la media aritmetica.

Para el calculo numerico de la varianza puede utilizarse cualquiera de las dos expresiones anterioressiendo, en la practica, mucho mas sencilla y operativa la segunda de ellas.

La varianza de cualquier distribucion es siempre un valor NO negativo, y cuanto mayor sea di-cho valor, mayor sera la dispersion de la variable respecto de su media y, por lo tanto, menosrepresentativa sera la media como resumen de la distribucion.

Ejemplo:

Vamos a calcular la varianza como medida de dispersion en el ejemplo anterior de las notas.

Obviamente, deberemos de obtener mayor varianza para la distribucion de las notas en el clase “A”debido a que, segun se vio, la primera distribucion era mas dispersa, respecto de la media, que lasegunda.

Calificaciones Clase “A”

Notas Noalumnos

xi ni x2

i x2

i · ni

0 5 0 01 3 1 32 2 4 88 2 64 1289 3 81 24310 5 100 500

20 882

Calificaciones Clase “A”

Notas Noalumnos

xi ni x2

i x2

i · ni

4 1 16 16

4,5 4 20,25 81

5 30 25 750

5,5 4 30,25 121

6 1 36 36

40 1004

σ2

A =882

20− (5)2 = 19,1 σ2

B =1004

40− (5)2 = 0,1

Como ya habıamos advertido:

σ2

A > σ2

B =⇒ La distribucion “A” MAS DISPERSA que la “B”

Autor: Diana Barredo 15

Page 16: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

Desviacion tıpica: se define como la raız cuadrada positiva de la varianza.

σ = +

�1

n�i=1

x2

i ni − (X)2

De todas las medidas absolutas de dispersion respecto de la media, la varianza, y su raız cuadrada(desviacion tıpica), son las mas importantes.

Ejemplo:

Para calcular la desviacion tıpica en nuestro ejemplo, al haber calculado la varianza, basta obtenersu raız cuadrada:

σA = +�19,1 = 4,37 σB = +�0,1 = 0,31

Nuevamente observamos que,

σA > σB =⇒ La distribucion “A” MAS DISPERSA que la “B”

NOTA IMPORTANTE: La varianza y la desviacion tıpica son medidas de dispersion absolutas.Estos quiere decir que su valor dependera de las unidades de medida de la variable y, por ello, sirvenpara medir la dispersion de una variable pero, en general, NO para comparar dos distribuciones.

Cuando tengamos que comparar dos distribuciones, solo podremos utilizar la varianza (y la desviaciontıpica) en el caso de que ambas distribuciones tengan la misma media y vengan expresadas en lasmismas unidades de medida (como ocurrıa en el ejemplo que hemos desarrollado).

Para comparar la dispersion de dos distribuciones, que no cumplan las condiciones anteriores,necesito una medida de dispersion que no dependa de la unidad de medida, es decir, una medidade dispersion relativa.

Coeficiente de variacion: Es una medida de dispersion, respecto de la media, que se define como elcociente entre la desviacion tıpica y la media.

CV =σ

X

Al ser un cociente de dos magnitudes que se miden en las mismas unidades, sera un medida adi-mensional y, por lo tanto, independiente de la unidad de medida.

Esta medida de dispersion SI me permite comparar la dispersion de dos distribuciones cualquiera,en el siguiente sentido:

Dadas dos distribuciones

a) Los datos estan menos dispersos, respecto a la media, en aquella distribucion que tenga unmenor coeficiente de variacion

b) La media mas representativa es la de aquella distribucion que tenga un menor coeficiente devariacion

Ejemplo:

En el ejemplo anterior, utilizando el coeficiente de variacion, comparamos nuevamente las dos dis-tribuciones:

CVA =σA

xA

=19,1

5= 3,82 CVB =

σB

xB

=0,1

5= 0,02

CVA > CVB =⇒ La distribucion “A” MAS DISPERSA que la “B”

16 Autor: Diana Barredo

Page 17: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 2. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL

20. En el ano 1990 se hizo un estudio para comparar los rendimientos entre empresas espanolas y amer-icanas, pertenecientes a un mismo sector. Para ello, se seleccionan 20 empresas con caracterısticassemejantes de cada lugar, obteniendose los siguientes resultados:

Empresas Espanolas Empresas Americanas

Beneficios (millones de ptas) No empresas Beneficios (miles de $) No empresas1 4 10 2

1,1 6 11 21,2 6 12 41,3 2 13 41,4 2 14 4

15 216 2

Responde a las siguientes preguntas:

a) Cual es el beneficio medio de las empresas espanolas en 1990?.

b) Cual es el beneficio medio de las empresas americanas en dicho ano?

c) ¿Cual es el beneficio mas frecuente en las empresas espanolas?. Y, ¿en las americanas?

d) Calcula el mınimo beneficio que tiene que tener una empresa espanola para poder asegurar queel 50 % de las empresan han obtenido menor beneficio que ella.

e) Calcula el maximo beneficio que tiene que tener una empresa americana para poder asegurarque solo el 10 % de las empresas americanas han obtenido mas beneficio que ella.

f ) ¿Cuanto vale la varianza de cada una de las distribuciones?

g) ¿Cuanto vale la desviacion tıpica de cada una de las distribuciones?

h) ¿Que beneficios estan mas dispersos, respecto de su beneficio medio, los de las empresas espanolaso americanas?

i) ¿Que beneficio medio es mas representativo, el espanol o el americano?.

21. En un cierto barrio se ha constatado que las familias residentes se han distribuido, segun su tamano,de la forma siguiente:

Tamano de la familia No de familias(0, 2] 110(2, 4] 200(4, 6] 90(6, 8] 75(8, 10] 25

Contesta a las siguientes preguntas:

a) ¿Cuantas familias se tomaron para la muestra?

b) ¿Cual es el numero medio de personas por familia?

c) ¿Cual es el tipo de familia mas frecuente?

d) Si solo hubiera plaza de aparcamiento para el 50 % de las familias y dichas plazas se adjudicaran alas familias de mayor a menor tamano, ¿cuantos miembros, como mınimo, tendrıa que tener unafamilia para recibir plaza de garaje? (se supone que hay exactamente un vehıculo por familia).

e) Calcula el numero mınimo de miembros que tiene una familia para que el 25 % de las familiassean mas pequenas.

f ) La asociacion de vecinos del barrio quiere premiar con una bonificacion al 10 % de las familiasmas numerosas. La familia de Juan tiene 5 miembros y el se pregunta si podra disfrutar de labonificacion. ¿Podrıas sacar de dudas a Juan?

g) Calcula la varianza y la desviacion tıpica de esta distribucion.

h) En el barrio colindante, el tamano medio de las familias es de 4 miembros, con un coeficiente devariacion de 1,8. ¿Cual es la varianza de este segundo barrio?

i) En que barrio son mas homogeneas las familias en cuanto a su tamano?

j ) El tamano medio de una familia, ¿en cual de los barrios es mas representativo?

Autor: Diana Barredo 17

Page 18: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

3. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

3. Estadıstica descriptiva bidimensional

En la seccion anterior habıamos estudiado la distribucion de una variable que expresaba la medida de uncaracter cuantitativo sobre una muestra de individuos de una poblacion. Pero, para una poblacion dada,se pueden estudiar simultaneamente dos o mas caracteres cuantitativos diferentes, cuyas medidas sobrecada uno de los individuos constituyen los valores de una variable estadıstica bidimensional.

Ejemplo:

Supongamos que elegimos 12 alumnos de una clase de Bachillerato y les preguntamos por su estaturay su peso, obteniendo los siguientes resultados:

X: Estatura (cm) 145 150 158 160 168 172 175 180 184 190 192 195

Y: Peso (kg) 34 35 47 50 55 56 65 75 76 85 90 91

Los datos anteriores son los valores de una variable estadıstica bidimensional, a saber (X,Y ) dondeX =Estatura (en cm); Y =Peso (en kg.).

3.1. Nube de puntos. Correlacion

El conjunto de pares de valores

(x1, y1), (x2, y2), (x3, y3), . . . (xn, yn)

se llama distribucion bidimensional y puede representarse en el plano, interpretando cada par de valorescomo las coordenadas de un punto. El conjunto de todos los puntos ası obtenidos, es la representaciongrafica de una distribucion bidimensional y recibe el nombre de nube de puntos o diagrama dedispersion

Ejemplo:

Vamos a representar los puntos (xi, yi) obtenidos al anotar, sobre cada uno de los 12 alumnos dela muestra, su estatura (xi) y su peso (yi).

(145, 34) (150, 35) (158, 47) (160, 50) (168, 55) (172, 56)

(175, 65) (180, 75) (184, 76) (190, 85) (192, 90) (195, 91)

Representamos, en el eje de las abscisas (OX,) la estatura (en cm.) y, en el eje de las ordenadas(OY,) el peso (en kg.)

0 1 2 3 4 5 6 7 8 9 1011121314150123456789

1011121314

30

35

40

45

50

55

60

65

70

75

80

85

90

95

130135140145150155160165170175180185190195

Peso (kg.)

Aquellos alumnos (puntos) que tienen mas estatura (mayor abscisa) tienen tambien mayor peso(mayor ordenada). Ademas, esta relacion entre estatura y peso, parece muy fuerte en nuestramuestra pues no hay ningun alumno (punto) que se separe significativamente de esa tendencia.

La observacion de la nube de puntos viene a confirmarnos algo que intuitivamente es logico: cuan-to mas alta sea una persona, en general, mas pesara. Obviamente, no se trata de una relacionmatematica, si no de una tendencia, pues hay casos excepcionales -que se salen de esa tendencia-como pueden ser los obesos bajitos, o bien, aquellas personas altas y enjutas.

18 Autor: Diana Barredo

Page 19: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 3. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

Si disponemos de una distribucion de frecuencias de una variable estadıstica bidimensional (X,Y ), po-dremos estudiar la relacion que existe entre las dos variables X e Y, pudiendo ser de tres tipos:

Dependencia funcional: Cuando entre los valores de X e Y exista una relacion matematica deter-minista, es decir, una correspondencia biunıvoca que me permita, conocido el valor de una de lasvariables, determinar inequıvocamente el de la otra.

Dependencia estadıstica: Cuando, no existiendo una relacion funcional entre dichas variables, sin em-bargo, exista una relacion entre sus valores, que llamaremos asociacion estadıstica. Dicha asociacionpuede ser de dos tipos:

- Asociacion positiva: cuanto mas grandes son los valores de una de las variables, mas grandesson los valores de la otra variable.

- Asociacion negativa: cuanto mas grandes son los valores de una de las variables, mas pequenosson los valores de la otra variable.

Independencia: Cuando no exista ningun tipo de relacion entre los valores de dichas variables.

En realidad, la relacion entre dos variables estadısticas, estudiadas simultaneamente sobre los mismosindividuos de una poblacion, es un continuo en cuyos extremos estan la independencia (relacion nula) y ladependencia funcional (relacion perfecta), siendo la dependencia estadıstica cualquier relacion intermedia.

Independencia Dependencia funcional

Dependencia estadıstica

Cuando exista dependencia estadıstica entre dos variables, diremos que existe una correlacion entreellas, que sera mas tanto mas fuerte cuanto mas se ajuste la nube de puntos a una recta imaginaria, quemarca la tendencia, y que recibe el nombre de Recta de regresion

A su vez, dicha correlacion (relacion lineal), sera positiva o negativa, segun que la pendiente de la rectade regresion sea positiva o negativa, respectivamente.

Ejemplo:

En nuestro ejemplo anterior, observamos una correlacion positiva (a mas estatura, mas peso) y muyfuerte (la nube de puntos esta muy ajustada a una recta)

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 150123456789

1011121314

30

35

40

45

50

55

60

65

70

75

80

85

90

95

130 135 140 145 150 155 160 165 170 175 180 185 190 195 Estatura (cm.)

Peso (kg.)

Autor: Diana Barredo 19

Page 20: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

3. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

3.2. Distribuciones marginales

Cada una de las variables de una distribucion bidimensional es, a su vez, una distribucion unidimensional,que puede ser estudiada independientemente de la otra y que recibe el nombre de distribucion marginal.

Ejemplo:

Olvidandonos del peso de cada uno de los 12 alumnos, podemos considerar exclusivamente, los datosreferentes a sus estaturas, con lo que tendrıamos los siguientes valores referentes a la variable

X = Estatura (en cm.)

sobre los 12 alumnos que constituıan la muestra.

145 150 158 160 168 172 175 180 184 190 192 195

X = �xi

N=

2070

12= 172,5 =⇒ La estatura media es de 172, 5 cm.

σ2

x = �x2

i

N− (x)2 =

30007,33

12− (172,5)2 = 251,08 =⇒ σx =

√251,08 = 15,846

C.Vx =σx

x=

15,846

172,5= 0,092 =⇒ Las estaturas estan poco dispersas respecto de su media

Olvidandonos, ahora, de la estatura de cada uno de los 12 alumnos, podemos considerar exclusiva-mente, los datos referentes a sus pesos, con lo que tendrıamos los siguientes valores referentes a lavariable

Y = Peso (en kg.)

sobre los 12 alumnos que constituıan la muestra.

34 35 47 50 55 56 65 75 76 85 90 91

Y = �yi

N=

759

12= 63,25 =⇒ El peso medio es de 63,25 kg.

σ2

y = �y2

i

N− (y)2 =

52483

12− (63,25)2 = 373,021 =⇒ σy =

√373,021 = 19,314

C.Vy =σy

y=

19,314

63,25= 0,305 =⇒ Los pesos estan bastante dispersos respecto al peso medio

3.3. Medida de la correlacion

Hasta ahora habıamos visto lo fuerte o debil que era la correlacion entre dos variables graficamente, esdecir, observando lo apretados que estaban los puntos de la nube respecto de una recta imaginaria quemarca su tendencia (que estudiaremos en el apartado siguiente) llamada recta de regresion.

En este apartado, vamos a buscar una medida que nos cuantifique, numericamente, dicho grado decorrelacion o relacion lineal entre las dos variables.

Centro de gravedad: El centro de gravedad de una distribucion bidimensional es el punto cuyos coor-denadas son las medias de las distribuciones marginales. Es decir:�

X , Y �Covarianza: La covarianza de una distribucion bidimensional es un parametro estadıstico que se define

como:

σxy = �(xi − x) · (yi − y)

N= �xiyi

N− x · y

Para el calculo de la covarianza podemos utilizar ambas expresiones (cuyo valor coincide) pero esmas sencillo utilizar la segunda de las expresiones.

La covarianza depende de las unidades de medida y su signo coincide con el signo del tipo deasociacion entre las variables.

20 Autor: Diana Barredo

Page 21: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 3. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

Coeficiente de Correlacion: El coeficiente de correlacion de una variable bidimensional se define comoel cociente de la covarianza y el producto de las desviaciones tıpicas:

r =σxy

σx · σy

∈ [−1, 1]

- El coeficiente de correlacion es una medida adimensional

- Su signo coincide con el de la covarianza y, por lo tanto, sera positivo o negativo segunque la asociacion entre las variables sea positiva o negativa, respectivamente.

- Su cuadrado mide, o cuantifica, el grado de correlacion lineal existente entre las vari-ables:

• r2 = 1 =⇒ correlacion perfecta, es decir, las variables tienen una dependencia fun-cional lineal, o lo que es lo mismo, los puntos de la nube estan alineados.

• r2 = 0 =⇒ correlacion lineal nula, es decir, no existe ningun tipo de relacion linealentre las variables, o lo que es lo mismo, la nube de puntos es redondeada.

• r2 ≈ 1 =⇒ fuerte correlacion lineal entre las variables, y la nube de puntos se ajus-tara mucho a una recta.

• r2 ≈ 0 =⇒ debil correlacion lineal entre las variables, y la nube de puntos apenasmarcara una tendencia lineal, presentado una forma mas redondeada que estirada.

Ademas, el cuadrado del coeficiente de correlacion, al variar entre 0 y 1, nos permite evaluarporcentualmente el grado de correlacion lineal en el siguiente sentido:

“La relacion lineal entre dos variables, con coeficiente de correlacion “r”, es del (r2 · 100)%”

Ejemplo:

Siguiendo con el ejemplo de las estaturas y pesos de nuestros 12 alumnos, vamos a comprobarnumericamente, esa fuerte correlacion positiva que habıamos observado en la nube de puntos:

Ya habıamos calculado las medias y las desviaciones:

X = 172,5 σx = 15,846

Y = 63,25 σy = 19,314

Vamos ahora a calcular la covarianza y el coeficiente de correlacion:

xi 145 150 158 160 168 172 175 180 184 190 192 195

yi 34 35 47 50 55 56 65 75 76 85 90 91xiyi 4930 5250 7426 8050 9240 9632 11375 13500 13984 16150 17280 17745

σxy = �xiyi

N− x · y =

134562

12− (172,5) · (63,25) = 11213,5 − 10910,625 = 302,875

Como la covarianza es positiva, ya podemos asegurar que la asociacion entre las variables“Estatura” y “Peso” es positiva, en el siguiente sentido: “cuanto mas altura mas peso”.

Del conocimiento de la covarianza NO podemos saber el grado de correlacion lineal que hay,puesto que ya dijimos que este parametro depende de las unidades de medida y no esta acotado,ni superior ni inferiormente.

Para conocer el grado (fuerte o debil) de correlacion lineal, tenemos que calcular el coeficientede correlacion, que es adimensional y, ademas, sabemos que esta acotado entre −1 y 1.

r =σxy

σx · σy

=302,875

(15,846) · (19,314)= 0, 989664382 ≈ 1

En nuestro ejemplo, el grado de correlacion lineal, es del 97,94 %, es decir, es una relacionlineal casi perfecta o total, de ahı que los puntos de la nube estuvieran, muy ajustados a larecta de regresion.

Autor: Diana Barredo 21

Page 22: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

3. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

Ejemplo:

Se quiere saber si existe algun tipo de asociacion estadıstica entre las notas que obtienen los alumnos enlas asignaturas de Fısica y Matematicas. Es decir, estamos interesados en averiguar si aquellos alumnosque tienen notas altas en fısica tambien sacan buenas notas en matematicas y viceversa.

Para ello, elegimos al azar 12 alumnos que cursan ambas asignaturas y vamos anotando sus notas en cadaasignatura.

Llamando X = nota en Matematicas e Y = nota en Fısica, tenemos la siguiente distribucion bidimen-sional:

xi yi x2

i y2

i xi · yi

2 1 4 1 23 3 9 9 94 2 16 4 84 4 16 16 165 4 25 16 206 4 36 16 246 6 36 36 367 4 49 16 287 6 49 36 428 7 64 49 56

10 9 100 81 9010 10 100 100 10072 60 504 380 431

x =72

12= 6 y =

60

12= 5

El centro de gravedad, de la nube de puntos, es el punto: (6, 5)

σ2

x =504

12− (6)2 = 6 σ2

y =380

12− (5)2 = 6,67

σx =√

6 = 2,45 σy =√

6,67 = 2,58

CVx =2,45

6= 0,408 CVy =

2,58

5= 0,516

Las notas de fısica estan algo mas dispersas frente a su mediaque las de matematicas, es decir, la nota media de matematicases mas representativa que la de fısica

En cuanto a la relacion estadıstica que hay entre dichas variables:

σxy =431

12− 6 · 5 = 5,92 > 0

Existe una correlacion positiva (no sabemos todavıa si fuerte o debil) entre las notas de matematicas yfısica, es decir, la tendencia es que cuanta mas nota en matematicas, mas nota en fısica, y respectivamente.

r =5,92

2,45 · 2,58= 0,94 ≈ 1

Existe una correlacion lineal muy fuerte (del 88.36 %) entre las notas de fısica y de matematicas.

Vamos a representar graficamente la nube de puntos para observar esa tendencia de los puntos a apretarseen torno a una recta.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 160123456789

101112

1

2

3

4

5y

6

7

8

9

10

Centro de gravedad

1 2 3 4 5 6

x

7 8 9 10 Nota Matematicas

Nota Fısica

22 Autor: Diana Barredo

Page 23: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 3. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

22. Se quiere saber si existe algun tipo de asociacion estadıstica entre las notas que obtienen los alumnosen las asignaturas de Filosofıa y Matematicas. Para ello, elegimos al azar 12 alumnos que cursanambas asignaturas y los datos obtenidos son:

Nota Matematicas Nota Filosofıaxi yi

2 23 54 24 75 56 46 67 67 78 510 510 9

Siguiendo el ultimo ejemplo de la teorıa, realiza un estudio similar para las notas de Matematicas yFısica.

23. Una jugadora de baloncesto lanza a canasta, desde distintas distancias, 10 balones cada vez. Logica-mente, encesta mas cuanto mas cerca esta.

Distancia en m. No de encestesxi yi

1 92 103 64 45 26 07 18 0

a) Dibuja la nube de puntos y trata de interpretarla graficamente diciendo que tipo de asociacionpresentan estas variables y en que grado.

b) Haz un estudio analıtico completo de cada variable marginal y de la distribucion conjunta paradeterminar el tipo de asociacion (positiva o negativa) y el grado de la misma (fuerte o debil).

c) Situa el centro de gravedad en el diagrama de dispersion (nube de puntos) y dibuja la recta deregresion.

24. En la siguiente tabla se muestra como se ordenan entre sı, diez paıses A, B, C, . . . segun dos variables,R.P.C. (renta per capita) e I.N. (ındice de natalidad). Representa los resultados en un nube de puntos,traza la recta de regresion y di como te parece la correlacion. Interpreta siempre cualquier resultadoen el contexto del problema.

PAISES A B C D E F G H I J

R.P.C. 1 2 3 4 5 6 7 8 9 10

I.N. 10 6 9 5 7 4 1 3 8 2

Autor: Diana Barredo 23

Page 24: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

3. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

3.4. La recta de regresion

En el apartado anterior, ya vimos que cuando la correlacion entre dos variables estadısticas era alta, lanube de puntos se ajustaba a una recta imaginaria, que llamamos Recta de regresion

En este apartado, calcularemos analıticamente la ecuacion de esta recta de regresion y veremos paraque sirve.

Recta de Regresion Y/X

La recta de regresion Y/X, trata de explicar el comportamiento de la variable Y , a traves de la variableX. Es decir, dicha recta me va a permitir, hacer una estimacion del valor que toma la variable Y sobreun individuo, conocido el valor que ha tomado la variable X, sobre dicho individuo.

La ecuacion de dicha recta es:y = y +

σxy

σ2x

(x − x)

Si en un individuo, se ha observado que X = x0, podremos estimar que la variable Y tomara, aproxi-madamente, el siguiente valor: �

y0 = y +σxy

σ2x

(x0 − x)

Es importante notar lo siguiente:

Solo seran fiables las estimaciones de los valores que entren dentro del rango de los datos de lamuestra.

Solo tiene sentido utilizar la recta de regresion, para hacer estimaciones, cuando la correlacion entrelas variables sea alta.

Las estimaciones, hechas a traves de la recta de regresion, seran tanto mas fiables cuanto masproximo a 1 este el cuadrado del coeficiente de correlacion.

Ejemplo:

En el ejemplo de las estaturas y pesos, habıamos llegado a la siguiente conclusion:

“Existe una fuerte correlacion positiva entre las variables, o lo que es lo mismo, existe una recta imaginariaa la que se ajustan muy bien los puntos de la nube.”

Eso significa que, como los puntos deben de estar muy proximos a esa recta, podre estimar el peso (y0)de un alumno si conozco su estatura (x0), con tan solo sustituir, en la ecuacion de la recta, la variable xpor la estatura que haya observado en el alumno.

El valor real de su peso, y0, es algo desconocido, pero debe estar proximo a la ordenada del punto de larecta que se corresponda con su estatura x0 y, por lo tanto, este ultimo valor sera una estimacion delpeso real, que denotare por

�y0.

30

40

50

�y0=60,25

70

80

90

130 140 150 165 170

x0

175 185 195 Estatura (cm.)

Peso (kg.)

24 Autor: Diana Barredo

Page 25: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 3. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

Por otro lado, en el apartado anterior, habıamos obtenido los siguientes parametros estadısticos:

x = 172,5 σ2

x = 251,08 σx = 15,846 σxy = 302,875

y = 63,25 σ2

y = 373,021 σy = 19,314 r = 0,9896 ≈ 1

Como r2 ≈ 1, puedo utilizar la recta de regresion Y/X para estimar el valor del peso de un alumno,conociendo su estatura, siempre y cuando, dicha estatura este dentro del rango de las estaturas de los 12alumnos de la muestra.

La recta es la siguiente:

y = y +σxy

σ2x

(x− x) =⇒ y = 63,25 +302,875

251,08(x− 172,5) =⇒ y = 63,25 + 1,2(x− 172,5) =⇒

y = 1,2x − 143,75

Imaginemos que nos mandan estimar los pesos de otros tres alumnos de la misma clase (Juan, Ana yLuisa) cuyas estaturas son, respectivamente, 180cm. 170cm. y 164:

a) Peso estimado de Juan: Como Juan mide 180 cm., su peso estimado se obtiene sustituyendo, en larecta de regresion anterior, la variable x por su altura:

�y0 = 1,2 · 180 − 143,75 = 72,25 =⇒ Peso estimado: 72,25kg.

b) Peso estimado de Ana: Como Ana mide 170 cm., su peso estimado se obtiene sustituyendo, en la rectade regresion anterior, la variable x por su altura:

�y0 = 1,2 · 170 − 143,75 = 60,25 =⇒ Peso estimado: 60,25kg.

c) Peso estimado de Luisa: Como Luisa mide 164 cm., su peso estimado se obtiene sustituyendo, en larecta de regresion anterior, la variable x por su altura:

�y0 = 1,2 · 164 − 143,75 = 53,05 =⇒ Peso estimado: 53,05kg.

Recta de Regresion X/Y

La recta de regresion X/Y, trata de explicar el comportamiento de la variable X, a traves de la variableY. Es decir, dicha recta me va a permitir, hacer una estimacion del valor que toma la variable X sobreun individuo, conocido el valor que ha tomado la variable Y, sobre dicho individuo.

La ecuacion de dicha recta es:

x = x +σxy

σ2y

(y − y)

Si en un individuo, se ha observado que Y = y0, podremos estimar que la variable X tomara, aproxi-madamente, el siguiente valor: �

x0 = x +σxy

σ2y

(y0 − y)

Es importante notar lo siguiente:

Solo seran fiables las estimaciones de los valores que entren dentro del rango de los datos de lamuestra.

Solo tiene sentido utilizar la recta de regresion, para hacer estimaciones, cuando la correlacion entrelas variables sea alta.

Las estimaciones, hechas a traves de la recta de regresion, seran tanto mas fiables cuanto masproximo a 1 este el cuadrado del coeficiente de correlacion.

Autor: Diana Barredo 25

Page 26: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

3. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

30

40

50

y0=55

60

y1=65

70

80

90

130 140 150 160

�x0

170

�x1

180 190 Estatura (cm.)

Peso (kg.)

Ejemplo:

Siguiendo con el mismo ejemplo anterior. . .

Imaginemos que nos mandan estimar las estaturas de tres alumnos de la misma clase (Adrian, Cristinay Andres) cuyos pesos son, respectivamente, 140kg. 55kg. y 65kg:

Ahora, se trata de explicar o estimar la estatura (X) en funcion del peso (Y ), luego necesito determinarprimero la ecuacion de la otra recta de regresion, la recta de regresion X/Y, cuya ecuacion es:

x = x+σxy

σ2y

(y−y) =⇒ x = 172,5+302,875

373,021(y−63,25) =⇒ x = 172,5+0,81(y−63,25) =⇒

x = 0,81y + 121,267

a) Estatura estimada de Adrian: Como Adrian pesa 140 kg., y este peso NO esta en el rango de los pesosde la muestra que hemos utilizado para calcular la recta de regresion, NO se puede hacer estimacionesfiables a traves de ella. Luego, no podemos estimar su estatura.

b) Estatura estimada de Cristina: Como Cristina pesa 55kg., su estatura estimada se obtiene sustituyen-do, en la recta de regresion anterior, la variable y por su peso:

�x0 = 0,81 · 55 + 121,267 =⇒ Estatura estimada: 1m. 66cm.

c) Estatura estimada de Andres: Como Andres pesa 65kg., su estatura estimada se obtiene sustituyendo,en la recta de regresion anterior, la variable y por su peso:

�x0 = 0,81 · 65 + 121,267 =⇒ Estatura estimada: 1m. 74cm.

Posiciones relativas de las rectas de regresion

a) Las dos rectas de regresion se cortan siempre en un punto, que es el centro de gravedad

(x, y)

b) Las dos rectas de regresion tienen siempre las pendientes del mismo signo, que ademas, coincide conel signo de la covarianza.

c) El producto de las pendientes de ambas rectas, coincide con el cuadrado del coeficiente de correlacion.

d) En cuanto al angulo que forman las rectas:

Si r2 = 0, las rectas son perpendiculares, formando un angulo de 90o.

Si r2 = 1 las rectas son coincidentes, formando un angulo de 0o.

Si 0 < r2 < 1, las rectas forman un angulo agudo, tanto menor cuanto mayor sea el valor de r2,es decir, cuanto mayor sea la correlacion entre las variables.

26 Autor: Diana Barredo

Page 27: Estad´ıstica - ficus.pntic.mec.esficus.pntic.mec.es/dbab0005/matematicas1/Unidad8/Estadistica.pdf · Corresponde a este curso s´olo el estudio de la primera parte (estad´ıstica

1o Bachiller (CCSS) 3. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

25. Con la distribucion de las notas de Matematicas y Fısica, del ejemplo de la teorıa:

a) Dibuja el diagrama de dispersion (nube de puntos)

b) Dibuja el centro de gravedad.

c) Calcula las dos rectas de regresion y dibujalas sobre los mismos ejes.

d) Comprueba que ambas rectas pasan por el centro de gravedad.

e) Interpreta el signo de la pendiente de ambas rectas dentro del contexto del problema

f ) Estima la nota que sacarıa un alumno en Matematicas, sabiendo que ha sacado un 8,5 en Fısica.

g) Estima la nota en Fısica de un alumno, sabiendo que su nota en Matematicas fue un 4,75.

h) ¿Te parecen fiables las estimaciones anteriores?. Justifica grafica y analıticamente.

26. Con la distribucion de las notas de Matematicas y Filosofıa, del ejercicio 22:

a) Dibuja el diagrama de dispersion (nube de puntos)

b) Dibuja el centro de gravedad.

c) Calcula las dos rectas de regresion y dibujalas sobre los mismos ejes.

d) Comprueba que ambas rectas pasan por el centro de gravedad.

e) Interpreta el signo de la pendiente de ambas rectas dentro del contexto del problema

f ) Estima la nota que sacarıa un alumno en Matematicas, sabiendo que ha sacado un 2,5 en Filosofıa.

g) Estima la nota en Filosofıa de un alumno que saco un 6,5 en Matematicas.

h) ¿Te parecen fiables las estimaciones anteriores?. Justifica grafica y analıticamente.

27. Con la distribucion de los lanzamientos y distancia a la canasta del ejercicio 23:

a) Dibuja el diagrama de dispersion (nube de puntos)

b) Dibuja el centro de gravedad.

c) Calcula las dos rectas de regresion y dibujalas sobre los mismos ejes.

d) Comprueba que ambas rectas pasan por el centro de gravedad.

e) Interpreta el signo de la pendiente de ambas rectas dentro del contexto del problema

f ) Estima la distancia a la que lanza la jugadora si sabemos que ha encestado 7 de los 10 lanza-mientos.

g) Estima el numero de encestes en 10 tiradas, desde una distancia de 4,5 metros.

h) Podrıas estimar cuantas veces encesta haciendo 10 lanzamientos desde una distancia de 20 m.

i) ¿Te parecen fiables las estimaciones anteriores?. Justifica grafica y analıticamente.

28. ¿Cual de las estimaciones que has hecho en los tres ejercicios anteriores te parecen mas fiables?.Justifica tu respuesta.

29. La tabla adjunta muestra la nota de un examen de Matematicas de 10 estudiantes, las horas dedicadasa su preparacion, las horas que estuvieron chateando los dıas previos al examen y el peso de cadaalumno.

Estudia graficamente la correlacion entre la nota en matematicas y cada una de las otras tres variables.

Nota 3 4 5 6 6 7 7 8 8 9Horas de estudio 3 5 7 12 5 7 11 12 15 14Horas de chat 18 12 14 10 6 8 6 5 8 4Peso (kg.) 60 54 70 68 59 72 70 65 72 64

Sabiendo que Juan dedico 10 horas a la preparacion, que Alicia chateo 15 horas los dıas anteriores yque Sandra pesa 60kg. Estima la nota que obtendra cada uno. Justifica si son o no fiables las anterioresestimaciones.

Autor: Diana Barredo 27