actividades t 1,2,3,4

6

Click here to load reader

Upload: pedro-j-lopez-cabello

Post on 25-Jun-2015

4.293 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Actividades T 1,2,3,4

INTRODUCCIÓN ANÁLISIS DE DATOS ACTIVIDADES (ESTADÍSTICA DESCRIPTIVA)

R. MEDRANO (TUTOR) PÁGINA 1

ACTIVIDADES TUTORIA ���� ESTADISTICA DESCRIPTIVA

TEMAS (1, 2, 3 y 4)

A partir de los datos de la Grafica 1, se plantean las siguientes preguntas: 1.- ¿Qué tipo de variable es la Edad?: A) cualitativa; B) dicotómica; C) cuantitativa. Justificación : La edad es una variable cuantitativa continua (cuando la variable puede tomar cualquier valor entre dos números dados, valores decimales) 2.- Para los datos de la Gráfica 1, la moda es: A) 12; B) 75; C) 25. Justificación : Se trata del Punto medio del intervalo con mayor frecuencia. La Grafica 1 es un Histograma (se emplea para representar distribuciones de frecuencias -absolutas y acumuladas- de variables continuas cuando los datos están agrupados en intervalos)

INTERVALO n i PUNTO MEDIO

En el eje de abscisas se colocan los límites exactos de cada uno de los intervalos, levantándose rectángulos cuyas áreas son proporcionales a la frecuencia correspondiente. Si construimos la tabla de distribución de frecuencias, a partir de la grafica, resulta que 12 es el punto medio del intervalo (11-13) con mayor frecuencia (75)

14-16 25 15 11-13 75 12 8-10 50 9 5-7 25 6 2-4 25 3

ΣΣΣΣ = 200 3.- La mediana de la variable Edad para los datos de la Gráfica 1 vale: A) 9; B) 10´5; C) 12´5. Justificación : A partir de la tabla de distribución de frecuencias, averiguamos la mediana (pagina 10 del formulario):

INTERVALO n i na Intervalo Crítico (Intervalo en el que se encuentra la Mediana).

Intervalo cuya frecuencia acumulada sea mayor o igual al 50% del número de observaciones (100); en nuestro caso, el intervalo (8-10) Aplicamos fórmula (Interpolación) � Md = Li + [(n /2) – nd / nc] · I Mediana = Md = 7´5 + [(200 / 2) – 50 / 50] · 3 = 7´ 5 + 3 = 10´5 La Mediana (10´5) deja por encima y por debajo el 50% de las observaciones.

14-16 25 200 11-13 75 175 8-10 50 100 5-7 25 50 2-4 25 25

ΣΣΣΣ = 200

Page 2: Actividades T 1,2,3,4

INTRODUCCIÓN ANÁLISIS DE DATOS ACTIVIDADES (ESTADÍSTICA DESCRIPTIVA)

R. MEDRANO (TUTOR) PÁGINA 2

INTERV n i na pI pa Con las proporciones: Md = L i + [(0,5 – pd) / pc] · I

pd = Proporción acumulada bajo el intervalo crítico pc = Proporción dentro del intervalo crítico Md = 7´5 + [(0,5 – 0´25) / 0´25] · 3 = 7´5 + 3 = 10´5

14-16 25 200 0´125 1 11-13 75 175 0´375 0´875 8-10 50 100 0´25 0´50 5-7 25 50 0´125 0´25 2-4 25 25 0´125 0´125

ΣΣΣΣ = 200 4.- La puntuación 7´25, en la Tabla 1, representa el percentil: A) 80; B) 70; C) 60.

INTERVALO n i Tabla 1.- Puntuaciones de un grupo de 150 personas en una prueba X.

9 - 10 20 7 - 8 40 5 - 6 50 3 - 4 30 1 - 2 10

ΣΣΣΣ = 150

Justificación : A partir de la Tabla 1, se aplica la fórmula para averiguar el percentil que corresponde a la puntuación 7´25 (página 11 del formulario)

INTERV n i na La puntuación 7´25 se encuentra en el intervalo critico (7-8)

Aplicamos fórmula (Interpolación) � K = [{(7´25 - 6,5) · 40 / 2} + 90 / 150] · 100 = 70 K = 70 (7´25 se corresponde con el percentil 70 � P70)

9 - 10 20 150 7 - 8 40 130 5 - 6 50 90 3 - 4 30 40 1 - 2 10 10

ΣΣΣΣ = 150 5.- El índice de Asimetría de Pearson, para los datos de la Tabla 1 (recogida en la pregunta nº 4), está comprendido entre: A) –4 y 0; B) 0 y 2; C) 2 y 4.

Justificación : A partir de la Tabla 1, se calculan: La media, la moda y la desviación típica (datos necesarios para aplicar la fórmula del índice de asimetría de Pearson / página 12 del formulario); Punto medio = Xi

INTERV n i Xi Xi · ni Xi2 · ni _ _

X = ΣΣΣΣ (n i · Xi) / n ���� X = 885 / 150 = 5´9 Mo = 5´5 (punto medio intervalo con mayor ni) _ S2

X = (ΣΣΣΣ n i X2 / n) – X2

S2

X = (5957´5 / 150) – 5´92 = 4´91 ���� SX = 2´21

9 - 10 20 9´5 190 1805 7 - 8 40 7´5 300 2250 5 - 6 50 5´5 275 1512´5 3 - 4 30 3´5 105 367´5 1 - 2 10 1´5 15 22´5

ΣΣΣΣ = 150 ΣΣΣΣ = 885 ΣΣΣΣ = 5957´5

_ AS = (X – Mo) / SX � (5´9 – 5´5) / 2´21 = 0,18 (Asimetría Positiva)

6.- Para representar gráficamente los datos de la Tabla 2, utilizaremos: A) el diagrama de sectores; B) el diagrama de dispersión; C) el diagrama de barras acumuladas.

Justificación : Diagrama de dispersión (nube de puntos), se utiliza cuando las dos variables son cuantitativas. 7.- Con relación a la Tabla 2 ¿cuál de las dos variables, X e Y, presenta mayor variabilidad?: A) Y, porque su coeficiente de variación es mayor que el de X; B) X, porque su coeficiente de variación es mayor que el de Y; C) no se puede determinar porque sus medias son distintas.

Justificación : A partir de la tabla 2, realizamos los cálculos de los coeficientes de variación para las variables X e Y:

Page 3: Actividades T 1,2,3,4

INTRODUCCIÓN ANÁLISIS DE DATOS ACTIVIDADES (ESTADÍSTICA DESCRIPTIVA)

R. MEDRANO (TUTOR) PÁGINA 3

Niño X Y Tabla 2.- Puntuaciones de cinco niños en las variables X (Inteligencia verbal) e Y (Calificaciones en la asignatura de lengua española)

A 92´5 0´5 B 77´5 3´5 C 100 5 D 107´5 6´5 E 122´5 9´5

Niño X Y X2 Y2 XY A 92´5 0´5 8556´25 0´25 46´25 B 77´5 3´5 6006´25 12´25 271´25 C 100 5 10000 25 500 D 107´5 6´5 11556´25 42´25 698´75 E 122´5 9´5 15006´25 90´25 1163´75 ΣΣΣΣ = 500 ΣΣΣΣ = 25 ΣΣΣΣ = 51125 ΣΣΣΣ = 170 ΣΣΣΣ = 2680

_ _ X = Σ (Xi / n) � 500 / 5 = 100 Y = Σ (Yi / n) � 25 / 5 = 5 _ ___ S2

X = (Σ X2 / n) – X2 � (51125 / 5) - 1002 = 225 SX = √ 225 = 15 _ __ S2

Y = (Σ Y2 / n) – Y2 � (170 / 5) - 52 = 9 SY = √ 9 = 3

CVX = (15 / 100) · 100 = 15 CVY = (3 / 5) · 100 = 60 CVY > CVX

8.- A partir de los datos de la Tabla 3, el Coeficiente χ2 entre X e Y está comprendido entre: A) 25 y 100; B) 100 y 175; C) 175 y 250 2X.

Y X Apto No Apto

1º Semana 100 200 300 2º Semana 400 300 700

500 500 1000 Tabla nº 3: resultados del examen de una asignatura, según la semana en que se presentaron los estudiantes)

Justificación : (χ2) Permite determinar si dos variables están o no relacionadas. Para calcular la tabla de frecuencias teóricas (nt) � (Σ Sumatorio de la fila x Σ Sumatorio de la columna) / Nº de casos.

Y X Apto No Apto

1º Semana (300 · 500) / 1000 =150 100

(300 · 500) / 1000 =150 200

300

2º Semana (700 · 500) / 1000 =350 400

(700 · 500) / 1000 =350 300

700

500 500 1000 χ

2 = Σ Σ (ne – n t)2 / n t

ne � frecuencia empírica conjunta (datos problema) n t � frecuencia teórica conjunta (datos esperados)

χ

2 = {(100 - 150)2 / 150 + (200 - 150)2 / 150 + (400 - 350)2 / 350 + (300 - 350)2 / 350} = 47´62

9.- Con los datos de la Tabla 2, la covarianza entre X e Y vale: A) 36; B) 3,6; C) 46.

Justificación : A partir de los datos recogidos en la pregunta nº 7 (Tabla 2), aplicamos la formula que permite averiguar la covarianza (índice que cuantifica la variabilidad conjunta de dos variables). Página 13 del formulario.

Page 4: Actividades T 1,2,3,4

INTRODUCCIÓN ANÁLISIS DE DATOS ACTIVIDADES (ESTADÍSTICA DESCRIPTIVA)

R. MEDRANO (TUTOR) PÁGINA 4

Niño X Y X2 Y2 XY A 92´5 0´5 8556´25 0´25 46´25 B 77´5 3´5 6006´25 12´25 271´25 C 100 5 10000 25 500 D 107´5 6´5 11556´25 42´25 698´75 E 122´5 9´5 15006´25 90´25 1163´75 ΣΣΣΣ = 500 ΣΣΣΣ = 25 ΣΣΣΣ = 51125 ΣΣΣΣ = 170 ΣΣΣΣ = 2680

_ _ X = Σ (Xi / n) � 500 / 5 = 100 Y = Σ (Yi / n) � 25 / 5 = 5 _ _

SXY = (Σ Xi · Yi / n) – (X·Y) � SXY = (2680 / 5) – (100 · 5) = 536 – 500 = 36

10.- El coeficiente de correlación de Pearson entre X e Y, a partir de la Tabla 2, vale: A) 0,8; B) – 0,8; C) 0,5.

Justificación : A partir de la Tabla 2, aplicamos la formula que permite averiguar el coeficiente de correlación de Pearson (índice que cuantifica la variabilidad conjunta de dos variables). Página 13 del formulario.

___________ ___________ r XY = n (ΣΣΣΣXY) - (ΣΣΣΣX)( ΣΣΣΣY) / √ n ΣΣΣΣX2 - (ΣΣΣΣX)2 √ n ΣΣΣΣY2- (ΣΣΣΣY)2 _____________ _________ r XY = 5 (2680) – (500·25) / √ 5· 51125 – 5002 √ 5·170 - 252 = 0,8

También, dado que conocemos la covarianza (SXY = 36) y las desviaciones típicas de ambas variables (SX = 15 y SY = 3), podemos aplicar como fórmula alternativa: r XY = SXY / SX · SY

r XY = SXY / SX · SY � r XY = 36 / (15 · 3) � r XY = 0`8 11.- La ecuación de la recta de regresión que permite pronosticar las puntuaciones en lengua española a partir de la inteligencia verbal es: A) Y´ = 1´6 X – 11; B) Y′ = - 0´16 X + 11; C) Y′ = 0´16 X – 11. Justificación : Para construir la recta de regresión debemos averiguar las constantes de la regresión (a y b) a partir de los datos de la Tabla 2 y de las formulas recogidas en la página 14 del formulario: Datos � Sx = 15 Sy = 3 Sxy = 36 r XY = 0`8 Y´ = 0´16 X – 11

_ _ b = rXY · (Sy / Sx) � b = 0´8 (3 / 15) = 0´16 a = Y – b X � a = 5 – (0´16 · 100) = (- 11)

12.- A partir de la recta de regresión obtenida en el ejercicio anterior ¿qué puntuación directa pronosticaremos en Y a un niño con una puntuación de X = 102?: A) 6,5; B) 5,32; C) 5,8. Justificación : A partir de la recta de regresión obtenida en la pregunta anterior, sustituimos X por su valor (102) y obtenemos el pronóstico (Y´)

Y´ = 0´16 X – 11 � Y´ = 0´16 (102) – 11 ���� Y´ = 5´32

Page 5: Actividades T 1,2,3,4

INTRODUCCIÓN ANÁLISIS DE DATOS ACTIVIDADES (ESTADÍSTICA DESCRIPTIVA)

R. MEDRANO (TUTOR) PÁGINA 5

PROBLEMAS EXAMEN (ENERO DE 2010)

1.- La variable X, representada en la Figura 1, es: A) Politómica; B) Cualitativa; C) Cuantitativa. Justificación : Las calificaciones en una asignatura se consideran cuantitativas continuas. 2.- La representación gráfica de la Figura 1 se denomina: A) diagrama de dispersión; B) histograma ; C) polígono de frecuencias. Justificación : El histograma se utiliza para representar variables cuantitativas continuas con datos agrupados en intervalos. En el eje de abscisas se colocan los límites exactos de cada uno de los intervalos (o los puntos medios). En la ordenada se recogen las frecuencias (en nuestro caso las absolutas) 3.- En el eje de ordenadas de la Figura 1 se ha representado: A) la frecuencia absoluta ; B) la frecuencia relativa; C) el porcentaje. Justificación : Se trata de las frecuencias absolutas (ni) 4.- Considerando la Figura 1, la Moda de la variable X es: A) 5,5; B) 6,5; C) 50. Justificación : La Moda se ubica en el punto medio del intervalo con mayor frecuencia absoluta (ni = 50; el punto medio es 5´5) 5.- En la Figura 1, la calificación 6,5 corresponde al percentil: A) 50; B) 60; C) 65. Justificación : A partir de la Figura 1, construimos la tabla de distribución de frecuencias:

INTERV n i na La puntuación 6´5 se encuentra en el intervalo critico (5-6)

Aplicamos fórmula (Interpolación) � K = [{(6´5 - 4´5) · 50 / 2} + 40 / 150] · 100 = 0´6 · 100 = 60 K = 60 (6´5 se corresponde con el percentil 60 � P60)

9-10 20 150 7-8 40 130 5-6 50 90 3-4 30 40 1-2 10 10

ΣΣΣΣ = 150 6.- El Percentil 30, para los datos de la Figura 1, es: A) 3; B) 4,7; C) 7,5. Justificación :

INTERV n i na El percentil 30 (P30) = (K · n / 100 � 30 · 150 / 100 = 45 El intervalo crítico es 5-6 P30 = 4´5 + [(45 - 40 / 50) · 2 = 4´5 + 0´2 = 4´7

9-10 20 150 7-8 40 130 5-6 50 90 3-4 30 40 1-2 10 10

ΣΣΣΣ = 150

Page 6: Actividades T 1,2,3,4

INTRODUCCIÓN ANÁLISIS DE DATOS ACTIVIDADES (ESTADÍSTICA DESCRIPTIVA)

R. MEDRANO (TUTOR) PÁGINA 6

7.- La varianza de las puntuaciones en X, de la Figura 1, es: A) 3,52; B) 4,91; C) 6,28. Justificación : La calculamos a partir de la tabla de distribución de frecuencias:

INTERV n i Xi Xi · ni Xi2 · ni _ _

X = ΣΣΣΣ (n i · Xi) / n ���� X = 885 / 150 = 5´9 _ S2

X = (ΣΣΣΣ n i X2 / n) – X2

S2

X = (5957´5 / 150) – 5´92 = 4´91

9 - 10 20 9´5 190 1805 7 - 8 40 7´5 300 2250 5 - 6 50 5´5 275 1512´5 3 - 4 30 3´5 105 367´5 1 - 2 10 1´5 15 22´5

ΣΣΣΣ = 150 ΣΣΣΣ = 885 ΣΣΣΣ = 5957´5

8.- En la Tabla 1, ¿cuál de variables X e Y presenta mayor variabilidad?: A) X, porque su coeficiente de variación es mayor que el de Y; B) Y, porque su coeficiente de variación es mayor q ue el de X; C) No se puede determinar porque son variables distintas. Justificación : Averiguamos los coeficientes de variación (se utilizan para comparar la variabilidad de dos distribuciones) a partir de los datos de la Tabla nº 1: CVX = (10 / 100) · 100 = 10 CVY = (3 / 7) · 100 = 42´86 CVY > CVX 9.- El coeficiente χ2 toma valores: A) iguales o superiores a cero ; B) negativos; C) comprendidos entre -1 y 1. Justificación : Tiene valor cero cuando no hay relación entre las variables. Su inconveniente es que desconocemos su límite superior. 10.- El coeficiente de correlación de Pearson entre X e Y, a partir de los datos de la Tabla 1, vale: A) 0,1; B) 0,8; C) 0,9. Justificación : Dado que conocemos la covarianza (SXY = 24) y las desviaciones típicas de ambas variables (SX = 10 y SY = 3), podemos aplicar la fórmula: r XY = SXY / SX · SY r XY = 24 / (10 · 3) � r XY = 0`8 11.- El signo de la pendiente de la recta de regresión de Y sobre X, en puntuaciones directas, depende de: A) las medias de X e Y; B) el cociente entre las desviaciones típicas de Y y X; C) el coeficiente de correlación de Pearson entre X e Y . Justificación : La pendiente de la recta de regresión es igual a � b = rXY · (Sy / Sx); como las desviaciones típicas siempre son positivas, el signo de la pendiente (b) es igual que el de la correlación de Pearson (rXY) 12.- La recta de regresión para pronosticar las puntuaciones en la asignatura a partir de las puntuaciones en el test, teniendo en cuenta la Tabla 1 es: A) Y’ = -3+0,8X; B) Y´= - 17+0,24X; C) Y´=0,24X-10. Justificación : Averiguamos la recta de regresión a partir de los datos de la tabla 1:

Datos � Sx = 10 Sy = 3 Sxy = 24 r XY = 0`8 Y´ = - 17 + 0´24X

_ _ b = rXY · (Sy / Sx) � b = 0´8 (3 / 10) = 0´24 a = Y – b X � a = 7 – (0´24 · 100) = (- 17)