cap´ıtulo 4: estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a...
TRANSCRIPT
Capıtulo 4: Estadıstica descriptiva
(Fundamentos Matematicos de la Biotecnologıa)
Departamento de MatematicasUniversidad de Murcia
Capıtulo 4: Estadıstica descriptiva
Contenidos
Introduccion a la estadıstica
Tabulacion de datos y representaciones graficas
Medidas de posicion y dispersionLa media aritmetica y la medianaLa varianza y la desviacion tıpicaLa covarianza
Curvas de regresionLa recta de regresionLa regresion exponencialLa regresion potencialLa regresion logarıtmicaEl coeficiente de correlacion lineal
Capıtulo 4: Estadıstica descriptiva
Introduccion a la estadıstica
Definicion de Estadıstica
¿Que es la Estadıstica?
Es la ciencia que se ocupa de recoger, clasificar, representar y resumir losdatos de muestras extraıdas de poblaciones y que, a partir de esasmuestras, valiendose del calculo de probabilidades, se encarga de hacerinferencias acerca de las poblaciones.
1 Estadıstica descriptiva: es la parte de la estadıstica que se ocupa derecoger, clasificar, representar y resumir los datos de muestrasextraıdas de poblaciones.
2 Estadıstica inferencial: es la parte de la estadıstica que se ocupa desacar conclusiones (inferencias) acerca de las poblaciones a partir delos datos de las muestras extraıdas de ellas.
Capıtulo 4: Estadıstica descriptiva
Introduccion a la estadıstica
Conceptos generales
Poblacion: conjunto de individuos sobre los que se realiza lainvestigacion estadıstica.
Muestra: subconjunto de individuos de la poblacion.
Tamano muestral: numero de individuos de la muestra.
Variable: propiedad o cualidad que puede manifestarse bajo dos omas formas distintas en un individuo de una poblacion.
1 Cuantitativas: se expresan numericamente. Pueden ser discretas(toman valores numericos aislados: edad, no de hijos...) y continuas(toman cualquier valor dentro de unos lımites: altura, peso...).
2 Cualitativas: no se expresan numericamente. Pueden ser dicotomicas(solo aceptan dos posibles resultados: sexo...), ordinales (admitenuna ordenacion ascendente: escala militar...) y nominales (ningunode los dos tipos anteriores: color...).
Dato o valor: resultado de una variable obtenido en un individuo deuna muestra.
Clases: distintas formas en que se manifiesta una variable.
Capıtulo 4: Estadıstica descriptiva
Tabulacion de datos y representaciones graficas
Tabulacion de datos
Frecuencia absoluta de la clase i-esima: fi= numero de veces que seda dicha clase.
Frecuencia relativa de la clase i-esima: hi=fin
, con n el tamano
muestral.
Porcentaje de la clase i-esima: %i= hi · 100.
Si k = numero de clases distintas, se tiene que:
f1 + f2 + · · ·+ fk = n,
h1 + h2 + · · ·+ hk = 1,
%1 + %2 + · · ·+ %k = 100,
Capıtulo 4: Estadıstica descriptiva
Tabulacion de datos y representaciones graficas
Ejemplo de tabulacion de datos
Tabla de recogida (no ordenada) de unos datos cualitativos:
frances ingles frances ingles frances aleman ruso espanolfrances ingles frances ingles espanol frances espanol francesaleman ingles espanol ingles ingles espanol ingles francesespanol ruso aleman frances ingles espanol aleman inglesespanol frances aleman ingles ingles ingles espanol frances
La distribucion de frecuencias de estos datos es:
clases fi hi % i
aleman 5 0,125 12,5espanol 9 0,225 22,5frances 11 0,275 27,5ingles 13 0,325 32,5ruso 2 0,050 5,0
suma 40 1 100
Capıtulo 4: Estadıstica descriptiva
Tabulacion de datos y representaciones graficas
Representaciones graficas de variables cualitativas
Diagrama de barras (vertical): lasclases se situan en el eje OX y sobrecada una de ellas se levanta una“barra” (o un segmento rectilıneo...)de altura igual a la frecuencia oporcentaje de cada clase. De modoanalogo se representarıa el diagramade barras horizontal.
Grafico de sectores: se divide el areade un cırculo en sectores circularesde angulos proporcionales a lasfrecuencias (o porcentajes) de lasclases. Esto implica que las areas delos sectores tambien sonproporcionales a las frecuencias(porcentajes).
Capıtulo 4: Estadıstica descriptiva
Tabulacion de datos y representaciones graficas
Representaciones graficas de variables cuantitativas
Diagrama de barras: igual que en las variables cualitativas.
Polıgono de frecuencias o diagramade lıneas: se situan en el eje deabscisas los resultados de la variabley en el eje de ordenadas susfrecuencias o porcentajes, uniendodespues los puntos mediantesegmentos rectilıneos.
Capıtulo 4: Estadıstica descriptiva
Medidas de posicion y dispersion
La media aritmetica y la mediana
Medidas de posicion: media aritmetica (o media)
La media aritmeticaSi x1, . . . , xn son n valores de una muestra, su media aritmetica es:
x =x1 + x2 + · · ·+ xn
n.
Notacion:
x =
∑ni=1 xi
n
Si los datos son x1, x2, . . . , xk , con frecuencias absolutas respectivas f1,f2, . . ., fk (con f1 + f2 + · · ·+ fk = n), la media aritmetica es:
x =
∑ki=1 xi fin
.
Capıtulo 4: Estadıstica descriptiva
Medidas de posicion y dispersion
La media aritmetica y la mediana
Medidas de posicion: la mediana
La mediana Me
La mediana es el valor que deja por debajo el 50% de los datos y porarriba el 50 % restante, siempre que estos se hayan ordenado de menor amayor.
Si el no de datos es impar, Me es el unico dato central.
Si el no de datos es par, Me es la media aritmetica de los dos datoscentrales.
Generalizacion de la mediana: el percentil al r% es el valor que dejapor debajo el r% de los datos y por arriba el (100-r) % restante.
Capıtulo 4: Estadıstica descriptiva
Medidas de posicion y dispersion
La varianza y la desviacion tıpica
Medidas de dispersion: varianza y desviacion tıpica
Las medidas de dispersion son valores que miden el grado de separacionde las observaciones entre sı o con respecto a ciertas medidas de posicion.
La varianza y la desviacion tıpica
Si x1, . . . , xn son n valores de una muestra, se definen la varianza como
s2 =
∑ni=1 x2
i
n− x2,
y la desviacion tıpica como
s =√
s2.
Si s2 ≈ 0, los datos estan cerca de la media.
Capıtulo 4: Estadıstica descriptiva
Medidas de posicion y dispersion
La covarianza
Covarianza entre dos variables estadısticas
La covarianzaDadas dos variables X e Y , la covarianza entre X e Y es:
sxy =
∑ni=1 xi yi
n− xy .
Ejemplo:
xi 61 118 57 123 125 122 122 85 85yi 15 28 15 30 31 30 30 23 22
x =898
9= 99.7, y =
224
9= 24.8,
sxy =23784
9− 898
9
224
9= 159,3086419...
Capıtulo 4: Estadıstica descriptiva
Curvas de regresion
Representaciones graficas bidimensionales
La representacion grafica mas usual es el diagrama de dispersion o nubede puntos.
xi 61 118 57 123 125 122 122 85 85 85 83 78 76 76 73 70 97 107yi 15 28 15 30 31 30 30 23 22 22 23 23 23 21 21 21 25 29
Y
X
60 70 80 90 100 110 120 130
0
5
10
15
20
25
30
35
¿Podemos construir una curva que la “aproxime”?
Capıtulo 4: Estadıstica descriptiva
Curvas de regresion
Curvas de regresion
Curva de regresion: curva ideal hacia la que tienden los puntos deldiagrama de dispersion.
Las curvas de regresion se pueden considerar:
1 de Y sobre X , o de X sobre Y (nos centraremos en las de Y sobreX ; las otras son analogas).
2 de un tipo especial: lineal, parabolica, potencial, exponencial,logarıtmica, etc.
Recta de regresion de Y sobre X : lınea recta que mejor se aproximaal diagrama de dispersion cuando los valores de la variable X estanen el eje horizontal y los valores de Y estan en el eje vertical (esdecir, X es la variable independiente e Y es la variable dependiente).
Capıtulo 4: Estadıstica descriptiva
Curvas de regresion
La recta de regresion
Recta de regresion mınimo cuadratica
La recta de regresion (mınimo cuadratica) de Y sobre X es un ajuste a larecta y = a + bx (por el “metodo de mınimos cuadrados”).
Regresion lineal
La ecuacion de la recta de regresion de Y sobre X que mejor se ajustaviene dada por
y = a + bx , donde b =sxys2x
, a = y − sxys2x
x .
Capıtulo 4: Estadıstica descriptiva
Curvas de regresion
La regresion exponencial
Regresion exponencialLa regresion exponencial es el ajuste (por el metodo de mınimoscuadrados) a una curva
y = aebx .
Tomamos logaritmos neperianos: ln y = ln a + bx .
Regresion exponencial
Haciendo el cambio y ′ = ln y , A = ln a, queda
y ′ = A + bx ,
con lo que se reduce a un ajuste lineal entre las variables Y ′ y X .
Tambien puede considerarse el ajuste a una curva y = abx . En este caso:
ln y = ln a + x ln b,
y haciendo el cambio y ′ = ln y , A = ln a, B = ln b, queda reducidotambien al ajuste lineal y ′ = A + Bx .
Capıtulo 4: Estadıstica descriptiva
Curvas de regresion
La regresion potencial
Regresion potencial
La regresion potencial es el ajuste (por el metodo de mınimos cuadrados)a una curva
y = axb.
Tomamos logaritmos neperianos: ln y = ln a + b ln x .
Regresion potencial
Haciendo el cambio y ′ = ln y , A = ln a, x ′ = ln x , queda
y ′ = A + bx ′,
con lo que se reduce a un ajuste lineal entre las variables Y ′ y X ′.
Capıtulo 4: Estadıstica descriptiva
Curvas de regresion
La regresion logarıtmica
Regresion logarıtmica
La regresion logarıtmica es el ajuste (por el metodo de mınimoscuadrados) a una curva
y = a + b ln x .
Regresion logarıtmica
Haciendo el cambio x ′ = ln x , queda
y = a + bx ′,
con lo que se reduce a un ajuste lineal entre las variables Y y X ′.
Capıtulo 4: Estadıstica descriptiva
Curvas de regresion
La regresion logarıtmica
Curvas de regresion
Regresion lineal
¿Regresion logarıtmica?
Regresion exponencial
Capıtulo 4: Estadıstica descriptiva
Curvas de regresion
El coeficiente de correlacion lineal
Coeficiente de correlacion lineal de Pearson
El coeficiente de correlacion lineal de Pearson de las variables X e Y es:
r =sxysxsy
.
1 −1 ≤ r ≤ 1.
2 Si r = 1 (r = −1), existe dependencia lineal positiva (negativa)exacta entre X e Y .
3 Si r = 0, no existe dependencia lineal entre X e Y .
4 Si r se aproxima a 1 (o a −1), mayor es la dependencia lineal entreX e Y : los puntos del diagrama de dispersion estaran proximos a larecta de regresion, que puede usarse para calcular, de formaaproximada, el valor de Y a partir del valor de X .
5 Si r se aproxima a 0, mayor es la independencia lineal entre X e Y .
6 Si r > 0 (r < 0), al aumentar X aumenta (disminuye) Y .
Capıtulo 4: Estadıstica descriptiva
Curvas de regresion
El coeficiente de correlacion lineal
EjemploLa ley de Hook establece que el alargamiento de un muelle es proporcional a lafuerza aplicada: L = L0 + αF (L0 = longitud inicial, α = constante del muelle).
Se han obtenido los siguientes datos experimentalmente:
Fuerza xi Longitud yi
2 3
4 6
6 8
8 9
Suma: 20 26
x2i y 2
i xiyi
4 9 6
16 36 24
36 64 48
64 81 72
120 190 150
¿Cual es la constantedel resorte? ¿Y lalongitud inicial?
y = L0 + αx , ¿L0, α?
x =20
4= 5, y =
26
4=
13
2, s2
x =
∑x2
i
n− x2 =
120
4− 25 = 5.
sxy =
∑xiyi
n− xy =
150
4− 65
2= 5.
α =sxy
s2x
=5
5= 1; L0 = y − αx =
13
2− 5 =
3
2.
¿Fiabilidad? r =sxy
sxsy=
5√5 · 5,25
≈ 0,975 −→ muy bueno.