cap_01_ili-280_1_2014
TRANSCRIPT
-
CAPTULO 1 Introduccin a la estadstica computacional 1 Semestre 2014 Profesor: Carlos Valle [email protected]
-
Qu es estadstica? Es la ciencia que provee herramientas para organizar y
resumir datos Extraer conclusiones basadas en la informacin
contenida en los datos
-
Definiciones bsicas Una investigacin estadstica requiere del estudio de
datos desde una poblacin de inters Extraer la informacin de la poblacin completa suele ser
difcil (razones econmicas, de tiempo, de variabilidad de la poblacin)
Analizaremos una subconjunto de la poblacin llamado muestra
-
Definiciones bsicas (2) A menudo nos interesa estudiar ciertas caractersticas de
los objetos de la poblacin. Una carcterstica o atributo puede ser:
Categrica: gnero, ciudad, nacionalidad. Numrica: Edad, dimetro de un neumtico, poso de un vehculo
Una variable es cualquier carcterstica que puede cambiar de valor de un objeto a otro dentro de la poblacin
-
Tipos de anlisis segn el nmero de caractersticas Univariado: estudia una sola variable del objeto Bivariado: estudia dos variables y la relacin entre ellas Multivariado: Estudia ms de una variable y sus
relaciones (bivariado es un caso particular)
-
Ramas de la estadstica Estadstica descriptiva: Resumir, describir y analizar datos
a partir de una muestra Inferencia estadstica: Conjunto de tcnicas que nos
permiten generalizar informacin de la poblacin mediante una muestra
Probabilidades: Para realizar una buena inferencia debemos estudiar herramientas probabilsticas
-
Muestreo de datos Existen distintas formas de extraer la muestra desde la
poblacin: Muestra aleatoria simple: Se extraen sujetos al azar
desde una poblacin Muestra estratificada: Se divide la muestra en grupos
mutuamente excluyentes y se extrae una muestra para cada grupo
Diseo de experimentos: Muchas veces la poblacin no existe, y deben crearse las condiciones para extraer la muestra
-
Definicin de muestra A continuacin veremos algunos mtodos para graficar y
ordenar los datos de la muestra de tamao No existe relacin entre el subndice y la magnitud de una
observacin en particular
x1, x2,..., xn n
-
Diagrama de tallos y hojas 1. Seleccionar uno o ms cifras significativas como tallos 2. Listar los tallos en una columna vertical 3. Registre cada hoja en la fija correspondiente a su tallo 4. Indique las unidades de los tallos y hojas
-
Diagrama de tallos y hojas (2) Ejemplo: unidad tallos= decenas centenas
10 7 8 unidad hojas=1.0 11 1 2 3 7 9 12 0 3 3 4 6 8 13 1 2 2 4 5 6 7 8 14 0 1 2 3 3 5 7 8 8 15 0 2 3 3 8 8 16 0 0 1 2
-
Diagrama de puntos Cada observacin se representa por un punto cercano a
su ubicacin horizontal. Cuando existen valores repetidos se pone un punto sobre otro
10 20 30 40 50 60 70
-
Histogramas Para datos no agrupados (variables discretas,
categricas) Frecuencia absoluta de un valor particular x es el nmero de
veces que ese valor se repite en la muestra Frecuencia relativa: fraccin en la que este valor ocurre en la
muestra. Una distribucin de frecuencias es una tabulacin de frecuencias
(relativas o absolutas)
ni
fi =nin
-
Histogramas (4) Para datos agrupados (variables continuas y discretas) Debemos dividir los posibles valores de x en clases
( ) Se suele usar Si los anchos de las clases son diferentes:
Esto se llama escala de densidad
k
k n
alturak =nk
xCkmax x{ }
xCkmin x{ }
Rango =max{x}min{x}c1,c2,...,ck
-
Histogramas (5)
0
1
2
3
4
5
6
7
8
9
110,5 118,5 126,5 134,5 142,5 150,5 158,5
-
Histogramas (5) Un histograma puede ser:
Simtrico Asimtrico (positiva o negativa) Unimodal (un solo mximo) Bimodal (dos mximos locales) Multimodal (ms de un mximo local)
-
Medidas de tendencia central Media aritmtica (promedio)
No robusto en presencia de outliers Mediana: Sea una muestra ordenada de
tamao . Donde
Moda: Valor que ocurre con mayor frecuencia: el valor ms comn.
x = xii=1
n
x 1( ), x 2( ),..., x n( )n x j( ) x j+1( ), j =1,...,n1
!x =x n+1
2!
"#
$
%& si n es impar
12 x n/2( ) + x n/2+1( )( ) si n es par
'
()
*)
-
Estudio de formas
Coeficiente de Simetra de Fisher Sesgo
0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
1 < 0
0 0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45
1 = 0 1 > 0
0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
20
33
1 sm
=
!x = x!x !xx x
-
Medidas de tendencia central (2) Cuartil: Dividen la muestra ordenada en cuatro partes
iguales:
Percentil: Dividen la muestra ordenada en cien partes iguales
contrario casoen )1(
entero es 4
1 si
41
41
41
+
+
=
+
+
+
nini
nii
xx
nixQ
+
+=41
41 nini
contrario casoen )1(
entero es 100
1 si
1001
1001
1001
+
+
=
+
+
+
nini
nii
xx
nixP
+
+=1001
1001 nini
-
Medidas de tendencia central (3) Media Truncada: Una media truncada al x% calcula el
promedio eliminando el x% mayor y menor de los datos de la muestra
-
Proporciones de la muestra Para datos categricos es til obtener la proporcin de la
muestra que pertenece a cada categora. Por ej: el porcentaje de la muestra de personas que
tienen hijos. (Las categoras implcitas seran tener hijos y no tener hijos)
-
Medidas de Variacin Rango intercuartlico: Desviacin media:
Varianza:
Desviacin estndar:
Q3 Q1DM = 1n xi xi=1
n
s2 =xi x( )
2
i=1
n
n1 =
Sxxn1 =
xi2i=1
n
nx 2
n1
s = s2
-
Box-plots 1. Trazar una lnea horizontal como eje de escala 2. Dibujar un rectngulo (sobre la lnea del eje) entre el
valor y 3. Trazar un segmento vertical en el rectngulo a la altura
de la mediana 4. Dibujar una lnea horizontal de largo 1.5 IRQ desde
hacia la izquierda, y otra del mismo largo desde a la derecha
5. Marque los datos que se encuentren ms all de este rango como outliers
Q3 Q1
Q1Q3
-
Box-plots (2)
1.5 IRQ 1.5 IRQ Valores Atpicos
Valores Atpicos
Q1 Q2 Q3
-
Propiedades de la media y la varianza Sea y constante, donde Si ,
Si
x1, x2,..., xn c c 0yi = xi + c, i =1..n
y =xi + c( )
i=1
n
n =
xi + nci=1
n
n = x + c sy
2 =xi + c x c( )
2
i=1
n
n1 =
xix( )
i=1
n
n1
yi = cxi, i =1..n
sy2 =cxi cx( )
2
n1i=1
n
=c2 xi x( )
2
n1i=1
n
= c2sx2
sy = c sx