cap_01_ili-280_1_2014

24
CAPÍTULO 1 Introducción a la estadística computacional 1º Semestre 2014 Profesor: Carlos Valle [email protected]

Upload: claudia-chacon-ossa

Post on 13-Oct-2015

10 views

Category:

Documents


0 download

TRANSCRIPT

  • CAPTULO 1 Introduccin a la estadstica computacional 1 Semestre 2014 Profesor: Carlos Valle [email protected]

  • Qu es estadstica? Es la ciencia que provee herramientas para organizar y

    resumir datos Extraer conclusiones basadas en la informacin

    contenida en los datos

  • Definiciones bsicas Una investigacin estadstica requiere del estudio de

    datos desde una poblacin de inters Extraer la informacin de la poblacin completa suele ser

    difcil (razones econmicas, de tiempo, de variabilidad de la poblacin)

    Analizaremos una subconjunto de la poblacin llamado muestra

  • Definiciones bsicas (2) A menudo nos interesa estudiar ciertas caractersticas de

    los objetos de la poblacin. Una carcterstica o atributo puede ser:

    Categrica: gnero, ciudad, nacionalidad. Numrica: Edad, dimetro de un neumtico, poso de un vehculo

    Una variable es cualquier carcterstica que puede cambiar de valor de un objeto a otro dentro de la poblacin

  • Tipos de anlisis segn el nmero de caractersticas Univariado: estudia una sola variable del objeto Bivariado: estudia dos variables y la relacin entre ellas Multivariado: Estudia ms de una variable y sus

    relaciones (bivariado es un caso particular)

  • Ramas de la estadstica Estadstica descriptiva: Resumir, describir y analizar datos

    a partir de una muestra Inferencia estadstica: Conjunto de tcnicas que nos

    permiten generalizar informacin de la poblacin mediante una muestra

    Probabilidades: Para realizar una buena inferencia debemos estudiar herramientas probabilsticas

  • Muestreo de datos Existen distintas formas de extraer la muestra desde la

    poblacin: Muestra aleatoria simple: Se extraen sujetos al azar

    desde una poblacin Muestra estratificada: Se divide la muestra en grupos

    mutuamente excluyentes y se extrae una muestra para cada grupo

    Diseo de experimentos: Muchas veces la poblacin no existe, y deben crearse las condiciones para extraer la muestra

  • Definicin de muestra A continuacin veremos algunos mtodos para graficar y

    ordenar los datos de la muestra de tamao No existe relacin entre el subndice y la magnitud de una

    observacin en particular

    x1, x2,..., xn n

  • Diagrama de tallos y hojas 1. Seleccionar uno o ms cifras significativas como tallos 2. Listar los tallos en una columna vertical 3. Registre cada hoja en la fija correspondiente a su tallo 4. Indique las unidades de los tallos y hojas

  • Diagrama de tallos y hojas (2) Ejemplo: unidad tallos= decenas centenas

    10 7 8 unidad hojas=1.0 11 1 2 3 7 9 12 0 3 3 4 6 8 13 1 2 2 4 5 6 7 8 14 0 1 2 3 3 5 7 8 8 15 0 2 3 3 8 8 16 0 0 1 2

  • Diagrama de puntos Cada observacin se representa por un punto cercano a

    su ubicacin horizontal. Cuando existen valores repetidos se pone un punto sobre otro

    10 20 30 40 50 60 70

  • Histogramas Para datos no agrupados (variables discretas,

    categricas) Frecuencia absoluta de un valor particular x es el nmero de

    veces que ese valor se repite en la muestra Frecuencia relativa: fraccin en la que este valor ocurre en la

    muestra. Una distribucin de frecuencias es una tabulacin de frecuencias

    (relativas o absolutas)

    ni

    fi =nin

  • Histogramas (4) Para datos agrupados (variables continuas y discretas) Debemos dividir los posibles valores de x en clases

    ( ) Se suele usar Si los anchos de las clases son diferentes:

    Esto se llama escala de densidad

    k

    k n

    alturak =nk

    xCkmax x{ }

    xCkmin x{ }

    Rango =max{x}min{x}c1,c2,...,ck

  • Histogramas (5)

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    110,5 118,5 126,5 134,5 142,5 150,5 158,5

  • Histogramas (5) Un histograma puede ser:

    Simtrico Asimtrico (positiva o negativa) Unimodal (un solo mximo) Bimodal (dos mximos locales) Multimodal (ms de un mximo local)

  • Medidas de tendencia central Media aritmtica (promedio)

    No robusto en presencia de outliers Mediana: Sea una muestra ordenada de

    tamao . Donde

    Moda: Valor que ocurre con mayor frecuencia: el valor ms comn.

    x = xii=1

    n

    x 1( ), x 2( ),..., x n( )n x j( ) x j+1( ), j =1,...,n1

    !x =x n+1

    2!

    "#

    $

    %& si n es impar

    12 x n/2( ) + x n/2+1( )( ) si n es par

    '

    ()

    *)

  • Estudio de formas

    Coeficiente de Simetra de Fisher Sesgo

    0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

    1 < 0

    0 0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45

    1 = 0 1 > 0

    0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

    20

    33

    1 sm

    =

    !x = x!x !xx x

  • Medidas de tendencia central (2) Cuartil: Dividen la muestra ordenada en cuatro partes

    iguales:

    Percentil: Dividen la muestra ordenada en cien partes iguales

    contrario casoen )1(

    entero es 4

    1 si

    41

    41

    41

    +

    +

    =

    +

    +

    +

    nini

    nii

    xx

    nixQ

    +

    +=41

    41 nini

    contrario casoen )1(

    entero es 100

    1 si

    1001

    1001

    1001

    +

    +

    =

    +

    +

    +

    nini

    nii

    xx

    nixP

    +

    +=1001

    1001 nini

  • Medidas de tendencia central (3) Media Truncada: Una media truncada al x% calcula el

    promedio eliminando el x% mayor y menor de los datos de la muestra

  • Proporciones de la muestra Para datos categricos es til obtener la proporcin de la

    muestra que pertenece a cada categora. Por ej: el porcentaje de la muestra de personas que

    tienen hijos. (Las categoras implcitas seran tener hijos y no tener hijos)

  • Medidas de Variacin Rango intercuartlico: Desviacin media:

    Varianza:

    Desviacin estndar:

    Q3 Q1DM = 1n xi xi=1

    n

    s2 =xi x( )

    2

    i=1

    n

    n1 =

    Sxxn1 =

    xi2i=1

    n

    nx 2

    n1

    s = s2

  • Box-plots 1. Trazar una lnea horizontal como eje de escala 2. Dibujar un rectngulo (sobre la lnea del eje) entre el

    valor y 3. Trazar un segmento vertical en el rectngulo a la altura

    de la mediana 4. Dibujar una lnea horizontal de largo 1.5 IRQ desde

    hacia la izquierda, y otra del mismo largo desde a la derecha

    5. Marque los datos que se encuentren ms all de este rango como outliers

    Q3 Q1

    Q1Q3

  • Box-plots (2)

    1.5 IRQ 1.5 IRQ Valores Atpicos

    Valores Atpicos

    Q1 Q2 Q3

  • Propiedades de la media y la varianza Sea y constante, donde Si ,

    Si

    x1, x2,..., xn c c 0yi = xi + c, i =1..n

    y =xi + c( )

    i=1

    n

    n =

    xi + nci=1

    n

    n = x + c sy

    2 =xi + c x c( )

    2

    i=1

    n

    n1 =

    xix( )

    i=1

    n

    n1

    yi = cxi, i =1..n

    sy2 =cxi cx( )

    2

    n1i=1

    n

    =c2 xi x( )

    2

    n1i=1

    n

    = c2sx2

    sy = c sx