el lenguaje de toma de decisiones en estadística

Upload: paola-meza-maldonado

Post on 18-Oct-2015

17 views

Category:

Documents


0 download

TRANSCRIPT

  • Pgina 1 de 11

    CAPTULO 1: ESTADSTICA Y MTODO CIENTFICO

    Podemos definir Estadstica como la ciencia de los datos. La palabra ciencia viene del latn scientia que significa conocimiento. El mtodo cientfico es un conjunto de principios y procedimientos para la bsqueda sistemtica del conocimiento. El mtodo cientfico est compuesto por los siguientes pasos: 1. Formula una teora (problema).

    2. Recoger datos para probar la teora.

    3. Analizar los datos.

    4. Interpretar los resultados y tomar una decisin.

    El mtodo cientfico es un procedimiento iterativo de aprendizaje. No podemos tener certeza de la veracidad de las teoras que probemos usando el mtodo cientfico, eso es inherente a la ciencia. La ciencia est, por lo tanto, todo el tiempo revisando sus teoras. La Estadstica no es un conjunto de diferentes tcnicas aisladas unas de otras, sino que la Estadstica, en conjunto con el mtodo cientfico, nos entrega un procedimiento analtico para tomar decisiones. Definiciones humorsticas de la estadstica:

    Se dice, por ejemplo, que si una persona gana un milln de pesos y otra nada, la estadstica establece que en promedio las dos personas han ganado medio milln de pesos.

    La estadstica dice que si una persona pone la cabeza en el congelador y los pies en

    el horno, su temperatura media ser normal. En la unidad introductoria del sitio web http://dta.utalca.cl/estadistica/ encontraran un artculo que define a la Estadstica como la ciencia de la recoleccin y anlisis de datos para la toma de decisiones1. Este artculo es una muy buena introduccin general al quehacer de la Estadstica.

    1 Ferreiro, O. y Fernndez de la Reguera, P. (1988) La estadstica, una ciencia en la controversia. Revista Universitaria 25: 13-17.

  • Pgina 2 de 11

    El lenguaje de toma de decisiones en Estadstica Constantemente buscamos informacin para tomar decisiones. Al levantarnos en la maana observamos como est el tiempo para decidir como vestirnos o averiguamos si va a llover para decidir si llevamos paraguas, etc. Inconscientemente aplicamos la lgica estadstica para tomar ese tipo de decisiones. Adems veremos como podemos usar la estadstica para situaciones tan diversas como: Analizar si el tabaquismo se asocia al cncer al pulmn.

    Analizar si la reforma educacional mejor la calidad de la educacin en Chile.

    Predecir los resultados de las prximas elecciones.

    Predecir si ocurrir una situacin de emergencia ambiental en Santiago.

    Aprender estadstica es como aprender un nuevo idioma. Definiciones: Una poblacin es el grupo de objetos o individuos bajo estudio, acerca de los cuales queremos obtener informacin. Una muestra es una parte de la poblacin de la cual se obtiene informacin. Inferencia estadstica es el proceso de sacar conclusiones acerca de una poblacin basados en informacin de una muestra de esa poblacin. Debo tomar Aspirina o Migranol para el dolor de cabeza? Laboratorios Bayer me dice que tome Aspirina Existe teora (antigua) de que lo mejor es

    Aspirina Laboratorios Migra me dice que tome Migranol Existe teora (nueva) de que lo mejor es

    Migranol Tenemos dos teoras que compiten. En estadstica las vamos a llamar HIPOTESIS. Definiciones: La hiptesis nula, denotada por 0H , es el status quo, lo convencional, lo que sabemos

    de la poblacin, lo aceptado hasta el momento. La hiptesis alternativa, denotada por 1H , es una alternativa a la hiptesis nula, implica

    cambio, es lo que el investigador espera que sea cierto.

  • Pgina 3 de 11

    antiguoelqueefectivomsesomedicamentnuevoElH

    antiguoelcomoefectivoesomedicamentnuevoElH

    :

    tan:

    1

    0

    Pensemos Formule la hiptesis nula y alternativa de los siguientes estudios:

    El Mercurio, 30 de Mayo de 2003 Fumar perjudica la memoria Los fumadores excesivos mayores de 43 aos podran tener problemas de memoria a causa de ese hbito, segn un estudio britnico. El consumo habitual de cigarrillos, a un promedio de 20 por da, se ha vinculado con un rpido declive de la memoria y de la capacidad visual, aunque en un nivel bajo, segn el estudio.

    El Mercurio, 7 de Agosto de 2003 Gaseosas daan los dientes Muchas bebidas gaseosas tienen altos niveles de acidez, lo que puede daar el esmalte de los dientes y hacerlos ms sensibles, dbiles y vulnerables ante las caries. "Como no podemos convencer a la gente que deje de tomar estos productos, debemos apoyar investigaciones para encontrar frmulas ms seguras", dijo Liz Kay, miembro de la Asociacin Odontolgica Britnica.

    El Mercurio, 6 de Agosto de 2003 Vitamina C previene lceras y cncer Mientras menores son los niveles de vitamina C en la sangre, mayor es la posibilidad de tener lceras y cncer en el estmago. As se desprende de una investigacin estadounidense, en la cual se recomienda aumentar el consumo de esta vitamina - que se encuentra en ctricos o el t verde, entre otros alimentos- , ya que interacta con la bacteria Helicobacter Pilory, causante de esas enfermedades. Durante el curso revisaremos los pasos para tomar una decisin en estadstica, por ahora los podemos resumir en: 1. Tenemos una hiptesis, que la asumimos cierta. 2. Obtenemos datos de un experimento relativo a la hiptesis. 3. Tomamos una decisin acerca de la hiptesis a partir de cun probable son esos datos

    proviniendo de la hiptesis.

  • Pgina 4 de 11

    Definicin: Los datos que obtenemos de una muestra sern estadsticamente significativos, si las observaciones son muy poco probables si 0H es verdadera. Si los datos son

    estadsticamente significativos, entonces rechazamos 0H .

    Qu errores podemos cometer? El sistema de justicia tiene como principio bsico que un inculpado en un juicio debe ser considerado inocente hasta que se pruebe que es culpable. Cules sern las hiptesis nula y alternativa en el contexto de un juicio?

    esinculpadoElH

    esinculpadoElH

    :

    :

    1

    0

    Los abogados defensores y el fiscal presentan sus casos. El juez debe ponderar la evidencia presentada y decidir si es suficiente para declarar culpable al inculpado. Pero el sistema de justicia no es perfecto. Si el juez decide que es culpable y en realidad es inocente, ocurre un error. Si el juez decide que la duda es razonable y lo declara inocente y el inculpado era en realidad culpable, ocurre un error. En trminos estadsticos estos errores tienen nombres especiales. Definicin:

    Error Tipo I: es el error que se comete cuando rechazamos la hiptesis nula ( 0H ) en

    circunstancia que es la hiptesis verdadera. Error tipo II: es el error que se comete cuando aceptamos la hiptesis nula ( 0H ) en

    circunstancia que es la hiptesis falsa.

    Pensemos

    La hiptesis verdadera

    Su decisin basada en los datos:

    0H Verdadera

    1H Verdadera

    Rechazar 0H

    No rechazar 0H

    Tengan en cuenta que...

  • Pgina 5 de 11

    Podemos cometer un Error Tipo I slo si rechazamos 0H .

    Podemos cometer un Error Tipo II slo si no rechazamos 0H .

    Ejemplo Probando un nuevo medicamento: Cules son los dos tipos que errores que se pueden cometer al decidir entre las dos hiptesis? Error Tipo I = Error Tipo II = Cules son las consecuencias del error tipo I? Cules son las consecuencias del error tipo II? Cul error es ms grave desde un punto de vista tico?

    Ejemplo Probando un test o prueba para detectar el cncer:

    cncerpadecesujetoElH

    sanoestsujetoElH

    :

    :

    1

    0

    Cules son los dos tipos que errores que se pueden cometer al decidir entre las dos hiptesis? Error Tipo I = Error Tipo II = Cules son las consecuencias del error tipo I? Cules son las consecuencias del error tipo II? Cul error es ms grave desde un punto de vista tico? Generalmente queremos proteger lo que ya conocemos reduciendo la probabilidad de cometer el Error Tipo I.

    Pensemos Si el Error Tipo I es considerado grave, por qu no hacerlo cero?

  • Pgina 6 de 11

    Una posible manera de no cometer el error tipo I sera no rechazar nunca la hiptesis nula. Pero si hacemos esto nunca vamos a aceptar una teora nueva. Tenemos que correr un pequeo riesgo. Conceptos claves: En estadstica, la probabilidad de cometer el error tipo I se llama nivel de significancia o nivel de significacin y se denota por la letra griega alfa, . La probabilidad de cometer el error tipo II se denota por la letra griega beta, . = nivel de significancia.

    = probabilidad de cometer el error tipo I. De qu otra manera podemos escribir la definicin de ?

    = probabilidad de cometer el error tipo II. De qu otra manera podemos escribir la definicin de ?

    Ejemplo Indica si son verdaderos o falsos los siguientes tems: Item 1: Un nivel de significacin del 5% significa que, en promedio, 5 de cada 100 veces que rechacemos la hiptesis nula estaremos equivocados (verdadero/falso). Justifique. Item 2: Un nivel de significacin del 5% significa que, en promedio, 5 de cada 100 veces que la hiptesis nula es cierta la rechazaremos (verdadero/falso). Justifique.

  • Pgina 7 de 11

    Ejemplo Qu hay en la bolsa?2 Se tienen dos bolsas idnticas Bolsa A y Bolsa B. Cada bolsa contiene 20 vales. El contenido de cada bolsa es (en miles de pesos):

    Bolsa A Bolsa B

    Valor

    Nmero de vales

    Valor

    Nmero de vales

    -1.000 1 10 7 10 1 20 6 20 1 30 2 30 2 40 2 40 2 50 1 50 6 60 1 60 7

    1.000 1

    Grfico de frecuencias para Bolsa A (miles de pesos)

    X X X X X X X X X X X X X X X X X X X X

    -$ 1.000 $ 10 $ 20 $ 30 $ 40 $ 50 $ 60 $ 1.000 Grfico de frecuencias para Bolsa B (miles de pesos)

    X X X X X X X X X X X X X X X X X X X X

    -$ 1.000 $ 10 $ 20 $ 30 $ 40 $ 50 $ 60 $ 1.000 BOLSA A TIENE EN TOTAL - $ 560 000 BOLSA B TIENE EN TOTAL + $ 1 890 000

    2 Este ejemplo proviene del libro de Aliaga, M. Gunderson, B. (2003) Interactive Statistics, Second Edition. Prentice Hall.

    A

    B

  • Pgina 8 de 11

    Saquemos un vale al azar de la bolsa que nos muestran. Basndose en una observacin (n=1), usted tendr que decidir entre:

    BBolsalaesmostrandoestnmequebolsaLaH

    ABolsalaesmostrandoestnmequebolsaLaH

    :

    :

    1

    0

    Cul es el Error tipo I y Error tipo II? Cmo tomamos la decisin? Discuta con su vecino las posibles decisiones. En qu situaciones sera fcil tomar una decisin?

    Pensemos

    Qu decisin tomara si el vale es de $60 mil?, Por qu?

    Qu decisin tomara si el vale es de $10 mil?, Por qu?

    Definicin: Una regla de decisin es una regla formal que establece cuando rechazar 0H , basados en

    los datos. Examinemos las proporciones en que se encuentran los vales:

    Valor

    Proporciones en la bolsa A

    Proporciones en la bolsa B

    - 1.000.000 1/20 0 10.000 7/20 1/20 20.000 6/20 1/20 30.000 2/20 2/20 40.000 2/20 2/20 50.000 1/20 6/20 60.000 1/20 7/20 1.000.000 0 1/20

    Definicin: La direccin del extremo corresponde a la posicin de los valores que son ms probables bajo 1H que bajo 0H .

    Si los valores ms grandes son ms probables bajo 1H que bajo 0H , entonces la direccin del extremo es hacia la derecha.

  • Pgina 9 de 11

    Veremos que no siempre la direccin es hacia la derecha. Para determinar la regla de decisin usamos primero el valor ms extremo. En nuestro ejemplo es el vale de $60 mil. Regla de decisin #1: Rechazar 0H si el vale seleccionado es de $ 60 mil o ms.

    Rechazar 0H si el vale seleccionado es $ 60 mil. A toda regla de decisin le corresponde una zona de rechazo. Definicin: Una regin de rechazo es un conjunto de valores para los cuales rechazamos 0H .

    Cuando el valor no se encuentra en la regin de rechazo, decimos que no podemos rechazar

    0H . Un valor crtico es el valor que marca el punto inicial del conjunto de valores de la regin de rechazo. Revisemos el ejemplo del juicio. Qu significa rechazar 0H ?, Qu significa que no

    podemos rechazar 0H ?

    Definicin: Una regin de rechazo se llama unilateral o de una cola si el conjunto de valores extremos estn todos en una direccin, ya sea a la derecha (cola superior) o a la izquierda (cola inferior). Una regin de rechazo se llama bilateral o de dos colas si el conjunto de valores extremos estn en las dos direcciones derecha e izquierda. Calculemos ahora y para la regla de decisin nmero 1.

    Tabla resumen para y resultantes de las tres reglas de decisin: Regla de Decisin Regin de Rechazo

    # 1: Rechazar 0H si el vale seleccionado es de

    $60 mil o ms

    $60 mil o ms

    0,05

    0,60

    # 2: Rechazar 0H si el vale seleccionado es de $50 mil o ms

    $50 mil o ms

    # 3: Rechazar 0H si el vale seleccionado es de

    $40 mil o ms

    $40 mil o ms

  • Pgina 10 de 11

    El valor-p o cun raros son los datos? Nos vamos a enfocar en lo que los datos observados nos dicen. Partimos con el supuesto de que 0H es verdadera. Preguntamos: Si 0H es verdadera (la Bolsa es la A), cun probable es obtener el valor observado en la muestra o uno ms extremo?

    => Esta probabilidad se llama valor-p. Definicin: El valor-p es la probabilidad, calculada bajo el supuesto que 0H es verdadera, de obtener el valor observado o uno ms extremo.

    Entendemos que a menor valor-p, mayor es la evidencia de los datos en contra de la hiptesis nula 0H .

    Ejemplo Bolsa A versus Bolsa B: Suponga que usted selecciona un vale de $30 mil y la regla de decisin es la #2. Calcule el valor-p. Bolsa A:

    X X X X X X X X X X X X X X X X X X X X

    -$ 1.000 $ 10 $ 20 $ 30 $ 40 $ 50 $ 60 $ 1.000

  • Pgina 11 de 11

    Suponga que usted selecciona un vale de $60 mil y la regla de decisin es la #2. Calcule el valor-p.

    Bolsa A: X X X X X X X X X X X X X X X X X X X X

    -$ 1.000 $ 10 $ 20 $ 30 $ 40 $ 50 $ 60 $ 1.000

    Relacin entre valor-p y el nivel de significancia :

    Si el valor-p es ==> rechazamos 0H

    Si el valor-p es > ==> no podemos rechazar 0H

    Pensemos El nivel de significancia es = 0,05, probabilidad de cometer el error Tipo I. La regla de decisin correspondiente es: Rechazar 0H si el vale seleccionado es $60 mil o

    ms. Se selecciona un vale y es $60 mil. Su decisin es rechazar la hiptesis nula y concluir que los datos son estadsticamente significativos al 5%. Al rechazar 0H , Puede haber cometido un error? Cul es la probabilidad de haber cometido ese error?