libro resumen bioestadistica

Upload: kuqui-diaz

Post on 12-Feb-2018

243 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/23/2019 Libro Resumen Bioestadistica

    1/25

    RESUMEN - FORMULARIO DE BIOESTADSTICA

    A. INTRODUCCIN A LA ESTADSTICA...... ......... ........ ......... ........ ......... ........ ......... ........ ......... 21. Por qu hablar de estadstica?... ......... ......... ........ ......... ........ ......... ........ ......... ....... 2

    2. Un concepto fundamental: la variabilidad. ......... ......... ........ ......... ........ ......... ........ ...... 23. Variabilidad debida al muestreo...... ........ ......... ......... ........ ......... ........ ......... ........ ...... 24. En qu nos ayuda la Estadstica.............................................................................. 25. Conozcamos algo ms sobre variables. ........ ......... ........ ......... ........ ......... ........ ......... 36. La Muestra, La Poblacin Muestreada, La Poblacin......... ......... ........ ......... ........ ...... 3

    B. ESTADSTICA DESCRIPTIVA................ ........ ......... ........ ......... ........ ......... ........ ......... ......... . 47. Formas de presentar la Informacin. ......... ........ ......... ......... ........ ......... ........ ......... .... 4

    C. ESTADSTICA INFERENCIAL............. ........ ......... ........ ......... ......... ........ ......... ........ ......... .... 58. Fundamentos intuitivos de la estimacin por intervalos......... ........ ......... ........ ......... .... 5

    9. Aplicacin en la realidad... .... .... ... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ... .... .... . 710. Regresin lineal y coeficiente de correlacin ........ ......... ........ ......... ........ ......... ......... . 10

    D. ESTADSTICA INFERENCIAL: TEST DE HIPTESIS ........ ........ ......... ........ ......... ........ ......... 1211. Concepto de test de hiptesis............ ......... ........ ......... ........ ......... ........ ......... ......... . 1212. Test de hiptesis con una muestra.... ......... ........ ......... ........ ......... ........ ......... ......... . 14

    TEST PARA UNA MEDIA: ....................................................................................... 14TEST PARA UNA PROPORCION: ........................................................................... 14

    13. Test de homogeneidad con dos muestras ........ ......... ........ ......... ........ ......... ........ ...... 14A. COMPARACIN DE MEDIAS DE DOS MUESTRAS INDEPENDIENTES.. .... .... .... .. 14B. COMPARACIN DE MEDIAS PARA MUESTRAS APAREADAS........ ......... ......... . 16

    14. Anlisis de la varianza (ANOVA)..... .... ... .... .... .... .... .... .... .... .... .... .... .... ... .... .... .... .... ... 1615. Test no paramtricos .............................................................................................. 17

    TEST DE WILCOXON PARA COMPARAR DOS GRUPOS........... ......... ........ ......... .... 18COMPARACIN DE DOS GRUPOS CON MUESTRAS APAREADAS:....... ......... ....... 19COMPARACIN DE VARIOS GRUPOS: TEST DE KRUSKAL-WALLIS ........ ........ ...... 19VENTAJAS Y DESVENTAJAS DE LOS MTODOS NO PARAMTRICOS

    EN RELACIN CON LOS PARAMTRICOS.. ......... ........ ......... ........ ......... .... 2016. El test 2 (chi-cuadrado o ji-cuadrado) y sus aplicaciones....... ......... ........ ......... ......... . 20

    TEST DE BONDAD DE AJUSTE:....... ......... ........ ......... ........ ......... ........ ......... ......... . 20TEST DE HOMOGENEIDAD DE UN CONJUNTO DE MUESTRAS

    CUALITATIVAS: ......................................................................................... 21TEST DE INDEPENDENCIA PARA VARIABLES CUALITATIVAS ........ ......... ........ ...... 22MEDIDAS DE DEPENDENCIA EN TABLAS DE CONTINGENCIA ........ ......... ........ ...... 22

    17.

    Contraste de hiptesis en regresin........ ......... ......... ........ ......... ........ ......... ........ ...... 22

    E. ALGUNAS CUESTIONES A TENER EN CUENTA EN LA REVISION ESTADISTICADE ARTICULOS CIENTFICOS ........ ........ ......... ......... ........ ......... ........ ......... ........ ......... ....... 24

    F. PRINCIPALES TIPOS DE PROBLEMAS, Y MTODOS PARA SU RESOLUCIN......... ......... . 25

    Jos Luis Snchez Ramos

  • 7/23/2019 Libro Resumen Bioestadistica

    2/25

    2

    A. INTRODUCCIN A LA ESTADSTICA

    1. Por qu hablar de estadstica?

    La informacin es, cada vez ms, una de las materias primas ms importantes de nuestro trabajo como

    profesionales de la salud. Esta informacin es ms cuantitativa que descriptiva, y la estadstica es ellenguaje necesario para producir, manejar, comunicar e interpretar correctamente esta informacin. Lainvestigacin, al menos la positivista predominante, se basa fundamentalmente en la metodologaestadstica, sobre todo en la comprobacin de hiptesis o "pruebas de significacin".

    La estadstica invade la literatura cientfica sobre salud. Por todas partes hay continuas referencias a los"valores de p" y a "hallazgos estadsticamente significativos". Para leer de forma inteligente, crtica, hayque tener unas cuantas ideas claras: NO TODO LO QUE SE PUBLICA ES VERDAD (por no hablar de loque nos quieren vender).

    2. Un concepto fundamental: la variabilidad.

    La informacin que nos interesa est formada por conjuntos de datos referidos a caractersticas medidas

    en distintos individuos. Como toda medicin, est sujeta a variaciones por distintas causas: si le tomamosla tensin arterial a una persona, obtendremos, en mediciones repetidas, distintos valores. Esto se debe,en primer lugar, al fenmeno que estamos midiendo: la tensin arterial vara a lo largo del dadependiendo de diversos factores (variabilidad debida al fenmeno en s ). Por otro lado, depende dequin realice la medicin, y en qu momento: uno puede no coincidir consigo mismo al repetir unamedicin, y mucho menos con otro compaero (variabilidad intra e interobservador). Por ltimo, condistintos esfigmomanmetros, obtendremos tensiones diferentes (variabilidad debida al instrumentode medida ).

    Como es sabido, la Epidemiologa trabaja con grupos de personas ms que con individuos; estointroduce un motivo ms de variabilidad: las personas son distintas unas de otras. En biologa, la variabi-lidad no es la excepcin, sino la regla. Ello nos impide ser deterministas: afortunadamente no todos losfumadores llegan a desarrollar un cncer de pulmn, y hay (pocos, pero hay) cnceres de pulmn entre

    los no fumadores, infartos de miocardio entre deportistas, casos de gripe entre los vacunados, etc. Elconcepto de riesgo, como probabilidad de que ocurra un fenmeno no deseado o dao, nos permite seroperativos: a pesar de tanta variabilidad, los problemas de salud nose distribuyen al azar.

    Hace tiempo que la enfermedad o la muerte dejaron de ser un castigo divino o una lotera. Podemosidentificar factores asociados a distintas probabilidades de presentacin de ese dao (factores de riesgo)e intervenir sobre ellos para modificar la situacin.

    3. Variabilidad debida al muestreo.

    Hay una causa ms de variacin: normalmente no medimos la caracterstica que nos interesa en toda lapoblacin: si queremos saber cul es la prevalencia de caries en nuestra poblacin infantil no esnecesario que les midamos el ndice CAO (Caries/Ausencia/Obturacin) a todos los nios de la zona;esto sera muy largo, costoso, y quiz, de peor calidad. Si escogemos bienuna muestra de los nios, de

    forma que representenbien al total de ellos, podemos estimar la prevalencia que nos interesa de toda lapoblacin infantil a partir de la prevalencia que hemos medido en nuestra muestra. Lgicamente, laprevalencia de la muestra no coincidir exactamentecon la de la poblacin, y ser algo diferente conuna muestra a si hubisemos elegido otra distinta, pero existen maneras de asegurarse de que esaprdida de precisin no es demasiado importante.

    4. En qu nos ayuda la Estadstica.

    La Estadstica nos puede ayudar a poner un poco de orden en todo este lo de variabilidades. No reducela variabilidad, ni siquiera reduce la incertidumbre que nos produce esa variabilidad; nicamente nospuede ayudar mediante el mantenimiento de esa incertidumbre dentro de unos lmites tolerables, que nonos dejen invlidos, que nos permitan la accin.

  • 7/23/2019 Libro Resumen Bioestadistica

    3/25

    3

    Podramos definir pues la Estadstica como un conjunto de tcnicas que nos permiten, por un lado,recoger, representar, clasificar, resumir datos de un colectivo (Estadstica descriptiva). Por otrolado, nos permite obtener conclusiones a partir de esos datos (Estadstica inferencial).

    5. Conozcamos algo ms sobre variables.

    Una variable no es ms que una caracterstica que no es constante para todos los individuos de unapoblacin. As, las personas no tienen la misma altura ni el mismo peso unas que otras, etc. Hay distintostipos de variables:

    a) Cualitativas: Son caractersticas que no se pueden medir, al menos numricamente. Pueden tomardos valores o categoras, o varias. Por ejemplo, la variable sexo toma dos posibles valores: varn omujer. La variable nivel socioeconmico tiene varios posibles valores: Bajo, medio bajo, medio,medio alto, alto. Dentro de estas mismas variables cualitativas podemos hacer un grupo aparte conaqullas que mantienen un cierto orden entre sus categoras, por ejemplo la ya dicha de nivelsocioeconmico. A estas variables les llamamos Ordinales.

    b) Cuantitativas: Se pueden medir, asignndoles nmeros; por ejemplo, la altura, el peso, la glucemia,etc. Dentro de estas existen dos tipos a su vez:

    Discretas: Los valores que toman son aislados, representados por nmeros naturales. Son de estetipo la variable nmero de hijos que tiene una pareja, o la variable nmero de consultas que haceuna persona a un Centro de Salud a lo largo de un ao.

    Continuas: Pueden tomar cualquier valor dentro de un rango, es decir tericamente una personapuede medir cualquier valor entre 1,70 y 1,71, nicamente depende de la precisin de nuestroinstrumento de medida.

    Por qu este inters en diferenciar los tipos de variables?: el tratamiento estadstico que se da acada uno de estos tipos de variables es completamente distinto.

    6. La Muestra, La Poblacin Muestreada, La Poblacin

    Habitualmente en Estadstica trabajamos con muestras; la muestra es la parte de la poblacin en la que

    se efecta el estudio, en el ejemplo de la caries pues seran aquellos nios a los que realmente lemiramos las caries que tenan. La poblacin muestreada sera aquella poblacin de la que se obtiene lamuestra. Sobre ella puede establecerse una conclusin. Llamaramos poblacin objetivo al conjunto deindividuos en los que deseamos estudiar un fenmeno. Los datos los obtenemos de la muestra; a partirde ella y mediante el proceso de inferencia estadstica podemos obtener conclusiones acerca de lapoblacin muestreada. El salto desde la muestra a la poblacin muestreada lo realizamos con undeterminado grado de error. Este es el error aleatorio debido al muestreo (variabilidad debida almuestreo). Desde la poblacin muestreada a la poblacin objetivo hemos de dar otro salto. Aqunicamente importa hasta qu punto la poblacin muestreada se parece a la poblacin objetivo. Porejemplo, el archivo de historias clnicas del Centro de Salud del que obtenemos una muestra de historias,sera la poblacin muestreada. Nuestra poblacin objetivo sera aqu el total de personas que viven en lazona bsica de salud. Se diferencian mucho las personas que tienen abierta historia de las personasque no tienen abierta historia?. En esa diferencia estriba el error que podemos cometer al intentar

    obtener conclusiones sobre la poblacin objetivo, es decir sobre toda la zona bsica, a partir de lapoblacin muestreada.

    Para poder realizar inferencias desde una muestra hacia la poblacin necesitamos que nuestra muestrasea representativa, es decir, que nuestra muestra est representando bien a la poblacin que queremosestudiar. Para ello existen unas tcnicas de muestreo, que lo que intentan conseguir son muestrasrepresentativas, tanto en nmero como en composicin, es decir: Cuntas personas necesito incluir enla muestra? Quines han de estar presentes en la muestra?. Para ello existen dos reglas:

  • 7/23/2019 Libro Resumen Bioestadistica

    4/25

    4

    Aleatoriedad: Todos los individuos de la poblacin, tienen la misma probabilidad de estar incluidosen la muestra.

    Homogeneidad con la poblacin: Al menos en las variables importantes. Por ejemplo, lacomposicin por grupos de edad y sexo de la muestra ha de ser lo ms semejante posible a la dela poblacin.

    Para intentar cumplir estas reglas podemos recurrir a varias tcnicas de muestreo:

    Muestreo aleatorio simple: Sorteo con bolas, o tablas de nmeros aleatorios. Muestreo estratificado: permite lograr la mxima homogeneidad. En l se obtienen muestras de

    cada estrato de la poblacin, entendindose por estrato cada grupo de la poblacin, por ejemplo,los grupos por sexo, por edad, etc.

    Muestreo por conglomerado (etapas): Permite aprovechar agrupaciones naturales de la poblacin.

    B. ESTADSTICA DESCRIPTIVA

    7. Formas de presentar la Informacin.

    a) Tablas: Permiten resumir y representar valores. Tienen unas reglas muy sencillas: Han de ser lo ms simples posible. Deben explicarse por s solas. El ttulo debe responder a las preguntas: qu, cundo, donde. Se debe especificar claramente la procedencia de los datos. Contienen filas y columnas. En cada fila se representan las clases, es decir, las agrupaciones que

    se hacen con los dotas. En las columnas se establecen las frecuencias, es decir, el nmero deveces que se repite cada fenmeno. Esta frecuencia puede ser de varios tipos: Frecuencias absolutas: Es el nmero de veces que se repite cada clase. Frecuencia relativa: Es el cociente entre frecuencia absoluta y tamao total. Frecuencia acumulada: La frecuencia acumulada de una clase, es la suma de las frecuencias

    de las clases que le preceden.

    b) Grficos. Permiten representar distribuciones de frecuencias mediante sistemas de coordenadascartesianas (x e y) . Tienen las mismas reglas que las tablas. Los principales tipos de grficos son:

    Diagramas de barras: Se utilizan para representar frecuencias de variables discretas o cualitativas. Histogramas: Para variables continuas. Cada clase se representa por un rectngulo de rea

    proporcional a la frecuencia. Polgono de frecuencias: Resulta de unir en un histograma los puntos centrales de cada clase. Es

    especialmente til para comparaciones. Diagramas de sectores ("Tarta"). Es un sector circular de ngulo proporcional a la frecuencia. Es,

    como el diagrama de barras, una buena representacin para variables discretas o cualitativas. Pictogramas: representacin ideogrfica de la variable, de tamao proporcional a la frecuencia. Mapas: muy tiles para expresar la distribucin geogrfica del fenmeno que nos interesa.

    Vivimos en la era de la informtica, y es relativamente sencillo acceder a ordenadores queconstruyen los grficos ms inverosmiles a partir de nuestros datos. Pero hay que tener cuidado: siuno no lleva una idea clara del resultado que quiere obtener, puede acabar perdido entre losmontones de opciones, que a veces estorban al propsito principal: la claridad en la expresin de losresultados.

  • 7/23/2019 Libro Resumen Bioestadistica

    5/25

    5

    c) Medidas numricas que resumen la distribucin de los datos (para variables cuantitativas):

    Medidas de tendencia central y posicin:Moda: la clase con ms frecuenciaMediana: divide a la muestra ordenada en dos partes iguales: la mitad a cada lado.Percentil: el percentil i (pi) deja a su izquierda un i% de la muestra ordenada. (i = 1,2,...99).

    Cuartil: c1= p25; c2= p50; c3= p75.Decil: d1= p10; d2= p20; ...; d9= p90.

    Media aritmtica: suma de todos los valores, dividido por el nmero de valores:n

    xx i

    =

    Medidas de dispersin:Rango: la diferencia entre el valor ms grande y el ms pequeo de la muestra.Suma de cuadrados: Suma de las distancias al cuadrado de cada valor a la media

    ( ) = 2xxSC i Varianza: es una especie de promedio de las distancias al cuadrado de cada valor a la media:

    ( )

    1

    2

    2

    =

    n

    xxs

    i

    Desviacin tpica: s = raz cuadrada de la varianza; es una especie de promedio de lasdistancias de cada valor a la mediaRango intercuartlico: c3- c1 ; seala entre qu valores se encuentra el 50% central

    Coeficiente de variacin: 100=x

    sCV ; indica la variabilidad con respecto a la media

    C. ESTADSTICA INFERENCIAL

    Se trata de una serie de mtodos que permiten obtener conclusiones acerca de una poblacin a partirde una muestra representativa de la misma. Podramos establecer dos grandes bloques: mtodos deestimacin y pruebas de contraste de hiptesis.

    La nica forma exacta de conocer un parmetro que resuma la distribucin de valores de unavariable en una poblacin como una prevalencia p, o una media , o la varianza , es medir estavariable en todos los individuos de la poblacin y calcular el resumen a partir de estos datos. Comoesto suele ser imposible, lo que se hace es elegir una muestra, realizar las mediciones slo en losindividuos seleccionados y calcular los resmenes numricos (llamados ahora estadsticos, oestimadores) correspondientes: proporcin muestral p , media muestral x , varianza muestral s2, etc.

    De alguna forma, los valores que obtenemos en la muestra nos dan una idea de cmo son las cosasen la poblacin. Es lo que se llama estimacin puntual: al desconocer el verdadero parmetropoblacional, intentamos sustituirlo por un valor puntual, obtenido de la muestra. Pero a nadiesorprender que lo ms seguro es que el estimador no acierte con el verdadero valor del parmetropoblacional. Y lo que es peor, no sabemos si nos equivocamos mucho o poco. La estimacin porintervalos viene a solventar en parte este problema. Vamos a intentar resumir los fundamentos en

    los que se basa.

    8. Fundamentos intuitivos de la estimacin por intervalos

    Supongamos que tenemos una poblacin cuyo nivel de colesterol se distribuye segn la tpica formade campana de la distribucin Normal, con media = 225 mg y desviacin tpica = 50 mg (figura 1).Esto quiere decir que en el espacio comprendido entre - (175 mg de colesterol) y +(225 mg decolesterol) se encuentra el aproximadamente el 68% de los individuos. Tambin significa que entre -1,96 (127 mg) y + 1,96 (323 mg) se encuentra el 95%. Estos lmites configuran el intervalo deprobabilidad. Si de esta poblacin obtenemos una muestra aleatoria de tamao n = 100 personas, lesmedimos su colesterol, y calculamos la media de la muestra x, podremos obtener una cifra que seaproxime a la media poblacional (estimacin puntual), aunque ser raro que coincida exactamentecon ella. Si obtuviramos una segunda muestra, probablemente variar algo con respecto a la

    primera. Lo mismo ocurrira con una tercera, etc.

  • 7/23/2019 Libro Resumen Bioestadistica

    6/25

    6

    Si repetimos el proceso de muestreo infinitas veces, obtendremos una larga serie de estimacionespuntuales: las medias de las infinitas muestras. Ahora no son niveles de colesterol de personas lo quetenemos, sino medias de colesterol de distintas muestras de 100 personas cada una. Resulta bastanteintuitivo comprender que la media de todas estas medias coincidir con la media de la poblacin de la

    que salieron las muestras: todas ellas son medidas de tendencia central de cada muestra, y a su vezcalculamos la tendencia central de todas ellas, as que apuntamos cada vez ms al centro. Por tanto, ennuestro ejemplo la media de la distribucin de las medias valdra 225 mg de colesterol.

    Tambin resulta intuitivo otro hecho: si bien resulta relativamente fcil encontrar individuos en lapoblacin con valores extremos de colesterol, pongamos por ejemplo 150 mg, o 370, ya no es tanfcil que una muestra de 100 individuos tenga como media 150 mg. Tendramos que haber elegido a100 individuos con unas cifras de colesterol extremadamente bajas!. Si nuestras muestras sonaleatorias, esto es muy difcil que ocurra. Es decir, la distribucin de las medias tendr una dispersinmucho menor que la distribucin de los niveles de colesterol en la poblacin. Por otra parte, no seratan raro encontrar una media de 150 si nuestra muestra slo tuviese un tamao n=2. Podra ocurrirque el azar del muestreo nos seleccionase a dos individuos con unas cifras de colesterol bajas. Conmuestras mucho mayores ocurrira lo contrario: seran mucho ms raras las medias extremas. Es

    decir, el tamao de la muestra influye decisivamente en la dispersin de la distribucin de las medias.El Teorema Central del Lmite demuestra que la dispersin de la distribucin de las medias es raz de

    n veces menor que la dispersin de la poblacin, es decir, n . Es lo que se llama error estndar

    de la media (EEM). En nuestro ejemplo, valdra 510050 = .

    D i s t r i b u c i n d e l c o l e s t e r o l e n l a p o b l a c i n

    M e d i a 2 2 5 , d e s v i a c i n t p i c a 5 0 m g

    25 75 125 175 225 275 325 375 425

    D i s t r i b u c i n d e l a s m e d i a s d e 1 00 i n d i v i d u o s

    M e d i a 2 2 5 , d e s v i a c i n t p i c a 5 m g

    25 75 125 175 225 275 325 375 425

    Una ltima caracterstica de esta distribucin de las medias: a nadie le resulta extrao que, si ladistribucin del colesterol en la poblacin era una distribucin Normal, la distribucin de las mediastambin lo sea. Se puede comprobar empricamente que, aunque la distribucin de la variable en lapoblacin no sea Normal, para tamaos de muestra suficientemente grandes (n>=30), la distribucinde las medias s que es Normal. De nuevo, si pensamos que son medidas de tendencia central, esfcil concluir que se tratar de valores centrados alrededor de un punto (la media poblacional), conalgunos (aproximadamente la mitad) desviados hacia la izquierda y otros hacia la derecha.

    En resumen, las medias de las posibles muestras que obtengamos de una poblacin tienen unadistribucin Normal (si n>=30), con media igual a la de la poblacin y desviacin tpica el error

    estndar de la media ( )n . Hemos planteado aqu el fundamento de toda la inferencia estadstica:conocer cmo es la distribucin de las medias.

    Sabemos, por las caractersticas de la distribucin Normal, que el 95% de los valores se encuentranentre la media menos 1,96 veces la desviacin tpica, y la media ms 1,96 veces la desviacin tpica.Es decir, aplicando esta propiedad a nuestra distribucin de medias, obtenemos que la probabilidadde que un valor cualquiera de la distribucin (una media de cualquiera de las muestras) se encuentreentre estos dos valores es de 0,95:

  • 7/23/2019 Libro Resumen Bioestadistica

    7/25

    7

    95.096.196.1 =

    +

  • 7/23/2019 Libro Resumen Bioestadistica

    8/25

    8

    Distribucin normal tipificada (media 0, desviacin tpica 1)En el exterior de la tabla se da la probabilidad P(x) de que unaNormal tpica caiga por debajo de -x o por encima de +x (x en elinterior de la tabla). El encabezamiento de la fila da el primer

    decimal, y el de la columna el segundo. Por ejemplo, el valor tericocorrespondiente a una probabilidad de 0,23 (0,2 + 0,03) es 1,2. Elcorrespondiente a una P de 0,05 (0,0 + 0,05) es de 1,96

    P (x) 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

    0,0 2,576 2,326 2,170 2,054 1,960 1,881 1,812 1,751 1,695

    0,1 1,645 1,598 1,555 1,514 1,476 1,440 1,405 1,372 1,341 1,311

    0,2 1,282 1,254 1,227 1,200 1,175 1,150 1,126 1,103 1,080 1,058

    0,3 1,036 1,015 0,994 0,974 0,954 0,935 0,915 0,896 0,878 0,860

    0,4 0,842 0,824 0,806 0,789 0,772 0,755 0,739 0,722 0,706 0,690

    0,5 0,674 0,659 0,643 0,628 0,613 0,598 0,583 0,568 0,553 0,539

    0,6 0,524 0,510 0,496 0,482 0,468 0,454 0,440 0,426 0,412 0,399

    0,7 0,385 0,372 0,358 0,345 0,332 0,319 0,305 0,292 0,279 0,2660,8 0,253 0,240 0,228 0,215 0,202 0,189 0,176 0,164 0,151 0,138

    0,9 0,126 0,113 0,100 0,088 0,075 0,063 0,050 0,038 0,025 0,013

    Tabla para valores pequeos de P(x):

    P(x) 0,002 0,001 0,0001 0,00001 0,000001 0,0000001

    X 3,090 3,290 3,891 4,414 4,892 5,327

    En el caso en que se desconozca el valor del parmetro (desviacin tpica poblacional), que es la

    situacin ms frecuente, los lmites de confianza se calcularan mediante la expresin x t ns , en

    donde t corresponde a los valores tabulados de la distribucin terica t de Student (pgina siguiente),y s es la desviacin tpica de la muestra, que usamos como estimacin de .

    Ejemplo: Para conocer la media de la distribucin del colesterol en la ZBS de la Orden se ha obtenidouna muestra de 802 personas, con los siguientes resultados: x = 223,84; s=49. Dar un intervalo deconfianza al 95% para la media de colesterol de la poblacin de la que se ha extrado esta muestra:

    Lmite inferior: 37,220802

    49004,284,223 =

    =

    n

    tsx

    Lmite superior: 3,227802

    49004,284,223 =

    +=+

    n

    tsx

    La interpretacin de este intervalo es sencilla: la poblacin de la Orden tiene una cifra media de

    colesterol que se encuentra entre 220,37 y 227,3. Y esto lo afirmamos con una probabilidad deequivocarnos de un 5%. Ms concretamente, el procedimiento nos garantiza que 95 de cada cienmuestras nos proporcionaran un intervalo que contendra a la verdadera media poblacional. Ynosotros esperamos que nuestra muestra sea una de esas 95 que obtienen un resultado correcto, yno de las 5 que nos induciran a error.

  • 7/23/2019 Libro Resumen Bioestadistica

    9/25

    9

    Distribucin t de StudentPara cada valor de los grados de libertad en la primera columna (gl=n-1) y para cada valor de en la primera fila, en el interior de la tabla seda el valor t tal que a la izquierda de -ty a la derecha de tqueda un

    rea total de . Por ejemplo, con n=31 (30 gl), el valor tericocorrespondiente es a un del 5% es 2,042.

    gl 0,5 0,4 0,3 0,2 0,1 0,05 0,02 0,01 0,001 0,0001

    1 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,656 636,57 6370,54

    2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 31,600 100,136

    3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 12,924 28,014

    4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 8,610 15,534

    5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 6,869 11,176

    6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 5,959 9,080

    7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 5,408 7,888

    8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 5,041 7,120

    9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 4,781 6,59410 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 4,587 6,212

    11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 4,437 5,923

    12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 4,318 5,695

    13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 4,221 5,513

    14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 4,140 5,364

    15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 4,073 5,239

    16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 4,015 5,134

    17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,965 5,043

    18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,922 4,966

    19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,883 4,899

    20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,850 4,838

    21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,819 4,78522 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,792 4,736

    23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,768 4,694

    24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,745 4,654

    25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,725 4,619

    26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,707 4,587

    27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,689 4,556

    28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,674 4,531

    29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,660 4,505

    30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,646 4,482

    35 0,682 0,852 1,052 1,306 1,690 2,030 2,438 2,724 3,591 4,389

    40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 3,551 4,321

    45 0,680 0,850 1,049 1,301 1,679 2,014 2,412 2,690 3,520 4,26950 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678 3,496 4,228

    60 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 3,460 4,169

    80 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639 3,416 4,095

    100 0,677 0,845 1,042 1,290 1,660 1,984 2,364 2,626 3,390 4,054

    0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 3,291 3,891

    Una cuestin que frecuentemente se plantea a la hora de iniciar un trabajo de investigacin es qutamao de muestra necesito?. Si nuestro objetivo es conocer la media de una poblacin (dar un intervalode confianza para ella), la respuesta puede deducirse fcilmente de la expresin anterior: El producto

    nts , es decir, el producto del valor terico correspondiente a la confianza deseada por el EEM es la

    cantidad que aadimos o quitamos a la media muestral para construir el intervalo. De alguna forma,

  • 7/23/2019 Libro Resumen Bioestadistica

    10/25

    10

    cuantifica el grado de error que cometemos por recoger informacin slo de las muestras, y no depoblaciones completas. Es el error debido al muestreo. Si lo representamos por d, la expresin

    ntsd = nos recuerda que el grado de error cometido depende de la confianza que queramos tener(t), la variabilidad de la variable (s) y el tamao de la muestra. Para invertir el proceso, es decir, averiguar

    qu tamao se necesita para conseguir un grado de error mximo d, no tenemos ms que despejar n:n= t2s2/d2.

    La informacin necesaria, por tanto, para calcular n, es la confianza que queramos tener en nuestrointervalo, el error global d requerido y la variabilidad s de la variable. El problema suele ser conoceresto ltimo. Para ello se puede obtener informacin de la bibliografa, o bien una muestra piloto,inicial, que nos proporcione algo de informacin sobre la variable.

    Para variables de tipo cualitativo, por ejemplo para determinar la prevalencia de hipertensin, lascosas seran muy similares, salvo que, claro est, aqu no habra medias y desviaciones tpicas, y sprevalencia estimada en la muestra p : la verdadera prevalencia poblacional se encontrara en el

    intervalo

    + nnqpp 2196,1 ( pq 1 = )

    Pero esta expresin slo se puede usar si se cumplen ciertas condiciones: en nuestro ejemplo, quehubiese un mnimo de 20 hipertensos y de 20 no hipertensos en nuestra muestra. Por ejemplo, siqueremos conocer la prevalencia de hipertensin en una poblacin a partir de la obtenida en unamuestra de 802 personas, de las cuales 192 presentan hipertensin, podramos concluir que laprevalencia buscada se encuentra entre el 20.92 y el 26,96%.

    El tamao mnimo de muestra requerido para dar intervalos de confianza para una proporcin vienedado por n=z2pq/d2. Si no se tiene ninguna informacin sobre el valor de p y q puede sustituirse por elmximo valor que puede tomar su producto, es decir p=0.5 q=1-p=0.5; por tanto, pq=0.25

    10. Regresin lineal y coeficiente de correlacin

    a) Clculos previos: Dadas n parejas de valores cuantitativos (xi, y i), siendo i= 1,2,...,n:

    Suma de cuadrados de x (SCX ):( )

    ==n

    xxxxSC

    i

    iix

    2

    22)(

    Suma de cuadrados de y (SCy ):( )

    ==n

    yyyySC

    i

    iiy

    2

    22)(

    Suma de productos cruzados xy (SPxy ):( )( )

    ==n

    yxyxyyxxSP ii

    iiiixy))((

    Trucos con la calculadora (si no puede calcular directamente regresin lineal): introducir las x, y

    calcular x , sx y x; a partir de aqu, calcular2

    xs . Hacer lo mismo con las y: y , sy , y,2

    ys .

    Ya slo queda ir sumando todos los productos cruzados xy (xy), y entonces:)1(2 = nsSC

    xx; )1(

    2 = nsSCyy

    ; SPxy =xiyi (x)(y)/n

    b) Estimacin de la recta de regresin: bxay += , con pendientex

    xy

    SC

    SPb = y altura xbya =

    Si la calculadora puede hacer directamente regresin lineal, no hay ms que introducir las parejasde datos y pedirle directamente a y b.

    c) Estimacin de la varianza de regresin: 2

    2

    2

    = nSC

    SPSC

    s x

    xy

    y

    yx ; a partir de aqu,

    2

    yxyx ss =

  • 7/23/2019 Libro Resumen Bioestadistica

    11/25

    11

    d) Condiciones de validez para la prxima seccin: Los valores de la variable y, para cada valor de lax, siguen distribuciones Normales de medias situadas sobre la lnea recta + x y varianzas (2)iguales.

    e) Inferencias sobre la pendiente: Intervalo de confianza:

    x

    yx

    SC

    stb

    Las tse buscan en la tabla de la distribucin t-Student con (n - 2) g.l.

    f) Estimacin del coeficiente de correlacin (se puede obtener directamente de la calculadora):

    yx

    xy

    SCSC

    SPr

    = ; a partir de aqu, se calcula el coeficiente de determinacin r2

    Escalade valoracin para r:

  • 7/23/2019 Libro Resumen Bioestadistica

    12/25

    12

    D. ESTADSTICA INFERENCIAL: TEST DE HIPTESIS

    11. Concepto de test de hiptesis

    Un test o contraste de hiptesis es un conjunto de reglas tendentes a decidircul de dos hiptesis, llamadas H0

    (hiptesis nula) y H1(hiptesis alternativa) debe aceptarse, segn el resultado obtenido en una muestra. La H0consiste habitualmente en una afirmacin sobre el valor de un parmetro, o sobre la igualdad entre los gruposque se comparan. La H1ser una negacin de la H0; esta negacin puede ser completa (test de dos colas) oparcial (test de una cola). Si se estn comparando dos tratamientos, la H0afirmar que tienen el mismo efecto.En nuestro ejemplo, la H1en un test de dos colas afirmara que los dos tratamientos son distintos; en un test deuna cola, que uno de los tratamientos en particular es ms eficaz que el otro.

    Para tomar la decisin, debe elegirse la muestra o muestras apropiadas, que proporcionarn la informacinnecesaria sobre qu es lo que ocurre en la realidad, por encima de lo que afirmen o nieguen las hiptesis. Losresultados obtenidos en la muestra se resumen en un nmero, llamado estadstico de contraste. Bajo lasuposicin de que la H0es cierta, se calcula la probabilidad de obtencin de los resultados. Si stos son raros, esdecir, poco probables, estarn en contradiccin con la afirmacin contenida en la H0. Esta contradiccin entre lateora y la experiencia la resolveremos a favor de la experiencia, rechazando lo afirmado en la H0. Si losresultados son los esperables, es decir, tienen una probabilidad alta de ocurrir si la H0es cierta, no podremos

    rechazarla.

    Ilustraremos el proceso que se sigue con un sencillo ejemplo: supongamos que nos invitan a participar en unjuego de azar, con un sistema de apuestas. Consiste en el lanzamiento de una moneda: si el resultado es cara,tendremos que pagar 100 Ptas.; si el resultado es cruz, obtendremos 100 Ptas. Antes de lanzarnos a jugar,pedimos hacer una prueba: jugaremos slo 10 partidas, y en funcin de la experiencia continuaremos o no. Sinuestro contrincante obtiene 10 caras, nosotros habremos perdido 1000 Ptas., y seguramente no nos quedarnganas de seguir jugando. Aunque suponamos (hiptesis nula) que el juego era honesto, es decir, que laprobabilidad de obtener cara en cada lanzamiento era de 0.5, los resultados parecen decir lo contrario (hiptesisalternativa): han salido ms caras de lo esperado. Si decidimos no seguir jugando (rechazo de la hiptesis nula)podemos estar cometiendo una injusticia con nuestro contrincante: puede haber tenido suerte, y obtener, sintrampas, unos resultados, que, aunque raros, son posibles. Tiene una probabilidad, siendo cierta la hiptesisnula, de 0,510= 0,001 de obtener esos resultados. Nuestra probabilidad de equivocarnos al decidir no seguir

    jugando (de alguna forma le estamos llamando tramposo) es, por tanto, de una entre mil. Remota, pero existente.Es lo que se llama error de tipo I, o error :error que podemos cometer al rechazar la H0, siendo cierta.Habramos seguido jugando si hubiera obtenido 9 caras? y 8?. Estos resultados van siendo progresivamentems probables. De forma arbitraria se ha establecido que un resultado con una probabilidad inferior a 0,05 es unresultado poco probable, y que por tanto lleva a rechazar la H0.

    Si nuestro contrincante hubiera obtenido 6 caras, seguramente no se nos pasara por la cabeza que nosestuviera haciendo trampas, sino que nos parecera un resultado esperable. No podramos, en este caso,rechazar la H0, y continuaramos jugando. Pero supongamos que nuestro adversario es un listillo que nos hacetrampa de un modo muy sutil, y tiene trucada la moneda, de manera que salga cara 6 veces de cada 10. Aunquenunca nos daramos cuenta (no rechazaramos la hiptesis nula), lo cierto es que a la larga el juego nosresultara desfavorable: la H0es falsa. Nos estaramos equivocando de nuevo, esta vez con el error tipo II, o error: error que podemos cometer al no rechazar la H0siendo falsa. Es decir, sea cual sea la decisin que tomemos,siempre conllevar una posibilidad de error.

    En resumen, un test o contraste de hiptesis:1. comienza siempre con el planteamiento de una H0y una H12. se comprueba si se cumplen o no las condiciones de aplicacin3. para contrastar las hiptesis, se obtiene informacin de la realidad mediante muestras y se resume sta en

    un nico nmero, llamado estadstico de contraste4. se calcula la probabilidad de haber obtenido esos resultados; si los resultados son poco probables (p

  • 7/23/2019 Libro Resumen Bioestadistica

    13/25

    13

    DE UNA MANERA UN POCO MS FORMAL: CONCEPTO GENERAL DE TEST DE HIPTESIS

    1. Objetivo: Un test o contraste de hiptesis es un conjunto de reglas tendentes a decidir cual de dos hiptesis -H0(hiptesis nula) H1(hiptesis alternativa)- debe aceptarse segn el resultado obtenido en una muestra.

    2. Tipos: a) De 2 colas bilateral: si H1es la negacin de H0b) De 1 cola unilateral: si H1es una parte de la negacin de H0

    3. Elecciones previas: Antes de realizar un test, el investigador debe decidir: H0: viene dada por una igualdad afirmacin positiva. H1: es la hiptesis que se quiere demostrar fuera de toda duda. Es una negacin de H0 : valor que ser tanto ms pequeo cuantas ms garantas se precisen de que una decisin de

    rechazar H0sea correcta. Usualmente es =5%

    4. Mtodo: Para tomar la decisin, debe elegirse un estadstico de contraste (una especie de resumen numricode la muestra obtenida) apropiado al problema, as como una prediccin sobre los valores esperables(aceptables) para el mismo. Observada la muestra, si el valor que toma en ella el estadstico de contraste esun valor esperable (probable) segn la hiptesis nula, no se puede rechazar H0 (estadsticamente nosignificativo). Si el valor del estadstico de contraste es inesperado (poco probable), se rechaza la H0(estadsticamente significativo).

    5. Errores: Toda decisin de rechazar H0 viene acompaada por una posibilidad de error llamada error , de

    tipo I nivel de significacin: = P(rechazar H0| es cierta H0). Toda decisin de no rechazar H0viene acompaada por una probabilidad de error llamada error , o

    de Tipo II: = P(no rechazar H0| es falsa H0): El error es controlable y fijado de antemano. Por ello las decisiones de rechazar H0son siempre

    fiables. El error no est controlado de antemano y suele ser grande. Por ello las decisiones de no rechazar

    H0no son de fiar. El error es un nico nmero, pero el error depende de la H1que se considere.

    El error disminuye conforme la H1se aleja de H0y conforme aumenta el tamao de la muestra (sitodo lo dems permanece fijo).

    Si un error disminuye, el otro aumenta (si todo lo dems permanece fijo).

    6. Potencia: A 1- se le llama potencia del test. Potencia = P (rechazar H0| es falsa H0). Es tambin funcin dela hiptesis alternativa. Un test es tanto mejor cuanto ms potente sea.

    7. Valor p: Al mnimo error al cual un resultado es significativo se le llama valor p nivel crtico p nivelmnimo de significacin.

    En los tests de una cola, p suele ser la mitad de su valor que en los tests de dos colas. Fijado : si p =se rechaza H0; si p > no se rechaza H0.

    8. Tamao de muestra: Determinando el tamao de muestra n de antemano, las conclusiones de rechazar o no

    H0son ambas fiables. Para determinar n hace falta especificar: El error del test. La primera hiptesis alternativa de inters (mnima diferencia entre H0y H1que resulte importante). El error aceptable para tal alternativa.

    9. Reglas para tomar la decisin Si p =5%: rechazar H0. Si p > 15% 20% (depende de n): no rechazar H0. En otro caso (5% < p < 15%): no rechazar H0provisionalmente, pero aumentar el tamao de muestra.

    10. Intervalos de confianza tras un test de hiptesis: En el caso de test de hiptesis acerca de parmetros (ej.:media o proporcin poblacionales), es conveniente dar un intervalo de confianza para el/los parmetro/simplicado/s tanto si se rechaza H0como si no.

  • 7/23/2019 Libro Resumen Bioestadistica

    14/25

    14

    12. Test de hiptesis con una muestra

    TEST PARA UNA MEDIA:(una poblacin, una variable cuantitativa)

    1. H0: La media de una poblacin presenta un valor determinado (= 0)2. Condiciones: si la variable es de distribucin Normal n 303. Estadstico de contraste:

    4. Clculo de la probabilidad: se compara texp con una t de la distribucin t de Student con n-1grados de libertad. Si texp> tse rechaza H0con una probabilidad de error .

    TEST PARA UNA PROPORCION:

    (una poblacin, una variable cualitativa)

    1. H0: La proporcin de una poblacin presenta un valor determinado (p = p0)2. Condiciones: Sea x el nmero de individuos de entre n que verifican una caracterstica, p la

    proporcin de individuos de la muestra que la verifican y pq 1 = ; se cumplen las condiciones sip y q son mayores que 0.05 y tanto x como (n-x) son ambas > 5

    3. Estadstico de contraste:

    4. Clculo de la probabilidad: se compara zexpcon una zde la distribucin Normal. Si zexp> zserechaza H0con una probabilidad de error .

    13. Test de homogeneidad con dos muestras

    A. COMPARACIN DE MEDIAS DE DOS MUESTRAS INDEPENDIENTES(dos poblaciones, una variable cuantitativa)

    1. H0: Las medias de dos poblaciones son iguales (1 = 2)2. Condiciones: La variable sigue una distribucin Normal en ambas poblaciones. Si esto no es

    as, el procedimiento sigue siendo vlido siempre que los tamaos de ambas muestras sean al

    menos de 30. Es preciso comprobar previamente si las dos poblaciones que se comparantienen o no la misma dispersin (varianza). Esto se realiza, a su vez, mediante un contrastede hiptesis (test de la F de Snedecor), en donde H0 : las varianzas de ambas poblaciones soniguales (1

    2=22). La probabilidad del estadstico Fexp=s1

    2/s22(siendo s1>s2) se obtiene de una

    tabla de la distribucin F de Snedecor con n1-1 (columnas) y n2-1 (filas) grados de libertad:

    tx

    sn

    exp = 0

    nqp

    npp

    z00

    0

    exp2

    1 =

  • 7/23/2019 Libro Resumen Bioestadistica

    15/25

    15

    Distribucin F de Snedecor:Para cada valor de los primeros gl (primera fila) y de los segundos gl(primera columna) en el interior de la tabla se da el valor Fque dejaa su derecha un rea de =10%. Por ejemplo, la probabilidad de que

    un valor terico de la distribucin F de Snedecor con 30 y 40 g.supere el 1,54 es de un 10%

    Gl 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 1 39,86 49,50 53,59 55,83 57,24 58,20 58,91 59,44 59,86 60,19 60,71 61,22 61,74 62,00 62,26 62,53 62,79 63,06 63,33

    2 8,53 9,00 9,16 9,24 9,29 9,33 9,35 9,37 9,38 9,39 9,41 9,42 9,44 9,45 9,46 9,47 9,47 9,48 9,49

    3 5,54 5,46 5,39 5,34 5,31 5,28 5,27 5,25 5,24 5,23 5,22 5,20 5,18 5,18 5,17 5,16 5,15 5,14 5,13

    4 4,54 4,32 4,19 4,11 4,05 4,01 3,98 3,95 3,94 3,92 3,90 3,87 3,84 3,83 3,82 3,80 3,79 3,78 3,76

    5 4,06 3,78 3,62 3,52 3,45 3,40 3,37 3,34 3,32 3,30 3,27 3,24 3,21 3,19 3,17 3,16 3,14 3,12 3,10

    6 3,78 3,46 3,29 3,18 3,11 3,05 3,01 2,98 2,96 2,94 2,90 2,87 2,84 2,82 2,80 2,78 2,76 2,74 2,72

    7 3,59 3,26 3,07 2,96 2,88 2,83 2,78 2,75 2,72 2,70 2,67 2,63 2,59 2,58 2,56 2,54 2,51 2,49 2,47

    8 3,46 3,11 2,92 2,81 2,73 2,67 2,62 2,59 2,56 2,54 2,50 2,46 2,42 2,40 2,38 2,36 2,34 2,32 2,299 3,36 3,01 2,81 2,69 2,61 2,55 2,51 2,47 2,44 2,42 2,38 2,34 2,30 2,28 2,25 2,23 2,21 2,18 2,16

    10 3,29 2,92 2,73 2,61 2,52 2,46 2,41 2,38 2,35 2,32 2,28 2,24 2,20 2,18 2,16 2,13 2,11 2,08 2,06

    11 3,23 2,86 2,66 2,54 2,45 2,39 2,34 2,30 2,27 2,25 2,21 2,17 2,12 2,10 2,08 2,05 2,03 2,00 1,97

    12 3,18 2,81 2,61 2,48 2,39 2,33 2,28 2,24 2,21 2,19 2,15 2,10 2,06 2,04 2,01 1,99 1,96 1,93 1,90

    13 3,14 2,76 2,56 2,43 2,35 2,28 2,23 2,20 2,16 2,14 2,10 2,05 2,01 1,98 1,96 1,93 1,90 1,88 1,85

    14 3,10 2,73 2,52 2,39 2,31 2,24 2,19 2,15 2,12 2,10 2,05 2,01 1,96 1,94 1,91 1,89 1,86 1,83 1,80

    15 3,07 2,70 2,49 2,36 2,27 2,21 2,16 2,12 2,09 2,06 2,02 1,97 1,92 1,90 1,87 1,85 1,82 1,79 1,76

    16 3,05 2,67 2,46 2,33 2,24 2,18 2,13 2,09 2,06 2,03 1,99 1,94 1,89 1,87 1,84 1,81 1,78 1,75 1,72

    17 3,03 2,64 2,44 2,31 2,22 2,15 2,10 2,06 2,03 2,00 1,96 1,91 1,86 1,84 1,81 1,78 1,75 1,72 1,69

    18 3,01 2,62 2,42 2,29 2,20 2,13 2,08 2,04 2,00 1,98 1,93 1,89 1,84 1,81 1,78 1,75 1,72 1,69 1,66

    19 2,99 2,61 2,40 2,27 2,18 2,11 2,06 2,02 1,98 1,96 1,91 1,86 1,81 1,79 1,76 1,73 1,70 1,67 1,63

    20 2,97 2,59 2,38 2,25 2,16 2,09 2,04 2,00 1,96 1,94 1,89 1,84 1,79 1,77 1,74 1,71 1,68 1,64 1,6121 2,96 2,57 2,36 2,23 2,14 2,08 2,02 1,98 1,95 1,92 1,87 1,83 1,78 1,75 1,72 1,69 1,66 1,62 1,59

    22 2,95 2,56 2,35 2,22 2,13 2,06 2,01 1,97 1,93 1,90 1,86 1,81 1,76 1,73 1,70 1,67 1,64 1,60 1,57

    23 2,94 2,55 2,34 2,21 2,11 2,05 1,99 1,95 1,92 1,89 1,84 1,80 1,74 1,72 1,69 1,66 1,62 1,59 1,55

    24 2,93 2,54 2,33 2,19 2,10 2,04 1,98 1,94 1,91 1,88 1,83 1,78 1,73 1,70 1,67 1,64 1,61 1,57 1,53

    25 2,92 2,53 2,32 2,18 2,09 2,02 1,97 1,93 1,89 1,87 1,82 1,77 1,72 1,69 1,66 1,63 1,59 1,56 1,52

    26 2,91 2,52 2,31 2,17 2,08 2,01 1,96 1,92 1,88 1,86 1,81 1,76 1,71 1,68 1,65 1,61 1,58 1,54 1,50

    27 2,90 2,51 2,30 2,17 2,07 2,00 1,95 1,91 1,87 1,85 1,80 1,75 1,70 1,67 1,64 1,60 1,57 1,53 1,49

    28 2,89 2,50 2,29 2,16 2,06 2,00 1,94 1,90 1,87 1,84 1,79 1,74 1,69 1,66 1,63 1,59 1,56 1,52 1,48

    29 2,89 2,50 2,28 2,15 2,06 1,99 1,93 1,89 1,86 1,83 1,78 1,73 1,68 1,65 1,62 1,58 1,55 1,51 1,47

    30 2,88 2,49 2,28 2,14 2,05 1,98 1,93 1,88 1,85 1,82 1,77 1,72 1,67 1,64 1,61 1,57 1,54 1,50 1,46

    40 2,84 2,44 2,23 2,09 2,00 1,93 1,87 1,83 1,79 1,76 1,71 1,66 1,61 1,57 1,54 1,51 1,47 1,42 1,38

    60 2,79 2,39 2,18 2,04 1,95 1,87 1,82 1,77 1,74 1,71 1,66 1,60 1,54 1,51 1,48 1,44 1,40 1,35 1,29

    120 2,75 2,35 2,13 1,99 1,90 1,82 1,77 1,72 1,68 1,65 1,60 1,55 1,48 1,45 1,41 1,37 1,32 1,26 1,19

    2,71 2,30 2,08 1,94 1,85 1,77 1,72 1,67 1,63 1,60 1,55 1,49 1,42 1,38 1,34 1,30 1,24 1,17 1,00

  • 7/23/2019 Libro Resumen Bioestadistica

    16/25

    16

    3. Estadstico de contraste: Si las varianzas son iguales (test de la t de Student):

    Con

    4. Clculo de la probabilidad: se compara texpcon una zde la distribucin t de Student con (n1+n2-2)grados de libertad. Si texp> tse rechaza H0con una probabilidad de error .

    3b. Estadstico de contraste: Si las varianzas son distintas (test de Welch):

    Con

    11 2

    2

    2

    2

    2

    1

    2

    1

    2

    1

    2

    2

    2

    2

    1

    2

    1

    +

    +

    =

    nn

    s

    nn

    s

    n

    s

    n

    s

    f grados de libertad

    4b. Clculo de la probabilidad: se compara texpcon una tde la distribucin t de Student con f gradosde libertad. Si texp> tse rechaza H0con una probabilidad de error .

    B. COMPARACIN DE MEDIAS PARA MUESTRAS APAREADAS(una poblacin, una variable cuantitativa medida de forma repetida)

    1. H0: No hay diferencias en dos mediciones repetidas en los mismos individuos (1-2=d=0)2. Condiciones: dadas n parejas de datos (x1i, x2i), con i=1,2,....n, obtener sus diferencias di

    (di=x1i - x2i) y, si son normales, la media y varianza, d y sd de dicha muestra (d1,d2,....dn). Vlido sila variable diferencia presenta un distribucin Normal, o, cuando no lo es, ser vlidoaproximadamente si los tamaos muestrales son mayores que 30.

    3. Estadstico de contraste:

    n

    s

    dt

    d

    =exp

    4. Clculo de la probabilidad: se compara texp con una t de la distribucin t de Student con n-1grados de libertad. Si texp> tse rechaza H0con una probabilidad de error .

    14. Anlisis de la varianza (ANOVA)(dos o ms poblaciones, una variable cuantitativa)

    Permite la comparacin entre las distribuciones de una variable cuantitativa entre ms de dosgrupos. Lgicamente, tambin entre slo dos, coincidiendo en este caso con el test de la t de Student.Se basa en la particin de la variabilidad total en un conjunto de datos en los componentes debidos alas distintas fuentes de variacin: los individuos dentro de los grupos que se comparan son distintosentre s, y adems hay cierta variabilidad de unos grupos a otros. La comparacin toma la forma deuna razn entre la varianza estimada a partir de las medias de los grupos (Variacin ENTRE grupos)y la varianza existente entre los individuos dentro de cada grupo (Variacin DENTRO de los grupos)

    1. H0: Las medias de varias poblaciones son iguales (1 = 2= ... = n)

    21

    21

    exp11

    nns

    xxt

    +

    =

    2

    )1()1(

    21

    2

    2

    21

    2

    1

    ++

    =nn

    nsnss

    2

    2

    2

    1

    2

    1

    21

    exp

    n

    s

    n

    s

    xxt

    +

    =

  • 7/23/2019 Libro Resumen Bioestadistica

    17/25

    17

    2. Condiciones: la variable cuantitativa sigue una distribucin normal en todos los grupos que secomparan, y con la misma varianza en todos los grupos. Esta ltima condicin se compruebamediante el test de Bartlett, una extensin del test de la F de Snedecor anterior

    3. Estadstico de contraste: se calcula mediante la siguiente tabla, donde:k: n de grupos que se comparan

    ni: tamao de muestra del grupo isimo (i= 1, 2, .... k)ix : media del grupo isimo (i= 1, 2, .... k)

    n: tamao total de la muestra (n= n1+ n2+ ... + nk)xij: valor en el individuo jotasimo (j= 1, 2,... ni) del grupo isimo (i= 1, 2, .... k)x : media de la totalidad de los individuos

    Fuente devariacin

    gradosdelibertad

    Suma de cuadradosSC

    MediaCuadrtica

    Estadstico F

    Entregrupos

    k-1

    =

    =k

    i

    ii xxnSCE1

    2)( 1

    =k

    SCEMCE

    MCD

    MCEF =exp

    Dentro delos grupos

    n-kSCESCTxxSCD

    k

    i

    n

    j

    iij

    i

    == = =1 1

    2)( kn

    SCDMCD

    =

    Total n-1

    = =

    =k

    i

    n

    j

    ij

    i

    xxSCT1 1

    2)(

    Trucos: recuerda que la informacin de esta tabla la puedes obtener fcilmente con las

    medias ( ix ), varianzas (2

    is ) y tamaos muestrales (ni) de cada grupo uno de los grupos:

    n

    nxx ii

    = a partir de aqu, calcula SCE; )1(2 ==

    iii nsSCSCD

    4. Clculo de la probabilidad: se compara Fexpcon una Fde la distribucin F de Snedecor con k-1 yn-k grados de libertad. Si Fexp> Fse rechaza H0con una probabilidad de error .

    15. Test no paramtricos

    En el apartado anterior vimos cmo la aplicacin de los distintos mtodos para comparacin demedias, tanto en muestras independientes como apareadas, requeran de una serie de condicionespara su aplicacin. Recordemos que estas condiciones se referan a la base conceptual del TeoremaCentral del Lmite: dada una variable X en una poblacin que tuviese una distribucin normal, ladistribucin que siguen las medias xi de las infinitas muestras aleatorias de tamao constante n que

    se pudiesen obtener es una distribucin normal, de media (igual que la de la poblacin) y de unavariabilidad inferior a la de la poblacin tantas veces como indique la raz cuadrada del tamao

    muestral (error estndar de la media, n

    ).

    Aunque la variable no tenga una distribucin normal en la poblacin, si n es suficientemente grande loanterior sigue siendo cierto. Arbitrariamente se establece en 30 el tamao de muestra que puedeconsiderarse suficientemente grande. En la prctica, todo esto implica que si estamos manejandovariables de distribucin normal, no importe demasiado el tamao muestral (con unos mnimos) y, porel contrario, si tenemos un tamao de muestra suficientemente grande, no sea muy importante lacondicin de normalidad. El problema surge con los tamaos de muestra pequeos (n

  • 7/23/2019 Libro Resumen Bioestadistica

    18/25

    18

    procedimientos basados en el test de Kolmogorov-Smirnov o Shapiro-Wilks que aparecen en losprogramas estadsticos nos sacarn de ellas.

    Cuando las variables no son normales, el procedimiento siguiente permite realizar el test paracontrastar la hiptesis nula de igualdad de dos medias, independientemente del tamao muestral. El

    procedimiento es vlido para cualquier variable aleatoria, no slo para las no normales, y por ello esun mtodo no paramtrico, no condicionado por los parmetros de una distribucin en concreto.

    TEST DE WILCOXON PARA COMPARAR DOS GRUPOS(dos poblaciones, una variable cuantitativa)

    Aunque se utiliza como alternativa al test de la t de Student para comparar dos medias, las hiptesisque se contrastan aqu no son estrictamente la igualdad o no de las medias. En realidad, H0afirmaque las poblaciones comparadas son iguales, frente a H1, segn la cual una poblacin tiende a darvalores ms altos que la otra.Tomemos un ejemplo del libro de Estadstica para las ciencias de la Salud, de Martn Andrs y Lunadel Castillo: supongamos que se desea conocer la eficiencia de dos hospitales A y B en el manejo deciertos enfermos, y uno de los aspectos a considerar es la estancia tras una intervencin quirrgica

    determinada. Como los dos hospitales son distintos y no hay asociacin de los datos de una muestracon los de otra, las muestras son independientes.

    Das deEstancia

    AB

    12, 14, 11, 30, 1016, 11, 14, 21, 18, 34, 22, 7, 12, 12

    DatosOrdenados

    AB 7

    10 1111

    1212 12

    1414 16 18 21 22

    3034

    n de orden 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 TotalesRangos ri A

    B 12 3,5

    3,56

    6 68,5

    8,5 10 11 12 1314

    1534= R(A)86= R(B)

    Suma 120

    Pasos a seguir en la elaboracin de esta tabla (coinciden con las filas):1. Separar de los datos de estancia de ambos hospitales, (nAy nB), con nA< nB2. Ordenar, de menor a mayor, las estancias de cada paciente, considerndolos como una sola

    muestra de tamao n3. Asignar n de orden, desde 1 hasta n, prestando especial atencin a los empates, es decir,

    enfermos con igual n de das de estancia en el hospital A que en el B.4. Asignar rangos definitivos: n de orden de cada enfermo en la muestra global, y en caso de

    empate, se asigna el rango promedio de los que hubiesen correspondido: para las estancias de 11das, a los n de orden 3 y 4 se les asigna un rango de 3,5; para las estancias de 12 das, a los nde orden 5,6 y 7 se les asigna el rango 6. Las barras verticales separan los empates.Seguidamente se calcula la suma de los rangos de cada una de las muestras. Para el hospital A,ri= 2 + 3,5 + 6 + 8,5 + 14 = 34. Para B, ri= 86.

    5. Como comprobacin de los clculos debe ocurrir que R(A) + R(B) sea igual que la suma desde 1

    hasta n (1 + 2 + 3 + ....+ 15) = 120. Abreviadamente, esta suma se puede calcular:

    1

    1

    2

    n n n = +( ) en nuestro caso, (15 16 )/2 = 120Para realizar el test, basta con calcular la suma de rangos de la muestra de menor tamao, peroconviene hacer los clculos completos para comprobar el paso 5.

    La cantidad experimental Rexp suma de los rangos de la muestra de menor tamao se compara con loque debera haber ocurrido si la hiptesis nula fuese cierta. Y cul era la prediccin? Si el hospital Atiende a tener una estancia menor, al ordenar la muestra conjunta sus rangos tendern a ser bajos, ysu suma Rexpun nmero pequeo. Si ocurre lo contrario, y la estancia en A es mayor que en B, losrangos sern altos, y Rexp ser un nmero grande. Es decir, valores altos o bajos de Rexpllevarn arechazar la hiptesis nula, mientras que valores intermedios no permitirn hacerlo. Una gua parainterpretar qu se entiende por valores altos o bajos de Rexp la obtenemos en las tablas

    correspondientes (n 14 del libro de A. Martn Andrs), que dan intervalos de aceptacin para esta

  • 7/23/2019 Libro Resumen Bioestadistica

    19/25

    19

    cantidad. En nuestro ejemplo, Rexp= 34 , para n1 =5 y n2=10, se encuentra dentro del rango que seconsidera aceptable con una probabilidad de 0,1. Como no es suficientemente pequea, no podemosrechazar la hiptesis nula, y concluimos que ambos hospitales tienen igual estancia tras laintervencin quirrgica. Si el resultado hubiera sido Rexp= 58, este valor hubiese estado fuera delrango aceptable con una probabilidad 0,05. La hiptesis nula se hubiese rechazado con un error de

    probabilidad p

  • 7/23/2019 Libro Resumen Bioestadistica

    20/25

    20

    VENTAJAS Y DESVENTAJAS DE LOS MTODOS NO PARAMTRICOS EN RELACIN CONLOS PARAMTRICOS

    Ventajas:1. Los mtodos no paramtricos valen siempre, sea cual sea la variable de partida. As, su aplicacin

    no precisa de la hiptesis de normalidad, que no tiene por qu ser verificada (son tests msgenerales) ni comprobada (se ahorra tiempo).2. El clculo manual es muy sencillo y rpido cuando las muestras son pequeas.

    Desventajas:1. Cuando las variables son normales los tests paramtricos son ms potentes (1-) que los no

    paramtricos. Viene a representar una reduccin de potencia a un 95%, es decir, si con 100observaciones se podra detectar una diferencia mediante un test no paramtrico, con elparamtrico bastaran 95.

    2. El clculo se hace ms complejo con las muestras mayores.3. Los mtodos no paramtricos permiten menos refinamientos en el anlisis posterior de los datos,

    como intervalos de confianza para las diferencias detectadas, o bsqueda de los grupos que sondiferentes si se estn comparando ms de dos.

    16. El test 2 (chi-cuadrado o ji-cuadrado) y sus aplicaciones

    TEST DE BONDAD DE AJUSTE:(una poblacin, una variable cuantitativa)

    1. H0: la distribucin de una variable cualitativa en una poblacin se ajusta bien a una distribucin deparmetros conocidos (las proporciones especificadas en la H0 son las correctas para cada valorde la variable)

    2. Condiciones de aplicacin: Si los n individuos de una muestra pueden caer en una y slo una delas k clases exhaustivas y excluyentes C1, C2,..., Ck con probabilidades p1, p2,...,pk,

    respectivamente, dadas por H0, y si O1, O2,...Okes el nmero de individuos, de entre los n de lamuestra, que caen en las clases C1, C2,... Ck (valores observados Oi experimentalmente) ,entonces, calculados los valores esperados (bajo H0) E1= np1, E2= np2,...Ek= npk (Ei= n), sininguna Eies < 1 y no ms del 20% de ellas pueden ser 5. Los datos pueden presentarse comoen la tabla siguiente:

    clases C1 C2......Ck Totalesprobabilidades p1 p2......pk 1valores observados O1 O2......Ok nvalores esperados E1 E2......Ek n

    3. Clculo del estadstico de contraste:

    Si k > 4 n > 200:( )

    nE

    O

    E

    EO

    i

    i == 22

    2

    exp

    Si k 4 y n 200:( )

    i

    ii

    E

    EO2

    2

    exp2

    1=

    4. Clculo de la probabilidad: se compara 2expcon una 2

    de la distribucin 2 con k-1 grados de

    libertad. Si 2exp> 2

    se rechaza H0con una probabilidad de error .

  • 7/23/2019 Libro Resumen Bioestadistica

    21/25

    21

    gl 0,9 0,2 0,1 0,05 0,025 0,01 0,001

    1 0,016 1,645 2,706 3,841 5,204 6,635 10,828

    2 0,211 3,219 4,605 5,991 7,378 9,210 13,816

    3 0,584 4,642 6,251 7,851 9,348 11,345 16,266

    4 1,064 5,989 7,779 9,488 11,143 13,277 18,4675 1,610 7,289 9,236 11,070 12,833 15,086 20,515

    Para cada gl(columnas) y paracada (filas) se daen el interior de la

    tabla el valor de 2que deja a suderecha un rea . 6 2,204 8,558 10,645 12,592 14,449 16,812 22,458

    7 2,833 9,803 12,017 14,067 16,013 18,475 24,322

    8 3,490 11,030 13,362 15,507 17,535 20,090 26,124

    9 4,168 12,242 14,684 16,919 19,023 21,666 27,877

    Por ejemplo, con un gl, la probabilidad de queuna 2supere el 3,841 e es de un 5%

    10 4,865 13,442 15,987 18,307 20,483 23,209 29,588

    TEST DE HOMOGENEIDAD DE UN CONJUNTO DE MUESTRAS CUALITATIVAS:(dos o ms poblaciones, una variable cualitativa)

    1. H0: la proporcin de individuos que caen en cierta clase es la misma para todas las poblaciones, yesto vale para todas las clases. Dadas r muestras cuyos individuos se clasifican en s clases comoen la tabla siguiente, en la cual:

    Oij= n de individuos de la muestra i que caen en la clase j = cantidades observadasFi= total de fila i= n de individuos de la muestra iCj= total de columna j= n de individuos de la clase jT = n total de individuos considerados = Fi= Cj= Oij

    Clase 1 Clase 2 ... Clase j ... Clase s TotalesMuestra 1 O11 O12 ... O1j ... O1s F1Muestra 2 O21 O22 ... O2j ... O2s F2... ... ... ... ... ... ... ...Muestra i Oi1 Oi2 ... Oij ... Ois Fi

    ... ... ... ... ... ... ... ...Muestra r Or1 Or2 ... Orj ... Ors FrTotales C1 C2 ... Cj ... Cs T

    Para tablas 2*2: (dos filas y dos columnas)

    Clase 1 Clase 2 TotalesMuestra 1 O11 O12 F1Muestra 2 O21 O22 F2Totales C1 C2 T

    2. Condiciones de validez: Calcular las cantidades esperadas Eij= Fi Cj / T y entonces el test quesigue es vlido si:

    En tablas 2 2: si T > 40, si 20 T 40 pero todas las Eijson > 5 En otras tablas: ninguna Eidebe ser inferior a 1 y no ms del 20% de ellas < 5.

    3. Clculo del estadstico de contraste:

    En tablas 2 2:

    En otras tablas:

    4. Clculo de la cantidad terica: en tablas de 2con (r-1) (s-1) grados de libertad.

    TE

    O

    I

    I =2

    2

    ( )T

    CCFF

    TOOOO

    =

    2121

    2

    2112221122/

  • 7/23/2019 Libro Resumen Bioestadistica

    22/25

    22

    TEST DE INDEPENDENCIA PARA VARIABLES CUALITATIVAS(una poblacin, dos variables cualitativas)

    1. H0: los caracteres A y B son independientes. Si los T individuos de una muestra aleatoria sonclasificados con arreglo a dos caracteres A y B, el primero dividido en r clases y el segundo en s

    clases, obtenindose una tabla como la anterior (cambiando muestras y clases por "clases delcarcter A" y "clases del carcter B" respectivamente, entonces las condiciones de validez, elclculo de las cantidades experimentales y tericas son idnticas a las del test anterior (Test dehomogeneidad de un conjunto de muestras cualitativas).

    MEDIDAS DE DEPENDENCIA EN TABLAS DE CONTINGENCIA

    Para ver el grado de dependencia (fuerza de la asociacin) de ambos criterios de clasificacin entablas de 22 se definen:

    O11O22 Razn del producto cruzado (odds ratio): OR = ---------

    O12O21

    Puede calcularse en estudios de casos y controles y tambin en estudios de cohortes

    O11/C1 Riesgo relativo (del factor de riesgo B para la enfermedad A) RR = --------

    O12/C2

    Slo tiene sentido en estudios de cohortes, comparando la frecuencia de enfermedad A (O11)entre el grupo expuesto al factor de riesgo B (C1), es decir, la incidencia O11/C1con la incidenciaen el grupo no expuesto (O12/C2)

    En ambos casos, un valor superior a 1 significara un aumento del riesgo, un valor cercano a 1igualdad de riesgo, y un valor inferior a 1 disminucin del riesgo (factor de proteccin).

    Tanto para la OR como para el RR tiene sentido, si se demuestra que existe una asociacinestadstica, que se calcule un intervalo de confianza que informe acerca de la precisin con que semide el riesgo. Un mtodo sencillo para calcularlo viene dado por la expresin:

    :%)95(IC

    96.11

    OR ; :%)95(IC

    96.11

    RR

    donde el lmite inferior del intervalo se obtiene elevando OR (o RR) a (1-1.96/), y el superior a(1+1.96/), y es la raz cuadrada del estadstico de contraste 2.

    17. Contraste de hiptesis en regresin

    Una vez realizados los clculos previos (ver apartado 10 en este mismo documento), se puedencomprobar hiptesis en regresin:

    1. H0: La variable dependiente toma el mismo valor para todos los valores de la independiente, o loque es igual, la pendiente es 0 (H0=0)

    2. Condiciones de validez: Los valores de la variable y, para cada valor de la x, siguen distribucionesNormales de medias situadas sobre la lnea recta + x y varianzas (2) iguales.

    3. Test:2exp

    yx

    x

    s

    SCbt =

    4. Clculo de la cantidad terica: Las tse buscan en la tabla de la distribucin t-Student con (n - 2)grados de libertad

  • 7/23/2019 Libro Resumen Bioestadistica

    23/25

    23

    Alternativamente, se puede contrastar la misma hiptesis (H0=0) mediante la realizacin de unintervalo de confianza para (ver apartado 10). Si el intervalo excluye el valor =0, puede concluirseque la pendiente es distinta de 0.

    Otra alternativa es contrastar la independencia de ambas variables (x e y) descomponiendo la

    varianza total de y mediante una tabla de ANOVA, que divida la suma de cuadrados total de y ( ySC )

    en dos partes: la debida a regresin: ( )2

    = yySCreg y la residual: ( )2 = yySCres :

    Fuente devariacin

    gradosdelibertad

    Suma de cuadradosSC

    MediaCuadrtica

    Estadstico F

    Regresin k-1 ( )2

    = yySCreg 1

    =k

    SCMC

    reg

    reg res

    reg

    MC

    MCF =exp

    Residual n-k ( )2

    = yySCres kn

    SCMC

    reg

    res

    =

    Total n-1 ( ) = 2yySCy

    k: nmero de variables. Si slo hay una variable predictora x, k=2 (x e y)

    En realidad, el modelo de regresin es un modelo ms general, que incluye como caso particular alanlisis de la varianza, y lo podramos usar para comparar las medias de dos grupos, si stos estndefinidos por los valores de una variable dicotmica, como por ejemplo el sexo (1: varones, 0:mujeres).

    El coeficiente de determinacin, r2, expresa el porcentaje de la variabilidad de y explicada por x:

    y

    reg

    SC

    SC

    r =2

    ; a partir de aqu, el coeficiente de correlacin,2

    rr =

  • 7/23/2019 Libro Resumen Bioestadistica

    24/25

    24

    E. ALGUNAS CUESTIONES A TENER EN CUENTA EN LA REVISION ESTADISTICA DEARTICULOS CIENTFICOS

    1. Anotar los fines del trabajo y enumerarlos, en trminos no estadsticos, lo ms precisamenteposible.

    2. Encontrar las variables que se han elegido para alcanzar los fines propuestos. Enumerarlasdetalladamente, asignndoles sus tipos (cuantitativas o cualitativas, discretas o continuas) yplantendose, siempre que se pueda, el conocimiento, aunque sea aproximado, de su distribucin(Normal, Binomial, Poisson, o ninguna de ellas).

    3. Con respecto a la muestra estudiar los siguientes extremos: Cmo se ha extrado Si la extraccin hace que la muestra pueda considerarse aleatoria Estudiar si han sido recogidas variables como la edad o el sexo, que nos permitan "asegurarnos" de

    que la muestra representa suficientemente bien a la poblacin (se distribuye por edad y sexo igualque la poblacin)

    Identificar a la poblacin de la que ha sido extrada la muestra, con objeto de ver si las conclusionesobtenidas lo son para esa o para otras poblaciones.

    Enumerar, segn el conocimiento del problema, los posibles sesgos en los que se pueda incurrir, ysi stos sesgos han sido evitados o no. Si no han sido evitados, en qu sentido afectaran a losresultados.

    Analizar el tamao de la muestra del que se ha dispuesto, viendo si ha sido calculado fijandocondiciones previas y cules son stas. Si no se sabe cmo ha sido fijado el tamao de muestra(que es lo ms comn) habr que ver si ha sido suficiente o no.

    4. Especificar las hiptesis de cada uno de los tests a realizar (ahora de manera estadstica)5. Observar si se verifican las condiciones de los tests. Esas condiciones son vitales para poder

    aplicarlos. Si no se verifican, su aplicacin es incorrecta y sus resultados, y por tanto lasconclusiones que se extraen de ellos, pueden estar muy apartados de la realidad.

    6. Siempre que se puedan comprobar los resultados de los tests, debera hacerse. Hay veces que losresultados que se obtienen son distintos de los que se dan, indicando esto que no se han hecho enel artculo los tests que se dicen.

    7. El nivel de significacin "p" debe comprobarse en las tablas. Recurdese que lo habitual es conside-rar un test significativo si p < 0.05.8. Comprubese cmo se interpreta la significacin de los tests, pensando en las hiptesis

    identificadas anteriormente. Es muy comn concluir al revs. Estudiar asimismo las conclusionesque se deducen de tests no significativos (atencin al tamao de muestra).

    9. Observar si las conclusiones finales del artculo van ms all o no de los tests realizados.10. Pensar en tests alternativos para obtener las conclusiones del trabajo. Estudiar si tales tests son

    ms apropiados que los usados. Es muy comn usar tests que impliquen una prdida deinformacin importante (ej.: agrupamiento en clases).

    11. No olvidar nunca que, por encima de la significacin estadstica, los valores de p, etc., debesituarse siempre la relevancia clnica o biolgica de las diferencias o asociaciones encontradas.

  • 7/23/2019 Libro Resumen Bioestadistica

    25/25

    25

    F. PRINCIPALES TIPOS DE PROBLEMAS, Y MTODOS PARA SU RESOLUCIN

    1.COMPARACION DE DISTRIBUCIONES

    Una Variable cuantitativa:Una poblacin Intervalo de confianza para una media

    test de contraste para una mediaDos poblaciones Distribucin Normal (o n30)

    (comparacin de dos medias)Muestrasindependientes

    Varianzas iguales: t-StudentVarianzas distintas: Welch

    Muestrasapareadas

    t-Student para muestrasapareadas

    Distribuciones cualesquiera(no normales, y ndos poblaciones Anlisis de la Varianza (ANOVA)

    Una Variable cualitativa:Una poblacin Intervalo de confianza para una proporcinDos categoras: test para una proporcinMs de dos categoras: test de bondad de ajuste: 2

    Dos poblaciones Muestras independientes Test de homogeneidad : 2,Test de Fisher, si no se cumplen lascondiciones para el 2

    Muestras apareadas Test de McNemar>dos poblaciones Muestras independientes

    Muestras apareadas2

    Test de Cochrane

    2.COMPROBAR LA ASOCIACIN O RELACIN ENTRE VARIABLES

    Dos variables:Cualitativas 2(tablas de contingencia)Cuantitativas Correlacin V. Normales Correlacin lineal simple

    V. Cualesquiera Correlacin no paramtrica: de SpearmanMixtas Cualitivizar la cuantitativa:

    se convierte en una escala2poco deseable, al perder informacin

    Cuantitivizar la cualitativa(si es ordinal1,2,3...)

    Correlacin

    Comprobar si la distribucin de lacuantitativa es igual en todas lascategoras de la cualitativa

    Comparacin de mediasANOVA

    Ms de dos variables:Correlacin parcialEstadstica multivariante

    3.PREDICCIN DE LOS VALORES DE UNA VARIABLE

    Variables dependientes Normales Regresin (lineal simple, mltiple, curvilneaVariables dependientes Binomiales Regresin logsticaVariables dependientes de Poisson Regresin de Poisson