libro de estadisticas (apuntes muy buenos)

34
INTRODUCCIÓN A LA ESTADÍSTICA PARA ORNITÓLOGOS QUE ODIAN EL ARDEOLA VERSIÓN 2.65 Agosto 2003 por Marcos Méndez Iglesias, Catedrático en Burrología y Letras Colección Ciencia p'al Pueblo, nº 2

Upload: victor-manuel-villegas

Post on 18-Dec-2015

6 views

Category:

Documents


0 download

DESCRIPTION

Apuntes

TRANSCRIPT

  • INTRODUCCIN A LA ESTADSTICA PARA ORNITLOGOSQUE ODIAN EL ARDEOLA

    VERSIN 2.65Agosto 2003

    por

    Marcos Mndez Iglesias, Catedrtico en Burrologa y Letras

    Coleccin Ciencia p'al Pueblo, n 2

  • NDICE

    1. Introduccin ............................................................................................................. 3

    2. Conceptos bsicos

    El cambio de mentalidad ................................................................................... 4

    Las tres utilidades de la Estadstica .................................................................. 5

    Poblaciones y muestras, variables y datos ....................................................... 6

    Tipos de variables ............................................................................................. 7

    3. Estadstica descriptiva

    Por qu es til ................................................................................................... 9

    Distribuciones de frecuencias ........................................................................... 10

    Medidas de tendencia central ........................................................................... 11

    Medidas de dispersin ...................................................................................... 12

    Tablas ............................................................................................................... 14

    Representacin grfica ..................................................................................... 15

    4. Contraste de hiptesis

    Por qu es necesario ........................................................................................ 17

    Hiptesis nula y tipos de error ........................................................................... 18

    Cmo funciona un test ...................................................................................... 19

    Eleccin del test adecuado ............................................................................... 20

    Tests paramtricos y no paramtricos .............................................................. 21

    Comparando dos grupos .................................................................................. 23

    Comparando ms de dos grupos ...................................................................... 24

    5. Asociacin entre variables

    Por qu es til ................................................................................................... 25

    Correlacin y regresin ..................................................................................... 27

    Tests paramtricos y no paramtricos .............................................................. 28

    Tablas de contingencia ..................................................................................... 29

    Gua de utilizacin ............................................................................................ 30

    6. Estadstica y ordenadores ....................................................................................... 31

    7. Ms all de este manual: autoaprendizaje de la Estadstica ................................... 32

    6. Bibliografa recomendada ........................................................................................ 33

  • - 3 -

    1. INTRODUCCIN

    Para la mayor parte de la gente corriente, la Estadstica es slo algo que tiene que ver con el

    ftbol o con las elecciones generales. Pero muchos aficionados a la Ornitologa saben que es algo

    ms que eso. Principalmente, su contacto con esta rama de las Matemticas se produce cuando

    tratan de leer artculos en revistas como Ardeola. Normalmente, tras un ttulo atrayente se oculta

    una jerigonza incomprensible de letras griegas, valores de probabilidad y nombres de "tests" en

    ingls que acaban con el nimo del aficionado ms interesado. Como mucho, se logra entender la

    introduccin y el resumen del artculo, pero es imposible hacerse una idea clara de qu demonios

    ha averiguado el autor. Tras varias malas experiencias, esto produce un odio profundo por la

    Estadstica y por revistas como Ardeola y, como efecto secundario, los aficionados limitan sus

    lecturas a las revistas ms digeribles y con menos frrago matemtico.

    Yo tambin odiaba la Estadstica. Cuando estudi Biologa en la universidad tuve que

    soportar una horrible asignatura de Bioestadstica, que es lo ms cerca que he estado en mi vida

    del lenguaje marciano. Empoll como un burro y aprob, pero mis conocimientos de la materia

    tras ese ao se reducan a... menudo rollo sin sentido! y el nombre gracioso que reciba alguno

    de los "tests" (por ejemplo, el "test" de Kolmogorov-Smirnov... Servira para comprobar el

    contenido alcohlico del vodka?). Todo esto cambi cuando, tiempo despus, empec a hacer mis

    propios estudios de campo sobre Ecologa. En cuanto tuve mis datos en la mano y tuve que

    ponerme a interpretarlos, la Estadstica se transform de algo incomprensible en algo que tena su

    lgica; de ser el enemigo pas a ser un aliado; y de ser algo muy difcil y abstruso, a ser lo ms

    fcil del Universo (bueno, sin pasarse...).

    Lo primero que averig fue que la Estadstica es una herramienta. Resulta til cuandotrabajas con algn tipo de informacin en forma de nmeros recogida durante observaciones de

    campo o cualquier otro tipo de estudio. Y como pasa con toda herramienta, hay que saber: (1) por

    qu se utiliza, y (2) cmo utilizarla. Este manual proporciona una primera base para comprender

    ambas cosas. Espero que tras leerlo: 1) entenders por qu en los artculos de Ardeola se utiliza

    la Estadstica, 2) la lectura de Ardeola no sea un infierno y todas las letras griegas, los valores de

    probabilidad y los nombres estrafalarios cobren algn sentido y 3) si te planteas alguna vez hacer

    tus propios estudios de campo, sepas que tienes una herramienta que puede sacarte de varios

    apuros.

    Pero si sigues sin entender una sola palabra en los artculos de Ardeola y sin ver ningn

    sentido a la Estadstica... Que te devuelvan tu dinero!

  • - 4 -

    2. CONCEPTOS BSICOS: EL CAMBIO DE MENTALIDAD

    Comenzar a entender la Estadstica requiere un cambio de mentalidad, no difcil, pero s

    fundamental. Has de pasar de una mentalidad determinista a una mentalidad probabilista.Normalmente, tendrs la idea (bastante natural, por cierto), de que existe una relacin de causa a

    efecto entre las cosas. Si tiras al suelo agua (causa), el suelo se moja (efecto). Esto es algo

    determinista; si lo haces un milln de veces, observars una y otra vez el mismo resultado. No se

    trata de algo probable, que unas veces ocurre y otras no.

    La Estadstica, en cambio, se basa precisamente en lo contrario; analiza cosas que unas

    veces ocurren y otras no, es decir, fenmenos que implican cierta incertidumbre, cierta

    probabilidad. En principio, parece que tales hechos deben ser raros o, al menos, que en la vida

    cotidiana no te los vas a encontrar. Pero resulta que la incertidumbre es algo tan comn que casi

    pasa inadvertida. Por ejemplo, si coges una regla y mandas medir la longitud de una mesa a 10

    amigos, probablemente se obtengan varias medidas diferentes. Cmo es posible, si se trata de

    la misma mesa y de la misma regla? Simplemente las diferencias entre personas en la forma de

    coger la regla, en cmo consideran el ajuste entre el borde de la mesa y la escala de la regla, en

    su tendencia a redondear si la medida de la mesa no se ajusta exactamente a una marca en la

    regla, etc., introducen variacin. Esto se conoce por error de medida.Pero hay otras fuentes de variacin que no dependen de la meticulosidad de una medida

    ni de lo sofisticado del aparato utilizado. Imagnate que no se trata de medir una mesa sino de

    determinar el peso de una especie cualquiera de ave, recogida durante una sesin de

    anillamiento. Probablemente, si tus 10 amigos realizan ese ejercicio se obtendran 10 pesos

    diferentes. A las diferencias entre personas, en este caso, hay que aadir que, probablemente,

    cada uno ha capturado y pesado individuos diferentes, que difieren en edad, sexo y condicin

    fsica, por no hablar de la constitucin gentica, etc. La variacin es algo omnipresente en lanaturaleza, y esa es la fuente de incertidumbre, o sea, de probabilidades. Uno puede tratar de

    describir esa variacin con palabras (muchos, pocos, grandes, pequeos, azules, amarillos, ...).

    En algunos casos, eso es suficiente. Pero no cuando uno pretende acercarse a los detalles de un

    fenmeno natural. La Estadstica permite describir esa variacin en forma de nmeros, lo cualresulta mucho ms conveniente.

    Por tanto, el primer paso a dar para comprender la utilidad de la Estadstica es admitir que

    existe variacin en la naturaleza e incertidumbre en cualquier conjunto de observaciones; en

    resumen, adquirir una mentalidad probabilista. No es casualidad que en Estadstica se use el

    trmino "variable". Las tres aplicaciones de la Estadstica que se discuten en este manual tienen

    como objetivo, en el fondo, tratar con esa variacin.

  • - 5 -

    2. CONCEPTOS BSICOS: LAS TRES UTILIDADES DE LA ESTADSTICA

    Para qu sirve la Estadstica? Toda su complejidad aparente se reduce a su utilidad en el

    manejo de la variacin, en forma de nmeros. En concreto, permite realizar tres tareas,

    relacionadas con la variabilidad en las observaciones. El primer paso, pues, es hacerte una idea

    clara de cul de esas tres tareas quieres realizar.

    1. Resumir y describir la informacin? Estadstica descriptivaTe permite organizar, resumir y describir la informacin recogida de modo que sea fcilmente

    comprensible para t y para los dems, mediante el uso de:

    a) medidas de tendencia central: Media, Mediana, Moda,

    b) medidas de dispersin: Desviacin Tpica, Rango, Coeficiente de Variacin,

    c) tablas,

    d) representacin grfica.

    2. Comparar valores medios entre grupos de datos? Contraste de hiptesisTe permite decidir si la variacin entre grupos de datos es sistemtica (debida a un fenmeno

    biolgico) o meramente ruido debido a la variacin natural existente en todo grupo de

    organismos, como se coment al hablar de la mentalidad probabilista. Esto se logra mediante el

    uso de tests estadsticos. La eleccin del test adecuado depende de:

    a) el tipo de variables,

    b) el nmero de muestras o tratamientos que se desea comparar,

    c) el cumplimiento de los requisitos necesarios para cada test (tests paramtricos y tests

    no paramtricos).

    3. Descubrir si hay relacin entre dos variables? Medidas de asociacinTe permite descubrir la existencia, direccin y fuerza de la relacin entre dos variables, mediante:

    a) correlacin,

    b) regresin,

    c) tablas de contingencia.

    Reconozco que ahora mismo todo esto parece misterioso, pero si sigues leyendo vers

    que tiene bastante sentido. Aqu simplemente he introducido el tipo de preguntas que la

    Estadstica ayuda a resolver. El resto del manual trata con ms detalle cada una de estas tres

    utilidades e intenta dejar claro por qu son interesantes e incluso necesarias cuando tienes que

    analizar tus datos. Pero antes es conveniente dar una serie de definiciones. Voy a ello.

  • - 6 -

    2. CONCEPTOS BSICOS: POBLACIONES Y MUESTRAS, VARIABLES Y DATOS

    Has salido al campo, has hecho un montn de observaciones y quieres ver si tienen algn

    sentido. Cuidado! Esos nmeros pueden referirse a cosas muy diversas. Para no liarse en lo

    sucesivo, es conveniente dar unas definiciones previas.

    Unidad de estudio.- Es cada elemento que va a ser estudiado. Lo ms normal es que se trate deindividuos, pero no tiene por qu ser as. Si se estudian, por ejemplo, las longitudes de los picos

    de las gaviotas, las unidades de estudio son partes de un individuo. El estudio tambin puede

    centrarse en bandos, colonias, nidadas, etc, que son grupos de individuos. Tambin se denomina

    unidad de muestreo.

    Poblacin.- En Estadstica, este trmino tiene un significado diferente del habitual en la vidacotidiana. Se refiere al grupo total de unidades de estudio sobre las que quiere llegarse a alguna

    conclusin. As que en Estadstica puede hablarse de una "poblacin de picos de gaviota" o una

    "poblacin de bandos" sin estar loco. El tamao de la poblacin vara segn la generalidad que

    quiera darse a las conclusiones (p. ej., las gaviotas del Cabo Peas, las gaviotas de Asturias, las

    gaviotas en general).

    Muestra.- Es un subconjunto de la poblacin, que se elige mediante algn procedimientoespecfico1. El tamao muestral se representa por n, y es igual a la cantidad de unidades de

    estudio tomadas de la poblacin.

    Variable.- Una variable es cualquier caracterstica que ha sido medida, registrada o cuantificadadurante el estudio realizado, para cada una de las unidades de estudio incluidas en la muestra.

    Ejemplos: temperatura, sexo de las aves, especie, hbitat utilizado, nmero de huevos.

    Dato.- Es cada uno de los registros o valores individuales que toma la variable que se ha medido.Puede recibir otros nombres (caso, observacin, medida).

    Ejemplos: 5C (temperatura), macho (sexo de las aves), Hirundo rustica (especie), bosque

    (hbitat), 3 (nmero de huevos).

    En resumen, en tu estudio de campo ests interesado en extraer conclusiones sobre una

    poblacin de determinadas unidades de estudio. Para ello tomas muestras de dicha poblacin y

    en ellas mides u observas datos para cada una de las variables que te interesan.

    1 Esos procedimientos corresponden a la planificacin del estudio, tratada en el primer manual de esta serie.

  • - 7 -

    2. CONCEPTOS BSICOS: TIPOS DE VARIABLES

    Un aspecto crucial de la Estadstica son las variables, o sea, aquello que uno mide. Dado que

    constituyen la materia prima fundamental en cualquier anlisis estadstico, es importantsimo

    saber distinguir las distintas formas que pueden tomar. He aqu los principales tipos de variables.

    Variable mensurable.- Es aquella que puede ser expresada en forma de nmeros.

    Variable contnua.- La que puede tomar infinitos valores entre dos puntos fijoscualesquiera.

    Ejemplos: longitudes, reas, pesos, volmenes, temperatura, tiempo, porcentajes.

    Variable discreta.- La que nicamente puede tomar un nmero fijo de valores y adems nopuede tomar valores intermedios entre esos valores.

    Ejemplos: nmeros (de huevos en una puesta, de plumas, de nidos, etc.).

    Variable ordinal.- Aquella que no puede ser expresada en forma de nmeros, pero que puede serordenada o clasificada segn su magnitud.

    Ejemplos: escalas de abundancia, probabilidades de cra.

    Atributo.- Cualquier variable no expresable en forma de nmeros, pero que puede expresarse deun modo cualitativo en forma de categoras, aunque sin establecer ninguna relacin de orden

    entre ellas.

    Ejemplos: sexo, hbitat, color.

    La diferencia entre estos tipos no es del todo radical; a veces depende simplemente de

    cmo han sido medidas las variables. Las variables contnuas se miden normalmente con una

    exactitud limitada y eso puede hacerlas discretas en la prctica. Por otra parte, algunas variables

    discretas tienen tantos valores posibles (p. ej. nmero de aves) que pueden considerarse

    contnuas a todos los efectos. Las variables mensurables pueden expresarse a veces como

    variables ordinales. Por ejemplo, la longitud del pico en varias especies de aves, puede

    expresarse en milmetros (variable continua) o como un rango desde la especie con el pico ms

    corto a la especie con el pico ms largo (variable ordinal). La operacin contraria no siempre es

    posible: algunas variables ordinales no pueden ser expresadas como variables mensurables.

    Como resumen, la Fig. 1 muestra la aplicacin en un caso concreto de todos esos

    conceptos.

  • - 8 -

    Villaviciosa

    Sexo: Machos Hembras

    Longitud del pico (mm) 20 datos 20 datos

    Nivel de marea: Bajo Medio Alto Bajo Medio Alto

    N sondeos por minuto 20 datos 20 datos 20 datos 20 datos 20 datos 20 datos

    N presas por minuto 20 datos 20 datos 20 datos 20 datos 20 datos 20 datos

    Zelun

    Sexo: Machos Hembras

    Longitud del pico (mm) 20 datos 20 datos

    Nivel de marea: Bajo Medio Alto Bajo Medio Alto

    N sondeos por minuto 20 datos 20 datos 20 datos 20 datos 20 datos 20 datos

    N presas por minuto 20 datos 20 datos 20 datos 20 datos 20 datos 20 datos

    Fig. 1. Esquema de un estudio sobre la alimentacin del Combatiente en Asturias. En doslocalidades (Zelun y Villaviciosa) se midi la longitud del pico, el nmero de sondeos realizados

    en el fango por minuto y el nmero de presas capturadas en dicho tiempo para 20 machos y 20

    hembras por localidad, en funcin del nivel de marea donde los individuos se estaban alimentando

    (bajo, medio, alto).

    Poblacin: los Combatientes en Asturias.

    Variables: 5 variables (longitud del pico -contnua-, nmero de sondeos -discreta-, nmero de

    presas -discreta-, sexo -atributo-, nivel de marea -ordinal-).

    Muestras: dos muestras (Zelun y Villaviciosa).

    Datos: 20 datos por variable, localidad, y sexo.

  • - 9 -

    3. ESTADSTICA DESCRIPTIVA: POR QU ES TIL

    Despus de realizar un estudio sobre cualquier tema, te encontrars con un buen montn de

    muestras, variables, datos, etc., etc. En ese momento te enfrentas a dos problemas: 1) cmo

    extraer de todo ese montn una idea general de lo que pasa, ese "mensaje oculto en los datos", y

    2) cmo contrselo a los dems de forma que lo entiendan.

    El examen de los datos uno a uno no es prctico. Necesitars algn modo de resumir u

    ordenar esos datos para que los patrones que muestran resulten evidentes. Por ejemplo, puedes

    tomar miles de observaciones sobre las fechas de aparicin de la Golondrina Comn en Asturias.

    Pero sera absurdo que cuando alguien te pregunte cundo puede observar la especie t le

    contestases dndole, una a una, todas las fechas en que la has visto. Lo ms razonable es

    resumir esas fechas en forma de un estatus para la especie (invernante, estival, etc.). Algo similar

    ocurre con la informacin de tipo numrico. La Estadstica ofrece varias posibilidades para resumir

    la informacin disponible. Las formas ms habituales son el clculo de valores medios y la

    realizacin de grficas o tablas, donde se muestran frecuencias o medias de los datos obtenidos.

    Si alguna vez has hecho una grfica, una tabla o una media, has estado utilizando la Estadstica,

    aunque te fastidie reconocerlo.

    En esta seccin se introducen algunos conceptos que conviene saber cuando resumes tus

    datos y se dan algunas normas para la presentacin clara de los mismos.

  • - 10 -

    3. ESTADSTICA DESCRIPTIVA: DISTRIBUCIONES DE FRECUENCIAS

    La forma ms elemental de resumir un grupo de datos referentes a una variable es hacer una

    representacin grfica de los mismos en forma de distribucin de frecuencias: en el eje horizontal

    de la grfica se representan los diferentes valores que puede tomar la variable, y en el eje vertical

    se representan el nmero de veces (o sea, la frecuencia) que se ha obtenido cada valor de la

    variable (Fig. 2). Esta representacin grfica se aplica a variables contnuas, tras agrupar en

    clases los infinitos valores posibles de la variable (Fig. 2). Para representar las variables discretas,

    ordinales o atributos se utiliza un diagrama de barras (descrito ms adelante en este manual).

    Fig. 2. Distribucin de frecuencias del peso medio de las aves paseriformes de Europa.

    La distribucin de frecuencias te permite conocer de un vistazo la "forma" de los datos: 1)

    ver si existe una tendencia a agruparse en torno a un valor dado, y 2) qu grado de variabilidad o

    dispersin existe en los datos. Las posibilidades son, en principio, infinitas pero hay varios tipos de

    distribucin de frecuencias que aparecen comnmente y merecen un nombre.

    Distribucin unimodal.- Los datos se agrupan en torno a un valor y la frecuencia de datosdisminuye a medida que los valores se alejan del mismo (Fig. 3 A y B). Un tipo especial de

    distribucin unimodal es la distribucin normal, en la que se cumplen una serie de requisitos sobre

    el valor central y la dispersin en torno al mismo.

    Distribucin uniforme.- Los datos se ditribuyen con una frecuencia aproximadamente similar a lolargo de todos los valores medidos (Fig. 3 C).

    Distribucin bimodal.- Los datos se agrupan en torno a dos valores, con una disminucin en lafrecuencia de valores extremos e intermedios entre esos dos valores (Fig. 3 D).

  • - 11 -

    3. ESTADSTICA DESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL

    Las distribuciones de frecuencias no son el nico mtodo, ni a veces el ms conveniente, de

    resumir o presentar la informacin recogida. Las medidas de tendencia central permiten expresar

    todos los datos correspondientes a una variable mediante un solo nmero, que sirve como

    representante de los mismos. Cumplen, por tanto, la primera funcin de las distribuciones de

    frecuencias. Las principales medidas de tendencia central son tres: la media, la mediana y la

    moda.

    1. Media.- Se representa por X y se calcula mediante la siguiente frmula:

    XX X X

    nsuma de todos los datos

    n de datos1 2 n= + + + =...

    2. Mediana.- Es un valor que divide la distribucin de frecuencia de los datos en dos partes, talque la mitad de los datos son menores que la mediana y la otra mitad son mayores. Es decir, es el

    punto medio de la distribucin de frecuencias.

    3. Moda.- Es el valor, o clase, que ms se repite dentro del conjunto de datos, es decir, el "puntoms alto" de la distribucin de frecuencias.

    El clculo de estas medidas de tendencia central slo es posible para variables

    mensurables y ordinales. No tiene sentido calcular la media de un atributo como el sexo, pues no

    se puede sumar "macho + hembra" y dividirlo entre dos. Para los atributos siempre hay que

    trabajar con frecuencias (nmero de datos en cada categora del atributo), que pueden

    representarse grficamente o expresarse como porcentajes del total.

    Cmo elegir entre ellas?- En general, la media es la medida de tendencia central ms til yms empleada. El uso de la media es el ms apropiado cuando las variables son mensurables yla distribucin de los datos es unimodal y aproximadamente simtrica (Fig. 3 A). Cuando valores

    extremos distorsionan la distribucin de los datos (Fig. 3 B), el uso de la mediana es msapropiado pues se ve menos afectada, pero en la prctica esta medida de tendencia central no se

    utiliza demasiado. Si se trata de una variable ordinal, o slo necesitas una descripcin rpida y

    aproximada de la tendencia central, puedes utilizar la moda, que tambin es til cuando ladistribucin est distorsionada por valores extremos o la distribucin es bimodal (Fig. 3 D).

  • - 12 -

    3. ESTADSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIN

    No todos los individuos son iguales. Si mides una variable en varios individuos obtendrs valores

    por lo general diferentes. Una manera de resumir esa variacin es mediante las medidas de

    dispersin. Como las medidas de tendencia central, resumen en un solo nmero todo un grupo de

    datos, que expresa la variacin presente en los mismos. Cumplen la segunda funcin de las

    distribuciones de frecuencia. Las medidas de dispersin ms comunes son las tres siguientes.

    1. Desviacin tpica.- Se representa por S o d.t. y se calcula mediante la frmula:

    ( )S =

    X Xn

    = i2

    Raiz cuadrada deSuma del cuadrado de (cada valor menos la media)

    N de datos

    En la prctica se usa la desviacin tpica muestral, en que se divide por n - 1, no por n.

    2. Rango.- Es la diferencia entre el valor ms alto y el valor ms bajo de la variable. Tambin seexpresa a veces indicando ambos valores, separados por un guin.

    3. Coeficiente de variacin.- Es igual a la desviacin tpica dividida por la media, y expresadocomo un porcentaje:

    CV =SX

    100

    Cmo elegir entre ellas?- La medida de dispersin ms til es la desviacin tpica. Slo debesusar el rango cuando dispones de pocas medidas y otra medida de dispersin sera muy grosera,o cuando todo lo que necesitas conocer es la dispersin general de las medidas. Utiliza el

    coeficiente de variacin cuando quieras tener una idea de la variabilidad relativa de dos o msvariables cuyas medias son muy diferentes en magnitud (por ejemplo, longitudes de picos y

    longitudes de alas). Esto se ve facilitado por su carcter adimensional, es decir, no depende de

    las unidades en que se mida la media (p. ej., milmetros para los picos y centmetros para las

    alas).

    La forma ms breve de resumir los valores que toma una variable es mediante una medida

    de tendencia central junto con una medida de dispersin. La forma habitual es utilizar la media

    junto con la desviacin tpica y el tamao de muestra (x d.t. (n)). Todo ello es equivalente a unadistribucin de frecuencias, pero ms sencillo de calcular y en mucho menos espacio. Adems se

    obtienen fcilmente usando una calculadora normal y corriente.

  • - 13 -

    Fig. 3. Varios tipos de distribuciones de frecuencia, con la posicin de diversas medidas detendencia central: A) distribucin unimodal simtrica, B) distribucin unimodal asimtrica o

    sesgada, C) distribucin uniforme, y D) distribucin bimodal. M = moda; m = mediana, x = media.

  • - 14 -

    3. ESTADSTICA DESCRIPTIVA: TABLAS

    Las tablas son una forma habitual de presentar los datos recogidos, las frecuencias, las medidas

    de tendencia central y de dispersin, etc., etc. Para conseguir una mayor claridad en su

    elaboracin conviene seguir algunas reglas sencillas.

    1. Cada tabla debe tener una leyenda autoexplicativa, que permita entenderla sin tener que

    recurrir al texto. Por ejemplo:

    - el uso de abreviaturas debe evitarse o, en caso de usarse, deben ir explicadas,

    - cuando se proporcionen medidas, deben indicarse las unidades,

    - debe darse el tamao de muestra para las medias tabuladas.

    2. Dentro de la tabla, las columnas deben ordenarse de un modo que resulte lgico y

    comprensible, y que permita una comparacin fcil de los datos.

    3. Debe procurarse no dejar espacios vacos en las tablas. En caso de que no sea posible, debes

    distinguir claramente cuando se trata de un valor cero (0) y cuando se trata de falta de datos (-).

    4. Su uso debe ser racional. No presentes datos innecesarios. Tampoco hagas tablas de modo

    abusivo. Muchas veces varias tablas pueden "fusionarse" en una sola en la que figura toda la

    informacin relevante.

    Cuntos decimales?- Cuando resumes informacin y calculas medias, te enfrentars a laaparicin de nmeros con decimales. Esto no es extrao en las variables contnuas, pero en

    algunas variables discretas (p. ej. nmero de huevos de una puesta) est claro que los decimales

    son algo "ilusorio" (no existe el "medio huevo"). Para decidir cuntos decimales utilizar en las

    tablas presentadas sigue los siguientes consejos:

    1. para las variables contnuas, no des ms decimales de la precisin con que mediste esas

    variables,

    2. para las variables discretas, no des ms de un decimal.

    Cmo redondear decimales.- Para redondear esos decimales de ms que aparecen al usar lacalculadora o el ordenador, slo hay que seguir unas reglas muy sencillas:

    (1) si el ltimo nmero despus de la ltima cifra a considerar es igual o mayor que 6, se suma 1 a

    la ltima cifra; por ejemplo 6,32654 se redondea a dos cifras decimales como 6,33;

    (2) si el ltimo nmero despus de la ltima cifra a considerar es menor que 5, se deja la ltima

    cifra como est; por ejemplo 6,32654 se redondea a una cifra decimal como 6,3;

    (3) si el ltimo nmero despus de la ltima cifra a considerar es igual a 5, se redondea la ltima

    cifra al nmero par ms prximo; por ejemplo, 6,32654 se redondea a tres cifras decimales como

    6,326.

  • - 15 -

    3. ESTADSTICA DESCRIPTIVA: REPRESENTACIN GRFICA

    Aunque una tabla con medias y desviaciones tpicas es un buen modo de resumir los datos, una

    imagen vale ms que mil palabras. Por eso es til hacer representaciones grficas.

    A continuacin se describen los principales tipos de representacin grfica.

    1) Histograma o distribucin de frecuencias.- Se utiliza para representar frecuencias envariables continuas (Fig. 2). Las barras estn pegadas unas a otras, para indicar el carcter

    continuo de la variable.

    2) Diagrama de barras.- Se utiliza para representar frecuencias en variables discretas, ordinaleso atributos. Se diferencia de un histograma en que las barras estn separadas entre s, para

    indicar el carcter discreto de las variables (Fig. 4 A).

    3) Grficos con barras de error.- Se utilizan para representar valores medios, indicados pormedio de puntos o de barras, a los que se aade un segmento o un semisegmento que indica una

    medida de dispersin (Fig. 4 B). Se aplican a variables mensurables y a veces a las ordinales,

    nunca a atributos.

    4) Diagramas de puntos, o de dispersin.- A diferencia de los tipos anteriores, no representanfrecuencias o valores medios en el eje vertical. En su lugar, representan dos variables,

    mensurables u ordinales, una en el eje horizontal y la otra en el eje vertical (Fig. 6).

    Recuerda que las representaciones grficas:- no aaden nada a los datos que ya no estuviese all; su funcin es simplemente mostrarlos de

    modo ms claro,

    - son una necesidad, no un lujo; no emplees ms grficos de los necesarios,

    - deben resaltar los patrones de inters sin comprometer la integridad de los datos,

    - deben carecer de "chatarra grfica" como colores, sombreados, lneas y volumen innecesarios.

    Nunca:- repitas la misma informacin en un grfico y una tabla, o con dos representaciones grficas

    distintas,

    - utilices grficos de "tarta" (Fig. 4 C) ni grficos de barras apiladas (Fig. 4 D); ms que ayudar a

    ver los patrones, los oscurecen!

  • - 16 -

    A) B)

    0

    20

    40

    60

    80

    100

    PRI VER OTO INV

    C) D)

    020406080

    100120140160180

    PRI VER OTO INV

    Fig. 4. Varios tipos de representaciones grficas: A) diagrama de barras, B) grfico con barras deerror, C) grfico de "tarta", D) diagrama de barras apiladas.

  • - 17 -

    4. CONTRASTE DE HIPTESIS: POR QU ES NECESARIO

    En Ornitologa, muchas veces te interesa comparar valores medios de una variable entre distintos

    grupos de datos. Imagina que te has planteado el estudio descrito en la Fig. 1 sobre los

    Combatientes. Has ido a Villaviciosa y has tomado tus datos. Cuando acabas de tomar los datos

    en Zelun te encuentras con un amigo y tras charlar un rato, resulta que l ha tenido exactamente

    la misma idea que t y tambin ha tomado datos en Villaviciosa y Zelun. As que decids

    compararlos pero, para vuestra sorpresa, las medias son distintas en todas las variables Alguno

    de los dos ha tomado mal los datos? La respuesta es que no y que esa diferencia era esperable,

    por lo que comparar a vista los valores medios no es suficiente.

    Por un lado, dos muestras de una misma poblacin sern casi con toda seguridad

    diferentes, aunque las tome la misma persona. Est claro que si fuese posible medir todos los

    individuos de la poblacin, obtendras la autntica media. Al tomar una muestra, simplemente

    dispones de una aproximacin a dicha media real. Esa aproximacin estar tanto ms cerca de la

    media autntica cuanto mayor sea el tamao de muestra. Pero como en la mayor parte de los

    casos no es posible medir la variable que interesa en todos los individuos de la poblacin (cuando

    la poblacin es demasiado grande o cuando la medida es de carcter destructivo [p. ej., peso del

    hgado]) tienes que asumir que la media que has obtenido tiene asociada una incertidumbre.

    Dicha incertidumbre tiene varias causas: (1) distintas personas pueden cometer distinto error al

    medir una variable, (2) cada Combatiente es diferente, y al medir distintos animales habeis

    encontrado distintas medias, (3) el tamao de muestra fue diferente.

    En vista de ello, es de esperar que tus muestras de Villaviciosa y Zelun tambin sean

    diferentes. La cuestin es difieren por esos efectos asociados al muestreo de toda poblacin, o

    existe una componente aadida de diferencia real, debida a causas biolgicas? Qu hacer ante

    esas discrepancias en los datos, que siempre van a aparecer? Hay varias alternativas. La primera

    es no medir nada que vare... pero son las cosas que varan las que tienen inters! Contar patas,

    picos o alas no tiene ningn misterio. As que esa opcin es poco til. Como alternativa, ya que

    hay que medir cosas variables, lo mejor es hacerlo sobre toda la poblacin, para que no haya

    discrepancias debidas a que una persona mide unos animales y otra persona mide otros

    diferentes. Pero resulta que hay ms de 1000 combatientes en Villaviciosa. Medir todo eso llevara

    siglos y no os queda ms remedio que usar una muestra. La tercera opcin es usar la Estadstica.

    Los tests de hiptesis se utilizan para contrastar si los valores medios obtenidos para una serie de

    grupos de datos son realmente diferentes", es decir, existe una causa subyacente que tiene algn

    sentido ms all de esos errores asociados con el uso de muestras (sexo, edad, poblaciones

    diferentes) o si dichas diferencias se deben simplemente a cuestiones del muestreo (error de

    medida, medida de individuos diferentes).

  • - 18 -

    4. CONTRASTE DE HIPTESIS: HIPTESIS NULA Y TIPOS DE ERROR

    Siguiendo con el ejemplo de la Fig. 1, has medido las longitudes de los picos de los Combatientes

    macho y hembra en Villaviciosa, pues sospechas que los machos pueden tener picos mayores y

    conseguir alimento en el fango a mayor profundidad que las hembras. Tienes dos medias pero a

    estas alturas ya sabes que, dado que provienen de muestras, estn afectadas por un error. La

    Estadstica te permite comparar esas medias, y una analoga con lo que ocurre en un juicio servir

    para aclarar la manera de hacerlo.

    El procedimiento a seguir en este caso es el siguiente.

    1) Especificar una hiptesis nula y una hiptesis alternativa, excluyentes, basadas en losmotivos, ideas, etc. que han llevado a recoger los datos. En este caso, sospechas que existe una

    diferencia entre machos y hembras, en concreto, los machos pueden tener picos ms largos que

    las hembras. La hiptesis nula siempre afirma que NO existen diferencias. Es una hiptesis detrabajo que, obviamente, se intenta rechazar. La hiptesis alternativa (que es la que te interesa)

    afirma que s existen esas diferencias y se acepta siempre que se rechaza la hiptesis nula. Estas

    dos hiptesis pueden considerarse veredictos posibles en un juicio (hiptesis nula = no culpable;

    hiptesis alternativa = culpable).

    2) La Estadstica hace de juez que dicta una sentencia. La sentencia puede ser: (a) no rechazar la

    hiptesis nula, es decir, no rechazar la posibilidad de que los machos de Combatiente tienen picos

    de tamao similar al de las hembras, o (b) rechazar la hiptesis nula (y aceptar la hiptesis

    alternativa) de que existen diferencias. Es decir, debes decidir entre la "no culpabilidad" o la

    "culpabilidad". Recuerda que la hiptesis nula nunca se acepta, slo se rechaza o no se rechaza.

    Siempre cabe la posibilidad de que la hiptesis nula sea falsa (y el acusado sea culpable) aunque

    no pueda rechazarse, como se ver en el punto siguiente.

    3) Al emitir el juicio puedes acertar o equivocarte. Las equivocaciones pueden ser de dos tipos:

    error de tipo I, consiste en rechazar la hiptesis nula cuando era cierta (has condenado a uninocente); y error de tipo II, consiste en aceptar la hiptesis nula cuando es falsa (has dejadolibre a un culpable). Obviamente te interesa minimizar ambos errores, aunque en Estadstica se

    da prioridad al error de tipo II (es mejor dejar libre a un culpable que condenar a un inocente).

    Reducir ambos errores a cero es imposible y, adems, al disminuir uno se aumenta el otro, por lo

    que hay que elegir bien el test empleado para llegar al mejor balance posible entre el error de tipo

    I y el error de tipo II. La nica manera de disminuir ambos es aumentar el tamao de muestra. En

    los siguientes apartados vers cmo los intentos de minimizar cada tipo de error tienen su papel

    en el contraste de hiptesis.

  • - 19 -

    4. CONTRASTE DE HIPTESIS: CMO FUNCIONA UN TEST

    Para emitir sentencias sobre diferencias entre medias procedentes de muestras se utilizan

    diversos distintos procedimientos de clculo, o "tests" estadsticos. Puedes considerar un test

    como un juez que decide. Pero cmo funciona en la prctica?

    Los tests se basan en el clculo de una distribucin de muestras o de diferencias entremuestras. stas son distribuciones tericas compuestas de todas las diferencias posibles entre

    medias del mismo tamao que la muestra que t has tomado, bajo la hiptesis nula de que no

    existen diferencias "reales". Tambin pueden interpretarse como distribuciones de las

    probabilidades de obtener el valor de la media que efectivamente has encontrado, suponiendo

    que la hiptesis nula es cierta. La manera en que los tests generan esas distribuciones tericas

    vara en cada caso y a veces tienen frmulas complicadas. Un ejemplo sencillo corresponde a las

    probabilidades de obtener un seis al lanzar un dado. Si tiras el dado un nmero alto de veces

    obtendrs varios resultados que, en promedio (si el dado no est trucado), deberan indicar que

    esa probabilidad es 1/6. Al final puedes hacer una tabla donde figuran cada resultado y la

    probabilidad correspondiente al mismo. Los libros de Estadstica incluyen tablas para numerosos

    tests.

    Sabes que has tomado unas muestras y que, incluso si pertenecen a la misma poblacin

    (estadstica) existir una diferencia entre ellas. Esa diferencia puede ser mayor o menor. Los tests

    estadsticos comparan esas diferencias y evalan si es posible que ocurran procediendo de la

    misma poblacin. El nivel de significacin () es la probabilidad lmite que se elige pararechazar la hiptesis nula. En otras palabras, establece el grado de diferencia entre muestras que

    ests dispuesto a aceptar antes de decidir que esa diferencia es demasiado extrema y no puede

    obtenerse si ambas muestras proceden de la misma poblacin. La obtencin de una diferencia

    mayor sera algo tan improbable que, si ocurre, lo ms probable es que eso indique que ambas

    medias proceden de poblaciones (estadsticas) diferentes. Normalmente se fija = 0.05, pero aveces conviene tomar un valor mayor (0,1) o menor (0,01). Esto simplemente significa que si la

    diferencia observada entre muestras tiene una probabilidad de ocurrir del 5% (o el 10% o el 1%) o

    menos no puede deberse a meros errores de muestreo sino que indica diferencias reales entre

    muestras.

    La regin de rechazo es la parte de la distribucin de muestreo del test cuya probabilidad

    es menor o igual que , es decir, el nivel de significacin. Al realizar un test estadstico lo quehaces es comparar la diferencia que has obtenido entre muestras con la distribucin de muestreo

    terica generada por el test, utilizando las tablas disponibles. Si tu diferencia cae dentro de la

    regin de rechazo, concluyes que la hiptesis nula debe ser rechazada, la hiptesis alternativa

    aceptada y las diferencias son significativas.

  • - 20 -

    4. CONTRASTE DE HIPTESIS: ELECCIN DEL TEST ADECUADO

    El valor de equivale al error de tipo I que cometes en tu juicio. Obtener diferencias mayores que es muy improbable, pero no imposible. As que en ocasiones eso ocurrir. Con qufrecuencia? puedes preguntarte angustiado. Eso depender del valor de utilizado. Cuantomenor sea , menor ser la probabilidad de equivocarte, pero ms difcil ser rechazar lahiptesis nula; cuanto mayor sea , mayor cantidad de resultados posibles se condierarn"improbables" y la hiptesis nula se rechazar ms a menudo, pero la probabilidad de hacerlo de

    modo errneo aumentar. En otras palabras, existe un balance entre los errores de tipo I y de tipo

    II.

    Existen diferentes medios para decidir sobre la aceptacin o rechazo de la hiptesis nula.

    Esos medios son los distintos tests, que difieren tanto en su posibilidad de error de tipo I como de

    error de tipo II. Por tanto, es importante elegir el test adecuado para cada caso concreto. En

    primer lugar te interesa tener en cuenta (a) el tipo de datos (variables contnuas, discretas, rangos

    o atributos) y (b) el nmero de muestras que se desean comparar (dos muestras o ms de dos

    muestras).

    Despus de ello an hay diversas opciones. En este momento es cuando interesa tener en

    cuenta la probabilidad de error de tipo II. Los diferentes tests difieren en esa probabilidad de error

    de tipo II. La potencia de un test es su capacidad de rechazar la hiptesis nula cuando es falsa(de condenar culpables). Esto equivale a la inversa del error de tipo II. Obviamente te conviene

    elegir el test ms potente dentro de los disponibles en la situacin concreta que ests estudiando.

    Cual ser ese test depende del tipo de datos tomados y del cumplimiento de una serie de

    requisitos en los mismos, como se explica en el apartado siguiente.

  • - 21 -

    4. CONTRASTE DE HIPTESIS: TESTS PARAMTRICOS Y NO PARAMTRICOS

    Para calcular la distribucin de muestreo de algunos tests hay que hacer ciertos supuestos sobre

    los datos:

    1. los datos corresponden a una variable contnua,

    2. la variable sigue una distribucin normal,

    3. las variancias de los subgrupos son similares u homogneas,

    4. los datos son independientes.

    Esto es lo que se denominan tests paramtricos. Cuando se cumplen esos supuestos, son muypotentes. Sin embargo, si esos supuestos no se cumplen, los resultados que producen no sern

    fiables. Por eso, antes de realizar un test, deben comprobarse que esas suposiciones son ciertas.

    Esto se realiza mediante otro grupo de tests (tranquilo, no hay que comprobar requisitos para

    estos tests mediante otros tests y as hasta el infinito).

    Otros tests no requieren los supuestos 1 a 3. Estos son los tests no paramtricos y soncasi o igual de potentes que los tests paramtricos en esas situaciones en que no los datos no

    cumplen los supuestos 1 a 3. Adems, son ms robustos, es decir, cuando muestran diferenciassignificativas, estn mejor fundadas. Tambin requieren tamaos de muestra menores.

    Cmo elegir entre tests paramtricos y tests no paramtricos1. Cuando el tamao de muestra es muy bajo (< 10), son preferibles los tests no paramtricos.

    Esto no es una panacea; por debajo de cierto nmero de datos, ningn test estadstico es posible.

    2. Comprueba el cumplimiento de los requisitos para los tests paramtricos:

    (a) normalidad, mediante un test de Kolmogorov-Smirnov,(b) homogeneidad de variancias, mediante el test de Bartlet u otro,

    3. Si se cumplen los requisitos, usa un test paramtrico; si no se cumplen, usa un test no

    paramtrico.

    Como resumen de todo el proceso necesario para el contraste de hiptesis echa un vistazo

    a la Fig. 5.

  • - 22 -

    Fig. 5. Pasos a seguir en el contraste de hiptesis. Para ms detalles, no te quedar ms remedioque releer el texto.

  • - 23 -

    4. CONTRASTE DE HIPTESIS: COMPARANDO DOS GRUPOS

    Supongamos que quieres comparar dos grupos de datos, por ejemplo el valor medio de la longitud

    del pico en machos y hembras de Combatiente. En este caso los datos son independientes, pues

    los grupos de datos a comparar se han obtenido por el muestreo de individuos distintos. De modo

    indicativo, el procedimiento a seguir es el siguiente.

    1. Para cada grupo por separado, comprueba si los datos siguen una distribucin normal, por

    medio de un test de Kolmogorov-Smirnov.2. Comprueba la igualdad de variancias entre ambos grupos, por medio de un test de Bartlett.3. Si se cumplen los requisitos de normalidad e igualdad de variancias, puedes comparar las

    medias mediante uno de estos dos tests:

    (a) un test de la t,(b) un anlisis de variancia o ANOVA, de idntico resultado pero ms potente.

    4. Si los datos son normales, pero las variancias son heterogneas,

    (a) utiliza una transformacin de los datos (logartmica, raz cuadrada o inversa), compruebasi las variancias se vuelven homogneas y en caso afirmativo utiliza un ANOVA,

    (b) utiliza el test de la t aproximado de Welch, que no asume igualdad de variancias,(c) utiliza un test de la U de Mann-Whitney, que no es paramtrico.

    5. Si los datos no son normales, pero las variancias son homogneas,

    (a) utiliza una transformacin de los datos (logartmica, raz cuadrada o inversa), comprueba

    que si datos se vuelven normales y en caso afirmativo utiliza un ANOVA. El ANOVA es robusto

    ante la falta de normalidad, pero si los datos no son normales conviene usar otro test,

    (b) utiliza un test de la U de Mann-Whitney, que no es paramtrico.

    6. Si los datos no son normales ni las variancias son homogneas,

    (a) intenta una transformacin de los datos, como ya se ha dicho en los puntos previos,

    (b) utiliza un test de la U de Mann-Whitney, que no es paramtrico.

    Si los datos no son independientes, es decir, los grupos a comparar provienen del muestreo de los

    mismos individuos (p. ej. el tamao de puesta entre dos puestas sucesivas de una misma

    hembra), se procede del siguiente modo.

    1. Si los datos son normales y las variancias homogneas, puedes utilizar un ANOVA de medidasrepetidas.2. Si la diferencia entre cada par de valores sigue una distribucin normal, puedes utilizar un testde la t de medidas repetidas. Este test requiere comprobar menos requisitos que el anterior.3. Si no se cumplen los requisitos paramtricos, usa un test de Wilcoxon de rangos con signo.Hay otros tests no paramtricos para comparar dos grupos de datos no independientes, pero son

    menos potentes.

  • - 24 -

    4. CONTRASTE DE HIPTESIS: COMPARANDO MS DE DOS GRUPOS

    Cuando se trata de comparar ms dos grupos de datos, como el crecimiento de pollos a tres tasas

    de ceba diferentes, la cantidad de posibilidades de anlisis aumenta. Aqu tratar slo las ms

    simples, para datos independientes y una clasificacin sencilla de los grupos (es decir, los grupos

    se constituyen en base a un slo factor; en el ejemplo, la tasa de ceba). En los restantes casos, y

    como con el uso de la Estadstica en general, es necesario consultar los libros ms

    especializados. El procedimiento indicativo a seguir es el siguiente.

    1. Para cada grupo por separado, comprueba si los datos siguen una distribucin normal, por

    medio de un test de Kolmogorov-Smirnov.2. Comprueba la igualdad de variancias entre grupos, por medio de un test de Bartlett.3. Si se cumplen los requisitos de normalidad e igualdad de variancias compara las medias

    mediante un ANOVA (el test de la t no es aplicable a ms de dos grupos).(a) Si las diferencias entre grupos son significativas, utiliza un test a posteriori (hay muchos)

    para descubrir qu grupo o grupos son los responsables de dichas diferencias.

    4. Si los datos son normales, pero las variancias son heterogneas,

    (a) utiliza una transformacin de los datos (logartmica, raz cuadrada o inversa), compruebasi las variancias se vuelven homogneas y en caso afirmativo utiliza un ANOVA,

    (b) transforma los datos en forma de rangos y realiza el ANOVA sobre los mismos.5. Si los datos no son normales, pero las variancias son homogneas,

    (a) utiliza una transformacin de los datos (logartmica, raz cuadrada o inversa), comprueba si

    los datos son normales y en caso afirmativo utiliza un ANOVA. El ANOVA es robusto ante la

    falta de normalidad, pero si los datos no son normales conviene usar otro test,

    (b) utiliza un test de Kruskal-Wallis, que no es paramtrico. Este test requiere igualdad devariancias, por lo que no es aplicable al caso (4) ni al (6) (aunque al parecer es bastante

    robusto ante la heterogeneidad de variancias).

    (i) Si las diferencias entre grupos son significativas, utiliza un test a posteriori de Dunn-Sidk para descubrir qu grupo o grupos son los responsables de dichas diferencias.

    6. Si los datos no son normales ni las variancias son homogneas,

    (a) intenta una transformacin de los datos, como ya se ha dicho en los puntos previos,

    (b) transforma los datos en forma de rangos y realiza el ANOVA sobre los mismos.

  • - 25 -

    5. ASOCIACIN ENTRE VARIABLES: POR QU ES TIL

    Muchas cuestiones que se plantean en Ornitologa requieren establecer la existencia de

    relaciones entre dos o ms variables. Aumenta la densidad de aves de una especie al aumentar

    la cantidad de alimento disponible? Vara el xito de las polladas con la altitud a la que se

    encuentra el nido? Aumenta la mortalidad de una especie al disminuir la temperatura invernal?

    Una forma rpida de examinar esa asociacin entre variables consiste en representar una frentea otra mediante un diagrama de puntos y examinar visualmente si existe alguna tendencia de las

    variables a variar conjuntamente. Esa relacin puede ser positiva (al aumentar los valores de unavariable, aumentan tambin los de la otra, Fig. 6 A) o negativa (al aumentar los valores de unavariable, los de la otra disminuyen, Fig. 6 B).

    En una asociacin positiva, por ejemplo, una mentalidad determinista esperara que si

    aumenta el valor de la variable en el eje horizontal, o eje X, tambin debera aumentar el valor de

    la variable en el eje vertical, o eje Y (Fig. 6 D). Pero como a estas alturas ya habrs podido

    imaginar, la cosa no es tan fcil. De nuevo, la variacin presente en los datos puede hacer difcil

    descubrir o interpretar esas asociaciones. La representacin grfica puede producir simplemente

    una "nube de puntos" (Fig. 6 C) o revelar tendencias aproximadas (Fig. 6 A y B). En las

    situaciones ilustradas en las figuras 6 A, B y C, una mentalidad determinista no saldra de su

    asombro, pues valores cada vez mayores de la variable en el eje X van ligados a valores a veces

    mayores, pero a veces menores, de la variable en el eje Y. Es necesario tener una mentalidad

    probabilista para poder ver las tendencias ms o menos ocultas por la variacin.

    En el estudio de la asociacin entre variables, la Estadstica nos permite dos cosas:

    1) decidir si esa asociacin entre variables es o no "real", es decir, si se debe a causas

    tales como errores de medida, variaciones derivadas de la medida de individuos diferentes de una

    misma poblacin, uso de muestras, etc., o se debe a una relacin biolgicamente relevante entre

    las variables. Esto se consigue mediante la asignacin de un valor de probabilidad para la

    asociacin encontrada,

    2) asignar una "fuerza" o un "grado" a la asociacin encontrada. Esto es interesante

    porque, adems de saber si la asociacin existe, conviene saber en qu punto del contnuo entre

    las situaciones representadas en la Fig. 6 C y D se encuentra. El grado de asociacin se expresa

    mediante un coeficiente, que vara entre -1 (relacin negativa perfecta) y 1 (relacin positivaperfecta). Un valor del coeficiente de 0 indica que no existe ningn tipo de asociacin.

  • - 26 -

    Fig. 6. Cuatro ejemplos de asociacin entre variables: A) positiva, B) negativa, C) ausente ("nubede puntos") y D) perfecta (positiva).

  • - 27 -

    5. ASOCIACIN ENTRE VARIABLES: CORRELACIN Y REGRESIN

    La asociacin entre dos variables mensurables u ordinales puede estudiarse por dos

    procedimientos: correlacin o regresin. Es muy importante tener clara la diferencia entre ambos,

    porque aunque comparten algunos de los mtodos estadsticos de clculo y tienen

    representaciones grficas casi idnticas, su significado biolgico es completamente diferente.

    La correlacin te dice si existe una asociacin real (significativa) entre dos variables ymide el grado de asociacin utilizando el coeficiente de correlacin (r) que, como ya sabes,vara entre -1 y +1. La correlacin NO implica que la variacin en una variable sea la causa de lavariacin en la otra. Por ejemplo, si mides la longitud del ala y la longitud del tarso en una especie

    cualquiera de ave, encontrars que ambas estn asociadas positivamente: individuos con mayor

    longitud del tarso tendrn generalmente alas de mayor longitud. Pero eso no significa que la

    variacin en la longitud del tarso provoque la variacin en la longitud del ala ni viceversa. Eso se

    comprueba fcilmente si piensas que cortar el ala de un ave no causar ninguna variacin en la

    longitud de su tarso. En realidad, ambas variables son expresin de algo ms general, el tamao

    del ave, que causa las variaciones conjuntas en ambas variables. En la correlacin, el diagrama

    de puntos puede hacerse indistintamente con cualquiera de las variables en el eje X.

    En cambio, la regresin se utiliza cuando te interesa predecir los valores de una variableen funcin de los valores de otra variable relacionada con ella. Se considera la variable cuyo valor

    se quiere predecir como dependiente y la variable que se quiere usar para predecirla sedenomina independiente. La representacin grfica siempre sita la variable independiente en eleje X y la variable dependiente en el eje Y, y ese orden no puede invertirse. La asociacin entre

    variable dependiente e independiente puede ser autnticamente causal (p. ej., entre tasa de ceba

    y crecimiento de los pollos) o simplemente funcional (p. ej. entre envergadura alar y peso). En

    este caso tambin se obtiene un coeficiente r, que mide la fuerza de la asociacin. Adems se

    obtienen otros dos ndices que indican la relacin funcional entre las dos variables. El primero es

    el coeficiente de determinacin (R2) y mide la cantidad de variacin en la variable dependienteque es explicada por la variacin en la variable independiente. Est comprendido entre 0 (no

    explica ninguna variacin) y 1 (la explica toda). El segundo es la recta de regresin, que es unaecuacin gracias a la cul puede saberse, dado un valor de la variable independiente, el valor

    correspondiente de la variable dependiente. La representacin grfica de una regresin suele

    incluir esa recta de regresin, que nunca debes emplear cuando haces una correlacin.Tanto en la correlacin como en la regresin, es posible relacionar simplemente dos

    variables, o muchas ms simultneamente. En este ltimo caso se habla de correlacin oregresin mltiple. En la regresin mltiple, existe una sola variable dependiente y lo que seexamina es la variacin presente en la misma que explican las diversas variables independientes.

  • - 28 -

    5. ASOCIACIN ENTRE VARIABLES: TESTS PARAMTRICOS Y NO PARAMTRICOS

    Como en los tests de hiptesis, el uso de la correlacin y la regresin depende del cumplimiento

    de una serie de requisitos, cuyas violaciones tienen consecuencias diversas. Al ser un aspecto

    ms complejo del estudio de la asociacin entre variables, se tratar aqu de modo muy preliminar

    y sin dar todas las explicaciones necesarias, que seran demasiado largas y tcnicas. No

    obstante, debe ser mencionado para no dar una falsa impresin de que los tests pueden usarse

    en cualquier circunstancia. Al contrario, adems del tipo de variables y de datos, el ajuste a los

    requisitos es una parte fundamental en la eleccin del test adecuado.

    Los requisitos necesarios para poder realizar un anlisis de regresin paramtrico son: a)

    las medidas son independientes, b) la relacin entre las variables es linear, no curvilinea, c) los

    valores de la variable independiente son fijados por el observador, d) la variable independiente se

    mide sin error y e) la variacin en la variable dependiente es similar en todo el rango de valores de

    la variable independiente. Los requisitos (a) y (c) se cumplirn si la toma de datos en el campo ha

    sido planificada de modo correcto. Las condiciones (b) y (e) pueden contrastarse examinando los

    residuos de la regresin, es decir, la diferencia entre los valores observados de la variable

    dependiente y los predichos de acuerdo con la recta de regresin. Si la condicin (b) no se

    cumple, es posible transformar los datos para hacer que la relacin se convierta en linear. Si las

    condiciones (c), (d) y (e) no se cumplen, puede utilizarse un modelo II de regresin. Violaciones

    del resto de los supuestos hacen imposible el anlisis. Existe un mtodo no paramtrico de

    regresin, el mtodo robusto de Kendall de ajuste de rectas, pero no es muy utilizado.

    Los requisitos necesarios para poder realizar un anlisis de correlacin paramtrico son: a)

    la relacin entre las variables es linear, y b) ambas variables siguen una distribucin normal. La

    normalidad de las variables se comprueba mediante un test de Kolmogorov-Smirnov, como se

    explic para los tests de hiptesis. Puede recurrirse a la transformacin de las variables, si se

    viola el supuesto (a). En el resto de los casos, lo mejor es recurrir a un test no paramtrico.

    El mtodo de correlacin no paramtrico ms habitual es el coeficiente de correlacin deSpearman (rs). Este mtodo simplemente evala si los valores de la variable dependienteaumentan o disminuyen con cambios en la variable independiente. Puede usarse como sustituto

    del anlisis de regresin paramtrico, pero no proporciona ninguna ecuacin para predecir los

    valores de la variable dependiente. Puede usarse no slo para variables mensurables sino

    tambin para variables ordinales.

    La correlacin de Kendall es tambin un mtodo no paramtrico de correlacin. Puedeutilizarse para examinar la asociacin entre dos variables, mensurables u ordinales. Pero, a

    diferencia de la correlacin de Spearman, permite el examen no paramtrico de la correlacin

    entre ms de dos variables.

  • - 29 -

    5. ASOCIACIN ENTRE VARIABLES: TABLAS DE CONTINGENCIA

    Las tablas de contingencia se utilizan para medir la asociacin entre dos atributos. Cumplen unpapel anlogo a las otras medidas de asociacin entre variables (correlacin y regresin) pero

    tambin sirven como contraste de hiptesis, dado que en las variables medidas como atributos

    ambos tipos de anlisis no se diferencian claramente.

    El nombre de "tablas" deriva del tipo de representacin que suele hacerse para el anlisis.

    Se construye una tabla con tantas filas como niveles tiene una de las variables y tantas columnas

    como niveles toma la otra variable. En el ejemplo de la Fig. 7 cada variable tiene slo dos niveles,

    pero eso no es obligatorio; se habla de tablas 2 X 2 si cada variable tiene dos niveles, de tablas 2

    X 4 si una tiene dos niveles y la otra cuatro o, en general, de tablas n X m. En cada casilla de la

    tabla se escribe la frecuencia observada de individuos dentro de cada combinacin de niveles. El

    anlisis consiste en averiguar si el reparto de los individuos en las diferentes casillas sigue algn

    patrn o es simplemente debido al azar (Fig. 7 A y B). Habr una asociacin entre variables si

    determinadas combinaciones de las mismas aparecen con una frecuencia estadsticamente mayor

    que otras. Se obtiene un valor de significacin para la asociacin por medio de un test Chi-

    cuadrado (2) o un test de la G. Tambin es posible calcular la "fuerza" de la misma, mediante elcoeficiente de Cramr (C) o el coeficiente Phi de asociacin (r) (slo en tablas 2 X 2). Estoscoeficientes varan entre 0 (ninguna asociacin) y 1 (asociacin perfecta).

    Como en la correlacin y la regresin, es posible examinar la asociacin entre ms de dos

    variables simultneamente, mediante el uso de tablas multidimensionales y el uso de modelosloglineares.

    Fig. 7. Ejemplo de asociacin entre dos atributos para los que se han medido 20 valores: A)asociacin perfecta (todos los a son 2 y todos los b son 1), B) asociacin inexistente (los a son 1

    2 con idntica frecuencia, y lo mismo sucede con los b).

  • - 30 -

    5. ASOCIACIN ENTRE VARIABLES: GUA DE UTILIZACIN

    A continuacin se resumen los pasos a seguir para el estudio de la asociacin entre variables.

    1. Asegrate de que lo que te interesa es la asociacin entre variables y no un test de hiptesis.

    2. Si las variables son mensurables, ordinales o una combinacin de estos tipos:

    (a) decide si te interesa la asociacin (correlacin) o la relacin funcional (regresin),

    (b) comprueba los supuestos necesarios (independencia, normalidad: test de Kolmogorov-

    Smirnov, linearidad de la relacin y variacin homognea de la variable Y en todos los valores

    de la variable X: examen de los residuos),

    (c) decide el test a utilizar en funcin del nmero de variables y del cumplimiento de los

    supuestos.

    Supuestosparamtricos Correlacin Regresin

    Dos variables Dos variables

    Se cumplen Coeficiente de correlacin de Pearson Coeficiente de determinacin

    No se cumplen Coeficiente de correlacin de Spearman

    Correlacin de Kendall

    Regresin modelo II

    Mtodo robusto de Kendall de

    ajuste de rectas

    Utiliza correlacin no paramtrica

    Ms de dos variables Ms de dos variables

    Se cumplen Correlacin mltiple o parcial Regresin mltiple

    No se cumplen Correlacin parcial de Kendall No existe ningn test

    3. Si las variables son atributos o una combinacin de atributos y variables ordinales:

    (a) no deben existir casillas vacas (si existen, agrupa niveles hasta evitarlo, o emplea un test

    exacto de Fisher para tablas 2 x 2),

    (b) no deben existir frecuencias esperadas menores que 5 en ms del 20% de las casillas,

    (c) si tienes dos variables y es una tabla 2 X 2,

    (i) tienes al menos 25 datos: utiliza un test 2 o, preferentemente, un test de la G, entre 25 y 200 datos, emplea la correccin para continuidad, ms de 200 datos, no es necesaria la correccin para continuidad,

    (ii) tienes menos de 25 datos: utiliza un test exacto de Fisher,

    (b) tienes dos variables y es una tabla 2 X m o n X m: test 2 o, preferentemente, test de la G,(c) utiliza modelos loglineares para el caso de ms de dos variables.

  • - 31 -

    6. ESTADSTICA Y ORDENADORES

    Aunque algunos de los mtodos estadsticos pueden hacerse fcilmente a mano, en muchos

    casos la Estadstica requiere el uso de ordenadores y de programas especiales. Esos programas

    son de dos tipos, bsicamente. En primer lugar se necesita una hoja de clculo en la que

    introducir los datos. Las hojas de clculo son un anlogo informtico de una libreta de campo;

    permiten almacenar los datos en un forma de filas y columnas, donde las columnas indican las

    variables y las filas indican las observaciones o unidades de estudio. Las hojas de clculo ms

    utilizadas son Excel de Microsoft y Lotus 1-2-3 de Lotus, para ordenadores que trabajan en

    entorno Windows. Existen programas similares para ordenadores de entorno MacIntosh. Con

    estas hojas de clculo puede realizarse estadstica descriptiva (tablas, grficas, medias,

    desviaciones tpicas, etc.), algunos test de hiptesis sencillos y medidas de asociacin entre

    variables.

    El segundo tipo de programas que se necesita son programas estadsticos especializados.

    En muchos casos las hojas de clculo se quedan cortas en sus posibilidades de anlisis

    estadstico. Los programas estadsticos especializados incluyen muchas ms opciones y tipos de

    tests y permiten resolver prcticamente cualquier problema estadstico que uno pueda plantearse.

    Los programas estadsticos suelen tener una opcin para introducir los datos, a modo de hoja de

    clculo. Tambin ofrecen posibilidades de representacin grfica. Y adems cuentan con toda una

    gama de tests estadsticos para contraste de hiptesis y medidas de asociacin entre variables.

    Existen numerosos programas; quiz los ms populares son: SPSS-PC, SAS, Minitab, Statistica y

    Statgraphics.

  • - 32 -

    7. MS ALL DE ESTE MANUAL: AUTOAPRENDIZAJE DE LA ESTADSTICA

    Este manual no es una panacea, es simplemente una introduccin. Para comprender yaprender realmente la Estadstica se requiere un esfuerzo adicional; hay que estudiarla. Y eso

    supone irse a los libros y leer atentamente la base y el procedimiento para realizar cada test. En la

    seccin siguiente viene una seleccin de libros sobre Estadstica. Dentro del apartado Manuales

    generales incluyo una puntuacin de los libros en funcin de su sencillez (* sencillo, ** nivel

    medio, *** complicado). No he puntuado los libros de los que tengo poco conocimiento.

    Personalmente, recomiendo pasar rpidamente de los libros de nivel * a los de nivel ** y consultar

    slo para casos concretos los de nivel ***.

    Mi recomendacin personal es utilizar Fowler & Cohen (1995) o su versin en castellano

    para hacerse una idea inicial sobre las posibilidades de la Estadstica, y complementar dicho libro

    con Dytham (1999), que proporciona una gua muy completa y sencilla (aunque en ingls) sobre

    cmo elegir los tests estadsticos. Adems, Dytham (1999) proporciona instrucciones sobre cmo

    realizar los tests estadsticos utilizando algunas de las hojas de clculo y programas estadsticos

    ms comunes. Una vez que uno tiene una base estadstica media, lo mejor es utilizar manuales

    como Sokal & Rohlf (1994) o Zar (1999). Estos dos manuales permiten afrontar el 99% de los

    anlisis estadsticos que uno necesita. Adems, recomiendo especialmente Quinn & Keough

    (2002); pareca imposible escribir un libro ms sobre estadstica que no repitiese simplemente lo

    ya dicho, pero Quinn & Keough no solo lo logran sino que adems alcanzan un nivel pedaggico

    altsimo. Slo en casos puntuales uno necesitar consultar bibliografa especializada o artculos

    concretos.

    Subrayo la necesidad de estudiar la Estadstica. Cuando uno se enfrenta a la situacin de

    tener que aprender un nuevo test, debe leer cuidadosamente el captulo correspondiente conlpiz y papel para tomar las notas necesarias. Es la nica manera de dominar la base de dichotest. Eso requiere cierto esfuerzo, pero no est fuera del alcance de nadie.

    Cursos de Estadstica en Internet!Las ciencias adelantan que es una barbaridad. Ahora puedes encontrar en Internet cursillos introductorios

    sobre Estadstica. Recomiendo visitar la siguiente direccin, que incluye una serie de cursillos:

    http://colargol.ibg.uit.no/biologi/botanikk/lennart/bot-frame.htm

    Finalmente, una nota de advertencia... aquellos que os escudais en la falta de bibliografa en

    castellano para no iros a los libros de estadstica cada vez lo teneis ms chungo; ya he visto hasta

    una "Estadstica en cmic", en castellano (aunque la verdad es que no pareca muy buena).

  • - 33 -

    8. BIBLIOGRAFA RECOMENDADA

    No tengo todos los libros, pero s los artculos que menciono en la bibliografa. Si no puedes

    conseguirlos, mndame un mensaje por correo electrnico:

    [email protected]

    Tambin puedes escribirme para sealarme errores o sugerirme mejoras a este manual.

    Manuales generalesDytham, C. (1999). Choosing and using statistics. A biologists guide. Blackwell Science, Oxford. 218 pp. (*)

    Fowler, J.; Cohen, L. (1991). Practical statistics for field biology. Wiley, Nueva York. 224 pp. (*)

    Fowler, J.; Cohen, L. (1995). Statistics for ornithologists. 2 ed. BTO, Londres. 176 pp. (*) (Traduccin

    espaola)

    Mead, R.; Curnow, R. N. (1983). Statistical methods in agriculture and experimental biology. Chapman &

    Hall, Londres. 335 pp.

    Quinn, G. P.; Keough, M. J. (2002). Experimental design and data analysis for biologists. Cambridge

    University Pres, Cambridge. 537 pp. (**)

    Scheiner, S. M.; Gurevitch, J. (eds.) (1993). Design and analysis of ecological experiments. Chapman &

    Hall, Nueva York. 445 pp. (**)

    Snedecor, G. W.; Cochran, W. G. (1980). Statistical methods. 7 ed. Iowa State University Press, Ames, IO.

    507 pp. (Traduccin espaola de la 1 ed.: [1971] Mtodos estadsticos. 3 reimpresin. C.E.C.S.A.,Mxico. 703 pp.)

    Sokal, R. R.; Rohlf, F. J. (1994). Biometry: The principles and practice of statistics in biological research. 3

    ed. W. H. Freeman & co., Nueva York. 887 pp. (Traduccin espaola de la 1 ed.: [1979] Biometra.Principios y mtodos estadsticos en la investigacin biolgica. H. Blume, Madrid. 832 pp.) (**)

    Underwood, J. A. (1981). Techniques of analysis of variance in experimental marine biology and ecology.

    Oceanogr. Mar. Biol. Ann. Rev. 19: 513-605. (*)

    Underwood, A. J. (1997). Experiments in ecology. Their logical design and interpretation using analysis of

    variance. Cambridge University Press, Cambridge. 504 pp. (**)

    Winer, B. J. (1971). Statistical principles in experimental design. 2 ed. McGraw-Hill, Nueva York. 907 pp.

    (***)

    Zar, J. H. (1999). Biostatistical analysis. 4 ed. Prentice-Hall, Englewood Cliffs. 929 pp. (**)

    Estadstica no paramtricaFienberg, S. E. (1970). The analysis of multidimensional contingency tables. Ecology 51: 419-433.

    Ruz-Maya Prez, L. (coord.) (1990). Metodologa estadstica para el anlisis de datos cualitativos. CIS,

    Madrid. 382 pp. (**)

    Siegel, S.; Castellan, N. J. Jr (1988). Nonparametric statistics for the behavioral sciences. 2 ed. McGraw-

    Hill, Nueva York. 399 pp. (**)

    Vepslinen, K.; Savolainen, R.; Penttinen, A. (1988). Causal reasoning in modelling multiway contingency

    tables. Oikos 53: 281-285.

  • - 34 -

    Mtodos avanzadosDay, R. W.; Quinn, G. P. (1989). Comparisons of treatments after an analysis of variance in ecology.

    Ecological Monographs 59: 433-463.

    Jackson, D. A.; Somers, K. M. (1991). The spectre of spurious correlations. Oecologia 86: 147-151.

    Matson, P.; Potvin, C.; Travis, J. (eds.) (1993). Statistical methods: an upgrade for ecologists. Ecology 74:

    1615-1676.

    McArdle, B. H. (1988). The structural relationship: regression in biology. Canadian Journal of Zoology 66:

    2329-2339.

    Mitchell, R. J. (1992). Testing evolutionary and ecological hypotheses using path analysis and structural

    equation modelling. Functional Ecology 6: 123-129.

    Parkhurst, D. F. (2002). Statistical significance tests: equivalence and reverse tests should reduce

    misinterpretation. BioScience 51: 1051-1057.

    Rice, W. R. (1989). Analyzing tables of statistical tests. Evolution 43: 223-225.

    Rice, W. R.; Gaines, S. D. (1994). 'Heads I win, tails you lose': testing directional alternative hypotheses in

    ecological and evolutionary research. Trends in Ecology and Evolution. 9: 235-237.

    Seaman, J. W. Jr; Walls, S. C.; Wise, S. E.; Jaeger, R. G. (1994). Caveat emptor: rank transform metods

    and interaction. Trends in Ecology and Evolution 9: 261-263.

    Tufte, E. R. (1990). Data-ink maximization and graphical design. Oikos 58: 130-144.

    Estadstica multivariableBisquerra Alzina, R. (1989). Introduccin conceptual al anlisis multivariable. Un enfoque informtico con los

    paquetes SPSS-X, BMDP, LISREL y SPAD. 2 Vol. PPU, Barcelona. 808 pp.