estadística espacial y temporal* carlos reynoso universidad de buenos aires * introducción al...

Post on 25-Jan-2016

223 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Estadística espacial y Estadística espacial y temporal*temporal*

Carlos ReynosoCarlos ReynosoUNIVERSIDAD DE BUENOS AIRESUNIVERSIDAD DE BUENOS AIRES

http://carlosreynoso.com.arhttp://carlosreynoso.com.ar

* Introducción al curso y desarrollo del Módulo 1* Introducción al curso y desarrollo del Módulo 1

ObjetivosObjetivos

• Proporcionar comprensión básica de las Proporcionar comprensión básica de las herramientas estadísticas convencionales del herramientas estadísticas convencionales del espacio y el tiempo, y en particular de sus espacio y el tiempo, y en particular de sus alcances y limitaciones.alcances y limitaciones.

• Concientizar sobre la problematicidad inherente Concientizar sobre la problematicidad inherente a herramientas que proporcionan (por definición) a herramientas que proporcionan (por definición) información sesgada y estática, ligada a información sesgada y estática, ligada a supuestos de normalidad, homogeneidad y supuestos de normalidad, homogeneidad y monotonía.monotonía.

• Informar sobre formas alternativas de elaborar Informar sobre formas alternativas de elaborar conocimiento y permitir la intervención en conocimiento y permitir la intervención en asuntos temporales y espaciales.asuntos temporales y espaciales.

Módulo 1 – Estadísticas Módulo 1 – Estadísticas convencionalesconvencionales

• Argumentos, conceptos y límites de las estadísticas Argumentos, conceptos y límites de las estadísticas convencionales. Problemas fundamentales: convencionales. Problemas fundamentales: distribuciones normales distribuciones normales vsvs Ley de Potencia. Ley de Potencia.

• Dilemas de la prueba estadística de la hipótesis nula. Dilemas de la prueba estadística de la hipótesis nula. Justificación del modelado complejo como alternativa y Justificación del modelado complejo como alternativa y complemento del modelado estadístico clásicos. complemento del modelado estadístico clásicos.

• Demarcación: ciencias de la complejidad Demarcación: ciencias de la complejidad vsvs pensamiento complejo. pensamiento complejo.

• Principales algoritmos de la complejidad. Herramientas Principales algoritmos de la complejidad. Herramientas de estado de arte y su uso en proyectos de misión de estado de arte y su uso en proyectos de misión crítica a escala real.crítica a escala real.

Módulo 2 – Estadísticas temporalesMódulo 2 – Estadísticas temporales

• Estadísticas de la temporalidad. Dinámica no lineal y Estadísticas de la temporalidad. Dinámica no lineal y series temporales complejas en ciencias humanas. series temporales complejas en ciencias humanas. Modelos espaciales/temporales en geografía humana. Modelos espaciales/temporales en geografía humana. Modelos de cambio y transiciones de fase. Criticalidad Modelos de cambio y transiciones de fase. Criticalidad auto-organizada. Modelado complejo de procesos auto-organizada. Modelado complejo de procesos temporales: sincronización y control de caos. temporales: sincronización y control de caos. Significación y etiología de las medidas de análisis de Significación y etiología de las medidas de análisis de recurrencia. Estado del arte y perspectivas. Ejercicios recurrencia. Estado del arte y perspectivas. Ejercicios de análisis y diagnosis de series temporales con análisis de análisis y diagnosis de series temporales con análisis de recurrencia. Ejercicios de dinámica no lineal aplicada de recurrencia. Ejercicios de dinámica no lineal aplicada a la hidrodinámica, modelado hidrológico y a la hidrodinámica, modelado hidrológico y problemáticas análogas.problemáticas análogas.

Módulo 3 – Estadísticas de la Módulo 3 – Estadísticas de la espacialidadespacialidad

• Geoestadística clásica y geoestadística de Geoestadística clásica y geoestadística de la complejidad. Conceptos fundamentales la complejidad. Conceptos fundamentales y programas de cálculo y modelado. y programas de cálculo y modelado. Problemas y alcances del modelado a Problemas y alcances del modelado a escala regional. Ejercicios de escala regional. Ejercicios de contrastación entre análisis clásicos y contrastación entre análisis clásicos y complejos. complejos.

Módulo 4 – Estadísticas reticularesMódulo 4 – Estadísticas reticulares

• Estadísticas reticulares de la sociedad, el Estadísticas reticulares de la sociedad, el espacio y el tiempo. Redes sociales y espacio y el tiempo. Redes sociales y redes espaciales. Alcances y limitaciones redes espaciales. Alcances y limitaciones de la estadística reticular basada en de la estadística reticular basada en presunciones de normalidad. Práctica presunciones de normalidad. Práctica razonada en análisis, medición y razonada en análisis, medición y estadísticas reticulares.estadísticas reticulares.

Agenda de la presentaciónAgenda de la presentación

• Tipificación de modelosTipificación de modelos• Modelos estadísticos en la teoría y en la prácticaModelos estadísticos en la teoría y en la práctica• La estadística como herramienta de la retóricaLa estadística como herramienta de la retórica

– Falacias, paradojas y técnicas de prevaricación Falacias, paradojas y técnicas de prevaricación

• Dilemas de la prueba estadística de la hipótesis Dilemas de la prueba estadística de la hipótesis nulanula

• Estadísticas robustas y no paramétricasEstadísticas robustas y no paramétricas• Complejidad estadística como proyecto en Complejidad estadística como proyecto en

construcción construcción

Secuencia del desarrollo Secuencia del desarrollo estadísticoestadístico

• Estadísticas convencionalesEstadísticas convencionales– Estadísticas descriptivasEstadísticas descriptivas– Inferencia estadística y proyecciónInferencia estadística y proyección– Reconocimiento de patronesReconocimiento de patrones– Prueba estadística de la hipótesis nulaPrueba estadística de la hipótesis nula– Doble inflexión: frecuentista y bayesianaDoble inflexión: frecuentista y bayesiana– Estadísticas robustas – estadísticas no paramétricasEstadísticas robustas – estadísticas no paramétricas

• Geoestadísticas (1960s, G. Matheron)Geoestadísticas (1960s, G. Matheron)• Geocomputación (1990s)Geocomputación (1990s)

Tipificación de modelosTipificación de modelos

EstadísticasEstadísticas

• Estadísticas en generalEstadísticas en general– Presunciones de normalidadPresunciones de normalidad– No robustas, paramétricasNo robustas, paramétricas

• Estadísticas espacialesEstadísticas espaciales– Presunciones de homogeneidad Presunciones de homogeneidad

• Estadísticas temporalesEstadísticas temporales– Presunciones de monotoníaPresunciones de monotonía

• Análisis de series temporalesAnálisis de series temporales• Series temporales no linealesSeries temporales no lineales

– Presentación separadaPresentación separada

• Transiciones de faseTransiciones de fase– Presentación separadaPresentación separada

Estadísticas – Demasiadas cosasEstadísticas – Demasiadas cosas

• Conceptos y técnicas de muestreoConceptos y técnicas de muestreo• Estadísticas descriptivasEstadísticas descriptivas

– Medidas de tendencia centralMedidas de tendencia central– Teoremas del límite central (TLC / CLT)Teoremas del límite central (TLC / CLT)

• ProbabilidadProbabilidad– Distribuciones de probabilidad (PDF)Distribuciones de probabilidad (PDF)– Multiplicidad de distribucionesMultiplicidad de distribuciones

• Regresión lineal simple y múltipleRegresión lineal simple y múltiple• Análisis de frecuencia acumulativa, intervalos de Análisis de frecuencia acumulativa, intervalos de

confianzaconfianza• Descubrimiento de patronesDescubrimiento de patrones

– Patrones espaciales, atractores, minería de datos, minería de Patrones espaciales, atractores, minería de datos, minería de WebWeb

Introducción a la estadísticaIntroducción a la estadística

Distribución normalDistribución normal• Cerca del 68% del conjunto se encuentra a 1 Cerca del 68% del conjunto se encuentra a 1

desviación estándar de la media, 95 a 2 y 99,7 a 3desviación estándar de la media, 95 a 2 y 99,7 a 3– Las desviaciones que excedan 2 veces la DE se Las desviaciones que excedan 2 veces la DE se

considerarán significativasconsiderarán significativas

• Regla de 68-95-99,7Regla de 68-95-99,7• Mal llamada “curva de Bell”Mal llamada “curva de Bell”

Distribución normalDistribución normal

• Igual que el resto de las estadísticas, no es una Igual que el resto de las estadísticas, no es una matemática antiguamatemática antigua

• Se remonta a Friedrich Gauss y por eso se la Se remonta a Friedrich Gauss y por eso se la llama gaussianallama gaussiana

• Exaltada por el antropólogo Francis Galton:Exaltada por el antropólogo Francis Galton:

Distribución normalDistribución normal• Consolidada en ciencias sociales por Émile Consolidada en ciencias sociales por Émile

Durkheim:Durkheim:– Sociología: Ciencia para distinguir los estados Sociología: Ciencia para distinguir los estados

normales de los estados patológicosnormales de los estados patológicos• Anomia = falta de normalidadAnomia = falta de normalidad• Crimen = una “desviación”Crimen = una “desviación”• Suicidio = varía en función inversa al grado de integración en Suicidio = varía en función inversa al grado de integración en

la pauta normalla pauta normal

Distribución normalDistribución normal

• Exaltada por Karl Marx, también basado Exaltada por Karl Marx, también basado en Adolphe Quételet:en Adolphe Quételet:

Estaturas “normales”Estaturas “normales”

• Datos de Nassim Taleb:Datos de Nassim Taleb:

Mandelbrot & HudsonMandelbrot & Hudson

Necesidad de poner estadísticas Necesidad de poner estadísticas en contextoen contexto

• Muestreo como necesidad técnica

• Transfiguración de una muestra probablemente sesgada en una “muestra representativa”

• Tener en cuenta la crítica de Kruskal

• Técnicas construidas a mano

Estadística no computacionalEstadística no computacional

• Johan Wakefield, Johan Wakefield, Bayesian and frequentist regression Bayesian and frequentist regression methodsmethods, Springer, 2013, p. viii:, Springer, 2013, p. viii:

• Las limitaciones de la estadística lineal se confunden Las limitaciones de la estadística lineal se confunden con las posibilidades de la estadística en generalcon las posibilidades de la estadística en general

Fundamentación normal de la NHSTFundamentación normal de la NHST

• Requisito de muestreo aleatorioRequisito de muestreo aleatorio

• ¿De dónde viene el 5%?¿De dónde viene el 5%?

Fundamentación normal de la NHSTFundamentación normal de la NHST

Parámetros no robustosParámetros no robustos

http://www.lanacion.com.ar/1595121-cuales-son-los-10-paises-mas-pacificos-del-mundo

Modelos de contraste de atributosModelos de contraste de atributos

• Amos Tversky (1977)– Hallazgo importante:– El contexto o marco de referencia modifica la similitud entre

los conceptos.– Este es el truco de muchas encuestas de predicción

electoral.– Cuando vayan a elaborar una encuesta, ya saben.– Ejemplo de comparación: ¿Qué países son más parecidos?

AUSTRIA

Suecia 49% Polonia 15% Hungría 36%

AUSTRIA

Suecia 14% Noruega 26% Hungría 60%

Teorema de ArrowTeorema de Arrowhttp://www.infobae.com/notas/718454-Buenos-Aires-entre-las-10-mas-felices-del-mundo.html

Teorema de ArrowTeorema de Arrow

http://www.infobae.com/notas/718454-Buenos-Aires-entre-las-10-mas-felices-del-mundo.html

Teorema de ArrowTeorema de Arrow

http://www.infobae.com/notas/718454-Buenos-Aires-entre-las-10-mas-felices-del-mundo.html

Teorema de ArrowTeorema de Arrowhttp://en.wikipedia.org/wiki/Arrow%27s_impossibility_theorem

Más todavía• http://www.timeout.com/london/worldculturereport

Y continúa…Y continúa…

Y continúa…Y continúa…

No hay diferencia…No hay diferencia…• http://www.nytimes.com/2014/02/12/health/study-adds-new-doubts-

about-value-of-mammograms.html?hp&_r=0

Usos perversos de la NHST• http://www.improbable.com/about/

Premios Nobel Ig®• http://www.improbable.com/ig/winners/

http://prefrontal.org/files/posters/Bennett-Salmon-2009.pdf

Ley de potenciaLey de potencia• Independiente de escala = No hay valores normales, Independiente de escala = No hay valores normales,

ni una media, ni una escala característicani una media, ni una escala característica• La dispersión de los valores puede ser de orden La dispersión de los valores puede ser de orden

astronómicoastronómico

Escenarios independientes de escalaEscenarios independientes de escala

• Leyes de Pareto, Gutenberg-Richter, Omori, Zipf, RichardsonLeyes de Pareto, Gutenberg-Richter, Omori, Zipf, Richardson• Citas bibliográficas entre miembros de la comunidad académica, Citas bibliográficas entre miembros de la comunidad académica,

colaboraciones en reportes de investigacióncolaboraciones en reportes de investigación• Relaciones sexuales (!!), agendas telefónicasRelaciones sexuales (!!), agendas telefónicas• Nexos sintácticos entre palabras en un texto o discursoNexos sintácticos entre palabras en un texto o discurso• Clientelismo, influenciaClientelismo, influencia• Alianzas tecnológicasAlianzas tecnológicas• Relaciones entre actores de cineRelaciones entre actores de cine• Sinapsis neuronalesSinapsis neuronales• Contactos entre personas de una organizaciónContactos entre personas de una organización• Cadenas alimentariasCadenas alimentarias• Conexiones entre organismos vinculados al metabolismo o Conexiones entre organismos vinculados al metabolismo o

proteínas reguladorasproteínas reguladoras• Propagación de enfermedades y virus informáticosPropagación de enfermedades y virus informáticos• Alternativa al concepto de epidemiología de las representaciones Alternativa al concepto de epidemiología de las representaciones

(Dan Sperber)(Dan Sperber)

Diversidad de distribucionesDiversidad de distribuciones

• Benford, Benini, Benktander, Bernoulli, beta, binomial, Benford, Benini, Benktander, Bernoulli, beta, binomial, binomial negativa, de Bose-Einstein, Bradford, Bull, Burr, binomial negativa, de Bose-Einstein, Bradford, Bull, Burr, Cantor, Cauchy (o Breit-Wigner, o Lorentz), Cantor, Cauchy (o Breit-Wigner, o Lorentz), Champernowne, Chernoff, chi cuadrado, de Davis, Champernowne, Chernoff, chi cuadrado, de Davis, Dirichlet, doble gamma, doble Weibull, de Erlang, Dirichlet, doble gamma, doble Weibull, de Erlang, exponencial, geométrica, de Gauss, Gibrat, Gompertz, exponencial, geométrica, de Gauss, Gibrat, Gompertz, gamma, Heaps, hiper exponencial, hiper geométrica, de gamma, Heaps, hiper exponencial, hiper geométrica, de Horton, Kleiber, Kumaraswamy, Laplace, Lévy, Horton, Kleiber, Kumaraswamy, Laplace, Lévy, logarítmica, logística, log normal, Lotka, de Moyal, logarítmica, logística, log normal, Lotka, de Moyal, multinormal, de Nakagami, Pareto, Poisson, Pólya, multinormal, de Nakagami, Pareto, Poisson, Pólya, Rademacher, Rayleigh, Rice, secante hiperbólica, de Rademacher, Rayleigh, Rice, secante hiperbólica, de Wigner o semi circular, Skellam, de Student, triangular, Wigner o semi circular, Skellam, de Student, triangular, uniforme, de von Misses, Wald, Wallenius, Yule-Simon, uniforme, de von Misses, Wald, Wallenius, Yule-Simon, zeta, los tres tipos de valor extremo (Gumbel, Fréchet, zeta, los tres tipos de valor extremo (Gumbel, Fréchet, Weibull) y por supuesto la distribución de Zipf, Weibull) y por supuesto la distribución de Zipf, Zipf/Mandelbrot o LP Zipf/Mandelbrot o LP

• Casi no hay tests de no-normalidadCasi no hay tests de no-normalidad

Abundante bibliografíaAbundante bibliografía

Ejemplo – Distribución logística (1/2)Ejemplo – Distribución logística (1/2)

• Promovida por Joseph Berkson (1938)Promovida por Joseph Berkson (1938)• Afirmaba que el cigarrillo no causaba cáncer de pulmónAfirmaba que el cigarrillo no causaba cáncer de pulmón• Distribución simétrica pero de cola pesadaDistribución simétrica pero de cola pesada• Biología/ecología – Crecimiento de especies en Biología/ecología – Crecimiento de especies en

competenciacompetencia• Epidemiología – Dispersión [Epidemiología – Dispersión [spreadingspreading] de epidemias] de epidemias• Mercadeo – Difusión de ventas de nuevos productosMercadeo – Difusión de ventas de nuevos productos• Energía – Difusión y sustitución de fuentes energéticas Energía – Difusión y sustitución de fuentes energéticas

primarias (curva de Hubbert)primarias (curva de Hubbert)• Hidrología – Distribución de descargas de ríos (o Hidrología – Distribución de descargas de ríos (o

régimen de lluvias) en el largo plazorégimen de lluvias) en el largo plazo

Ejemplo – Distribución logística (2/2)Ejemplo – Distribución logística (2/2)

Dilemas de la estadísticaDilemas de la estadísticaen generalen general

Dilemas de la estadística en Dilemas de la estadística en generalgeneral

• Falta de fundamentación lógica y matemáticaFalta de fundamentación lógica y matemática• Problemas específicos de dominioProblemas específicos de dominio• Diferentes lógicas en lo espacial y temporalDiferentes lógicas en lo espacial y temporal• AutocorrelaciónAutocorrelación• Falta de robustezFalta de robustez• Teorema de ArrowTeorema de Arrow• Ley de Weber-Fechner-Stevens (conocida por Bateson)Ley de Weber-Fechner-Stevens (conocida por Bateson)• Nelson GoodmanNelson Goodman

– Similitudes, diferencias, analogíasSimilitudes, diferencias, analogías• Explosión combinatoriaExplosión combinatoria• Cantidades precisas, cualidades inciertasCantidades precisas, cualidades inciertas

– Umberto Eco – Charles Hockett (prevaricación) Umberto Eco – Charles Hockett (prevaricación)

Prevaricación Prevaricación (1/2)(1/2)

Prevaricación Prevaricación (2/2)(2/2)

Catálogo de problemasCatálogo de problemas• Problema del límite [Problema del límite [boundaryboundary]]

– Efecto del borde [Efecto del borde [edgeedge]]– Efecto de formaEfecto de forma

• Problema de escalaProblema de escala• Problema de la autocorrelación espacial [Problema de la autocorrelación espacial [pattern pattern

problemproblem] ] – Waldo Tobler y la primera ley de la geografíaWaldo Tobler y la primera ley de la geografía

• Problema del cambio de soporte (COSP)Problema del cambio de soporte (COSP)– Promediación por captura a diferentes escalasPromediación por captura a diferentes escalas

• Falacia ecológicaFalacia ecológica• Falacia locacionalFalacia locacional

– Cada actor se sitúa en un solo sitioCada actor se sitúa en un solo sitio– Nadie “vive” en los lugares más atestadosNadie “vive” en los lugares más atestados

• Oficinas, estadios, ferrocarriles, mallsOficinas, estadios, ferrocarriles, malls

• Problema de la Unidad Areal Modificable (MAUP) →Problema de la Unidad Areal Modificable (MAUP) →

http://en.wikipedia.org/wiki/Misuse_of_statistics

Problemas de estadística espacialProblemas de estadística espacial

Problema de la Unidad Areal Modificable Problema de la Unidad Areal Modificable (MAUP)(MAUP)

• Stan OpenshawStan Openshaw

Problema de la Unidad Areal Modificable Problema de la Unidad Areal Modificable (MAUP) /1/2)(MAUP) /1/2)

• Descubierto por Gehlke y Biehl (1934) y Descubierto por Gehlke y Biehl (1934) y descripto por Stan Openshaw (1984)descripto por Stan Openshaw (1984)

• Vinculado a problemas de autocorrelación Vinculado a problemas de autocorrelación espacial y a la falacia ecológicaespacial y a la falacia ecológica

• Doble problemaDoble problema– Problema de escalaProblema de escala– Problema de agregaciónProblema de agregación

• No hay reglas, ni estándares, ni convenciones No hay reglas, ni estándares, ni convenciones internacionales para orientar la agregación de internacionales para orientar la agregación de datos espaciales.datos espaciales.

Problema de la Unidad Areal Modificable Problema de la Unidad Areal Modificable (MAUP) (2/2)(MAUP) (2/2)

• Los resultados derivados de datos Los resultados derivados de datos recolectados en áreas pequeñas pueden recolectados en áreas pequeñas pueden ser diferentes si la recolección es sobre ser diferentes si la recolección es sobre áreas más grandesáreas más grandes– P. ej. diversidad ecológicaP. ej. diversidad ecológica

• Personas, viviendas, edificios, Personas, viviendas, edificios, manzanas, barrios, zonas urbanas, manzanas, barrios, zonas urbanas, regiones, partidos, provincias, zonas regiones, partidos, provincias, zonas geográficas, países, confederaciones.geográficas, países, confederaciones.

Problema de la Unidad Areal Modificable Problema de la Unidad Areal Modificable (MAUP)(MAUP)

• Hay un número inmenso de organizaciones Hay un número inmenso de organizaciones areales posibles, arrojando resultados diversos areales posibles, arrojando resultados diversos en cualquier medición.en cualquier medición.

• No es sólo un problema técnico sino un No es sólo un problema técnico sino un problema conceptual inevitable.problema conceptual inevitable.

• Yule y Kendall (1950s) basados en Gehlke y Yule y Kendall (1950s) basados en Gehlke y Biehl (1934) demostraron que se puede producir Biehl (1934) demostraron que se puede producir cualquier correlación entre 0 y 1 meramente cualquier correlación entre 0 y 1 meramente eligiendo un tamaño adecuado de la unidad eligiendo un tamaño adecuado de la unidad arealareal

Catástrofres de la presunción de Catástrofres de la presunción de normalidadnormalidad

• Falta de robustez de los parámetros de la Falta de robustez de los parámetros de la estadística paramétricaestadística paramétrica

• Insuficiencia de los modelos de normalidad en Insuficiencia de los modelos de normalidad en su propio terrenosu propio terreno– La normalidad como horizonte de posibilidades de las La normalidad como horizonte de posibilidades de las

consultoras financierasconsultoras financieras– La “falsa medida del hombre” como matriz de La “falsa medida del hombre” como matriz de

referencia universalreferencia universal

• Escamoteo de la diversidad de distribucionesEscamoteo de la diversidad de distribuciones• Ocultamiento de los fracasos históricos Ocultamiento de los fracasos históricos

El indicador del agujero de ozono El indicador del agujero de ozono como como outlieroutlier

El agujero de ozonoEl agujero de ozono

• Los métodos computacionales programados para Los métodos computacionales programados para identificar y suprimir identificar y suprimir outliersoutliers son responsables de haber son responsables de haber retrasado la investigación sobre el agujero de ozono retrasado la investigación sobre el agujero de ozono durante años (desde 1976 a 1985, por lo menos) por durante años (desde 1976 a 1985, por lo menos) por considerar que las desviaciones del 10% por debajo de considerar que las desviaciones del 10% por debajo de la normalidad (180 unidades de Dobson) detectadas por la normalidad (180 unidades de Dobson) detectadas por los instrumentos TOMS del satélite Nimbus 7 se debían los instrumentos TOMS del satélite Nimbus 7 se debían a errores en la toma y filtrado de datos. a errores en la toma y filtrado de datos.

• Revisados los programas del satélite y eliminados los Revisados los programas del satélite y eliminados los filtros, se comprobó que el agujero venía siendo filtros, se comprobó que el agujero venía siendo detectado por los sensores satelitales desde mucho detectado por los sensores satelitales desde mucho antes sin que nadie hiciera nada al respecto (antes sin que nadie hiciera nada al respecto (Farman, Gardiner y Shanklin 1985).).

• Véase Véase descargo de Friedrich Pukelsheim (“mito urbano”) de Friedrich Pukelsheim (“mito urbano”)

Efectos colaterales no significativosEfectos colaterales no significativos

• Laboratorios MerckLaboratorios Merck• Anti-inflamatorio Rofecoxib (marca Vioxx)Anti-inflamatorio Rofecoxib (marca Vioxx)• Entre 5 y 8 casos fatales que no se Entre 5 y 8 casos fatales que no se

manifestaron en el grupo de controlmanifestaron en el grupo de control• 4,95% de significancia4,95% de significancia• En el mejor escenario, poco menos de 5.000 En el mejor escenario, poco menos de 5.000

muertes cada 100.000 cajas !!muertes cada 100.000 cajas !!• Desde 2005 se revirtió la jurisprudenciaDesde 2005 se revirtió la jurisprudencia

– La Corte Suprema de USA, Wall Street Journal, etc., La Corte Suprema de USA, Wall Street Journal, etc., menos retrógrados que ciertos antropólogosmenos retrógrados que ciertos antropólogos

Prueba estadística de la hipótesis nula (NHST)Prueba estadística de la hipótesis nula (NHST)

http://carlosreynoso.com.ar/atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadistica/

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (1/24)(1/24)

• Prehistoria – Arbuthnott (1710)Prehistoria – Arbuthnott (1710)– Prueba estadística de la existencia de Dios.Prueba estadística de la existencia de Dios.– Mayor proporción de nacimientos de hombres Mayor proporción de nacimientos de hombres

que de mujeres en Londres durante 82 añosque de mujeres en Londres durante 82 años

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (2/24)(2/24)

• Prehistoria – Ysydro Edgeworth (1885)Prehistoria – Ysydro Edgeworth (1885)– Se preguntaba si Se preguntaba si “las diferencias observadas “las diferencias observadas

entre las estaturas medias de 2315 criminales entre las estaturas medias de 2315 criminales y la estatura media de 8585 adultos británicos y la estatura media de 8585 adultos británicos de sexo masculino es de sexo masculino es significantesignificante”.”.

– Por influencia de Edgewoth se habla también Por influencia de Edgewoth se habla también de prueba estadística de significancia. de prueba estadística de significancia.

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (3/24)(3/24)

• Ronald FisherRonald Fisher– Statistical methods for Statistical methods for

the research worker the research worker (1925)(1925)

– The design of The design of experiments (1935)experiments (1935)

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (4/24)(4/24)

• Ronald FisherRonald Fisher– Es posible argumentar desde las observaciones a las Es posible argumentar desde las observaciones a las

hipótesis.hipótesis.– Para lograrlo, se define primero una hipótesis nula.Para lograrlo, se define primero una hipótesis nula.– La HN se ve des-probada si la muestra estimada se La HN se ve des-probada si la muestra estimada se

desvía de la media de la distribución de muestreo por desvía de la media de la distribución de muestreo por una cantidad mayor a la de un criterio especificado, una cantidad mayor a la de un criterio especificado, llamado el nivel de significancia o valor crítico de llamado el nivel de significancia o valor crítico de pp, el , el cual se sugiere se fije en un valor del 5%.cual se sugiere se fije en un valor del 5%.

– La prueba fisheriana de significancia se centra en el La prueba fisheriana de significancia se centra en el rechazo de la hipótesis nula.rechazo de la hipótesis nula.

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (5/24)(5/24)

• Neyman y Pearson (1930s en adelante)Neyman y Pearson (1930s en adelante)

• Introducen la Hipótesis AlternativaIntroducen la Hipótesis Alternativa• No hablan de significancia, sino de Prueba de HipótesisNo hablan de significancia, sino de Prueba de Hipótesis• Introducen los tipos de error I y IIIntroducen los tipos de error I y II

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (6/24)(6/24)

• Errores de tipo I y IIErrores de tipo I y II

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (7/24)(7/24)

• Clifford Geertz, Conocimiento LocalClifford Geertz, Conocimiento Local– Tipificación al revés de lo correctoTipificación al revés de lo correcto– No corresponde hablar de “aceptar” hipótesis sino de No corresponde hablar de “aceptar” hipótesis sino de

rechazar rechazar vsvs no poder rechazar la hipótesis nula no poder rechazar la hipótesis nula– Tampoco el investigador está condenado a Tampoco el investigador está condenado a

equivocarse, ni es posible situarse “entre” un error y equivocarse, ni es posible situarse “entre” un error y otrootro

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (8/24)(8/24)

• Resumen de Fisher vs Neyman-Pearson:Resumen de Fisher vs Neyman-Pearson:

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (9/24)(9/24)

• Supongamos que en 20 intentos hemos Supongamos que en 20 intentos hemos obtenido 14 caras y 6 crucesobtenido 14 caras y 6 cruces

• El valor de El valor de pp sería la probabilidad de que se sería la probabilidad de que se obtengan por lo menos 14 caras en 20 intentosobtengan por lo menos 14 caras en 20 intentos

• La probabilidad se puede calcular de diversas La probabilidad se puede calcular de diversas formas. P. ej. por coeficientes binomialesformas. P. ej. por coeficientes binomiales

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (10/24)(10/24)

• Como la distribución binomial es simétrica para una Como la distribución binomial es simétrica para una moneda de dos caras, el valor de moneda de dos caras, el valor de pp para un test de para un test de doble cola es simplemente el doble del valor obtenido en doble cola es simplemente el doble del valor obtenido en la ecuaciónla ecuación

• 0,0576… x 2 = 0,11520,0576… x 2 = 0,1152• Como este valor de Como este valor de pp excede a 0,05, la observación es excede a 0,05, la observación es

consistente con la HN, esto es, con la afirmación de que consistente con la HN, esto es, con la afirmación de que el resultado observado puede deberse solamente al el resultado observado puede deberse solamente al azar. azar.

• Aunque la moneda no cayó en forma pareja, no nos es Aunque la moneda no cayó en forma pareja, no nos es posible rechazar la HN al nivel del 5%. posible rechazar la HN al nivel del 5%.

• Si lo hiciéramos, incurriríamos en lo que en una prueba Si lo hiciéramos, incurriríamos en lo que en una prueba de hipótesis sería un error de Tipo I de hipótesis sería un error de Tipo I

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (11/24)(11/24)

• La lógica de las pruebas de significancia o hipótesis es inválidaLa lógica de las pruebas de significancia o hipótesis es inválida– Jacob Cohen (1994)Jacob Cohen (1994)

– Este primer razonamiento sería válido (modus tollens, negación del Este primer razonamiento sería válido (modus tollens, negación del antecedente negando el consecuente)antecedente negando el consecuente)

– Pero el razonamiento es probabilístico:Pero el razonamiento es probabilístico:

– Otro caso de la misma falacia sería:Otro caso de la misma falacia sería:

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (12/24)(12/24)

• La falacia es bien conocida La falacia es bien conocida desde los tiempos de desde los tiempos de How to How to Lie with StatisticsLie with Statistics (Darrel Huff, (Darrel Huff, 1974: 75 y ss.)1974: 75 y ss.)– El libro de estadísticas más El libro de estadísticas más

vendido en la segunda mitad del vendido en la segunda mitad del siglo XXsiglo XX

• Otro ejemplo a considerar:Otro ejemplo a considerar:

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (13/24)(13/24)

• Otra falacia estadística implicada en la prueba Otra falacia estadística implicada en la prueba estadística de la HN tiene nombre:estadística de la HN tiene nombre:

• Afirmación del consecuente:Afirmación del consecuente:P → QP → Q

Q Q P P

• Negar la HN no implica afirmar cualquier otra (la Negar la HN no implica afirmar cualquier otra (la contranula contranula HN)HN)

• Como decía Bateson, afirmación y negación Como decía Bateson, afirmación y negación operan a distintos niveles de tipificaciónoperan a distintos niveles de tipificación

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (14/24)(14/24)

• Afirmación del consecuente en versión Afirmación del consecuente en versión Neyman-PearsonNeyman-Pearson

• Paul Meehl lo expone claramente:Paul Meehl lo expone claramente:

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (15/24)(15/24)

• Hipótesis nula – SignificadoHipótesis nula – Significado– Fisher: La HN Fisher: La HN nunca se prueba ni se nunca se prueba ni se

establece, sino que es posiblemente des-establece, sino que es posiblemente des-probada en el curso de la experimentación. probada en el curso de la experimentación. Puede decirse que cada experimento sólo Puede decirse que cada experimento sólo existe con el propósito de dar a los hechos la existe con el propósito de dar a los hechos la oportunidad de des-probar [oportunidad de des-probar [dis provingdis proving] la ] la hipótesis nula.hipótesis nula.

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (16/24)(16/24)

• Hipótesis nula – Críticas:Hipótesis nula – Críticas:– Joseph Berkson (2003): Joseph Berkson (2003): La evidencia ordinaria no La evidencia ordinaria no

toma esta forma. Con el toma esta forma. Con el corpus delicticorpus delicti delante nuestro delante nuestro no decimos “Hay evidencia contra la hipótesis de que no decimos “Hay evidencia contra la hipótesis de que nadie está muerto”. Decimos, más bien, que nadie está muerto”. Decimos, más bien, que “Evidentemente alguien ha sido asesinado” “Evidentemente alguien ha sido asesinado”

– Crítica usual: la HN casi nunca es verdadCrítica usual: la HN casi nunca es verdad– Hay empero Hay empero paperspapers y sitios de Web que reivindican la y sitios de Web que reivindican la

mala fama de la hipótesis nulamala fama de la hipótesis nula• La prueba de Arbuthnott, el creacionismo y su “diseño La prueba de Arbuthnott, el creacionismo y su “diseño

inteligente”, el triángulo de las Bermudasinteligente”, el triángulo de las Bermudas

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (17/24)(17/24)

• Hipótesis nula – Críticas – TrivialidadHipótesis nula – Críticas – Trivialidad– Fred Guthery – HN en ecología:Fred Guthery – HN en ecología:

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (18/24)(18/24)

• Hipótesis Nula – Más críticasHipótesis Nula – Más críticas– Jakob Cohen (“The earth is round: p<0.5”)Jakob Cohen (“The earth is round: p<0.5”)

• Nil hypothesis – Refutación sin riesgosNil hypothesis – Refutación sin riesgos

– David Bakan:David Bakan:

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (19/24)(19/24)

• Carlos Reynoso (2011)Carlos Reynoso (2011)

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (20/24)(20/24)

• Qué significa el valor de Qué significa el valor de pp??• El tema está para la chacota:El tema está para la chacota:

– ““Criteria for selecting a significance level: On the sacredness of .05” Criteria for selecting a significance level: On the sacredness of .05” (Labovitz 1968), “The sacredness of .05: A note concerning the (Labovitz 1968), “The sacredness of .05: A note concerning the uses of statistical levels of significance in social science” (Skipper, uses of statistical levels of significance in social science” (Skipper, Guenther y Nash 1970), “Confidence intervals rather than Guenther y Nash 1970), “Confidence intervals rather than pp values: values: estimation rather than hypothesis testing” (Gardner y Altman 1986), estimation rather than hypothesis testing” (Gardner y Altman 1986), “The irreconcilability of “The irreconcilability of PP values and evidence” (Berger y Sellke values and evidence” (Berger y Sellke 1987), “The end of the 1987), “The end of the pp value?” (Evans, Mills y Dawson 1988), “A value?” (Evans, Mills y Dawson 1988), “A picture is worth a thousand picture is worth a thousand pp values: On the irrelevance of values: On the irrelevance of hypothesis testing in the microcomputer age” (Loftus 1993), “The hypothesis testing in the microcomputer age” (Loftus 1993), “The earth is round (earth is round (pp< .05)” (Cohen 1994), “Toward evidence-based < .05)” (Cohen 1994), “Toward evidence-based medical statistics: 1. The medical statistics: 1. The pp value fallacy” (Goodman 1999), “What value fallacy” (Goodman 1999), “What your statistician never told you about your statistician never told you about PP-values” (Blume y Peipert -values” (Blume y Peipert 2003), “Incongruence between test statistics and 2003), “Incongruence between test statistics and pp values in medical values in medical papers” (García-Berthou y Alcaraz 2004), “A farewell to p-values?” papers” (García-Berthou y Alcaraz 2004), “A farewell to p-values?” (Moran y Solomon 2004), “A dirty dozen: Twelve (Moran y Solomon 2004), “A dirty dozen: Twelve PP-value -value misconceptions” (Goodman 2008), “Exposing the P value fallacy to misconceptions” (Goodman 2008), “Exposing the P value fallacy to young residents” (Sestini y Rossi 2009) y “Much ado about the p young residents” (Sestini y Rossi 2009) y “Much ado about the p value” (van der Pas 2010).value” (van der Pas 2010).

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (21/24)(21/24)

• Valor de Valor de pp::– Se define como la probabilidad de observar Se define como la probabilidad de observar

eventos tanto o más extremos que los que se eventos tanto o más extremos que los que se manifiestan en los datos observados en caso manifiestan en los datos observados en caso que la hipótesis nula fuera verdad.que la hipótesis nula fuera verdad.

– Si es suficientemente pequeño (típicamente Si es suficientemente pequeño (típicamente pp 0.05) puede decirse que los datos 0.05) puede decirse que los datos proporcionan evidencia contra la HN, la que proporcionan evidencia contra la HN, la que convendría rechazar.convendría rechazar.

– No mideNo mide la probabilidad de que la HN sea la probabilidad de que la HN sea falsafalsa

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (22/24)(22/24)

• Percepciones erróneas: Cuestionario de Gigerenzer y otros (2004)

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (23/24)(23/24)

• Porcentajes de respuestas erróneas:Porcentajes de respuestas erróneas:

Prueba estadística de la Hipótesis Nula Prueba estadística de la Hipótesis Nula (24/24) - Conclusiones(24/24) - Conclusiones

• Hay Hay dictámenes de la Corte Suprema de USA de la Corte Suprema de USA que desestiman la NHST.que desestiman la NHST.

• Todavía vigente en políticas editoriales de Todavía vigente en políticas editoriales de journalsjournals científicos. científicos.

• La bibliografía crítica no ha puesto el acento en La bibliografía crítica no ha puesto el acento en los supuestos estadísticos que la soportan.los supuestos estadísticos que la soportan.

• Recomendación pragmática:Recomendación pragmática:– Especificar los datos de la NHST con el menor valor Especificar los datos de la NHST con el menor valor

de de pp posible posible– Pero asentar las reservas frente al método y a los Pero asentar las reservas frente al método y a los

supuestos en que se funda.supuestos en que se funda.

Tópicos pendientesTópicos pendientes

• Estadísticas de la complejidadEstadísticas de la complejidad– De la geoestadística a la geocomputaciónDe la geoestadística a la geocomputación

• Demarcación de métodos de complejidadDemarcación de métodos de complejidad

• Algoritmos de la complejidadAlgoritmos de la complejidad– Presentaciones separadasPresentaciones separadas

Recusos bibliográficosRecusos bibliográficos

© Sarah Josephine Taleb, © Sarah Josephine Taleb, http://www.fooledbyrandomness.com/pictures.htm

Recursos bibliográficosRecursos bibliográficos• http://en.wikipedia.org/wiki/The_Black_Swan_(Taleb_book)http://en.wikipedia.org/wiki/The_Black_Swan_(Taleb_book)

Sobre estadísticas no paramétricasSobre estadísticas no paramétricas

Sobre muestreo Sobre muestreo (otra ciencia oscura)(otra ciencia oscura)

ReferenciasReferencias

http://www.deirdremccloskey.org/academics/stats.php

http://www.jasnh.com/

http://www.economist.com/node/2384590

Referencia primariaReferencia primariahttp://carlosreynoso.com.ar/estadistica-espacial-y-temporal/

¿Preguntas?

Carlos ReynosoCarlos ReynosoUNIVERSIDAD DE BUENOS AIRESUNIVERSIDAD DE BUENOS AIRES

http://carlosreynoso.com.ar

top related