trabajo práctico no. 2: estadística descriptiva i ... · matemÁtica y estadÍstica 2018 18 c)...

10
MATEMÁTICA Y ESTADÍSTICA 2018 17 8 10 7 9 4 7 5 10 8 7 8 7 12 5 6 9 7 10 6 8 6 4 5 9 8 11 8 6 11 9 11 12 8 13 12 10 8 12 10 14 12 13 11 11 9 12 7 13 15 10 9 14 11 10 13 12 12 14 11 9 Número de observaciones Número de observaciones Trabajo Práctico No. 2: Estadística descriptiva I: Ordenamiento y presentación de datos Contenido: Síntesis e interpretación de información. Construcción e interpretación de gráficos. Tablas de datos. Distribución de frecuencias. Lecturas recomendadas: Sokal & Rohlf, 1979. Biometría. Cap. 2: 19-44. Merodio, 1986. Cap.1: 5-9. Mendenhall et al. ,1990. Cap. 1; Zar, 2009 Cap. 1. Alperin M., 2013, Cap. 2, http://sedici.unlp.edu.ar/handle/10915/34221 Videos recomendados: https://www.youtube.com/watch?v=BkSHNKjARYU&t=356s Idea principal El objetivo de la estadística descriptiva es resumir la información contenida en un conjunto de datos de la manera más concisa y completa posible. Esto puede hacerse mediante la construcción de tablas y gráficos y la determinación de ciertos valores llamados estadísticos. Cuando el número de observaciones es grande, en general mayor que 30, los datos se resumen en una distribución de frecuencias. La distribución de frecuencia se logra agrupando los datos en clases o categorías en las que se reúnen subconjunto de datos y registrando la frecuencia absoluta, que es el número de datos que se encuentran en cada clase. Cuando la frecuencia se expresa como el cociente entre la frecuencia absoluta de una clase y el número total de datos se denomina frecuencia relativa. PARA EL DESARROLLO DEL TRABAJO PRACTICO ES NECESARIO UNA CALCULADORA CIENTIFICA (CON EL MANUAL) 2.1) Un profesional de las Ciencias Naturales desea mostrar gráficamente en un congreso los resultados que apoyan la hipótesis que una industria de pinturas está contaminando el agua de un arroyo al cual evacua sus efluentes con plomo. Para ello extrae 60 muestras de agua, 30 tomadas aguas arriba del establecimiento y las otras 30 aguas abajo. Los datos consisten en valores de concentración Pb (mg/l) medidos en el agua y se presentan a continuación. Aguas arriba del establecimiento: Aguas abajo del establecimiento: Represente los datos de manera que se visualice claramente lo que el profesional desea poner de manifiesto ¿Le parece que los datos respaldan la hipótesis del profesional? 2.2) Los datos siguientes corresponden a la humedad relativa ambiente (%) de los días de enero de 2010 de la ciudad de La Plata: 55, 51, 60, 56, 64, 63, 63, 61, 57, 62, 50, 49, 70, 72, 54, 48, 53, 58, 66, 68, 45, 74, 65, 58, 61, 62, 59, 64, 57, 63, 52. a) Construya una tabla de frecuencias, un histograma y una ojiva con los datos agrupados en 5 categorías de igual tamaño. Amplitud del intervalo: A = (valor más alto valor más bajo) / número de intervalos b) Comparar el histograma obtenido con los histogramas resultantes de agrupar los datos en 3 y 10 intervalos de clase que se muestran a continuación. Indicar en cuál arreglo en intervalos se originan gráficos que representen mejor los datos. Justifique. 18 7 16 6 14 5 12 10 4 8 3 6 2 4 1 2 0 45,0000 54,6667 64,3333 74,0000 Humedad relativa 0 45,0 47,9 50,8 53,7 56,6 59,5 62,4 65,3 68,2 71,1 74,0 Humedad relativa

Upload: vuongque

Post on 25-Sep-2018

247 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Trabajo Práctico No. 2: Estadística descriptiva I ... · MATEMÁTICA Y ESTADÍSTICA 2018 18 c) Recalcular los valores de Qm (cuarzo monocristalino), F (feldespatos) y Lt (líticos),

MATEMÁTICA Y ESTADÍSTICA 2018

17

8 10 7 9 4 7 5 10 8 7 8 7 12 5 6 9 7 10 6 8

6 4 5 9 8 11 8 6 11 9

11 12 8 13 12 10 8 12 10 14 12 13 11 11 9 12 7 13 15 10

9 14 11 10 13 12 12 14 11 9

Núm

ero

de

observ

acio

nes

Núm

ero

de

observ

acio

nes

Trabajo Práctico No. 2: Estadística descriptiva I: Ordenamiento y presentación de datos

Contenido: Síntesis e interpretación de información. Construcción e interpretación de gráficos. Tablas de datos. Distribución de frecuencias.

Lecturas recomendadas: Sokal & Rohlf, 1979. Biometría. Cap. 2: 19-44. Merodio, 1986. Cap.1: 5-9.

Mendenhall et al. ,1990. Cap. 1; Zar, 2009 Cap. 1. Alperin M., 2013, Cap. 2, http://sedici.unlp.edu.ar/handle/10915/34221

Videos recomendados: https://www.youtube.com/watch?v=BkSHNKjARYU&t=356s

Idea principal

El objetivo de la estadística descriptiva es resumir la información contenida en un conjunto de datos de la manera más concisa y completa posible. Esto puede hacerse mediante la construcción de tablas y gráficos y la determinación de ciertos valores llamados estadísticos. Cuando el número de observaciones es grande, en general mayor que 30, los datos se resumen en una distribución de frecuencias. La distribución de frecuencia se logra agrupando los datos en clases o categorías en las que se reúnen subconjunto de datos y registrando la frecuencia absoluta, que es el número de datos que se encuentran en cada clase. Cuando la frecuencia se expresa como el cociente entre la frecuencia absoluta de una clase y el número total de datos se denomina frecuencia relativa.

PARA EL DESARROLLO DEL TRABAJO PRACTICO ES NECESARIO UNA CALCULADORA CIENTIFICA (CON EL MANUAL)

2.1) Un profesional de las Ciencias Naturales desea mostrar gráficamente en un congreso los resultados que apoyan la hipótesis que una industria de pinturas está contaminando el agua de un arroyo al cual evacua sus efluentes con plomo. Para ello extrae 60 muestras de agua, 30 tomadas aguas arriba del establecimiento y las otras 30 aguas abajo. Los datos consisten en valores de concentración Pb (mg/l) medidos en el agua y se presentan a continuación.

Aguas arriba del establecimiento: Aguas abajo del establecimiento:

Represente los datos de manera que se visualice claramente lo que el profesional desea poner de manifiesto ¿Le parece que los datos respaldan la hipótesis del profesional?

2.2) Los datos siguientes corresponden a la humedad relativa ambiente (%) de los días de enero de 2010 de la ciudad de La Plata:

55, 51, 60, 56, 64, 63, 63, 61, 57, 62, 50, 49, 70, 72, 54, 48, 53, 58, 66, 68, 45, 74, 65, 58, 61, 62, 59, 64, 57, 63, 52.

a) Construya una tabla de frecuencias, un histograma y una ojiva con los datos agrupados en 5

categorías de igual tamaño. Amplitud del intervalo: A = (valor más alto – valor más bajo) / número de intervalos

b) Comparar el histograma obtenido con los histogramas resultantes de agrupar los datos en 3 y 10 intervalos de clase que se muestran a continuación. Indicar en cuál arreglo en intervalos se originan gráficos que representen mejor los datos. Justifique.

18 7

16

6

14

5

12

10 4

8 3

6

2

4

1 2

0

45,0000 54,6667 64,3333 74,0000

Humedad relativa

0

45,0 47,9 50,8 53,7 56,6 59,5 62,4 65,3 68,2 71,1 74,0

Humedad relativa

Page 2: Trabajo Práctico No. 2: Estadística descriptiva I ... · MATEMÁTICA Y ESTADÍSTICA 2018 18 c) Recalcular los valores de Qm (cuarzo monocristalino), F (feldespatos) y Lt (líticos),

MATEMÁTICA Y ESTADÍSTICA 2018

18

c) ¿Entre que valores de intervalos de humedad se encuentra el 50% de los días de enero? d) ¿A partir de qué valor se encuentra el 10% de los días más húmedos? e) Si descontamos el 15 % de los días menos húmedos y el 15% de los más húmedos ¿En

qué intervalo de valores se encuentran los días restantes?

2.3) Construya el gráfico bivariado de dispersión con los datos de Gamma Ray1 y Porosidad total obtenidos de un pozo de petróleo ¿Existe alguna relación entre las variables? Descríbala.

Gamma ray

(unidades API) Porosidad total

(%)

96,22 0,04

94,32 0,03

94,79 0,03

94,84 0,04

94,11 0,04

95,42 0,05

96,71 0,06

98,16 0,08

103,40 0,09

105,89 0,10

2.4) Los siguientes son datos que corresponden a porcentajes en peso de distintos componentes de los residuos de tres ciudades contrastantes. Abajo se indican los totales absolutos (en Kg) de residuos producidos por día y por persona en cada una de ellas. a) Identificar el/los tipos de variable. b) Elaborar un gráfico que muestre los a porcentajes en peso de distintos componentes de los residuos de las tres ciudades simultáneamente, comparar y responder:

i) ¿Qué ciudad produce mayor cantidad de residuos relativos de vegetales y textiles? ii) Considerando el consumo de papel y madera, ¿cuántos habitantes de la India se necesitan para consumir lo que consume un habitante de USA?

USA Singapur India

Arena, ceniza, y vidrio 13 33 36 Metales 13 3 1 Papel y madera 38 44 9 Plásticos, cuero, caucho 10 6 3 Vegetales y textiles 26 14 51

Total (kg día / persona) 1,8 0,87 0,375 2.5) Los siguientes datos modales2 corresponden a componentes de arenas de 3 muestras de una sección sub-horizontal del Patagoniano. a) Identificar el/los tipos de variable. b) Elaborar gráficos que permitan comparar la composición total de cada muestra.

1 Cuando se perfora un pozo de exploración o para extracción de petróleo se recoge información del subsuelo por métodos indirectos. Se obtienen registros eléctricos como: Gamma Ray (GR), Neutrón o Densidad que proporcionan estimaciones indirectas de la calidad de roca, porosidad y saturación de fluidos (agua, petróleo o gas). Los objetivos del registro GR sirven para calcular cuantitativamente volúmenes de calizas, sugiere cambios en la litología, y puede ser usado para calcular volúmenes de material radioactivo, indicando ambientes deposicionales y sugiere zonas de fracturas o de roca madre, discriminar entre reservorio y no-reservorio, definir volumen de arcilla en el reservorio. La mayoría de las rocas reservorio contienen potasio (K), torio (Th) y uranio (U) en muy pocas cantidades y por lo tanto tienen un nivel bajo de radiación GR. La herramienta registra los rayos gamma espontáneamente emitidos por los tres isótopos. El nivel de GR se registra en unidades API en escala de 0 – 150 API. http://www.ingenieriadepetroleo.com/2013/02/registros-electricos-sp-gr-ngs.html 2 En petrografía se llama Datos modales a los datos que se obtienen a partir de determinar cuantitativamente la composición de los granos y el recuento de estos en el microscopio. Se utiliza una la platina graduada que permite el movimiento de un corte delgado a un cierto intervalo de distancia, formando una red de puntos en un sistema de coordenadas (x-y). En esta técnica se registra por cada punto la composición del grano localizado en el centro de la retícula. Dependiendo de los objetivos del conteo de partículas es la metodología empleada y sus restricciones, por ejemplo se puede considerar solo un tamaño de grano, solo contar las partículas o también la matriz y cementante, o bien granos de una sola composición.

Page 3: Trabajo Práctico No. 2: Estadística descriptiva I ... · MATEMÁTICA Y ESTADÍSTICA 2018 18 c) Recalcular los valores de Qm (cuarzo monocristalino), F (feldespatos) y Lt (líticos),

MATEMÁTICA Y ESTADÍSTICA 2018

18

c) Recalcular los valores de Qm (cuarzo monocristalino), F (feldespatos) y Lt (líticos), para graficar los datos en el diagrama triangular adjunto (A=Qm, B=F, C=Lt). Clasificar las muestras utilizando el diagrama triangular de Folk et al. (1970).

Techo Media Base

Qm 52 148 99 F 87 128 153 Qp 9 56 40 Lt 96 154 204 Matriz 63 137 157

Total de granos contados 307 623 653 Qm: cuarzo monocristalino, F: feldespato, Qp: cuarzo policristalino, Lt: líticos

A

B C

Ejercicios complementarios 2.6) Interpretación de gráficos. En todos los casos identificar el o los materiales muestreados y el tipo de variable. Interpretar los gráficos.

El volcán Copahue, es un estratovolcán activo de 2297 metros de altura, localizado en la parte oriental de la zona volcánica de Los Andes, al Sur-Oeste de la República Argentina, cerca del límite con Chile. La presencia de un lago ácido en el cráter, fuentes termales ácidas de elevada temperatura que emergen del flanco E del volcán, y un campo geotermal, son las expresiones superficiales de un sistema hidrotermal volcano-magmático. Los datos presentan resultados parciales de un monitoreo de las aguas ubicadas en el cráter, la vertiente norte y el Río Agrio.

El Complejo Volcánico Planchón- Peteroa se ubica en la Cordillera de Los Andes a los 35º 15´ L.S. y 70º 35´ L.O. incluye dos cumbres principales: al norte, el volcán Planchón (3920 m s.n.m.) y 5 km al sur el volcán Peteroa (4107 m s.n.m.). Entre los cráteres actualmente hay manifestaciones fumarólicas resultados de emisiones difusas de dióxido de carbono (flujo de CO2) asociadas a la actividad geotermal. Se realizó un muestreo de

las emisiones de CO2 en el valle del arroyo Los Baños del Volcán Peteroa-Azufre en donde se encuentran construidas piletas individuales de agua termal de uso público.

Page 4: Trabajo Práctico No. 2: Estadística descriptiva I ... · MATEMÁTICA Y ESTADÍSTICA 2018 18 c) Recalcular los valores de Qm (cuarzo monocristalino), F (feldespatos) y Lt (líticos),

MATEMÁTICA Y ESTADÍSTICA 2018

19

El volcán Hudson, localizado al sur de Chile, entró en erupción intempestivamente entre el 12 y el 15 de agosto de 1991. Las cenizas se esparcieron alcanzando la Patagonia Argentina y produjeron un gran impacto sobre la agricultura. La figura muestra algunos indicadores de la fertilidad del suelo. CEC: Capacidad de intercambio Catiónico (me/100 g), Olsen P: Fosforo extraíble por el método de

Olsen (gP/g), Mg (e/100g), Ashfall thickness (mm).

Caracterización de los sedimentos aflorantes en la ladera norte del valle del río Jarilla, el principal afluente al río Desaguadero proveniente desde el este, en proximidades

de la ruta Nacional Nº 7, provincia de San Luis. El gráfico de conductividad eléctrica

versus profundidad permite inferir, en forma relativa, el total de sales solubles que poseen los sedimentos.

2.7) Se obtuvieron muestras de sedimentos de un ambiente actual donde los procesos de transporte y depositación dominante es el transporte por el agua (ambiente fluvial). Se desea caracterizar el sedimento por medio del análisis textural. Para ello se procesan los datos obtenidos a partir del tamizado3.

a) Construya un histograma y un gráfico de frecuencias acumuladas con los datos de un análisis granulométrico que se presenta a continuación.

b) Calcule el tamaño granulométrico correspondiente a 5%,16%, 25%, 50%, 75%, 84% y 95%. Los datos están expresados en la escala granulométrica Phi ϕ (-log2 diámetro del clasto en mm).

phi Peso neto Peso acumulado Peso acumulado %

-2,00 1,73 -1,75 6,34 -1,50 0,40 -1,25 3,04 -1,00 9,42 -0,75 5,21 -0,50 3,54 -0,25 3,90 0,00 4,26 0,25 5,90 0,50 2,71 0,75 7,91 1,00 4,34

3

Para realizar los análisis granulométricos de sedimentos actuales se elimina la materia orgánica, los carbonatos, el óxido de hierro y las sales solubles. Luego se arma una pila de tamices cuyas aberturas responden a la escala granulométrica adoptada para el análisis, en la base se coloca un fondo y hacia arriba se colocan las mallas en orden creciente de abertura. Se vierte el sedimento seco en el tamiz superior, se tapa y la pila de tamices se introduce en una maquina agitadora por 15 minutos. Finalizado el tamizado se vacía el contenido de cada tamiz y el retenido en el fondo sobre un papel y se pesa al miligramo. Folk y Ward (1957), propusieron utilizar los gráficos de frecuencia acumulada que surgen de los análisis granulométricos de s edimentos se pueden usar para caracterizar los sedimentos de distintos ambientes actuales. Los gráficos se realizan poniendo en el eje horizontal el tamaño de grano en escala phi ϕ (-log2 diámetro mm) y en el eje vertical peso acumulado %.

Page 5: Trabajo Práctico No. 2: Estadística descriptiva I ... · MATEMÁTICA Y ESTADÍSTICA 2018 18 c) Recalcular los valores de Qm (cuarzo monocristalino), F (feldespatos) y Lt (líticos),

MATEMÁTICA Y ESTADÍSTICA 2018

20

1,25 3,88 1,50 7,71 1,75 6,02 2,00 9,06 2,25 6,10 2,50 4,66 2,75 4,07 3,00 3,90 3,25 2,48 3,50 1,92 3,75 1,21 4,00 1,02 4,25 0,53

Page 6: Trabajo Práctico No. 2: Estadística descriptiva I ... · MATEMÁTICA Y ESTADÍSTICA 2018 18 c) Recalcular los valores de Qm (cuarzo monocristalino), F (feldespatos) y Lt (líticos),

MATEMÁTICA Y ESTADÍSTICA 2018

21

Trabajo Práctico No. 3: Estadística descriptiva II: Cálculo de estadísticos

Contenido: Medidas de tendencia central y de dispersión. Tratamiento de Valores “0”. Errores, precisión y exactitud.

Lecturas recomendadas: Sokal & Rohlf, 1979. Biometría. Cap. 4: 51-76. Merodio, 1986. Cap.1: 9-18. Chou, Cap.3 : 43-68. Mendenhall, Cap.3: 29-63; Zar, 2009 Cap. 3 y 4. Alperin M., 2013, Cap. 2, http://sedici.unlp.edu.ar/handle/10915/34221

Videos recomendados: https://www.youtube.com/watch?v=E-Vpyi6hO9k Módulo 1

https://www.youtube.com/watch?v=IuX22-Epxzc , Módulo 2

Idea principal

La descripción de los datos se completa calculando valores que caracterizan numéricamente la muestra, llamados estadísticos, y la población, llamados parámetros. Existen medidas que describen la posición de los valores centrales, de la dispersión de los datos, de la forma de la distribución y la ubicación de algunos valores que tienen algún interés especial. Las principales medidas de posición que dan una idea del “centro” de los datos son la media aritmética, la mediana y moda. Las medidas de dispersión describen la variabilidad de los datos alrededor del promedio son la varianza y el desvío estándar, aunque también existen otras muy útiles como el rango y el coeficiente de variación. Las medidas que dan cuenta de la posición de valores particulares (10%, 25%, 75%, 90% ), se llaman cuantiles. Existen otras medidas que describen la forma de la distribución: la asimetría y la curtosis.

PARA EL DESARROLLO DEL TRABAJO PRACTICO ES NECESARIO UNA CALCULADORA CIENTIFICA (CON EL MANUAL)

3.1) Con los datos de concentración de un metal pesado obtenidos aguas arriba y aguas debajo del arroyo al cual la industria del problema 2.1 evacua sus efluentes: a) Calcule la media, el desvío estándar, la varianza, el coeficiente de variación porcentual, los valores máximo y mínimo de los datos sin agrupar de cada sitio. b) Realice un gráfico de caja y bigote (box-plot) con los estadísticos calculados con los datos sin agrupar. c) ¿Qué estadístico utilizaría para apoyar la hipótesis que la industria está contaminando el agua de un arroyo al cual evacua sus efluentes? ¿Por qué? d) ¿Qué estadístico permite analizar la variabilidad de los datos? ¿Dónde es mayor la variación de la concentración del metal? ¿A qué puede deberse? ¿Cómo lo interpretaría geológicamente?

3.2) Con los datos del ejercicio 2.2 del porcentaje de humedad relativa ambiente de los días de enero en La Plata calcule: a) La media, mediana, moda, el primer y el tercer cuartil, el desvió estándar y la varianza de los datos sin agrupar. b) La media, mediana, moda el primer y el tercer cuartil, el desvió estándar y la varianza de los datos agrupados en 5 intervalos. c) Compare los resultados obtenidos en a y b ¿Qué efecto tiene el agrupamiento en los resultados?

3.3) El coeficiente de variación es un indicador de la heterogeneidad del yacimiento que se utiliza para planificar la distancia óptima y volumen de roca en las etapas de muestreo preliminares que se realizan para estimar la ley mineral4. En las primeras etapas de exploración de yacimientos vetiformes de oro en la provincia de Santa Cruz, se realizó un muestreo preliminar de la veta Carla aproximadamente tomando una muestra cada 30 metros con los siguientes resultados (Au gr/t):

0,7 2,3 2 2,7 2,5 2 3,1 3,5 4,6 2,5 12,6 10,4 5,3 2,7 3,9

Calcule el coeficiente de variación de los datos. Utilice la información de la tabla adjunta para definir la distancia entre caneletas en un muestro de detalle.

4 Ley: concentración de metal en una mena; Mena: mineral del que se extrae un metal.

Page 7: Trabajo Práctico No. 2: Estadística descriptiva I ... · MATEMÁTICA Y ESTADÍSTICA 2018 18 c) Recalcular los valores de Qm (cuarzo monocristalino), F (feldespatos) y Lt (líticos),

MATEMÁTICA Y ESTADÍSTICA 2018

22

Coef.Variabilidad /Clasificación

Distancia Canaletas

(m)

Seccionado Testigo (m)

Red de sondeos

(m)

Valor K

Tipo de yacimientos

<20 % Muy regulares

15 – 50 5 - 15 200 x 200 0,05-0,1 Sedimentarios

20-40 %. Regulares

4 – 15 2 - 5 100 x 100 0,1-0,2 Sed.+complejos

40-100 % Irregulares

2,5 – 4 1 - 2 50 x 50 0,3-0,5 Polimetálicos -

Cobre ect.

100-150 % Muy Irregulares

1,5 – 2,5 0,5 -2 25 x 25 0,6 – 0,8 Estaño - oro ect.

>150 % Extremadamente Irregulares

1 – 1,5

1 – 0,5

No determinado

0,8-1

Oro – Platino

3.4)

El tratamiento de los datos cero (0): Existen 3 tipos de datos cero:

a) Los valores de la variable que corresponden al valor 0. Para los cálculos de los estadísticos se incluyen con la jerarquía de cualquier otro valor.

b) Valores 0 que indican dato ausente ya sea que no se ha medido esa variable en el espécimen o se ha perdido la información. Para los cálculos de los estadísticos en esas variables se realizan con los valores disponibles, es decir se disminuye el tamaño de la muestra; dicho de otro modo no son considerados en el análisis.

c) Los 0 por redondeo. Este tipo es muy común en geología y suelen estar relacionados con el límite de detección del aparato o metodología utilizada para cuantificar los valores de la variable. Su aparición es frecuente en datos de geoquímica de roca, tanto de elementos mayoritario como traza. En las tablas de datos son indicados de la forma “<valor” o “-valor” (ej. <0,01, o, -0,01). Una estrategia habitual para el cálculo de los estadísticos en los trabajos geológicos, es reemplazar estos valores por la mitad del valor del límite de detección, por ejemplo si el límite de detección es 0,01, se reemplazan por 0,005.

a) Se realizó un estudio geoquímico de un muestreo de corriente por contenido en Oro. El método de análisis utilizado por el laboratorio detecta contenidos mayores a 0,01 ppb (ppb: partes por billón). Los resultados obtenidos son los siguientes:

0,5 - <0,01 - 0,51 - <0,01 - 0,04 - 0,03 - <0, 01 - 0,07 - 0,12 - 0,55 - <0, 01 - 0,15 - 0,04 - 0,12 - 0,07 - <0,01

Marque con una cruz la respuesta correcta, i) Media = 0,138 ppb ii) Media = 0,139 ppb iii) Media = 0,20 ppb

b) Los siguientes datos de saturación de agua5 corresponden a una sección de un pozo de petróleo, la herramienta registra los datos ausentes con 9999.

0,26 0,36 0,47 9999 9999 0,59 0,57 0,56 0,54 9999 0,55 0,58 0,57 0,53

Marque con una cruz la respuesta correcta, i) Media = 0,51 ii) Media = 2143,04 iii) Media = 0,40

3.5) Errores, precisión, exactitud.

Cuando se recolectan datos a través de algún proceso de medición suelen aparecer valores inconsistentes. Para explicar estas inconsistencias se utiliza el concepto de error. Los errores se introducen por el operador u observador, a causa de errores del instrumento de medición, por falta de precisión en la definición operacional o en el proceso de medición. Los errores determinados, llamados también groseros, se atribuyen principalmente al instrumental o a reactivos en el caso de análisis químicos, también pueden ser operativos, debidos a distracciones por parte del observador o personales, o de método. Generalmente son grandes en magnitud e irregulares en ocurrencia. Los errores sistemáticos se producen cuando las medidas tienden a ser siempre más grandes o más pequeñas. Suelen originarse por errores en la calibración de los aparatos, aunque también pueden deberse a condiciones externas como por ejemplo cambios de humedad. Los errores de método se introducen si existen discrepancias entre la definición conceptual de la cualidad a ser medida y la definición operacional utilizada para efectuar esa medida.

5 La saturación de un medio poroso con respecto a un fluido se define como la fracción del volumen poroso de una roca que está ocupado por dicho fluido, como es una relación entre dos volúmenes las unidades se anulan algebraicamente.

Page 8: Trabajo Práctico No. 2: Estadística descriptiva I ... · MATEMÁTICA Y ESTADÍSTICA 2018 18 c) Recalcular los valores de Qm (cuarzo monocristalino), F (feldespatos) y Lt (líticos),

MATEMÁTICA Y ESTADÍSTICA 2018

23

Aún si los procesos de medidas están libres de errores determinados, sistemáticos y de método pueden existir fluctuaciones en los valores numéricos que se obtienen al repetir la medida. Estos errores impredecibles son los errores aleatorios, que si se producen en un gran número de observaciones tienden a anularse, es decir las desviaciones positivas o negativas del valor verdadero, en promedio, tienden a compensarse aproximándose al valor verdadero. Los procesos de medición y las mediciones del error encuentran su correspondencia en los conceptos de precisión y exactitud. Así, la precisión (es lo cerca que los valores medidos están uno de otros), se relaciona con el proceso de medida. Se logra una alta precisión en la medida en que los errores aleatorios sean lo más pequeños posible. La exactitud (es la proximidad de un valor medido o calculado al valor verdadero), es externa al proceso de medición. La exactitud implica la ausencia de errores sistemáticos. La precisión y la exactitud pueden expresarse cuantitativamente. Las medidas de precisión son el rango y el desvío estándar, a menor valor de ellas, mayor precisión. La exactitud comúnmente se expresa con el “Error”, donde Error= valor medio – valor verdadero.

El eje A (el más largo) de un clasto medido con un calibre digital es 5,439mm. Un investigador planea un trabajo de campo donde debe medir clastos. Sólo puede llevar un ayudante de campo. Los posibles instrumentos de medición son un calibre manual, con los que puede leerse hasta la décima de milímetro, y una cinta métrica, puede leerse hasta el milímetro. Realiza una experiencia para evaluar quien lo acompañará y el instrumento de medición que utilizará. Pide a dos posibles ayudantes A y B que realicen 5 mediciones independientes del clasto con cada instrumento.

Instrumento/Ayudante Mediciones

Calibre A 5,42 – 5,48 – 5,41- 5,44 – 5,51

Cinta métrica A 5,5 – 5,3 – 5,4 - 5,3 – 5,6

Calibre B 5,67 – 5,65 – 5,67 – 5,68 – 5,65

Cinta métrica B 5,8 – 5,7 – 5,6 – 5,6 – 5,6

i. ¿Con cuál instrumento se realizan las medidas menos precisas? ¿Por qué? ii. Compare los resultados obtenidos según los ayudantes A y B tanto con la cinta métrica

como con el calibre ¿Cuál de ellos realiza mediciones más precisas? ¿Cuál de ellos realiza mediciones más exactas?

iii. A qué atribuye las diferencias entre las medidas efectuadas por el mismo ayudante utilizando el mismo instrumento. ¿Cuál es el tipo de error que se comete?

iv. Si usted fuera el investigador ¿qué operador contrataría, con cuál instrumento le pediría que realice las mediciones? Discuta su razonamiento con sus compañeros, justifique.

Ejercicios complementarios

3.6)

El trabajar con datos producto de algún proceso de medición o recuento y de la captura de los mismos se pueden observar datos “extraños”. Se trata de valores que se sospecha que no pertenecen al conjunto de datos y que se han registrado por un error de medición, un error de transcripción al momento de anotarlos en el gabinete, o bien se producen por algún suceso sumamente extraño. En estadística a estos valores se les llama “outliers”. Existen diversos criterios para detectar outliers en un conjunto de datos. Uno de los métodos más comunes es el que utiliza el concepto de cuartil (Q). Para detectar valores outliers moderados, se calcula:

LímInf = Q1- 1,5(Q3-Q1) Los valores que sean menores que LímInf o mayores que LímSup = Q3 + 1,5(Q3-Q1) LímSup se consideran valores outliers

Para detectar valores outliers extremos, se calcula: LímInf = Q1- 3 (Q3-Q1) Los valores que sean menores que LímInf o mayores que LímSup = Q3 + 3 (Q3-Q1) LímSup se consideran valores outliers

Para Q1 primer cuartil, Q3 tercer cuartil y (Q3-Q1) rango intercuartil.

Para la identificación de outliers también es posible utilizar los gráficos box-plot, QQ plots e histogramas.

Los datos que se presentan a continuación corresponden valores del caudal medio mensual (m3/s) del mes de diciembre del río Neuquén, en la estación Paso de los Indios (38°31´54’’S, 69°24’51’’O) para el periodo 1903 – 2002. Los datos están ordenados de menor a mayor. Calcular: la mediana, los

Page 9: Trabajo Práctico No. 2: Estadística descriptiva I ... · MATEMÁTICA Y ESTADÍSTICA 2018 18 c) Recalcular los valores de Qm (cuarzo monocristalino), F (feldespatos) y Lt (líticos),

MATEMÁTICA Y ESTADÍSTICA 2018

24

cuartiles 1 y 3, el rango intercuartilico (Q3-Q1) y los límites superiores e inferiores para calcular outliers moderados y extremos. Realice un grafico box-plot con los estadísticos calculados. Identifique y clasifique los valores outlier de esta muestra, ¿a qué supone usted se puede atribuir la aparición de estos valores?

55,25 78,68 87 90 95 99 108,1 109 114 142 166 168 179 182 196

209 210 224 233 236 237,5 244 245 250 272 272 281 282 286 291

296 311 315 316 339 341,8 344 346 347,7 357 358 365 370 373 380

391,8 408,5 413 414 422 431,9 433 433 433 438 458 461 462 480 499

503,4 503,6 506 526 535 535 551,1 563 563 565 567 599 603 610 627

634 635 637 647 648 654 658 676,8 707 717 718 744 760 765 768

772 786 831 841 922 947 1001 1009 1167 1183

3.7) RECUERDE

Reglas internacionales de redondeo de números. Si el dígito a la derecha del último requerido es: a) menor que 5, se deja el dígito precedente intacto b) mayor que 5, se aumenta una unidad el dígito precedente. c) un 5 seguido de cualquier dígito, se aumenta una unidad el dígito precedente. d) un 5 NO seguido de dígitos, se deja al dígito precedente sin cambiar si es par, y se aumenta una unidad si es impar, de modo que siempre termine en par. e) Sumas y Restas: se efectúa la operación y se redondea teniendo en cuenta la última cifra significativa del valor menos exacto. f) Multiplicación y división: se efectúa la operación y se expresa el resultado con las cifras

significativas del valor menos exacto.

Redondee los siguientes números quitándole una cifra:

Número Redondeo Número Redondeo

14,92 14,9 (ejemplo) 0,0383 145,691 10,061 45.228 1999,97 144,7 329,096 199,02 329,96 125,53 + 25,2 125,53 * 25,2 261,2 –51,73 261,2 / 51,73

3.8) Caracterice el sedimento fluvial del ejercicio 2.7 calculando: a) La media, desvío estándar, asimetría y curtosis usando el método analítico. b) La media, desvío estándar, asimetría y curtosis usando el método Folk y Ward (1957), a

partir de los datos que surgen del grafico de frecuencia acumulada con las siguientes formulas obtenidos en el ejercicio 2.7:

X 16

84

50 , X̂ 50

S

84

16

95

5

3

CS 16 84 250

(5 95 250 )

4

K 95 5

6,6

284 16 295 5

2,4475

25

c) Describa el sedimento utilizando la nomenclatura de McManus (1988) para los valores de selección, asimetría y agudeza.

d) Describa el ambiente de depositación del sedimento.

Page 10: Trabajo Práctico No. 2: Estadística descriptiva I ... · MATEMÁTICA Y ESTADÍSTICA 2018 18 c) Recalcular los valores de Qm (cuarzo monocristalino), F (feldespatos) y Lt (líticos),

MATEMÁTICA Y ESTADÍSTICA 2018

25

3.9) Los siguientes histogramas corresponden a datos de ley de Cu de un depósito diseminado de 4 sectores de un open pit (Open pit: cantera a cielo abierto). La flecha roja indica la ley media del yacimiento.

a) Describa los histogramas e indique cual sector es el que representa mejor la ley media del yacimiento en términos de precisión y exactitud.

b) Analice la relación entre los conceptos precisión, exactitud, media y desvío estándar.

a b c d