capÍtulo 1 trabajo encargo para exponer metodos estadisticos.docx

69
CAPÍTULO 1 INTRODUCCIÓN A LA ESTADÍSTICA Y AL ANÁLISIS DE DATOS 1.1 PANORAMA GENERAL: I N F E R E N C I A ESTADÍSTICA, MUESTREO, POBLACIONES Y DISEÑO EXPERIMENTAL Desde inicios de la década de 1980 y hasta la actualidad, se ha puesto un interés especial en el mejoramiento de la calidad en la industria estadounidense y de todo el mundo. Se ha dicho y escrito mucho acerca del "milagro industrial" japonés que comenzó a mediados del siglo XX. Los nipones fueron capaces de tener éxito donde otras naciones fallaron; a saber, en la creación de un entorno que permita la manufactura de productos de alta calidad. Gran parte del éxito japonés se atribuye al uso de métodos estadísticos y del pensamiento estadístico entre el personal gerencial. EMPLEO DE DATOS CIENTÍFICOS El uso de métodos estadísticos en la manufactura, el desarrollo de productos alimenticios, el software para computadoras, los medicamentos y muchas otras áreas implican el acopio de información o datos científicos. Por supuesto que la obtención de datos no es algo nuevo, ya que se ha realizado por más de mil años. Los datos se han recabado, resumido, reportado y almacenado para su examen cuidadoso. Sin embargo,

Upload: alex-solo-yo-ps

Post on 06-Nov-2015

251 views

Category:

Documents


21 download

TRANSCRIPT

CAPTULO 1

INTRODUCCIN A LA ESTADSTICA Y AL ANLISIS DE DATOS

1.1 PANORAMA GENERAL: INFERENCIA ESTADSTICA, MUESTREO, POBLACIONES Y DISEO EXPERIMENTAL

Desde inicios de la dcada de 1980 y hasta la actualidad, se ha puesto un inters especial en el mejoramiento de la calidad en la industria estadounidense y de todo el mundo. Se ha dicho y escrito mucho acerca del "milagro industrial" japons que comenz a mediados del siglo XX. Los nipones fueron capaces de tener xito donde otras naciones fallaron; a saber, en la creacin de un entorno que permita la manufactura de productos de alta calidad. Gran parte del xito japons se atribuye al uso de mtodos estadsticos y del pensamiento estadstico entre el personal gerencial.

EMPLEO DE DATOS CIENTFICOS

El uso de mtodos estadsticos en la manufactura, el desarrollo de productos alimenticios, el software para computadoras, los medicamentos y muchas otras reas implican el acopio de informacin o datos cientficos. Por supuesto que la obtencin de datos no es algo nuevo, ya que se ha realizado por ms de mil aos. Los datos se han recabado, resumido, reportado y almacenado para su examen cuidadoso. Sin embargo, hay una diferencia profunda entre recabar informacin cientfica y la estadstica inferencial. Esta ltima ha recibido atencin legtima durante las ltimas dcadas.La estadstica inferencial gener un nmero enorme de "herramientas" de mtodos estadsticos que utilizan los profesionales de la estadstica. Los mtodos estadsticos se disean para contribuir al proceso de realizar juicios cientficos frente a la incertidumbre y a la variacin. Dentro del proceso de manufactura la densidad de producto de un material especfico no siempre ser la misma. De hecho, si se trata de un proceso discontinuo en vez de uno continuo, habr variacin en la densidad de material no slo entre los lotes (variacin de un lote a otro) que salen de la lnea de produccin, sino tambin dentro de ellos. Los mtodos estadsticos se utilizan para analizar datos de procesos como el anterior, para tener una mejor orientacin respecto de dnde realizar mejoras a la calidad del proceso mismo. Aqu la calidad podra definirse segn su cercana con el valor de la densidad meta en relacin con la proporcin de las veces que se cumple tal criterio de cercana. A un ingeniero podra interesarle un instrumento especfico que se utilice para medicin del monxido de azufre en estudios sobre la contaminacin atmosfrica. Si el ingeniero tiene duda respecto de la eficacia del instrumento, hay dos fuentes de variacin con las cuales debe despejarla. La primera es la variacin en los valores de monxido de azufre que se encuentran en el mismo lugar el mismo da. La segunda es la variacin entre los valores observados y el monxido de azufre real que haya en el aire en ese momento. Si cualquiera de ambas fuentes de variacin es extraordinariamente grande (segn algn estndar determinado por el ingeniero), quiz se necesite reemplazar el instrumento. En un estudio biomdico de un nuevo frmaco que reduce la hipertensin, 85% de los pacientes experimentaron alivio; mientras que se reconoce que, por lo general, el medicamento "viejo" o actual alivia a 80% de los pacientes que sufren hipertensin crnica. No obstante, el nuevo frmaco es ms caro de elaborar y quizs ocasione algunos efectos colaterales. Debera adoptarse el nuevo medicamento? Se trata de un problema que a menudo se encuentra (a veces con mucha mayor complejidad) en la relacin entre las empresas farmacuticas y la FDA (Federal Drug Administration). De nuevo, necesita tomarse en cuenta la variacin. El valor de 85% se basa en cierto nmero de pacientes seleccionados para el estudio. Tal vez si se repitiera el estudio con nuevos pacientes el nmero observado de "xitos" sera de 75%! Se trata de una variacin natural de un estudio a otro que debe tomarse en cuenta para el proceso de toma de decisiones. Es evidente que tal variacin es importante porque una variacin de un paciente a otro es endmica al problema.

VARIABILIDAD EN LOS DATOS CIENTFICOSEn los problemas discutidos anteriormente los mtodos estadsticos empleados tienen que ver con la variabilidad y en cada caso la variabilidad que se estudia se encuentra en datos cientficos. Si la densidad del producto observada en el proceso es siempre la misma y siempre es la esperada, no habra necesidad de mtodos estadsticos. Si el dispositivo para medir el monxido de azufre siempre diera el mismo valor y ste fuera exacto (es decir, correcto), no se requerira anlisis estadstico. Si no hubiera variabilidad de un paciente a otro inherente a la respuesta al medicamento (es decir, si siempre el frmaco causara alivio o no), la vida sera muy sencilla para los cientficos de la industria farmacutica y para la FDA y los estadsticos no seran necesarios en el proceso de toma de decisiones. La estadstica inferencial ha originado un gran nmero de mtodos analticos que permiten efectuar anlisis de datos obtenidos de sistemas como los que se describen anteriormente, lo cual refleja la verdadera naturaleza de la ciencia que conocemos como estadstica inferencial; a saber, el uso de tcnicas que nos permiten ir ms all de slo reportar datos, ya que nos permiten obtener conclusiones (o inferencias) sobre el sistema cientfico. Los estadsticos usan leyes fundamentales de probabilidad e inferencia estadstica para sacar conclusiones respecto de los sistemas cientficos. La informacin se colecta en forma de mues- tras, o agrupaciones de observaciones. En el captulo 2 se introduce el proceso de muestreo, cuyo estudio contina a lo largo de todo el libro.Las muestras se renen a partir de poblaciones, que son agrupaciones de todos los individuos o elementos individuales de un tipo especfico. A veces una poblacin representa un sistema cientfico. Por ejemplo, un fabricante de tarjetas para computadora quiz desee eliminar defectos. Un proceso de muestreo implicara la recoleccin de informacin de 50 tarjetas de computadora tomadas aleatoriamente durante el proceso. Aqu, la poblacin seran todas las tarjetas de computadora producidas por la empresa en un periodo especfico. En un experimento con frmacos, se toma una muestra de pacientes y a cada uno se le administra un medicamento especfico para reducir la presin sangunea. El inters se enfoca en la obtencin de conclusiones sobre la poblacin de quienes sufren hipertensin. Si se logra una mejora en el proceso de produccin de las tarjetas para computadora y se rene una segunda muestra de tarjetas, cualesquiera conclusiones que se obtengan respecto de la efectividad del cambio en el proceso debera extenderse a toda la poblacin de tarje- tas para computadora que se produzcan bajo el "proceso mejorado".A menudo, es muy importante el acopio de datos cientficos en forma sistemtica, cuando la planeacin ocupa un lugar importante en la agenda. En ocasiones la planeacin est, por necesidad, bastante limitada. Con frecuencia nos enfocamos en ciertas propiedades o caractersticas de los elementos u objetos de la poblacin. Tal caracterstica tiene importancia de ingeniera especfica o, digamos, biolgica para el "cliente": el cientfico o el ingeniero que busca aprender algo acerca de la poblacin. Por ejemplo, en uno de los casos anteriores, la calidad del proceso tena relacin con la densidad del producto cuando sale del proceso. Un ingeniero podra necesitar estudiar el efecto de las condiciones del proceso, la temperatura, la humedad, la cantidad de un ingrediente particular, etctera. l o ella quiz muevan de manera sistemtica estos factores a cualesquiera niveles que se sugieran, de acuerdo con cualquier prescripcin o diseo experimental que se desee. Sin embargo, un cientfico silvicultor que est interesado en un estudio de los factores que influyen en la densidad de la madera en cierta clase de rbol no necesariamente tiene que disear un experimento. En este caso quiz requiera un estudio observacional, en el cual los datos se acopien en el campo, pero no se pueden seleccionar de antemano los niveles de los factores. Ambos tipos de estudios se prestan a los mtodos de la inferencia estadstica. En el primero, la calidad de las inferencias depender de la planeacin adecuada del experimento. En el ltimo, el cientfico est a expensas de lo que pueda recopilar. Por ejemplo, resulta inadecuado si un agrnomo se interesa en estudiar el efecto de la lluvia sobre la produccin de plantas y los datos se obtienen durante una sequa.Es necesario entender la importancia del pensamiento estadstico para los administradores y el uso de la inferencia estadstica para el personal cientfico. Los investigadores obtienen mucho de los datos cientficos. Los datos brindan una comprensin del fenmeno cientfico. Los ingenieros de producto y de procesos aprenden ms en sus esfuerzos fuera de lnea para mejorar el proceso. Tambin logran una comprensin valiosa al reunir datos de produccin (monitoreo online) con una base regular, lo cual permite la determinacin de las modificaciones necesarias con la finalidad de mantener el proceso en el nivel de calidad deseado.En ocasiones un cientfico slo desea obtener alguna clase de resumen del conjunto de datos representados en la muestra. En otras palabras, no utiliza la estadstica inferencial. En cambio, le seran tiles un conjunto de estadsticos o estadstica descriptiva. Tales nmeros ofrecen un sentido del centro de ubicacin de los datos, de la variabilidad en los datos y de la naturaleza general de la distribucin de observaciones en la muestra. Aunque no se incorporen mtodos estadsticos especficos que lleven a la inferencia estadstica, se puede aprender mucho. A veces la esta- dstica descriptiva va acompaada por grficas. El software estadstico moderno per- mite el clculo de medias, medianas, desviaciones estndar y otros estadsticos, as como el desarrollo de grficas que presenten una "huella digital" de la naturaleza de la muestra. En las secciones siguientes veremos definiciones e ilustraciones de los estadsticos y descripciones de recursos grficos como histogramas, diagramas de tallo y hojas, y diagramas de punto y de caja.

1.2. EL PAPEL DE LA PROBABILIDADEn este libro, los captulos 2 a 6 tratan de las nociones fundamentales de la probabilidad. Un estudio esmerado de las bases de tales conceptos permitir al lector lograr una mejor comprensin de la inferencia estadstica. Sin algo de formalismo en probabilidad, el estudiante no sera capaz de apreciar la verdadera interpretacin del anlisis de datos a travs de los mtodos estadsticos modernos. Es completamente natural estudiar probabilidad antes de estudiar inferencia estadstica. Los elementos de probabilidad nos permiten cuantificar la fortaleza o "confianza" de nuestras conclusiones. Entonces, los conceptos de probabilidad forman un componente significativo que complementa los mtodos estadsticos y ayuda a evaluar la consistencia de la inferencia estadstica. Por consiguiente, la disciplina de la probabilidad brinda la transicin entre la estadstica descriptiva y los mtodos inferenciales. Los elementos de la probabilidad permiten que la conclusin se exprese en un lenguaje que requieren los cientficos y los ingenieros. El ejemplo que sigue permite al lector comprender la nocin de un valor-P, el cual a menudo da el "fundamento" de la interpretacin de los resultados a partir del uso de los mtodos estadsticos.

Ejemplo 1.1: Suponga que un ingeniero se encuentra con datos de un proceso de produccin donde se muestrean 100 artculos y se obtienen 10 defectuosos. Se espera que de cuando en cuando haya artculos defectuosos. En efecto, los 100 artculos representan la muestra. Sin embargo, se determina que, a largo plazo, la empresa slo puede tolerar 5% de artculos defectuosos en el proceso. Entonces, los elementos de probabilidad permiten al ingeniero determinar qu tan concluyente es la informacin muestral respecto de la naturaleza del proceso. En este caso, la poblacin representa conceptualmente todos los artculos posibles en el proceso. Suponga que averiguamos que si el proceso es aceptable, es decir, si produce artculos con slo 5% defectuosos, hay una probabilidad de 0.0282 de obtener 10 o ms artculos defectuosos en una muestra aleatoria de 100 artculos del proceso. Esta pequea probabilidad sugiere que el proceso, en realidad, tiene un porcentaje de artculos defectuosos en el largo plazo que excede 5%. En otras palabras, en condiciones de un proceso aceptable, la informacin muestral que se obtuvo casi nunca ocurrira. No obstante, en verdad ocurri!Claramente, sin embargo, ocurrira con una probabilidad mucho mayor si la tasa de artculos defectuosos del proceso excediera 5% por un monto significativo.De este ejemplo es evidente que los elementos de probabilidad ayudan en la traduccin de informacin muestral en algo concluyente o no concluyente acerca del sistema cientfico. De hecho, probablemente lo que se aprendi constituye informacin inquietante para el ingeniero o administrador. Los mtodos estadsticos (que examinaremos con ms detalle en el captulo 10) produjeron un valor-P de 0.0282. El resultado sugiere que el proceso muy probablemente no sea aceptable. En los captulos siguientes se trata detenidamente el concepto de valor-P. El ejemplo que sigue brinda una segunda ilustracin.

Ejemplo 1.2: Con frecuencia la naturaleza del estudio cientfico sealar el papel que juegan la probabilidad y el razonamiento deductivo en la inferencia estadstica. El ejercicio 9.40 en la pgina 297 proporciona datos asociados con un estudio que se llev a cabo en el Instituto Politcnico y Universidad Estatal de Virginia, acerca del desarrollo de una relacin entre las races de los rboles y la accin de un hongo. Se transfirieron minerales de los hongos a los rboles, y azcares de los rboles al hongo. Se planta- ron dos muestras de 10 plantones de roble rojo norteo en un invernadero: una que contena plantones tratados con nitrgeno y una muestra de plantones sin tratamiento. Todas las dems condiciones ambientales se mantuvieron constantes. Todos los plantones contenan el hongo Pisolithus tinctorus. En el captulo 9 se incluyen ms detalles. Los pesos en gramos de los tallos se registraron al finalizar 140 das. Los datos se presentan en la tabla 1.1.

Tabla 1.1: Conjunto de datos del ejemplo 1.2SINNITROGENO0.35CON NITROGENO0.26

0.530.43

0.280.47

0.370.49

0.470.52

0.430.75

0.360.79

0.420.86

0.380.62

0.430.46

En este ejemplo hay dos muestras tomadas de dos poblaciones distintas. La finalidad del experimento consiste en determinar si el uso del nitrgeno tiene in- fluencia sobre el crecimiento de las races. Se trata de un estudio comparativo (es decir, se busca comparar las dos poblaciones en cuanto a ciertas caractersticas importantes). Es conveniente graficar los datos como se indica en la figura 1.1. Los valores representan los datos "con nitrgeno" y los valores representan los da- tos "sin nitrgeno". As, el propsito de este experimento es determinar si el uso de nitrgeno tiene influencia en el crecimiento de las races. Note que la apariencia general de los datos podra sugerir al lector que, en promedio, el uso del nitrgeno aumenta el peso del tallo. Cuatro observaciones con nitrgeno son considerablemente ms grandes que cualquiera de las observaciones sin nitrgeno. La mayora de las observaciones sin nitrgeno parece estar por debajo del centro de los datos. La apariencia del conjunto de datos parecera indicar que el nitrgeno es efectivo. Pero, cmo se cuantifica esto? Cmo se resume toda la evidencia visual aparente con algn significado? Como en el ejemplo anterior, se pueden utilizar los fundamentos de la probabilidad. Las conclusiones se resumen en una declaracin de probabilidad o valor-P. Aqu no demostraremos la inferencia estadstica que produce la probabilidad resumida. Como en el ejemplo 1.1, tales mtodos se estudiarn en el captulo 10. El problema gira alrededor de la "probabilidad de que datos como stos se puedan observar", dado que el nitrgeno no tiene efecto; en otras palabras, puesto que ambas muestras se generaron a partir de la misma poblacin. Suponga que esta probabilidad es pequea, digamos de 0.03; sta sera con certeza suficiente evidencia de que el uso del nitrgeno en realidad influye (aparentemente lo aumenta) en el peso promedio del tallo en los plantones de roble rojo. . Cmo trabajan juntas la probabilidad y la inferencia estadstica?Para el lector es importante distinguir claramente entre la disciplina de la probabilidad, una ciencia por derecho propio, y la disciplina de la estadstica inferencial. Figura 1.1: Datos de peso del tallo.Como sealamos, el uso o la aplicacin de conceptos de probabilidad permiten una interpretacin de la vida cotidiana de los resultados de la inferencia estadstica. Entonces, se afirma que la inferencia estadstica emplea los conceptos de probabilidad. A partir de los dos ejemplos anteriores, se puede saber que la informacin muestral est disponible para el analista y, con la ayuda de mtodos estadsticos y elementos de probabilidad, se obtienen conclusiones acerca de alguna caracterstica de la poblacin. (El proceso no parece ser aceptable en el ejemplo 1.1 y el nitrgeno en verdad influye en el peso promedio de los tallos del ejemplo 1.2.) As, para un problema estadstico, tanto la muestra como la estadstica inferencial nos permiten obtener conclusiones acerca de la poblacin, de manera que la estadstica inferencial utiliza ampliamente los elementos de probabilidad. Tal razonamiento es inductivo por naturaleza. Ahora conforme avancemos hacia el captulo 2 y ms adelante, el lector encontrar que a diferencia de nuestros dos ejemplos actuales, no nos enfocaremos en resolver problemas estadsticos. En muchos de los ejemplos que estudiaremos no se utilizarn muestras. Se describir claramente una poblacin con todas sus caractersticas. Luego las preguntas importantes se enfocarn en la naturaleza de los datos que hipotticamente podran obtenerse a partir de la poblacin. Entonces, los problemas de probabilidad nos permiten obtener conclusiones acerca de las caractersticas de los datos hipotticos que se tomen de la poblacin con base en las caractersticas conocidas de la poblacin. Esta clase de razonamiento es deductivo por naturaleza. La figura 1.2 muestra las relaciones bsicas entre la probabilidad y la estadstica inferencial.

Figura 1.2: Relaciones bsicas entre la probabilidad y la estadstica inferencial.Ahora, en trminos generales, cul es ms importante, el campo de la probabilidad o el de la estadstica? Ambos son muy importantes y evidentemente se complementan. La nica certeza respecto de la didctica de ambas disciplinas reside en el hecho de que si la estadstica debe ensearse con un nivel mayor que el de un simple "libro de cocina", entonces tiene que ensearse primero la disciplina de la probabilidad. Esta regla se deriva de la nocin de que nada puede aprenderse sobre una poblacin a partir de una muestra, hasta que el analista aprenda los rudimentos de incertidumbre en esa muestra. Considere el ejemplo 1.1, la pregunta se centra en torno de si la poblacin, definida por el proceso, tiene o no ms de 5% elementos defectuosos. En otras palabras, la suposicin es que en promedio 5 de cada 100 artculos salen defectuosos. Ahora la muestra contiene 100 artculos y 10 estn defectuosos. Esto apoya la suposicin o la refuta? Aparentemente se tratara de una refutacin de la suposicin, pues 10 de cada 100 parecera ser "bastante". Pero sin nociones de probabilidad, cmo lo sabramos? Slo mediante el estudio del material de los siguientes captulos aprenderemos que a condicin de que el proceso sea aceptable (5% de defectuosos), la probabilidad de obtener 10 o ms artculos defectuosos en una muestra de 100 es de 0.0282.Dimos dos ejemplos donde los elementos de probabilidad ofrecen un resumen que el cientfico o el ingeniero pueden usar como evidencia sobre la cual basar una decisin. El puente entre los datos y la conclusin est, por supuesto, basado en los fundamentos de la inferencia estadstica, la teora de la distribucin y las distribuciones de muestreos que se examinan en futuros captulos1.3 PROCEDIMIENTOS DE MUESTREO; ACOPIO DE LOS DATOSEn la seccin 1.1 estudiamos muy brevemente la nocin de muestreo y del proceso de muestreo. Mientras que el muestreo aparece como un concepto simple, la complejidad de las preguntas que deben contestarse acerca de la poblacin o las poblaciones, en ocasiones requiere que el proceso de muestreo sea muy complejo. Mientras que la nocin de muestreo se examina con detalles en el captulo 8, aqu nos esforzaremos por dar algunas nociones de sentido comn sobre el muestreo. Se trata de una transicin natural hacia el anlisis del concepto de variabilidad.

MUESTREO ALEATORIO SIMPLE

La importancia del muestreo adecuado gira en torno del grado de confianza con que el analista es capaz de responder las preguntas que se le formulan. Supongamos que slo hay una poblacin en el problema. Recuerde que en el ejemplo 1.2 haba dos poblaciones implicadas. El muestreo aleatorio simple significa que cualquier muestra dada de un tamao muestral especfico tiene la misma probabilidad de ser seleccionada que cualquier otra muestra del mismo tamao. El termino tamao muestral simplemente indica el nmero de elementos en la muestra. Evidentemente en muchos casos es posible utilizar una tabla de nmeros aleatorios al seleccionar la muestra. La ventaja del muestreo aleatorio simple radica en que ayuda en la eliminacin del problema de tener una muestra que refleje una poblacin diferente (quiz ms restringida) de aquella sobre la cual se necesitan realizar las inferencias. Por ejemplo, se elige una muestra para contestar diferentes preguntas respecto de las preferencias polticas en cierta entidad del pas. La muestra implica la eleccin, digamos, de 1000 familias a las cuales aplicar una encuesta. Ahora suponga que resulta que no se utiliza el muestreo aleatorio. Ms bien, todas o casi todas las 1000 familias se eligen de una zona urbana. Se considera que las preferencias polticas en las reas rurales difieren de las de las reas urbanas. En otras palabras, la muestra obtenida en realidad limit a la poblacin y, por lo tanto, las inferencias tambin tendrn que restringirse a la "poblacin limitada", por lo que en este caso tal confinamiento podra volverse indeseable. Si, de hecho, las inferencias necesitan hacerse respecto de la entidad en su conjunto, la muestra cuyo tamao son 1000 familias que se utiliza aqu a menudo se conoce como muestra sesgada.Como sugerimos anteriormente, el muestreo aleatorio simple no siempre resulta adecuado. El enfoque alternativo que se utilice depender de la complejidad del problema. Con frecuencia, por ejemplo, las unidades mustrales no son homogneas y naturalmente se dividen en grupos que no se traslapan que son homogneos. Tales grupos se llaman estratos, y un procedimiento llamado muestreo aleatorio estratificado implica la seleccin al azar de una muestra dentro de cada estrato. El propsito consiste en asegurarse que cada uno de los estratos no est ni sobrerrepresentado ni sobre presentado. Por ejemplo, suponga que se encuesta a una muestra para reunir informacin preliminar sobre un referndum que se piensa realizar en determinada ciudad. La ciudad se subdivide en varios grupos tnicos que representan estratos naturales y, para no excluir ni sobre representar a algn grupo de cada uno de ellos, podran elegirse muestras aleatorias separadas de cada grupo.

DISEO EXPERIMENTALEl concepto de aleatoriedad o asignacin aleatoria juega un papel muy importante en el rea del diseo experimental, el cual se introdujo brevemente en la seccin 1.1 y es un fundamento muy importante en casi cualquier rea de la ingeniera y de la ciencia experimental. Lo estudiaremos con detenimiento en los captulos 13 a 15. No obstante, sera til dar aqu una breve introduccin en el contexto del muestreo aleatorio. Un conjunto de tratamientos o combinaciones de tratamientos se vuelven las poblaciones que van a estudiarse o a compararse en algn sentido. Un ejemplo es el tratamiento "con nitrgeno" versus "sin nitrgeno" del ejemplo 1.2. Otro ejemplo sencillo sera el "placebo" versus "medicamento activo"; o en un estudio sobre la fatiga por corrosin, tendramos combinaciones de tratamientos que impliquen espcimen con recubrimiento o sin recubrimiento, as como condiciones de alta o de baja humedad, a las cuales se somete el espcimen. De hecho, hay cuatro combinaciones de factores o de tratamientos (es decir, 4 poblaciones), y quiz se formulen y se respondan muchas preguntas usando los mtodos estadsticos e inferenciales. Considere primero la situacin del ejemplo 1.2. Hay 20 plantones enfermos implicados en el experimento. A partir de los datos es fcil observar que los plantones son diferentes entre s. Dentro del grupo con nitrgeno (o del grupo sin nitrgeno) hay variabilidad considerable en el peso de los tallos, la cual se debe a lo que, por lo general, se denomina unidad experimental. ste es un concepto muy importante en la estadstica inferencial, cuya descripcin no termina en este captulo. La naturaleza de la variabilidad es muy importante. Si es demasiado grande, derivada de una condicin de falta de homogeneidad excesiva en las unidades experimentales, la variabilidad "eliminar" cualquier diferencia detectable entre ambas poblaciones. Recuerde que en este caso eso no ocurri.La grfica de puntos de la figura 1.1 y el valor-P indican una clara distincin entre esas dos condiciones. Pero qu papel juegan tales unidades experimentales en el proceso mismo de acopio de los datos? El enfoque por sentido comn y, de hecho, estndar es asignar los 20 plantones o unidades experimentales aleatoriamente a las dos condiciones o tratamientos. En el estudio del medicamento quiz decidamos utilizar un total de 200 pacientes disponibles, quienes sern claramente distinguibles en algn sentido. Ellos son las unidades experimentales. No obstante, tal vez todos tengan una condicin crnica para la cual el frmaco sea un tratamiento potencial. As en el denominado diseo completamente aleatorio, se asignan al azar 100 pacientes al placebo y 100 al medicamento activo. De nuevo, son estas unidades experimentales en el grupo o tratamiento las que producen la variabilidad en el resultado de los datos (es decir, la variabilidad en el resultado medido), digamos, la presin sangunea; o cualquier valor de la eficacia de un medicamento que sea importante. En el estudio de la fatiga por corrosin, las unidades experimentales son los especmenes que se someten a la corrosin.Por qu las unidades experimentales se asignan aleatoriamente?Cul es la posible influencia negativa de no asignar aleatoriamente las unidades experimentales a los tratamientos o a las combinaciones de tratamientos? Esto se observa ms claramente en el caso del estudio del medicamento. Entre las caracte- rsticas de los pacientes que producen variabilidad en los resultados estn la edad, el gnero, el peso, etctera. Tan slo suponga que por casualidad el grupo del placebo contiene una muestra de personas que son predominantemente ms obesas que las del grupo del tratamiento. Quiz los individuos ms obesos muestren una tendencia a tener mayor presin sangunea, lo cual evidentemente sesga el resultado y, por lo tanto, cualquier resultado que se obtenga mediante la aplicacin de la inferencia estadstica podra tener poco que ver con el efecto del medicamento, pero mucho con las diferencias en el peso de ambas muestras de pacientes.Deberamos enfatizar la importancia del trmino variabilidad. La variabilidad excesiva entre las unidades experimentales "disfraza" los hallazgos cientficos. En secciones posteriores intentaremos clasificar y cuantificar las medidas de variabilidad. En las siguientes secciones presentaremos y estudiaremos cantidades especficas que se calculan a partir de las muestras; las cantidades dan un sentido de la naturaleza de la muestra respecto del centro de ubicacin de los datos y la variabilidad de los mismos. Un anlisis de varias de tales medidas de un solo nmero ofrece un prembulo de los componentes importantes de la informacin estadstica en los mtodos estadsticos que se utilizan en los captulos 8 a 15. Se trata de medidas que ayudan a clasificar la naturaleza del conjunto de datos que caen en la categora de estadstica descriptiva. Este material es una introduccin a una presentacin breve de los mtodos pictricos y grficos que van incluso ms all en la caracterizacin del conjunto de datos. El lector debera entender que los mtodos estadsticos que se presentan aqu se utilizarn a lo largo de todo el texto. Para tener una imagen ms clara de lo que implican los estudios de diseo experimental, tenemos el siguiente ejemplo.

Ejemplo 1.3: Se realiz un estudio sobre la corrosin con la finalidad de determinar si un metal de aluminio recubierto con una sustancia retardadora de la corrosin reduca la cantidad de la corrosin. El recubrimiento es un protector que se publicita como que minimiza el dao por fatiga en esta clase de material. La influencia de la humedad sobre la magnitud de la corrosin tambin es de inters. Una medicin de la corrosin puede expresarse en millares de ciclos hasta ruptura. Se utilizaron dos niveles de recubrimiento: sin recubrimiento y con recubrimiento qumico contra la corrosin.Adems, los dos niveles de humedad relativa son de 20 y 80%, respectivamente. El experimento implica cuatro combinaciones de tratamientos que se listan en la siguiente tabla. Hay ocho unidades experimentales que se usarn y son especmenes de aluminio preparados, de los cuales dos se asignan aleatoriamente a cada una de las cuatro combinaciones de tratamiento. Los datos se presentan en la tabla 1.2. Los datos de la corrosin son promedios de los dos especmenes. En la figura 1.3 se presenta una grfica con los promedios. Un valor relativamente grande de ciclos hasta ruptura representa una cantidad pequea de corrosin. Como podra esperarse, parece que un incremento en la humedad hace que empeore la corrosin. Adems,

Figura 1.3: Resultados de corrosin para el ejemplo 1.3.parece que el uso del procedimiento de recubrimiento qumico contra la corrosin reduce la corrosin.En este caso de diseo experimental, el ingeniero eligi sistemticamente las cuatro combinaciones de tratamiento. Para vincular esta situacin con los conceptos con los cuales el lector ha estado familiarizado hasta aqu, deberamos suponer que las condiciones que representan las cuatro combinaciones de tratamientos son cuatro poblaciones separadas y que los dos valores de corrosin observados en cada una de las poblaciones constituyen importantes piezas de informacin. La importancia del promedio al captar y resumir ciertas caracterstica en la poblacin se destacar en la seccin 1.4. Mientras seamos capaces de obtener conclusiones acerca del papel de la humedad y del impacto de recubrir el espcimen a partir de la figura, no podremos evaluar en realidad los resultados a partir de cualquier punto de vista analtico sin tomar en cuenta la variabilidad alrededor del promedio. De nuevo, como sealamos anteriormente, si los dos valores de corrosin en cada una de las combinaciones de tratamientos son muy cercanos, la imagen de la figura 1.3 podra ser una descripcin precisa. Pero si cada valor de la corrosin en la figura es un promedio de dos valores que estn ampliamente dispersos, entonces esta variabilidad podra, de hecho, verdaderamente "eliminar" cualquier informacin que parezca difundirse cuando uno tan slo observa los promedios. Los siguientes ejemplos ilustran los conceptos.1.4 Medidas de posicin: La media y la mediana de una muestra 1. La asignacin aleatoria a las combinaciones de tratamientos (recubrimiento/humedad) de las unidades experimentales (especmenes)2. El uso de promedios muestrales (valores de corrosin promedio) para resumir la informacin muestral3. La necesidad de considerar las medidas de variabilidad en el anlisis de cual- quier nuestra o conjunto de muestras.

Este ejemplo sugiere la necesidad del tema de las secciones 1.4 y 1.5, es decir, la estadstica descriptiva que indica las medidas del centro de ubicacin en un conjunto de datos, y aquellas que miden la variabilidad.

1.4 MEDIDAS DE POSICIN: LA MEDIA Y LA MEDIANA DE UNA MUESTRAEn un conjunto de datos las medidas de posicin estn diseadas para brindar al analista alguna medida cuantitativa de dnde est el centro de los datos en una muestra. En el ejemplo 1.2 parece como si el centro de la muestra con nitrgeno claramente excediera al de la muestra sin nitrgeno. Una medida obvia y muy til es la media de la muestra. La media es simplemente un promedio numrico.

Definicin 1.1:

Hay otras medidas de tendencia central que se explican con detalle en captulos posteriores. Una medida importante es la mediana de la muestra. El propsito de la mediana de la muestra es reflejar la tendencia central de la muestra, de manera que no est influida por los valores extremos. Dado que las observaciones en una mues- tra son x1, x2, . . . , xn, acomodados en orden de magnitud creciente, la mediana de la muestra es

Por ejemplo, supongamos que el conjunto de datos es el siguiente: 1.7, 2.2, 3.9, 3.11 y14.7. La media y la mediana de la muestra son, respectivamente,

Es evidente que la media est influida de manera considerable por la presencia de la observacin extrema, 14.7; en tanto que el lugar de la mediana hace nfasis en el verdadero "centro" del conjunto de datos. En el caso del conjunto de datos de dos muestras del ejemplo 1.2, las dos medidas de tendencia central para las muestras individuales son

Hay una diferencia de concepto evidente entre la media y la mediana. Para el lector con ciertas nociones de ingeniera quiz sea de inters que la media de la muestra es el centroide de los datos en una muestra. En cierto sentido es el punto donde se puede colocar un fulcro para equilibrar un sistema de "pesos", que son las posiciones de los datos individuales. Esto se muestra en la figura 1.4 respecto de la muestra "con nitrgeno".

Figura 1.4: Media de la muestra como centroide del peso del tallo "con nitrgeno".

En captulos futuros, la base para el clculo de es un estimado de la media de la poblacin. Como sealamos anteriormente, el propsito de la inferencia estadstica es obtener conclusiones acerca de las caractersticas o parmetros de la poblacin, y la estimacin es una caracterstica muy importante de la inferencia estadstica. La mediana y la media llegan a ser muy diferentes entre s. Note, sin embargo, que en el caso de los datos del peso de los tallos, el valor de la media de la muestra para "sin nitrgeno" es bastante similar al valor de la mediana.

OTRAS MEDIDAS DE POSICIN

Hay otros mtodos para calcular el centro de ubicacin de los datos en la muestra. No los trataremos en este momento. Por lo general, las alternativas para la media de la muestra se disean para generar valores que representen relacin entre la media y la mediana. Rara vez utilizamos alguna de tales medidas. No obstante, es aleccionador estudiar una clase de estimadores conocida como media recortada, la cual se calcu- la "quitando" cierto porcentaje de los valores mayores y menores del conjunto. Por ejemplo, la media recortada 10% se encuentra eliminando tanto el 10% de los valores mayores como de los menores, y calculando el promedio de los valores restantes. Por ejemplo, en el caso de los datos del peso de los tallos eliminaramos el valor ms alto y el ms bajo, ya que el tamao de la muestra es 10 en cada caso. De manera que para el grupo sin nitrgeno la media recortada 10% est dado por

y para la media recortada 10% del grupo con nitrgeno tenemosObserve que en este caso, como se esperaba, las medias recortadas estn cerca tanto de la media como de la mediana para las muestras individuales. Desde luego, el enfoque de la media recortada es menos sensible a los valores extremos que la media de la muestra; pero no tan insensible como la mediana. Por otro lado, el enfoque de la media recortada utiliza mayor informacin. Note que la mediana de la muestra es, de hecho, un caso especial de la media recortada, en el cual se eliminan todos los datos de la muestra y queda solo el central o dos observaciones.

EJERCICIOS

1.1 Se registran las siguientes mediciones para el tiempo de secado (en horas) de cierta marca de pintura es- maltada.

Suponga que las mediciones constituyen una muestra aleatoria simple.a) Cul es el tamao de la muestra anterior?b) Calcule la media de la muestra para estos datos.c) Calcule la mediana de la muestra.d) Grafique los datos utilizando una grfica de puntos. e) Calcule la media recortada 20% para el conjunto de datos anterior.

1.2 Segn la publicacin Chemical Engineering, una propiedad importante de una fibra es su absorcin del agua. Se toma una muestra aleatoria de 20 piezas de fibra de algodn y se mide la impermeabilidad de cada una. Los valores de absorcin son los siguientes:

sistencia a la tensin de los especmenes y se registraron los siguientes datos sobre resistencia a la tensin en psi.Sin envejecimiento acelerado: Con envejecimiento acelerado:

a) Elabore la grfica de puntos de los datos.b) A partir de la grfica, parecera que el proceso de envejecimiento tuvo un efecto en la resistencia a la tensin de este polmero?c) Calcule la resistencia a la tensin de la media de la muestra en ambas muestras.d) Calcule la mediana de ambas. Discuta la similitud o falta de similitud entre la media y la mediana de cada grupo.

1.4 En un estudio realizado por el Departamento de Ingeniera Mecnica del Tecnolgico de Virginia, se compararon las varillas de acero que abastecen dos compaas diferentes. Se fabricaron diez resortes de muestra con las varillas de metal proporcionadas por cada una de las compaas y se registraron sus medidas de flexibilidad. A continuacin se presentan a) Calcule la media y la mediana de la muestra para los valores de la muestra anterior.b) Calcule la media recortada 10%.c) Elabore una grfica de puntos con los datos de la absorcin.

1.3 Se utiliza cierto polmero para los sistemas de evacuacin de los aviones. Es importante que el polmero sea resistente al proceso de envejecimiento. Se utilizaron veinte especmenes del polmero en un experimento. Diez se asignaron aleatoriamente para exponerse al proceso de acelerado, el cual implica la exposicin a altas temperaturas durante 10 das. Se hicieron las mediciones de re-

a) Calcule la media y la mediana de la muestra para los datos de ambas compaas.b) Grafique los datos para las dos compaas en la mis- ma lnea y explique su conclusin.

1.5 Veinte adultos hombres de entre 30 y 40 aos de edad participaron en un estudio para evaluar el efecto de cierto rgimen de salud, que incluye dieta y ejercicio, en el colesterol sanguneo. Se eligieron diez aleatoriamente para el grupo de control y los otros diez se asignaronpara tomar parte en el rgimen como grupo de tratamiento durante un periodo de 6 meses. Los siguientes datos muestran la reduccin en el colesterol que experimentaron en ese periodo los 20 sujetos:

a) Elabore una grfica de puntos, con los datos de ambos grupos en una misma grfica.b) Calcule la media, la mediana y la media recortada 10% para ambos grupos.c) Explique por qu la diferencia en la media sugiere una conclusin acerca del efecto del rgimen, en tanto que la diferencia en las medianas o las medias recortadas sugiere una conclusin diferente.1.6 La resistencia a la tensin del caucho de silicn se considera una funcin de la temperatura de vulcanizado.

Se llev a cabo un estudio donde muestras de 12 especmenes del caucho se prepararon utilizando temperaturas de vulcanizado de 20 C y 40 C. Los siguientes datos presentan los valores de resistencia a la tensin en mega pascales.

a) Elabore una grfica de puntos con los datos tanto de los valores de resistencia a la tensin a temperatura alto como los de a temperatura baja.b) Calcule la resistencia a la tensin de la media de la muestra para ambas muestras.c) Parece que la temperatura de vulcanizado tiene in- fluencia en la resistencia a la tensin segn la grfica? Argumente.d) Qu parece estar influido por un incremento en la temperatura de vulcanizado?

1.5 MEDIDAS DE VARIABILIDADLa variabilidad de una muestra juega un papel importante en el anlisis de datos. La variabilidad de un proceso y un producto es un hecho real en los sistemas cientficos y de ingeniera: el control o la reduccin de la variabilidad de un proceso a menudo es una fuente de mayores dificultades. Cada vez con mayor frecuencia, los ingenieros y administradores de procesos aprenden que la calidad del producto, y como resultado, las ganancias que se derivan de productos manufacturados es, con mucho, una funcin de la variabilidad del proceso. De esta manera, gran parte de los captulos 9 a 15 tiene que ver con el anlisis de datos y con los procedimientos de modelado, en los cuales la variabilidad de la muestra juega un papel significativo. Incluso en problemas de anlisis de datos pequeos, el xito de un mtodo estadstico especfico podra depender de la magnitud de la variabilidad entre las observaciones en la muestra. Las medidas de posicin en una muestra no brindan un resumen adecuado de la naturaleza de un conjunto de datos. Es decir, en el ejemplo 1.2 no podemos concluir que el uso del nitrgeno realza el crecimiento sin tomar en cuenta la variabilidad de la muestra.Mientras que los detalles del anlisis de este tipo de conjuntos de datos se dejan para estudiar en el captulo 9, a partir de la figura 1.1 debera quedar claro que la variabilidad entre las observaciones "sin nitrgeno" y la variabilidad entre las observaciones "con nitrgeno", desde luego, tienen alguna consecuencia. De hecho, parece que la variabilidad dentro de la muestra con nitrgeno es mayor que la de la muestra sin nitrgeno. Quizs haya algo acerca de la inclusin del nitrgeno que no tan slo incrementa el peso de los tallos ( de 0.565 gramos en comparacin con una de 0.399 gramos para la muestra sin nitrgeno), aunque tambin incrementa la variabilidad en el peso de los tallos (es decir, hace que el peso de los tallos sea ms inconsistente).Por ejemplo, compare los dos conjuntos de datos de abajo. Cada uno contiene dos muestras y la diferencia en las medias es aproximadamente la misma para las dos muestras: el conjunto de datos B parece proporcionar un contraste mucho ms claro entre las dos poblaciones de las que se tomaron las muestras. Si el propsito de tal experimento es detectar la diferencia entre las dos poblaciones, la tarea se lleva a cabo en el caso del conjunto de datos B. Sin embargo, en el conjunto de datos A la

amplia variabilidad dentro de las dos muestras ocasiona dificultad. De hecho, no es claro que haya una diferencia entre las dos poblaciones.

RANGO Y DESVIACIN ESTNDAR DE LA MUESTRA

As como hay muchas medidas de tendencia central o de posicin, hay muchas medidas de dispersin o variabilidad. Quiz la ms simple sea el rango de la muestra . El rango puede ser muy til y se discute con amplitud en el captulo 17 sobre el control estadstico de calidad. La medida La medida muestral de dispersin que se utiliza ms a menudo es la desviacin estndar de la muestra. Nuevamente denotemos con x1, x2, . . . , xn los valores de la muestra;

Definicin 1.2

La desviacin estndar de la muestra, denotada con s, es la raz cuadrada positiva de s2, es decir, Para el lector debera quedar claro que la desviacin estndar de la muestra es, de hecho, una medida de variabilidad. Una variabilidad grande en un conjunto de datos produce valores relativamente grandes de 2 y por ello una varianza de la muestra grande. La cantidad n 1 a menudo se denomina grados de libertad asociados con la varianza estimada. En este ejemplo simple, los grados de libertad representan el nmero de piezas de informacin independientes disponibles para calcular la variabilidad. Por ejemplo, suponga que deseamos calcular la varianza de la muestra y la desviacin estndar del conjunto de datos (5, 17, 6, 4). El promedio de la muestra es = 8. El clculo de la varianza implica:

Las cantidades dentro de los parntesis suman cero. En general,

(Vase el ejercicio 1.16 de la pgina 28). Entonces, el clculo de la varianza de una muestra no implica n desviaciones cuadradas independientes de la media . De hecho, como el ltimo valor de est determinado por los primeros valores, decimos que stas son "piezas de informacin" que producen s2. Por ello hay grados de libertad, en vez de n grados de libertad para calcular la varianza de una muestra.

Ejemplo 1.4: En un caso que se estudia ampliamente en el captulo 10, un ingeniero se interesa en probar el "sesgo" en un medidor de pH. Se recaban los datos utilizndolo para medir el pH de una sustancia neutral (pH = 7.0). Se toma una muestra de tamao 10 y se obtienen los siguientes resultados:

UNIDADES PARA LA DESVIACIN ESTNDAR Y LA VARIANZA

A partir de la definicin 1.2 debera ser evidente que la varianza es una medida de la desviacin cuadrtica promedio a partir de la media . Empleamos el trmino desviacin cuadrtica promedio aun cuando la definicin utilice una divisin entre grados de libertad, en vez de n. Desde luego, si n es grande la diferencia en el de- nominador es inconsecuente. Por lo tanto, la varianza de la muestra tiene unidades que son el cuadrado de las unidades en los datos observados; mientras que la desviacin estndar de la muestra se encuentra en unidades lineales. Considere los datos del ejemplo 1.2. Los pesos del tallo se miden en gramos. Como resultado, las desviaciones estndar de la muestra estn en gramos y las varianzas se miden en gramos2. De hecho, las desviaciones estndar individuales son 0.0728 gramos para el caso sin nitrgeno y 0.1867 gramos para el grupo con nitrgeno. Observe que la variabilidad caracterizada por la desviacin estndar en verdad indica una variabilidad significativamente ms grande en la muestra con nitrgeno. Esta condicin se destaca en la figura 1.1.

Cul es la medida de variabilidad ms importante?

Como indicamos antes, el rango de la muestra tiene aplicaciones en el rea del con- trol estadstico de la calidad. Quizs el lector considere que es redundante el uso tanto de la varianza de la muestra como de la desviacin estndar de la muestra. Ambas medidas reflejan el mismo concepto en la variabilidad de la medicin; pero la desviacin estndar de la muestra mide la variabilidad en unidades lineales; en tanto que la varianza de la muestra se mide en unidades cuadradas. Ambas juegan papeles importantes en el uso de los mtodos estadsticos. Mucho de lo que se logra en el contexto de la inferencia estadstica implica la obtencin de conclusiones acerca de las caractersticas de poblaciones. Entre tales caractersticas son constantes los de- nominados parmetros de la poblacin. Dos parmetros importantes son la media de la poblacin y la varianza de la poblacin. La varianza de la muestra juega un papel explcito en los mtodos estadsticos que se utilizan para obtener inferencias sobre la varianza de la poblacin. La desviacin estndar de la muestra tiene un papel importante, junto con la media de la muestra, en las inferencias que se realizan acerca de la media de la poblacin. En general, la varianza se considera ms en la teora inferencial; mientras que la desviacin estndar se utiliza ms en aplicaciones.

Ejercicios

1.7 Considere los datos del tiempo de secado del ejercicio 1.1 de la pgina 13. Calcule la varianza de la muestra y la desviacin estndar de la muestra.

1.8 Calcule la varianza de la muestra y la desviacin estndar para los datos de absorcin del agua del ejercicio 1.2 de la pgina 13.

1.9 El ejercicio 1.3 de la pgina 13 present muestras de datos de resistencia a la tensin, unos para especmenes que se expusieron a un proceso de envejecimiento, y otros donde no hubo tal proceso en los especmenes. Calcule la varianza de la muestra y su desviacin estndar en cuanto a la resistencia a la tensin en ambas muestras.

1.10 Para los datos del ejercicio 1.4 de la pgina 13, calcule tanto la media como la varianza de la "flexibilidad" para las compaas A y B.

1.11 Considere los datos del ejercicio 1.5 de la pgina 13. Calcule la varianza de la muestra y la desviacin estndar de la muestra para ambos grupos: el de tratamiento y el de control.

1.12 Para el ejercicio 1.6 de la pgina 14, calcule la desviacin estndar de la muestra en la resistencia a la tensin para las muestras, separadamente para ambas temperaturas. Parece que un incremento en la temperatura influye en la variabilidad de la resistencia a la tensin? Explique. 1.6 DATOS DISCRETOS Y CONTINUOSLa inferencia estadstica a travs del anlisis de estudios observacionales o de experimentos diseados se utiliza en muchas reas cientficas. Los datos reunidos pueden ser discretos o continuos, segn el rea de aplicacin. Por ejemplo, un ingeniero qumico podra interesarse en un experimento que lo lleve a condiciones en que se maximice la produccin. Aqu, por supuesto, la produccin estara en porcentaje, o gramos/libra, medida en un continuo. Por otro lado, un toxiclogo que realice un experimento de combinacin de frmacos quizs encuentre datos que son binarios por naturaleza (es decir, el paciente responde o no).Distinciones importantes se realizan entre datos discretos y continuos en la teora de la probabilidad que nos permiten obtener inferencias estadsticas. Con frecuencia las aplicaciones de la inferencia estadstica se encuentran cuando se trata de datos por conteo. Por ejemplo, un ingeniero que se interese en estudiar el nmero de partculas radiactivas que pasan a travs de un contador en, digamos, 1 milisegundo. El personal responsable por la eficiencia de una instalacin portuaria quiz se interese en las caractersticas del nmero de buques petroleros que llegan diaria- mente a cierta ciudad portuaria. En el captulo 5, varios escenarios distintos, al mostrar varias formas de manejar los datos, se examinan para situaciones de datos por conteo.Incluso en esta fase inicial del texto, debera ponerse especial atencin a algunos detalles que se asocian con datos binarios. Son muchas las aplicaciones que requieren el anlisis estadstico de datos binarios. Con frecuencia la medicin que se utiliza en el anlisis es la proporcin muestral. En efecto, la situacin binaria implica dos categoras. Si en los datos hay n unidades y x se define como el nmero que cae en la categora 1, entonces n x cae en la categora 2. As, x /n es la proporcin muestral en la categora 1 y 1 x /n es la proporcin muestral en la categora 2. En la aplicacin biomdica, por ejemplo, 50 pacientes representaran las unidades de la muestra y si, despus de que se les suministra el medicamento, 20 de 50 experimentan mejora en malestares estomacales (que son comunes en los 50), entonces 50 = 0.4 es la proporcin muestral para la cual el medicamento tuvo xito, y 1 0.4 = 0.6 es la proporcin muestral para la cual el frmaco no tuvo xito. En realidad la medicin numrica fundamental para datos binarios, por lo general, se denota con 0 o con 1. Por ejemplo, en nuestro ejemplo mdico, un resultado exitoso se denota con un 1 y uno no exitoso con un 0. Entonces, realmente la proporcin muestral es una media de la muestra de unos y ceros. Para la categora de xitos.

Qu clases de problemas se resuelven en situaciones con datos binarios?

Los tipos de problemas que enfrentan cientficos e ingenieros que tratan con datos binarios no son muy difciles, a diferencia de aquellos donde las mediciones continuas son de inters. No obstante, se utilizan tcnicas diferentes, pues las propiedades estadsticas de las proporciones muestrales son bastante diferentes de las medias de la muestra que resultan de los promedios tomados a partir de poblaciones continuas. Considere los datos del ejemplo en el ejercicio 1.6 de la pgina 14. El problema estadstico que subyace a este caso se enfoca en si una intervencin, digamos un in- cremento en la temperatura de vulcanizado, alterar la resistencia a la tensin de la media de la poblacin que se asocia con el proceso del caucho de silicn. Por otro lado, en el rea del control de la calidad, suponga que el fabricante de neumticos para automvil informa que en un embarque con 5000 neumticos, seleccionados aleatoriamente del proceso, hay 100 defectuosos. Aqu la proporcin muestral es

Luego de realizar un cambio en el proceso para reducir los neumticos defectuosos, se toma una segunda muestra de 5000 y se encuentran 90 defectuosos. La proporcin muestral se redujo a . Entonces, surge una pregunta: "La disminucin en la proporcin muestral de 0.02 a 0.018 es en verdad suficiente como para sugerir una mejora real en la proporcin de la poblacin?" En ambos casos se requiere el uso de las propiedades estadsticas de los promedios de la muestra: en uno a partir de las muestras de poblaciones continuas, y en el otro a partir de las muestras de poblaciones discretas (binarias). Adems, en ambos la media de la muestra es un estimado de un parmetro de la poblacin: una media de la poblacin en el primer caso (la resistencia media a la tensin), y una proporcin de la poblacin (la proporcin de neumticos defectuosos en la poblacin) en el segundo caso. De manera que aqu tenemos estimados de la muestra que se utilizan para obtener conclusiones cientficas respecto de los parmetros de la poblacin. Como indicamos en la seccin 1.4, se trata del tema general en muchos problemas prcticos donde se usa la inferencia estadstica.

1.7 MODELADO ESTADSTICO, INSPECCIN CIENTFICA Y DIAGNSTICOS GRFICOS

A menudo el resultado final de un anlisis estadstico es la estimacin de los par- metros de un modelo postulado. Esto es por completo natural para los cientficos y los ingenieros, pues con frecuencia tratan con el modelado. Un modelo estadstico no es determinista sino, ms bien, debe implicar algunos aspectos probabilistas. Por lo general, una forma de modelo es la fundamentacin de las suposiciones que hace el analista. En nuestro ejemplo 1.2, quizs el cientfico desee extraer algn nivel de distincin entre las poblaciones "con nitrgeno" y "sin nitrgeno" a travs de informacin de la muestra. El anlisis puede requerir cierto modelo para los datos; por ejemplo, que las dos muestras provengan de distribuciones normales o gaussianas. Vase el captulo 6 para el estudio de una distribucin normal.A veces el modelo postulado adquiere una forma algo ms compleja. Por ejemplo, considere un fabricante de textiles que disea un experimento donde los especmenes detela se producen de manera que contengan diferentes porcentajes de algodn.Considere los siguientes datos de la tabla 1.3.

Se fabrican cinco especmenes de tela para cada uno de los cuatro porcentajes de algodn. En este caso, tanto el modelo para el experimento como el tipo de anlisis que se utiliza deberan tomar en cuenta el objetivo del experimento y los insumos importantes del cientfico textil. Algunas grficas sencillas aclararan la distincin entre las muestras. Vase la figura 1.5; las medias de las muestras y la variabilidad se describen bien en la grfica de los datos. Un posible objetivo de este experimento es simplemente la determinacin de cules porcentajes de algodn son en realidad distintos de los otros. En otras palabras, como en el caso de los datos con nitrgeno/ sin nitrgeno, para cules porcentajes de algodn hay distinciones claras entre las poblaciones o, de forma ms especfica, entre las medias de las poblaciones? En este caso, quizs un modelo razonable sea que cada muestra viene de una distribucin normal. Aqu el objetivo es muy semejante al de los datos con nitrgeno/sin nitrgeno, excepto en que se incluyen ms muestras. El formalismo del anlisis implica nociones de prueba de hiptesis que se examinan en el captulo 10. A propsito, tal vez este formalismo no sea necesario a la luz de la grfica de diagnstico. Pero, describe el objetivo real del experimento y por consiguiente el enfoque adecuado para el anlisis de datos? Es probable que el cientfico anticipe la existencia de una resistencia a la tensin mxima de la media de la poblacin, en el rango de concentracin de algodn en el experimento. Aqu el anlisis de los datos debera girar alrededor de un tipo diferente de modelo, es decir, uno que postule un tipo de estructura que relacione la resistencia a la tensin de la media de la poblacin con la concentracin de algodn. En otras palabras, un modelo se escribe como

donde t,c es la resistencia a la tensin de la media de la poblacin, que vara con la cantidad de algodn en el producto C. La implicacin de este modelo es que para un nivel fijo de algodn, hay una poblacin de mediciones de resistencia a la tensin y la media de la poblacin es t,c. Este tipo de modelo, que se denomina modelo de regresin, se estudia en los captulos 11 y 12. La forma funcional la elige el cientfico. A veces el anlisis de datos puede sugerir que se cambie el modelo. Entonces, el analista de datos "considera" un modelo que es posible alterar despus de que se haga algn anlisis. El uso de un modelo emprico se acompaa por la teora de estimacin, donde 0, 1y 2 se estiman de los datos. Adems, se utiliza la inferencia estadstica para determinar lo adecuado del modelo.

Figura 1.5: Grfica de resistencia a la tensin y porcentajes de algodn.

Aqu se hacen evidentes dos puntos de las dos ilustraciones de datos: 1. el tipo de modelo que se emplea para describir los datos a menudo depende del objetivo del experimento, y 2. la estructura del modelo debera aprovecharse del insumo cientfico no estadstico. La seleccin de un modelo representa una suposicin fundamental sobre la que se basa la inferencia estadstica resultante. Se har evidente a lo largo del libro qu tan importantes llegan a ser las grficas. A menudo, las grficas ilustran informacin que permite que los resultados de la inferencia estadstica formal se comuniquen mejor al cientfico o al ingeniero. A veces, las grficas o el anlisis exploratorio de los datos pueden ensear al analista algo que no se obtiene del anlisis formal. Casi cualquier anlisis formal requiere suposiciones que se desarrollan a partir del modelo de datos. Las grficas pueden resaltar bien la violacin de suposiciones que, de otra forma, no se notaran. A lo largo del libro, las grficas se utilizan de manera extensa para complementar el anlisis formal de los datos. En las siguientes secciones se presentan algunas herramientas grficas tiles que sirven para el anlisis exploratorio o descriptivo de los datos.

1.8 MTODOS GRFICOS Y DESCRIPCIN DE DATOS

Evidentemente, el usuario de los mtodos estadsticos no puede generar informacin o datos experimentales suficientes como para caracterizar totalmente a la poblacin.Sin embargo, a menudo, se emplean conjuntos de datos para aprender acerca de ciertas propiedades de la poblacin. Los cientficos y los ingenieros estn acostumbrados a trabajar con conjuntos de datos. La importancia de caracterizar o resumir la naturaleza de agrupaciones de datos debera ser clara. Con frecuencia un resumen de un conjunto de datos que utilice grficas dara una visin sobre el sistema a partir del cual se tomaron los datos.En esta seccin se estudian con detalle el papel del muestreo y de la presentacin de los datos para reafirmar la inferencia estadstica respecto de sistemas cientficos. Examinaremos slo alguna visualizacin sencilla pero a menudo eficaz que complemente el anlisis de las poblaciones estadsticas. Los datos estadsticos obtenidos de poblaciones grandes podran ser muy tiles para estudiar el comportamiento de la distribucin, si se presentan junto con recursos tabulares y grficos conocidos como diagramas de tallo y hojas.Para ejemplificar la elaboracin de un diagrama de tallo y hojas, considere los datos de la tabla 1.4, que especifican la "vida" de 40 bateras para automvil similares, registradas al dcimo de ao ms cercano. Las bateras se garantizan por tres aos. Primero, divida cada observacin en dos partes: una para el tallo y otra para las hojas, de manera que el tallo represente el dgito entero que antecede al decimal, y la hoja corresponda a la parte decimal del nmero. En otras palabras, para el nmero 3.7 el dgito 3 designa al tallo; y el 7, a la hoja. Para nuestros datos los cuatro tallos 1, 2, 3 y 4 se listan verticalmente del lado izquierdo de la tabla 1.5; en tanto que las hojas se registran en el lado derecho correspondiente del valor del tallo adecuado. Entonces, la hoja 6 del nmero 1.6 se registra enfrente del tallo 1; la hoja 5 del nmero 2.5 enfrente del tallo 2; y as sucesivamente. El nmero de hojas registrado junto a cada uno de los tallos se anota debajo de la columna de frecuencia.

Tabla 1.4: Vida de las bateras para automvil

Tabla 1.5: Diagrama de tallo y hojas de la vida de las bateras

El diagrama de tallo y hojas de la tabla 1.5 contienen tan slo cuatro tallos y, por lo tanto, no ofrece una representacin adecuada de la distribucin. Para solucionar ese inconveniente, es necesario aumentar el nmero de tallos en nuestro diagrama. Una manera sencilla de hacerlo consiste en escribir dos veces cada valor del tallo y despus registrar las hojas 0, 1, 2, 3 y 4 enfrente del valor del tallo adecuado, donde aparezca por primera vez; y las hojas 5, 6, 7, 8 y 9 enfrente de este mismo valor del tallo, donde aparece la segunda vez. El diagrama doble de tallo y hojas modificado se ilustra en la tabla 1.6, donde a los tallos que corresponden a las hojas 0 a 4 se les anot un smbolo, y al tallo correspondiente a las hojas 5 a 9, el smbolo. En cualquier problema especfico, debemos decidir cules son los valores del tallo adecuados. Se trata de una decisin que se toma algo arbitrariamente, aunque nos guiamos por el tamao de nuestra muestra. Por lo general, elegimos entre 5 y 20 tallos. Cuanto menor sea el nmero de datos disponibles, menor ser nuestra eleccin respecto del nmero de tallos. Por ejemplo, si los datos consisten en nmeros del 1 al 21, los cuales representan el nmero de personas en la fila de una cafetera en 40 das laborables elegidos aleatoriamente y elegimos un diagrama doble de tallo y hojas, los tallos seran 0 , 0, 1 , 1 y 2 , de manera que la observacin de 1 ms pequea tiene tallo 0 y hoja 1, el nmero 18 tiene tallo 1 y hoja 8, y la observacin de 21 ms grande tiene tallo 2 y hoja 1. Por otro lado, si los datos consisten en nmeros de $18,800 a $19,600 que representan las mejores ventas posibles de 100 automviles nuevos, obtenidos de cierto concesionario, y elegimos un diagrama sencillo de tallo y hojas, los tallos seran 188, 189, 190, . . . , y 196, y las hojas contendran ahora dos dgitos cada una. Un automvil que se vende en $19.385 tendra un valor de tallo de 193 y 85 en los dos dgitos de la hoja. En el diagrama de tallo y hojas las hojas de dgitos mltiples que pertenecen al mismo tallo, por lo general, estn separadas por comas. En los datos generalmente se ignoran los puntos decimales cuando todos los nmeros a la derecha del punto decimal representan hojas, como en el caso de las tablas 1.5 y 1.6. Sin embargo, si los datos consisten en nmeros que van de 21.8 a 74.9, podramos elegir los dgitos 2, 3, 4, 5, 6 y 7 como nuestros tallos, de manera que un nmero como, por ejemplo, 48.3 tendra un valor de tallo de 4, y un valor de hoja de 8.3.

Tabla 1.6: Diagrama doble de tallo y hojas para la vida de las bateras

El diagrama de tallo y hojas representa una manera eficaz de resumir los datos. Otra forma consiste en usar la distribucin de frecuencias, donde los datos, agrupados en diferentes clases o intervalos, se pueden construir contando las hojas que pertenecen a cada tallo y considerando que cada tallo define un intervalo de clase. En la tabla 1.5 el tallo 1 con 2 hojas define el intervalo 1.0-1.9 que contiene 2 observaciones; el tallo 2 con 5 hojas define el intervalo 2.0-2.9 que contiene 5 observaciones; el tallo 3 con 25 hojas define el intervalo 3.0-3.9 con 25 observaciones; y el tallo 4 con 8 hojas define el intervalo 4.0-4.9 que contiene 8 observaciones. Para el diagrama doble de tallo y hojas de la tabla 1.6 los tallos definen los siete intervalos de clase 1.5-1.9, 2.0-2.4, 2.5-2.9, 3.0-3.4, 3.5-3.9, 4.0-4.4 y 4.5-4.9 con frecuencias 2, 1, 4, 15, 10, 5 y 3, respectivamente. Al dividir cada frecuencia de clase entre el nmero total de observaciones, obtenemos la proporcin del conjunto de observaciones en cada una de las clases. Una tabla que lista las frecuencias relativas se denomina distribucin de frecuencias relativas. La distribucin de frecuencias relativas para los datos de la tabla 1.4, que muestra los puntos medios de cada intervalo de clase, se presenta en la tabla 1.7.

Tabla 1.7: Distribucin de frecuencias relativas de la vida de las bateras Figura 1.6: Histograma de frecuencias relativas.

La informacin que brinda una distribucin de frecuencias relativas en forma tabular es ms fcil de entender si se presenta en forma grfica. Utilizando los puntos medios de cada intervalo y las frecuencias relativas correspondientes, construimos un histograma de frecuencias relativas (figura 1.6).Muchas distribuciones de frecuencias continuas se representan grficamente mediante la curva en forma de campana caracterstica de la figura 1.7. Herramientas grficas como las de las figuras 1.6 y 1.7 ayudan a comprender la naturaleza de la poblacin. En los captulos 5 y 6 examinaremos una propiedad de la poblacin que se conoce como su distribucin. Mientras que una definicin ms precisa de una distribucin o de distribucin de probabilidad se examinar ms adelante en este texto, ahora podemos visualizarla como lo que habra sido el lmite de la figura 1.7, conforme el tamao de la muestra se vuelve ms grande.Se dice que una distribucin en simtrica si se puede doblar a lo largo de un eje vertical, de manera que ambos lados coincidan. Una distribucin que carece de simetra respecto de un eje vertical es asimtrica o sesgada. Entonces, la distribucin que se ilustra en la figura 1.8a est sesgada porque tiene una cola derecha larga y una cola izquierda mucho ms corta. En la figura 1.8b observamos que la distribucin es simtrica; mientras que en la figura 1.8c est sesgada a la izquierda.

Figura 1.7: Estimacin de la distribucin de frecuencias.

Figura 1.8: Asimetra de los datos.

Al girar un diagrama de tallo y hojas en direccin contraria a la de las manecillas del reloj en un ngulo de 90, vemos que las columnas de hojas que resultan forman una imagen parecida a un histograma. Por lo tanto, si al observar los datos nuestro objetivo principal es determinar la forma general de la distribucin, rara vez ser necesario construir un histograma de frecuencias relativas. Se utilizan otros tipos diferentes de recursos y herramientas grficas, los cuales se estudiarn en el captulo 8, cuando presentemos detalles tericos adicionales.

OTRAS CARACTERSTICAS DISTINTIVAS DE UNA MUESTRA

Hay caractersticas de la distribucin o de la muestra a parte de las medidas del centro de ubicacin y variabilidad que van ms all al definir su naturaleza. Por ejemplo, en tanto que la mediana divide los datos (o su distribucin) en dos partes, existen otras medidas que dividen partes o piezas de la distribucin que podran resultar muy tiles. Una separacin en cuatro partes se hace en cuartiles, donde el tercer cuartil separa el cuarto superior del resto de los datos, el segundo cuartil es la mediana y el primer cuartil separa el cuartil inferior del resto de los datos. Incluso la distribucin puede dividirse ms detalladamente calculando los percentiles de la distribucin. Tales cantidades dan al analista una nocin de las denominadas colas de la distribucin (es decir, los valores que son relativamente extremos, ya sean pequeos o grandes). Por ejemplo, el 95. Percentil separa el 5% superior del 95% inferior. Definiciones similares prevalecen para los extremos en el lado inferior o cola inferior de la distribucin. El 1er percentil separa el 1% inferior del resto de la distribucin. El concepto de percentiles tendr un papel significativo en buena parte de lo que estudiaremos en los siguientes captulos.

1.9 TIPOS GENERALES DE ESTUDIOS ESTADSTICOS: DISEO EXPERIMENTAL, ESTUDIO OBSERVACIONAL Y ESTUDIO RETROSPECTIVO

En las siguientes secciones destacaremos la nocin de muestreo de una poblacin y el uso de los mtodos estadsticos para aprender o quiz para reafirmar la informacin relevante acerca de una poblacin. La informacin que se busca y que se obtiene mediante el uso de tales mtodos estadsticos a menudo llega a influir en la toma de decisiones, as como en la resolucin de problemas en diversas reas importantes de ingeniera y cientficas. Como ilustracin, el ejemplo 1.3 describe un experimento sencillo, en el cual los resultados brindan ayuda para determinar los tipos de condiciones bajo las cuales se recomienda utilizar una aleacin de aluminio especfica, para pre- venir la vulnerabilidad riesgosa ante la corrosin. Los resultados seran tiles no slo para quienes fabrican la aleacin, sino tambin para los clientes que consideren adquirirla. Este caso, y muchos otros que se incluyen en los captulos 13 a 15, resaltan el concepto de condiciones experimentales diseadas o controladas (combinaciones de condiciones de recubrimiento y humedad), que son de inters para aprender sobre algunas caractersticas o mediciones (nivel de corrosin) que surgen de tales condiciones. En el estudio de la corrosin se emplean mtodos estadsticos que utilizan tanto medidas de tendencia central como de variabilidad. Como usted ver ms adelante en este texto, tales mtodos con frecuencia nos guan hacia un modelo estadstico como el que se examin en la seccin 1.7. En este caso, el modelo puede usarse para estimar (o predecir) las medidas de la corrosin como una funcin de la humedad y el tipo de recubrimiento utilizado. De nuevo, para desarrollar este tipo de modelos su vuelve muy til emplear la estadstica descriptiva que destaca las medidas de tendencia central y de variabilidad.La informacin que se ofrece en el ejemplo 1.3 ilustra significativamente los tipos de preguntas de ingeniera que se plantean y se responden usando los mtodos estadsticos que son tiles para el diseo experimental y que se presentan en este texto. Tales preguntas son las siguientes:i. Cul es la naturaleza de la influencia de la humedad relativa sobre la corrosin de la aleacin de aluminio dentro del rango de humedad relativa en este experimento?ii. El recubrimiento qumico contra la corrosin reduce los niveles de corrosin y el efecto puede cuantificarse de alguna manera?iii. Hay interaccin entre el tipo de recubrimiento y la humedad relativa que influya en la corrosin de la aleacin? Si es as, cul sera su interpretacin?

Qu es interaccin?

La importancia de las preguntas i. y ii. debera ser clara para el lector, en la medida en que tienen que ver con aspectos importantes tanto para los productores como para los usuarios de la aleacin. Y qu sucede con la pregunta iii.? El concepto de interaccin se estudiar con detalle en los captulos 14 y 15. Considere la grfica de la figura 1.3. Se trata de un caso de deteccin de la interaccin entre dos facto- res en un diseo experimental simple. Note que las lneas que conectan las medias de la muestra no son paralelas. El paralelismo habra indicado que el efecto (visto como un resultado de la pendiente de las lneas) de la humedad relativa de la humedad relativa es el mismo, es decir, un efecto negativo, tanto para una condicin sin recubrimiento como para otra con recubrimiento qumico contra la corrosin. Recuerde que la pendiente "negativa" implica que la corrosin se vuelve ms significativa conforme se incrementa la humedad. La ausencia de paralelismo implica una interaccin entre el tipo de recubrimiento y la humedad relativa. A diferencia de la pendiente ms pronunciada para la condicin sin recubrimiento, la lnea casi "horizontal" para el recubrimiento contra la corrosin sugiere que no slo el recubrimiento qumico contra la corrosin es benfico (note el desplazamiento entre las lneas), sino que la presencia del recubrimiento ilustra el efecto de la humedad despreciable. Claramente, todas estas cuestiones son muy importantes para el efecto de los dos factores individuales y para la interpretacin de la interaccin, si est presente.Los modelos estadsticos son bastante tiles para responder preguntas como las numeradas i, ii y iii anteriormente, donde los datos se obtienen de un diseo experimental. Sin embargo, uno no siempre cuenta con el tiempo o los recursos que permiten el uso de un diseo experimental. Por ejemplo, hay muchos casos en que las condiciones de inters para el cientfico o el ingeniero simplemente no pueden implementarse debido a la imposibilidad de controlar los factores importantes. En el ejemplo 1.3 la humedad relativa y el tipo de recubrimiento (o la ausencia de ste) son bastante fciles de controlar. Desde luego, se trata del rasgo distintivo de un diseo experimental. En muchos campos, los factores que deben estudiarse no pueden ser controlados por cualesquiera diversas razones. Un control riguroso como el del ejemplo 1.3 permite al analista tener la confianza de que las diferencias encontradas(como en los niveles de corrosin) se deben a los factores que se controlan. Considere el ejercicio 1.6 de la pgina 14 como otro ejemplo. En este caso suponga que se elige 24 especmenes de caucho de silicn y 12 se asignan a cada uno de los niveles de temperatura de vulcanizado. Las temperaturas se controlan cuidadosamente, de manera que se trata de un ejemplo de diseo experimental con solo factor, que es la temperatura de vulcanizado. Se supondra que las diferencias encontradas en la resistencia a la tensin de la media son atribuibles a las diferentes temperaturas de vulcanizado.

Qu sucede si no se controlan los factores?

Suponga que los factores no se controlan y que no hay asignacin aleatoria a los tratamientos especficos para las unidades experimentales, y que se busca deducir informacin a partir de un conjunto de datos. Como ejemplo considere el estudio realizado donde el inters se centra en la relacin entre los niveles de colesterol sanguneo y la cantidad de sodio medida en la sangre. Durante cierto periodo se monitore a un grupo de individuos, as como su colesterol sanguneo y su sodio. En efecto, es posible obtener alguna informacin til de tal conjunto de datos. No obstante, debera quedar claro que aqu ciertamente no hay control estricto de los niveles de sodio. De manera ideal, los sujetos deberan dividirse aleatoriamente en dos grupos, donde uno fuera el asignado a un "nivel alto" especfico de sodio en la sangre, y el otro a un "nivel bajo" especfico de sodio en la sangre. En efecto, esto no es posible. Evidentemente los cambios en los niveles de colesterol se deben a cambios en uno o diversos factores que no se controlaron. Este tipo de estudio, sin con- trol de factores, se denomina estudio observacional (o por observacin), el cual la mayora de las veces implica una situacin en que los sujetos se observan a travs del tiempo.Los estudios biolgicos y biomdicos a menudo son necesariamente de este tipo. Sin embargo, los estudios observacionales no se restringen a dichas reas. Por ejemplo, considere un estudio diseado para determinar la influencia de la temperatura ambiental sobre la energa elctrica que consumen las instalaciones de una planta qumica. Indudablemente los niveles de la temperatura ambiental no pueden controlarse y, por lo tanto, la estructura de los datos tan slo se monitorea a partir de los datos de la planta a travs del tiempo.Debera notarse que una diferencia bsica entre un experimento bien diseado y un estudio observacional es la dificultad para determinar los verdaderos causa y efecto en este ltimo. Asimismo, las diferencias encontradas en la reaccin funda- mental (por ejemplo, niveles de corrosin, colesterol sanguneo, consumo de energa elctrica en una planta) podra deberse a otros factores subyacentes que no se controlaron. De manera ideal, en un diseo experimental, los factores perturbadores estaran compensados gracias al proceso de aleatoriedad. De hecho, los cambios en los niveles de colesterol sanguneo podran deberse a la ingestin de grasa, a la realizacin de actividad fsica, etctera. El consumo de energa elctrica podra estar afectado por la cantidad de bienes producidos o incluso por la calidad de stos.En los estudios observacionales otra desventaja que a menudo se ignora cundo se comparan con los experimentos cuidadosamente diseados es que, a diferencia de stos, los primeros estn a merced de circunstancias naturales, ambientales u otras no controladas que influyen en los niveles de los factores de inters. Por ejemplo, en el estudio biomdico respecto de la influencia de los niveles de sodio en la sangre sobre el colesterol sanguneo, es posible que, de hecho, haya una influencia significativa, pero que el conjunto de datos especfico que se usa no implique una variacin observada suficiente en los niveles de sodio a causa de la naturaleza del sujeto elegido. Evidentemente, en un diseo experimental, el analista elige y controla los niveles de los factores.Un tercer tipo de estudio estadstico que podra ser muy til, pero que tiene notables desventajas cuando se le compara con un experimento bien diseado, es un estudio retrospectivo. Esta clase de estudio emplea estrictamente datos histricos, que se obtienen durante un periodo especfico. Una ventaja evidente con los datos retrospectivos es que prcticamente no hay costo por recabar los datos. Sin embargo, como podra esperarse, tambin tiene desventajas claras:i. A menudo es cuestionable la validez y la confiabilidad de los datos histricos. ii. Si el tiempo es un aspecto relevante en la estructura de los datos podra haber datos faltantes.iii. Existiran errores en la recopilacin de los datos que no se conocen.iv. De nuevo, como en el caso de los datos observacionales, no hay control en los niveles de las variables que se miden (es decir, en los factores que se estudian). De hecho, las variaciones que se encuentran en los datos histricos a menudo no son significativas para estudios actuales.

Estudios que no determinan relaciones entre variablesEn la seccin 1.7 se le dio cierto nfasis al modelado de las relaciones entre variables. Presentamos la nocin de anlisis de regresin, el cual se estudia en los captulos 11 y12, y se considera una forma del anlisis de datos para los diseos experimentales que se examinarn en los captulos 14 y 15. En la seccin 1.7, un modelo que relaciona la resistencia a la tensin de la media de la poblacin (la tela) con los porcentajes de algodn, se utiliz para ilustrar los 20 especmenes que representaban las unidades experimentales. En este caso, los datos provienen de un diseo experimental simple, en el que los porcentajes de algodn individuales fueron seleccionados por cientficos.Con frecuencia tanto los datos observacionales como los retrospectivos se utilizan con la finalidad de observar relaciones entre variables a travs de procedimientos de construccin que se estudian en los captulos 11 y 12. Mientras que, de hecho, las ventajas de los diseos experimentales se aplican cuando la finalidad es la construccin del modelo estadstico, hay muchas reas en que no es posible disear experimentos, de manera que habr que utilizar los datos histricos u observacionales. Aqu nos referimos al conjunto de datos histricos que se incluye en el ejercicio 12.9 de la pgina 454. El objetivo es construir un modelo que resulte en una ecuacin o relacin que vincule el consumo mensual de energa elctrica con la temperatura ambiental promedio x1, el nmero de das en el mes x2, la pureza pro- medio del producto x3 y las toneladas de bienes producidos x4. Se trata de los datos histricos del ao anterior.

Ejercicios1.14 Un fabricante de neumticos quiere determinar el dimetro interior de un neumtico de cierto grado de calidad.

a) Encuentre la media y la mediana de la muestra.b) Qu caracterstica en este conjunto de datos es la responsable de la diferencia sustancial entre ambas?

1.14 Un fabricante de neumticos quiere determinar el dimetro interior de un neumtico de cierto grado de calidad. Idealmente el dimetro sera de 570 mm. Los datos son los siguientes:

a) Encuentre la media y la mediana de la muestra.b) Encuentre la varianza, la desviacin estndar y el rango de la muestra.c) Usando los estadsticos calculados en los incisos a) y b) qu comentara acerca de la calidad de los neumticos?1.15 Cinco lanzamientos independientes de una moneda tienen como resultado cinco caras. Resulta que si la moneda es legal, la probabilidad de este resultado es (1/2)5 = 0.03125. Produce esto evidencia slida de que la moneda no sea legal? Comente y utilice el concepto de valor-P que se discuti en la seccin 1.2.1.16 Muestre que las n piezas de informacin en i=1 (x1 )2) no son independientes; es decir, muestre queN(xi-x) = 0.i=11.17 Se realiza un estudio acerca de los efectos del tabaquismo sobre los patrones de sueo. La medicin que se observa es el tiempo, en minutos, que toma quedar dormido. Se obtienen estos datos:a) Encuentre la media de la muestra para cada grupo.b) Encuentre la desviacin estndar de la muestra para cada grupo.c) Usando una grfica de puntos grafique los conjuntos de datos A y B en la misma lnea.d) Comente qu clase de impacto parece tener el hecho de fumar sobre el tiempo que se requiere para quedar- se dormido.1.18 Las siguientes puntuaciones representan la calificacin en el examen final para un curso de estadstica elemental:

a) Elabore un diagrama de tallo y hojas para las calificaciones del examen, donde los tallos sean 1, 2,3,. . ., 9.b) Determine una distribucin de frecuencias relativas.c) Elabore un histograma de frecuencias relativas, trace un estimado de la grfica de la distribucin y discuta la asimetra de la distribucin.d) Calcule la media, la mediana y la desviacin estndar de la muestra.1.19 Los siguientes datos representan la duracin de vida, en aos, medida al dcimo ms cercano, de 30 bombas de combustible similares

a) Construya un diagrama de tallo y hojas para la vida, en aos, de las bombas de combustible, utilizando el dgito a la izquierda del punto decimal como el tallo para cada observacin.b) Determine una distribucin de frecuencias relativas. c) Calcule la media, el rango y la desviacin estndar de la muestra.1.20 Los siguientes datos representan la duracin de la vida, en segundos, de 50 moscas frutales que se so- meten a un nuevo aerosol en un experimento de laboratorio controlado.

a) Elabore un diagrama doble de tallo y hojas para el periodo de vida de las moscas, usando los tallos 0 , 0, 1 , 1, 2 , 2 y 3 de manera que los tallos codificados con los smbolos y se asocien, respectivamente, con las hojas 0 a 4 y 5 a 9. Tomaron las emisiones de hidrocarburos en velocidad en vaco, en partes por milln (ppm), para modelos de1980 y 1990.Modelos 1980:Modelos 1990: