curso i estadisticas 2011

123
UNI- NORTE - SEDE REGIONAL Estelí, Nicaragua Estadística Básica Nivel I X 2 = 12 nk ( k +1 ) j=1 k R 2 ¿ 3 n ( k+ 1) ¿ 07/03/2010 Luis María Dicovskiy Riobóo UNIVERSIDAD NACIONAL DE INGENIERÍA

Upload: henrry-marcelo-alania

Post on 16-Sep-2015

9 views

Category:

Documents


2 download

DESCRIPTION

p

TRANSCRIPT

UNI NorteUNI- NORTE - SEDE REGIONAL Estel, Nicaragua

UNIVERSIDAD NACIONAL DE INGENIERAEstadstica Bsica Nivel I

07/03/2010 Riobo

Tabla de contenidoCaptulo 1. Estadstica Descriptiva41.1 Introduccin. Tipos de Variables41.2 Anlisis de datos, Tablas de Distribucin de frecuencias y Tablas de Contingencia71.3 Grficos171.4 Medidas de Tendencia Central23Media Aritmtica24La Mediana25La Moda26Otras medidas de tendencia central.28La Media Geomtrica.28La Media Cuadrtica.28Cuartiles, Deciles y Percentiles.281.5 Medidas de Dispersin o de Variabilidad30El Rango.30El Desvo Estndar.30La Varianza.32El Coeficiente de variacin321.6 Otras medidas tiles en Estadstica Descriptiva.33La Asimetra o Sesgo.33La Curtosis.351.7 Muestras y Poblacin.36Muestreo Aleatorio Simple37Muestreo Estratificado39Muestreo por Conglomerados40Muestreo Sistemtico41Captulo 2. Teora Elemental de Probabilidades422.1 Introduccin a las Probabilidades422.2 Trminos Bsicos.422.3 Propiedades de la Probabilidad44Regla del producto.45Regla de la Suma.452.4 Probabilidad condicionada462.3 Teorema de Bayes49Regla de la probabilidad total49Planteo del Teorema de Bayes502.4 Tcnicas de conteo: Combinaciones y Permutaciones54Captulo 3. Variables aleatorias y sus distribuciones.573.1 Distribuciones de Frecuencia, Introduccin.573.2 Variables aleatorias.58El Desvo Estndar y el Teorema de Chebyshev643.3 Distribucin Normal653.4 Distribucin t de Student693.5 La distribucin X2 de Pearson713.6 La distribucin F de Fisher.723. 7 La distribucin Binomial733.8 Distribucin de Poisson77Captulo 4. Estimacin y prueba de hiptesis.794.1 Estimacin por Intervalos de Confianza.794.2 Generalidades de las pruebas de Hiptesis814.3 Prueba de hiptesis con pruebas t84La media de una muestra pertenece a una poblacin con media conocida.84Comparaciones por parejas de muestras no independientes.85Las medias de dos muestras o grupos pertenecen a una misma poblacin.86Bibliografa Consultada89

Captulo 1. Estadstica Descriptiva

Objetivos

Reflexionar sobre el uso de la estadstica a travs de situaciones de la vida profesional. Introducir a la recoleccin de datos a partir de un problema del entorno de un ingeniero y desde la experiencia del estudiante. Realizar medidas de tendencia central, de variabilidad y diferentes tipos de Grficos ms comunes que permite una tabla de distribucin de frecuencia, TDF. Explicar principios bsicos de muestreo con ejemplos cotidianos. Diferenciar las diferentes formas de realizar muestreos que permitan estudiar el contexto socioeconmico y productivo. Aprender a calcular de forma ordenada el tamao de una muestra con variables construidas en con ejemplos de su carrera. Valorar actitudes de orden, perseverancia, capacidades de investigacin para desarrollar el gusto por la Estadstica y contribuir al desarrollo del entorno social y natural.

1.1 Introduccin. Tipos de VariablesLa estadstica, es una ciencia relativamente nueva pero con miles de aos de uso emprico, Mara y Jos parten de Nazaret a Beln para ser censados por los romanos. Hace 2000 aos ste imperio llevaba un control estadstico de lo que posean sus colonias para luego cobrar impuestos En la actualidad los procedimientos estadsticos son de particular importancia en las ciencias biolgicas y sociales para reducir y abstraer datos. Una definicin que describe la estadstica de manera utilitaria es la que dice que es: un conjunto de tcnicas para describir grupos de datos y para tomar decisiones en ausencia de una informacin completa. La estadstica a diferencia de la matemtica no genera resultados exactos, los resultados siempre tienen asociada un grado de incertidumbre o error. La estadstica trata de lograr una aproximacin de la realidad, la cual es siempre mucho ms compleja y rica que el modelo que podemos abstraer. Si bien esta ciencia es ideal para describir procesos cuantitativos, tiene serios problemas para explicar el porqu cualitativo de las cosas

En general podemos hablar de dos tipos de estadsticas, las descriptivas que nos permiten resumir las caractersticas de grandes grupos de individuos y las inferenciales que nos permite dar respuestas a preguntas (hiptesis) sobre poblaciones grandes a partir de datos de grupos pequeos o muestras.

Construccin de Variables a partir de informacin.Para poder analizar datos, ya sea de forma manual o por computadora, hay que entender que trataremos a partir del estudio de la realidad observable crear un modelo numrico terico donde se estudian variables para describirlas y analizar sus relaciones. Para hacer esto primero es necesario definir algunos trminos tericos.

Variable: es una caracterstica observable de un objeto y que vara. Las variables se pueden clasificar de diferentes maneras, un enfoque es reconocer dos grandes grupos de variables las Cualitativas y Cuantitativas.

Variables Cualitativas, son aquellas que se ordenan en categoras debido a su carcter subjetivo y absoluto, pueden ser de dos tipos nominales, u ordinales. En las variables nominales los valores no pueden ser sometidos a un criterio de orden o importancia como por ejemplo el sexo de una persona o el pas de origen. Las variables ordinales pueden tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo: leve, moderado, grave.

Variables Cuantitativas, son las que sus caractersticas estn expresadas en valores numricos, stas asumen cualquier valor y pueden variar en cualquier cantidad, sobre una escala aritmtica e infinita y pueden subdividirse en dos tipos continuas o medibles y discretas o contables.

Las variables continuas pueden adquirir cualquier valor dentro de un intervalo especificado de valores, permite siempre que se encuentre un valor nuevo entre dos valores previos. El rendimiento de un lote de frjol se mide en qq/mz es una variable continua, se mide o pesa.

Las variables discretas presentan interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores especficos que la variable pueda asumir por nmero de miembros de una familia es una variable discreta, se cuenta y entre dos personas no hay un valor intermedio, no existe 1.5 personas . Los atributos, en control de calidad, son variables discretas.

Las variables generan datos, con ellos se hace la estadstica y cada uno de stos ocupa una celda de una matriz o base de datos. La Matriz de datos es un ordenamiento de datos en fila y columnas donde cada fila es un individuo, una parcela, una muestra, una unidad experimental o una encuesta determinada y cada columna: una variable. Los programas Access, Excel, Infostat y SPSS ordenan los datos en forma de matriz. Por ejemplo en una encuesta (cuestionario) cada pregunta que se tiene, genera al menos, una variable generalmente discreta. Hay casos donde una pregunta puede generar muchas variables de tipo dicotmico, SI- NO, que se suele codificar como 1= SI y 0= NO.

Ejercicio 1.1: Construya variables relacionadas con su carrera, 5 nominales, 5 ordinales, 5 continuas y 5 ordinales.Ejercicio 1.2 Clasifique las siguientes variables. Peso de un estudiante. Dimetro de una casa. Color de ojos. Tipo de techo. Vida til de un monitor

# de ladrillos de una pared. Belleza de una flor. Temperatura semanal. Largo de peces de un estanque. Dimetro de un tornillo

1.2 Anlisis de datos, Tablas de Distribucin de frecuencias y Tablas de Contingencia

A partir de la realidad observable se debe crear un modelo numrico terico para intentar estudiar sta realidad

Una vez que los datos se han codificado, transferidos a una matriz y guardado en una computadora podemos proceder a analizarlos, proceso que se hace con un programa estadstico como SPSS o INFOSTAT, de forma manual solo se pueden manejar pocos datos y variables es por ello que el nfasis de este libro est ms en la interpretacin de resultados que en los procedimientos de clculo.

El procedimiento de anlisis sugerido se esquematiza en la figura siguiente:

En general el investigador debe buscar de primero cmo describir sus datos y posteriormente efectuar el anlisis estadstico para relacionar las variables generadas. Los tipos de anlisis son variados y cada mtodo tiene su razn de ser un propsito especfico, la estadstica no es un fin en s misma, sino una herramienta para analizar datos.Los principales anlisis que pueden efectuarse son: Estadstica descriptiva de las variables. Pruebas de hiptesis para la toma de decisiones.

la estadstica est ligada a la toma, organizacin, presentacin y anlisis de un grupo de datos.

Una primera tarea luego de construir una tabla o matriz de datos, es explorarlos buscando informacin atpica o anormal y corregir los casos que la informacin atpica se deba a una mala digitacin o error en la recoleccin de datos.

Lo siguiente para observar el comportamiento de los datos es realizar una distribucin frecuencias en forma de tabla y grficos. Para esto, los datos se agrupan en clases o categoras y para grupo se calcula las frecuencias absolutas y relativas.

En este momento es importante poder definir el tipo de escala de medicin usada, sucesin de medidas que permite organizar datos o para agrupar los datos, en este sentido se pueden reconocer diferentes escalas: Las Escalas Nominales, son discontinuas y se usan cuando describimos algo dndole un nombre a cada categora o clase y estas son mutuamente excluyentes. A cada categora se le adjudica un valor numrico. Por ejemplo la variable sexo donde varn = 1 y mujer = 2. Las Escalas Ordinales, son discontinuas y se usan donde hay un orden jerrquico de un conjunto de objetos o eventos con respecto a algn atributo especfico, por ejemplo ordenar los ingresos en tres niveles: alto =1, medio = 2 y bajo = 3. Las Escalas de Intervalos Iguales, estas pueden ser sumadas, restadas multiplicadas y divididas sin afectar las distancias relativas entre las calificaciones. Por ejemplo las medidas de temperatura en Grados C0, las calificaciones de un examen en una escala de 1 a 100. En esta escala el 0 es arbitrario y no necesariamente representa ausencia, tambin nos dice que un valor de 30 puntos de un examen de espaol no necesariamente representa la mitad de conocimiento de un valor de 60 puntos. Las Escala de Razn Constante, tienen todas las propiedades de las Escalas de intervalos ms un cero absoluto, por ejemplo las medidas de tiempo, peso y distancia, el valor 0 representa ausencia del valor.

Un caso especial de escala ordinal es la escala de Likert, esta escala es muy usada en las ciencias sociales y se usa para medir actitudes, Una actitud es una predisposicin aprendida par responder consistentemente de una manera favorable o desfavorable ante un objeto de sus smbolos. As las personas tenemos actitudes hacia muy diversos objetos o smbolos, por ejemplo: actitudes hacia la poltica econmica, un profesor, la ley, nosotros, etc. Las actitudes estn relacionadas con el comportamiento que mantenemos. Estas mediciones de actitudes deben interpretarse como sntomas y no como hechos. Esta escala es bipolar porque mide tanto el grado positivo como negativo de cada enunciado y consiste en un conjunto de tem presentado en forma de afirmaciones o juicios ante los cuales se pide reaccin a los sujetos en estudio en una escala de 5 puntos, cada punto tiene un valor numrico. Un ejemplo de cmo calificar con afirmaciones positivas es Le gusta cmo se imparte la clase de estadstica?: 1- Muy en desacuerdo, 2- En desacuerdo, 3- Ni de acuerdo, ni en desacuerdo,4- De acuerdo, 5-Muy de acuerdo. Estar de acuerdo con la idea presentada significa un puntaje mayor.

Ejercicio 1.3: entre los participantes de la clases tomar datos de 15 variables al menos por ejemplo: Edad, Sexo, Procedencia, etc. Y luego ordnelos en forma de matriz de datos, recodifique la informacin cualitativa en numrica.Organizacin de una matriz de informacin a partir de un cuestionario. Una encuesta impersonal con preguntas cerradas es una manera de recolectar mucha informacin rpidamente que luego se puede codificarla fcilmente, la debilidad de este instrumento es que no siempre la gente responde adecuadamente y que las respuestas generadas se limitan a las opciones previamente definidas y la experiencia nos dice que la realidad es mucho ms rica que lo que creemos ocurre a priori. Para los que trabajan con entrevistas hay que saber que tambin la informacin que se genera de las entrevistas puede luego tabularse numricamente de la misma manera que una encuesta. Encuestas o Cuestionarios: Al disear una encuesta esta debe ayudar a responder a las preguntas que genera la hiptesis del trabajo, un error comn es hacer una encuesta primero y luego que se han recolectado los datos, se solicita a un estadstico que no ayude a analizar la informacin, la lgica es al revs se debe pensar como se analizar la informacin desde el mismo momento que se disea la encuesta. Se sugiera que las variables cualitativas (ej. nombres) se deben recodificar al momento del llenado de la base de datos creando variables numricas discretas, por ej. Si quiero clasificar la becas que otorga una Universidad puedo codificar a estas de la siguiente manera: Beca interna =1, Beca externa =2 y No beca =0.

Si las opciones que genera una variable discreta permite hacer combinaciones de las respuestas se sugiere crear muchas variables dicotmicas del tipo Si o No (1,0). Veamos un ejemplo: Si se pregunta: que prcticas de en los cultivos realiza un campesino, estas pueden ser varias y combinadas como: Insecticidas Botnicos, Trampas amarillas, Barreras vivas, Semilla resistente etc. En este caso lo que se hace es generar un variable del tipo 0-1 para cada opcin de prctica de cultivo, generando muchas variables en una sola pregunta.

Para crear una base de datos hay que recordar que se est obteniendo una matriz de datos donde en la primera fila se tiene el nombre abreviado de la variable y en el resto de las filas los datos para cada encuesta o individuo en estudio. Las variables cualitativas se deben recodificar, veamos el siguiente ejemplo hipottico de 8 encuestas:

EncuestaSexoEdadIngresos semanales C$ComunidadLabor realizada

11311,39423

21351,31142

31431,30023

41281,30431

52451,31013

62361,44322

72211,53623

82321,82313

Esta matriz se codifica as: la variable Sexo: 1= varn, 2 = mujer. Para la variable comunidad hay 4 tipos diferentes donde: 1= Estel, 2= Condega, 3= Pueblo Nuevo y 4= Limay y para Labor realizado: 1= en otra finca, 2= en la cuidad y 3= en la propia finca.

De esta manera se transforma en datos numricos una informacin descriptiva, estos nmeros permiten luego hacer estadstica.

Ejercicio 1.4: Intente codificar numricamente las respuestas que se generan a partir de la encuesta de caracterizacin socioeconmica, que a continuacin se detalla, discuta las posibles respuestas, diga si las preguntas estn bien formuladas, sugiera si alguna de ellas est de ms y que preguntas propone para completar la informacin.

Hoja de EncuestaNmero de ficha___________Fecha: ______________________________________________________Primer Apellido_______________ Segundo Apellido___________________________Nombres:________________________ Ao____________Direccin: _____________________________________________________Estado Civil: _____ Nmero de personas que habitan la vivienda________________Nivel de estudio de ellos ______________Edad de cada una de ellos________Profesin: _____________________________________________________

Ejercicio 1.5: Defina variables para caracterizar a los estudiantes del curso con el objetivo de determinar posibles causas que tengan influencia en el rendimiento acadmico del grupo. Cree una base de datos de al menos 25 individuos. Ver ejemplo. Ejemplo de una matriz de datos generados con datos de estudiantes.

Cdigos: Estado Civil: 1 Soltero, 2 Casado; Origen: 1 Estel, 2 No Estel; Sexo: 1 Varn, 2 Mujer; Becas: 1 Si 2 No; Opinin: 1 Negativa 5 Positiva

Principios a utilizar al construir una Tabla de Distribucin de Frecuencias, TDF.Aunque esta tabla sirve para resumir informacin de variables discretas continuas, de manera particular la TDF permite transformar una variable continua, a una variable discreta definida por el nmero de intervalos y su frecuencia. Esta transformacin permite construir grficos de histogramas o polgonos. Con Variables continuas como (peso, altura, produccin / superficie, etc.) el recorrido de la variable se parte en intervalos semiabiertos, las clases.

Lo primero para construir una TDF es definir el nmero de clases intervalos a crear y el ancho de cada intervalo. Para que los grficos permitan visualizar tendencias de la variable en estudios, el nmero de clases se recomienda que no sean menor de 5 ni mayor de 20. Al ancho de clase se calcula dividiendo el Rango (valor mayor valor menor), con un valor que debe variar entre 5 y 20. Hay que utilizar ms clases cuando se tiene ms datos disponibles, si el nmero de clases es muy grande es posible tener muchas clases vacas, si es demasiado pequeo podran quedar ocultas caractersticas importantes de los datos al agruparlos. Se tendra que determinar el nmero de clases a partir de la cantidad de datos presente y de su uniformidad, en general con menos de treinta datos se usa una TDF con 5 clases, para tener un criterio sobre el nmero de clases en funcin del nmero de datos ver la tabla siguiente . Tabla para determinar el nmero de clases de una TDFNmero datosNmero de clases

30-505-7

51-1006-10

101-2507-12

+25010-20

El valor central de una clase se llama marca de clase, este valor se usa para construir los grficos de polgonos de frecuencia. Veamos un ejemplo de cmo se construye una Tabla de Distribucin de Frecuencias. Es importante resaltar que con las variables nominales no se construyen intervalos, lmites marcas de clase, esto no tiene sentido con este tipo de variable.

Ejemplo con Datos de ingresos de 24 familias. Variable: Ingresos semanales en C$ por familia, n = 24 datos. 1,4501,4431,5361,3941,6231,650

1,4801,3551,3501,4301,5201,550

1,4251,3601,4301,4501,6801,540

1,3041,2601,3281,3041,3601,600

Secuencia de actividades Se calcula el Rango de los datos, valor mayor menos valor menor: 1680- 1,260 = 420 C$. Ancho de clase: El rango se divide en cuatro, 420/4= 105 C$, se ajusta a 100 C$ y de esta manera el nmero de clases queda en cinco. Se construye los lmites inferiores y superiores de cada clase como intervalos semiabiertos, Luego se cuentan las frecuencias por clase, esto es la Frecuencia Absoluta Se calcula la Frecuencia Relativa (Frecuencia Absoluta / n) Se hace Frecuencia Acumulada. que es la suma de las frecuencias absolutas. Tambin se pueden hacer las frecuencias expresadas en porcentajes.Tabla de Distribucin de frecuencias, TDF.ClaseLmite InferiorIgual aLim. SuperiorMenor aMarca de claseFrecuenciaAbsolutaFrecuencia RelativaFrecuenciaAcumulada

11,200