estadistica_probabilistica

57
Pamplona Centro de Educación Virtual y a Distancia Programas de Educación a Distancia Yolanda Gallardo de Parada Aurora Inés Gáfaro Rojas Sandra Patricia Valero Ortega Formando Colombianos de Bien Álvaro González Joves Rector María Eugenia Velasco Espitia Decana Facultad de Estudios Avanzados, Virtuales, a Distancia y Semiescolarizados Luis Armando Portilla Granados Director Centro de Educación Virtual y a Distancia Universidad de Probabilidad Estadística

Upload: romesu

Post on 30-Jul-2015

4.885 views

Category:

Documents


0 download

DESCRIPTION

8 DE SEPTIEMBRE 4.16 AM

TRANSCRIPT

Page 1: estadistica_probabilistica

Pamplona

Centro de Educación Virtual y a Distancia

Programas de Educación a Distancia

Yolanda Gallardo de Parada Aurora Inés Gáfaro Rojas

Sandra Patricia Valero Ortega

Formando Colombianos de Bien Álvaro González Joves Rector María Eugenia Velasco Espitia Decana Facultad de Estudios Avanzados, Virtuales, a Distancia y Semiescolarizados Luis Armando Portilla Granados Director Centro de Educación Virtual y a Distancia

Universidad de

Probabilidad Estadística

Page 2: estadistica_probabilistica

Tabla de Contenido Presentación Introducción UNIDAD 1: Probabilidad

Núcleos Temáticos y Problemáticos Proceso de Información 1.1 GENERALIDADES 1.2 VARIABLES ALEATORIAS 1.3 VALOR ESPERADO Proceso de Comprensión y Análisis

UNIDAD 2: Distribución de Probabilidades

Núcleos Temáticos y Problemáticos Proceso de Información 2.1 DISTRIBUCIÓN NORMAL 2.2 INFERENCIA ESTADÍSTICA

2.2.1 Estimación Puntual 2.2.2 Estimación por Intervalo 2.2.3 Intervalos de Confianza 2.2.4 Estimas Insesgadas

2.3 TAMAÑO DE LA MUESTRA 2.4 TEORÍA DE LA DECISIÓN ESTADÍSTICA

2.4.1 Hipótesis Estadística 2.4.2 Hipótesis Nula 2.4.3 Hipótesis Alternativa 2.4.4 Prueba de Hipótesis

2.5 ESTADÍSTICOS DE PRUEBA 2.6 TABLA DE CONTINGENCIA O COMPARACIÓN DE COLECTIVOS

2.6.1 Análisis de Tablas de Contingencia 2.6.2 Ensayos de Significación

Proceso de Comprensión y Análisis

Page 3: estadistica_probabilistica

UNIDAD 3: Regresión y Correlación Núcleos Temáticos y Problemáticos Proceso de Información 3.1 DIAGRAMA DE DISPERSIÓN 3.2 ANÁLISIS DE REGRESIÓN 3.3 MÉTODO DE MÍNIMOS CUADRADOS

3.3.1 Recta de Mínimos Cuadrados 3.4 CORRELACIÓN

3.4.1 Correlación Lineal 3.4.2 Correlación Positiva 3.4.3 Correlación Negativa 3.4.4 Correlación no Lineal

3.5 COEFICIENTE DE CORRELACIÓN Proceso de Comprensión y Análisis

ANEXO: Tablas BIBLIOGRAFÍA GENERAL

Page 4: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

1

Presentación La educación superior se ha convertido hoy día en prioridad para el gobierno Nacional y para las universidades públicas, brindando oportunidades de superación y desarrollo personal y social, sin que la población tenga que abandonar su región para merecer de este servicio educativo; prueba de ello es el espíritu de las actuales políticas educativas que se refleja en el proyecto de decreto Estándares de Calidad en Programas Académicos de Educación Superior a Distancia de la Presidencia de la República, el cual define: “Que la Educación Superior a Distancia es aquella que se caracteriza por diseñar ambientes de aprendizaje en los cuales se hace uso de mediaciones pedagógicas que permiten crear una ruptura espacio temporal en las relaciones inmediatas entre la institución de Educación Superior y el estudiante, el profesor y el estudiante, y los estudiantes entre sí”. La Educación Superior a Distancia ofrece esta cobertura y oportunidad educativa ya que su modelo está pensado para satisfacer las necesidades de toda nuestra población, en especial de los sectores menos favorecidos y para quienes las oportunidades se ven disminuidas por su situación económica y social, con actividades flexibles acordes a las posibilidades de los estudiantes. La Universidad de Pamplona gestora de la educación y promotora de llevar servicios con calidad a las diferentes regiones, y el Centro de Educación Virtual y a Distancia de la Universidad de Pamplona, presentan los siguientes materiales de apoyo con los contenidos esperados para cada programa y les saluda como parte integral de nuestra comunidad universitaria e invita a su participación activa para trabajar en equipo en pro del aseguramiento de la calidad de la educación superior y el fortalecimiento permanente de nuestra Universidad, para contribuir colectivamente a la construcción del país que queremos; apuntando siempre hacia el cumplimiento de nuestra visión y misión como reza en el nuevo Estatuto Orgánico: Misión: Formar profesionales integrales que sean agentes generadores de cambios, promotores de la paz, la dignidad humana y el desarrollo nacional. Visión: La Universidad de Pamplona al finalizar la primera década del siglo XXI, deberá ser el primer centro de Educación Superior del Oriente Colombiano.

Luis Armando Portilla Granados. Director CEVDUP

Page 5: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

2

Introducción La importancia que tiene la matemática en el desarrollo de los procesos intelectuales del hombre es notoria a través de su historia. Fue así como en la antigüedad el pensamiento matemático contribuyó a resolver problemas en tareas económicas y constructoras de diferentes pueblos, dio la base para revelar tos misterios del mundo, es decir, dar explicaciones razonables para alcanzar la verdad de los fenómenos que lo suceden. Contrariamente a los griegos, los hombres de la edad media utilizaron el contenido matemático como una simple rutina para disciplinar la mente. Sin embargo, a partir de los trabajos de Galileo, la matemática en la edad moderna ayudó a buscar explicaciones concretas de problemas que se daban en ingeniería, construcción y otras actividades prácticas del hombre. Por tal motivo, gracias al medio, las personas están rodeadas constantemente por un conjunto de experiencias, que manejan y manipulan de una manera sorprendente. Es decir, en cierta forma se está efectuando una serie de operaciones: recoge, organiza, analiza e interpreta esas informaciones mediante unas representaciones significativas para él y así se obtiene una serie de conclusiones razonables. Esta información que de cierta manera se manipula, se debe matematizar. Es decir, seguir un procedimiento para poder tabular la información, presentarla y así hacer el análisis respectivo para dar las conclusiones pertinentes al estudio que se está realizando. La Estadística es utilizada en casi todas las ramas de la ciencia moderna, así como en muchos otros campos de la actividad humana. Como dijo Salomón Fabricant “todo el mundo parece hoy coincidir en que la Estadística puede ser útil para comprender, evaluar y controlar el funcionamiento de la sociedad”. En nuestra sociedad, el progreso puede medirse mediante diversos índices numéricos, la estadística se utiliza para describir, manipular e interpretar estos números. Aún cuando los tipos de problemas a los cuales puede aplicarse la Estadística como herramienta fundamental para el análisis e interpretación de resultados son bastante heterogéneos, en muchos casos los pasos de una investigación estadística son los siguientes:

Page 6: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

3

Primera etapa: formulación del problema. Para investigar con éxito un problema dado, primero se tienen que crear conceptos precisos, formular preguntas claras e imponer limitaciones adecuadas al problema, tomando en cuenta el tiempo, dinero disponible y la habilidad de los investigadores.

Segunda etapa: diseño del experimento. Nuestro deseo es obtener un máximo de información empleando un mínimo de costo y tiempo. Esto implica, entre otras cosas, que se debe determinar el tamaño de la muestra o la cantidad y tipo de datos que resolverán más eficientemente el problema. A la vez este tamaño será afectado por el método empleado para la selección de la muestra representativa. Con respecto a la representatividad de la muestra, se debe observar que no es fácil obtener selecciones que sean completamente aleatorias. Existe el peligro de que una selección pueda ser preferida en alguna forma. Se han propuesto varios métodos para vencer esta dificultad y se han usado en la práctica. Se considera este punto dentro del desarrollo del módulo. Tercera etapa: experimentación o recolección de datos. En general, ésta es la parte que más tiempo consume en toda investigación que sea realizada, ésta debe sujetarse a reglas estrictas. De hecho, cuanto menos opiniones impongamos, serán mejores los resultados. Cuarta etapa: tabulación y formulación de la respuesta. Al aplicar el método estadístico antes mencionado, se obtienen conclusiones a partir de la muestra, acerca de la población correspondiente. Es decir, se va a inferir sobre la muestra y se trata de sacar conclusiones para la población. Es esta etapa la que le da el objetivo final a la estadística, puesto que se van a tomar decisiones con base en los resultados obtenidos en el estudio descriptivo de la muestra. No existe una fórmula mágica ni única en estadística que tome en cuenta todas las situaciones prácticas concebibles. Por lo cual es necesario adquirir conocimientos generales de los métodos más importantes para hacer inferencias. En cada caso práctico debe situarse con cuidado la naturaleza del problema específico, para estar seguros de que será escogido el método más apropiado. Con el apoyo del computador los cálculos matemáticos se hacen más fáciles, por lo tanto se recomienda utilizar e integrar un software apropiado para tal fin. En la actualidad existen varios paquetes estadísticos sencillos de manejar, tales como el Statgraphics, Sas, Minitab, Spss. De común acuerdo con su Tutor se pueden desarrollar los ejercicios propuestos al final de cada tema, se puede utilizar calculadora y computador para facilidad de los cálculos.

Page 7: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

4

UNIDAD 1: Probabilidad

Núcleos Temáticos y Problemáticos • Generalidades • Variables Aleatorias • Valor Esperado Proceso de Información 1.1 GENERALIDADES En la vida cotidiana, se observa que el hombre está constantemente tomando decisiones donde intervienen acontecimientos, como son los juegos de azar, el clima, la genética, etc. Estos sucesos probables, son juicios u opiniones que pueden ser a la vez probablemente verdaderos y probablemente falsos. Cuando los datos a estudiar son una muestra de una población el problema central es inferir las propiedades de ésta a partir de la muestra. El instrumento conceptual que permitirá esta generalización es un modelo de la población, es decir, una representación simbólica de su comportamiento. Los modelos estadísticos van a actuar de puente entre lo observado (muestra) y lo desconocido (población). Su construcción y estudio es el objetivo del cálculo de probabilidades. Por lo anterior se nota que el problema central de la estadística es, a partir de una muestra, hacer inferencia de tipo probabilístico sobre la población. Por ejemplo si en una muestra de 100 personas, 28 tienen estudios universitarios, se puede decir que más o menos 2800 de 1000000 de habitantes de una ciudad tienen estudios universitarios. Lo importante es precisar este “más o menos”. Por ejemplo se puede decir que con un 95% de seguridad hay entre 2500 y 3100 personas con estudios universitarios.

Page 8: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

5

El primero que intentó definir la probabilidad matemáticamente fue Laplace. “la proporción del número de casos favorables al número de casos posibles, siempre que todos los resultados sean igualmente probables”.

Casos Favorables P (E) =

Casos Posibles Esta fórmula quiere decir que si se tiene un suceso E tiene f posibilidades de ocurrir entre un total de n posibilidades, cada una de las cuales tiene la misma oportunidad de ocurrir que las demás. Entonces la probabilidad de que ocurra ese evento E (o sea un éxito) se denota por:

f P (E) = = p

n Ejemplo Sea E el suceso de que al tirar un dado una vez salga: • Un 3

Hay seis formas de caer el dado: S = {1, 2, 3, 4, 5, 6}; y si el dado es bueno, se puede suponer que las seis tienen la misma oportunidad de salir. Entonces, la probabilidad que salga un 3 es: P (3) = 1/6. La probabilidad que al lanzar el dado una vez salga un tres es de 1/6 = 0.17 o del 17%.

• Un 3 o un 4

Como E puede ocurrir de dos formas, se tiene que: P (E) = P (3) + P (4) = 1/6 + 1/6 = 2/6 = 1/3 = p. Entonces la probabilidad que salga un 3 o un 4 al lanzar el dado es de 1/3. O hay una probabilidad del 33.3% que al lanzar el dado salga un 3 o un 4.

NOTA. Para cualquier evento E la probabilidad de E es un número real entre O y 1. es decir: 0<P (E) <1. Además la probabilidad se expresa en términos de Porcentaje.

Page 9: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

6

Ejemplos Suponer que en un supermercado existen 80 productos enlatados, de los cuales 30 de ellos son de color verde y el resto rojos. Si extraemos al azar un producto de estos enlatados: • ¿Cuál es la probabilidad de que el producto esté enlatado de color verde?

P (V) = 30/80 = 3/8 = 0.375 = 37.5% • ¿Cuál es la probabilidad de que el artículo esté enlatado de color rojo?

P (R) = 50/80 = 5/8 = 0.625 = 62.5% • ¿Cuál es la probabilidad de que el artículo esté enlatado de color negro?

P (N) = 0/80 = 0 • ¿Cual es la probabilidad que salga el enlatado de color verde o de color rojo?

P (VOR) = 3/8 + 5/8 = 1= 100%

NOTA. El evento C es llamado evento imposible y su probabilidad es O. El evento D es un evento seguro, si la probabilidad es 1.

1.2 VARIABLES ALEATORIAS Una variable X es una variable aleatoria si los valores que toma corresponden a los distintos resultados posibles de un experimento, y por ello el hecho de que tome un valor particular es un evento aleatorio. Por ejemplo, considérese el muestreo de 20 deportistas a los que se les pregunta su preferencia por el refresco A o B. El número de deportistas que prefiera el producto A puede considerarse como una variable aleatoria X, puede tomar cualquiera de los valores O, 1, 2,..... 20. Cada uno de estos valores corresponde a un resultado posible del experimento consistente en la extracción de una muestra de 20 deportistas y el consiguiente registro del número de ellos que prefieren el producto A.

Page 10: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

7

La variable X as una variable aleatoria, ya que el valor que tomará al llevar a cabo el experimento no puede predecirse con certeza; esto es, el hecho de que X tome un valor determinado, por ejemplo el 4, es en si, un evento aleatorio. Las variables aleatorias se clasifican en dos tipos: discretas o continuas. Una variable aleatoria discreta, es aquella que toma valores enteros, como por ejemplo el número de personas, ciudades, teatros, etc. Una variable aleatoria continua es aquella que puede tomar valores no necesariamente enteros, por ejemplo las distancias, pesos, estatura, tiempo, etc. 1.3 VALOR ESPERADO El valor esperado de una variable aleatoria discreta se define como el producto del tamaño de la muestra por la probabilidad.

Ve = n * p Al valor esperado se le llama “Esperanza Matemática”. Además, si X denota una variable aleatoria discreta que puede tomar los valores X1, X2,....Xk con probabilidades p1, p2,.....pk, la esperanza matemática de X denotada E (X), se define como:

E (X) = P1X1 + P2X2 +......+ PKXK = ∑pX Ejemplo: Un examen de admisión fue presentado por 300 estudiantes. ¿Cuántos estudiantes obtendrán un puntaje superior a 90, con una probabilidad del 6%? Solución Se sabe que la probabilidad de obtener un puntaje superior a 90 es del 6% entonces:

Ve = 300 * O.06 = 18 alumnos Lo que quiere decir que se espera que 18 alumnos de los 300 obtendrán un puntaje superior a 90. • Cuál es la esperanza matemática que un hombre gane un premio de $100000

si su probabilidad es de 1/5?

Ve = 100000* 1/5 = 20000 Significa que el hombre ganará $20000 si sale favorecido para el premio.

Page 11: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

8

• En el lanzamiento 900 veces de dos dados. ¿Cuál es la esperanza de que la suma de sus caras sea un valor menor a 6?

Solución Primero se obtiene la probabilidad de éxito del suceso en un solo ensayo, es decir que al lanzar los dados la suma de sus valores sean menor de 6: (1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (3,1) (3,2) (4,1) = 10: entonces la probabilidad será 10 lanzamientos de 36 posibilidades P = 10/36. Como se lanzan 900 veces los dos dados, se obtiene:

10 9000 Ve = 900 = = 250

36 36 La esperanza es que en 250 de los 900 lanzamientos, la suma de sus caras sea menor de 6. • Un boleto de una rifa ofrece dos premios, uno de $5.000.000 y otro de

$2000.000, con probabilidades 0.001 y 0.003. ¿Cuál sería el precio justo a pagar por él?

Solución E (X) = (5.000.000) (0.001 ) + (2000.000) (O.003) = 5000 + 6000 = 11000; el precio justo a pagar es de $11000. Proceso de Comprensión y Análisis • En una caja hay 10 bolas rojas y 6 blancas. ¿Si se extrae una bola de la caja,

cuál es la probabilidad de que la bola sea blanca? • En un colegio hay 25 profesores de los cuales 6 de ellos tienen estudios de

Postgrado. Se ofrece una beca para que uno de los profesores que no tiene estudios de Postgrado pueda realizarlos. Juan Pérez no tiene estudios de Postgrado. ¿Qué probabilidad tiene Juan de ganarse la beca?

Page 12: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

9

• En un grupo de 48 estudiantes, 12 de ellos expresan preferencia por el ajedrez; ¿cuál es la probabilidad de que al seleccionar un estudiante éste exprese preferencias por el ajedrez?

• En una población de 50000 habitantes 7500 son mayores de 60 años. ¿Cuál es

la probabilidad que al seleccionar un habitantes este tenga una edad inferior a los 60 años?

• Suponer que en una fábrica se producen 5000 artículos eléctricos. 200 de ellos

son defectuosos. ¿Cuál es la probabilidad de que al seleccionar un artículo de esa fábrica, el artículo no sea defectuoso?.

• Suponer que en una fábrica de productos lácteos el 15% de los artículos tienen

fecha de vencimiento fuera de lo normal. ¿Cuál es la probabilidad de que al seleccionar un artículo lácteo de esta fábrica tenga fecha de vencimiento fuera de lo normal?

• Suponer que un vendedor de seguros ofrece este servicio a 5000 personas de

las cuales el 20% de ellas adquiere el seguro. ¿Cuál es la probabilidad de que al seleccionar una de estas personas halla comprado el seguro?

• Cuál es la probabilidad de que al lanzar un dado: − Aparezca el número 3 − Aparezca un número par − Aparezca un número múltiplo de 7 • Suponer que en un grupo de 60 estudiantes, 20 de ellos obtuvieron una nota

de matemática sobresaliente, 30 bueno y los demás insuficiente. − ¿Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota

Sobresaliente?.

− Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota insuficiente?.

− Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota sobresaliente o bueno?.

− Cuál es la probabilidad de que al seleccionar un alumno, éste tenga una nota sobresaliente, buena o insuficiente?

Page 13: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

10

• Determinar o estimar, la probabilidad de los siguientes sucesos: − Una tirada de un dado resulte impar. − Al menos una cara en dos tiradas de una moneda. − Un as, el 10 de diamantes o el 2 de picas aparezca al sacar una sola carta de

una baraja francesa de 52 naipes. − La suma de dos dados sea 7. • De una baraja de 52 naipes, mezclados al azar, se sacan dos naipes. Hallar la

probabilidad de que ambos sean ases si el primer naipe extraído: − Se devuelve a la baraja. − Si no se devuelve. • Clasificar las siguientes variables aleatorias como continuas o discretas: − Un banco no sabe con exactitud cuantos clientes llegarán un día determinado. − El peso de las cajas de tomate. − El número de accidentes que ocurren en una semana. − El tiempo de duración de una conversación telefónica. − Número de años que deben transcurrir para que una empresa logre que sus

acciones valgan seis millones de pesos. − El número de autos que entran a un parqueadero. − El tiempo que gastamos en ir de la casa al trabajo. − El número de clientes esperando servicio en la caja de un supermercado. − Las ventas semanales de una almacén. − El número de robos ocurridos en un almacén en determinado período de

tiempo. • Si se llama X a la variable aleatoria que indica el número de hijos varones en

una familia de 3 hijos, ¿cuáles son los posibles valores que toma esta variable? • Sea X la suma de puntos obtenida al lanzar dos dados. Determinar los posibles

valores que puede tomar la variable. • El supermercado COOTRUP ha reunido los siguientes datos sobre las ventas

semanales de neveras: Xj P (Xj)

Cantidad de neveras vendidas 0 0.20 1 0.30 2 0.30 3 0.115 4 0.05

Page 14: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

11

¿Cuántas neveras espera vender en la próxima semana? • En los concursos para la obtención de contratos, es usual que los contratistas

se sometan a concurso sí sus expectativas, teniendo en cuenta el tipo de proyecto y al resto de participantes, les indican que sus ganancias estarán por encima de cierta cantidad. Suponer que un contratista considera un proyecto en el cual ganará 50 millones de pesos si le es otorgado. El costo de preparación del proyecto, si lo somete a concurso, es de 5 millones de pesos y el propio contratista piensa que la probabilidad de que gane el concurso es 0.4.

Finalmente, el contratista ha decidido concursar sí su ganancia esperada es de por lo menos 12 millones de pesos. ¿Debe someterse a concurso para este proyecto?

• Un fabricante de llantas para automóviles ha conservado registros sobre la

calidad de su producto y tiene la siguiente tabla sobre el número de defectuosos encontrados en 100 llantas examinadas:

Número de defectos Número de llantas

0 60 1 22 2 8 3 5 4 3 5 2

− Construir la función de probabilidad. − Calcular e interpretar el valor esperado. • Un vendedor de automóviles tiene la oportunidad de trabajar con el

comerciante A o con el comerciante B. El vendedor evalúa los prospectos de venta de cada comerciante de automóviles de la siguiente manera:

Comerciante A Comerciante B

X P (x) X P (x) 0 0.4 0 0.2 1 0.3 1 0.6 2 0.2 2 0.2 3 0.1 3 0.0

¿Esperaría vender más automóviles con el vendedor A que con el B?

Page 15: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

12

• Una firma aseguradora ha determinado por experiencias, en un período largo de tiempo, que la probabilidad de que ocurra un robo en una casa asegurada contra este delito, es de 0,02. Si se tiene una póliza de seguros por $10'000.000 y si X es la ganancia financiera anual para la compañía de seguros como resultado de la venta de la póliza y sea C la prima anual desconocida.

Calcular el valor de C de manera que la ganancia esperada E (X), sea igual a cero. Entonces C es la prima necesaria para cubrir los gastos. A esta cifra la compañía añadirá los costos administrativos y las utilidades.

• En un juego de moneda, entre dos personas, con un premio de $1000 por

aparición de cara. ¿Cuál es la esperanza de ganar con el resultado de cara? • En un negocio aventurado, una señora puede ganar $3.000.000 con

probabilidad de 0.6, o perder 1.000.000 con probabilidad de 0.4. Hallar su esperanza matemática.

• Si llueve, un vendedor de paraguas gana $30.000 al día y si no llueve pierde

$6000 al día. ¿Cuál es su esperanza matemática si la probabilidad de lluvia es 0.3?

Page 16: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

13

UNIDAD 2: Distribución de Probabilidades

Núcleos Temáticos y Problemáticos • Distribución Normal • Inferencia Estadística • Tamaño de la Muestra • Teoría de la Decisión Estadística • Principales Estadísticos de Prueba • Tabla de Contingencia o Comparación de Colectivos Proceso de Información Las probabilidades asignadas a cada uno de los valores que puede tomar una variable aleatoria discreta X, se denominan distribuciones de probabilidad, si la suma de las probabilidades es igual a 1. Por ejemplo, considerar el evento de lanzar un dado. Entonces la variable aleatoria X = 1, 2,3, 4, 5, 6. Las probabilidades asignadas a cada valor de X son: P (1) = 1/6; P (2) = 1/6; P (3) = 1/6; P (4) = 1/6; P (5) = 1/6; P (6) = 1/6 Estas probabilidades forman una distribución de probabilidad, puesto que P (1) + P (2) + P (3) + P (4) + P (5) + P (6) = 1 Si X es una variable aleatoria discreta las principales distribuciones son: • Bernoulli • Binomial • Poisson

Page 17: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

14

Si X es una variable aleatoria continua las principales distribuciones son: • Uniforme • Normal • T - student • Chi - cuadrado Cada una de ellas tiene su comportamiento característico y será objeto de estudio posteriormente. 2.1 DISTRIBUCIÓN NORMAL Muchas distribuciones de mediciones que se hacen tanto en las ciencias sociales como en las ciencias naturales, tienden a tener un polígono de frecuencias con una forma que se asemeja al corte transversal de una campana. Esta distribución se observa más cuando el número de observaciones es grande y cuando en muchos casos las investigaciones se realizan con muestras de poblaciones grandes; en la mayoría de los casos las distribuciones tienden a aproximarse a la curva en forma de campana ya mencionada. El modelo de distribución de probabilidad para variables continuas más importante es esta, cuya función de densidad es:

1 F(x)= e-1/2 (x-µ)2/σ 2

σ√2π Donde µ es la media aritmética y σ es la desviación estándar cuya gráfica es la siguiente:

Page 18: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

15

La distribución normal juega un papel primordial en la Estadística. Sin exagerar se puede decir que es la más importante. Esto se debe a varias razones: • Muchas variables que aparecen en experimentos prácticos están distribuidas

normalmente.

• Otras variables están distribuidas aproximadamente a la normal.

• Ciertas distribuciones más complicadas se pueden aproximar por lo normal.

• Algunas variables que son básicas para justificar pruebas estadísticas están distribuidas normalmente.

El área total limitada por la curva y el eje X es uno (1); de aquí que el área bajo la curva entre dos puntos de X a < b, representa la probabilidad de que X se encuentre entre a y b, se denota: P {a < x < b}. En la tabla de área bajo la curva normal tipificada Z (que aparece al final como anexo), están las áreas o probabilidades correspondientes a las variables tipificadas.

X - µ Una variable X se tipifica así: Z =

σ Ejemplo • Los resultados de un examen de admisión en un colegio tienen una distribución

normal con media 75 y desviación estándar 10. ¿Qué fracción de resultado quedan?

− ¿Superior a 90? − ¿Inferior a 60? − ¿Entre 70 y 90? Solución • Para aplicar la distribución normal a datos discretos es necesario tratar los

datos como si fuesen continuos, así, un puntaje superior a 90 se considera 90.5.

− ¿Superior a 90?

Es necesario tipificar la variable X = 90.5, por tanto:

Page 19: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

16

90.5 – 75 15.5 Z = = = 1.55

10 10 La proporción o fracción pedida corresponde al área sombreada y es igual a: 0.5 - 0.4394 = 0.0606 = 6%. 0.5 es el valor correspondiente a la mitad de la curva; 0.4394 es el valor tomado de la tabla, área bajo la curva. Lo que significa que el 6% de los aspirantes obtuvieron una nota superior a 90 en el examen de admisión. − ¿Inferior a 60?

59.5 - 7.5 - 15.5 Es necesario tipificar 59.5: z = = =1.55

10 10

Page 20: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

17

La proporción o fracción pedida corresponde al área sombreada y es igual a 0.5 - 0.4394 = 0.0606 = 6%. 0.5 es el valor correspondiente a la mitad de la curva; 0.4394 es el valor tomado de la tabla, área bajo la curva. Lo que significa que el 6% de los aspirantes obtuvieron una nota inferior a 60 en el examen de admisión. − Entre 70 y 90 Se hace necesario tipificar los dos valores:

69.5 - 75 -5.5 Z1 = = = -0.55

10 10 El área que hay de 0 a - 0.55 es igual al área que hay de 0 a 0.55 puesto que la gráfica es simétrica con respecto al eje Y. En la tabla anexo corresponde a 0.2088.

90.5 - 75 15.5 Z2 = = = 1.55 = 0.4394

10 10 La proporción o fracción pedida corresponde al área sombreada y es igual a 0.2088 + 0.4394 = 0.6482 = 64.8%. Lo que quiere decir que el 64.8% de los aspirantes obtuvieron una nota entre 70 y 90 en el examen de admisión.

Page 21: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

18

2.2 INFERENCIA ESTADÍSTICA En la mayor parte de los estudios estadísticos, los parámetros poblaciones son desconocidos y es necesario estimarlos mediante una muestra, ya que no es posible, o no es práctico (en función del tiempo o del costo), inspeccionar la totalidad de la población. Por tanto, el desarrollo de métodos para estimar el valor de los parámetros poblacionales con mayor precisión posible. El que produce artículos deportivos podría estar interesado en averiguar el promedio de unidades defectuosas por cada lote de 1000 artículos sin tener que inspeccionar todos y cada uno de ellos. El psicólogo que desea determinar el cociente medio de inteligencia de los estudiantes de una universidad tendrá que confiar en una información muestral. En tales casos hay que usar un estadístico, tal como la media aritmética, como estimador del parámetro poblacional. Si quiere conocerse el grado de dispersión de los artículos deportivos defectuosos en los diversos lotes, o la variabilidad de los cocientes de inteligencia, entonces será necesario estimar también este parámetro a partir de los datos muéstrales. Las variables aleatorias utilizadas para estimar los parámetros poblacionales reciben el nombre de estimadores en tanto que los valores específicos de estas variables se llaman estimaciones de los parámetros poblacional. Así, las variables aleatorias Xy S2, son estimadores de los parámetros poblacionales µ1 σ 2 . Un valor específico de X, tal como X = 280, es una estimación de µ . Un valor específico de S2 = 18,2 es una estimación de σ2. Donde: • X significa media aritmética muestral. • µ significa media aritmética de la población. • S desviación estándar muestral. • σ desviación estándar de la población. La estimación se puede realizar de dos formas: estimación puntual y estimación por intervalos. 2.2.1 Estimación Puntual Es en donde queremos determinar un valor numérico que nos sirva como aproximación.

Page 22: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

19

Ejemplo: la estimación puntual del puntaje promedio de las pruebas de ICFES obtenido por los estudiantes de cierto colegio de Pamplona en el último año fue de 280, lo que significa que nuestra mejor estimación de la media poblacional es 280. 2.2.2 Estimación por Intervalo Es en donde no nos interesa saber un valor fijo sino solamente calcular dos valores, dentro de los cuales podemos asegurar con una probabilidad dada, que está el valor verdadero de nuestro parámetro. Ejemplo: con un 95% de seguridad el puntaje promedio de las pruebas ICFES en Pamplona está entre 260 y 300 puntos. Para construir los intervalos de estimación se requiere conocer la distribución de la cual proviene la muestra y el margen de error o seguridad que se desee. Las estimaciones por intervalos indican la exactitud de una estima, y por tanto, son proferidas a las estimas puntuales. 2.2.3 Intervalos de Confianza En las estimaciones por intervalo no nos interesa calcular un valor fijo para el parámetro desconocido, sino más bien buscamos dos valores a y b de los cuales podemos afirmar con un determinado grado de seguridad que el valor verdadero del parámetro desconocido está contenido. Es decir, buscamos los valores a y b tal que con un margen de seguridad, tenemos la probabilidad de que el parámetro se encuentre en ese intervalo. Si la distribución muestral es aproximadamente normal, el estadístico X (media de la muestra), los límites de confianza del 95% y 99% para la estimación de la media poblacional m., vienen dados por:

σ σ X ± 1.96 yx ± 2.58 respectivamente.

√n √n σ

En forma general, los límites de confianza son dados por: x ± Zc √n

Donde Zc depende del nivel de confianza que en cada caso se desee y puede obtenerse de la siguiente tabla:

Page 23: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

20

Nivel de confianza

99% 95% 90% 80% 50%

Z< 2.58 1.96 1.645 1.28 0.6745 2.2.4 Estimas Insesgadas Un estadístico es insesgado si su esperanza es igual al correspondiente parámetro poblacional. Así, X yS2 son insesgados porque E{x} = µ y E{s2}=σ2. • La media muestral X es una estima insesgada de la media poblacional µ • La desviación estándar muestral dividida por n - 1 es una estima insesgada de

la desviación estándar poblacional σ. Ejemplo En una muestra de cinco medidas, un científico anotó 6.33, 6.37, 6.36, 6.32 y 6.37 cm. Determinar estimaciones insesgadas con respecto a la varianza. Solución: la estimación sin sesgo de la varianza o sea, de la población es

N ∑ (X - X)2 S2 = S2 =

N - 1 N - 1 2.3 TAMAÑO DE LA MUESTRA Uno de los principales problemas que se debe resolver antes de efectuar un trabajo de investigación que requiere recolección de información muestral es la determinación del tamaño de la muestra. Dado que el muestreo es costoso y requiere de tiempo, el objetivo al seleccionar una muestra es obtener una cantidad especifica de información a un costo mínimo. Esto se puede llevar a cabo estableciendo un margen de error de estimación (que mide la cantidad de información) y posteriormente aplicando la fórmula apropiada para la estimación del tamaño de la muestra.

(6.33 – 6.35)2 + (6.37 – 6.35)2 + (6.36 – 6.35)2 + (6.32 – 6.35)2 + (6.37 – 6.35)2

S2 = 5 – 1 S2 = 0.00055 cm2

Page 24: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

21

Cuando la población es uniforme, una muestra pequeña produce la misma cantidad de información que una muestra grande; por lo tanto un médico puede basar su diagnóstico en el análisis de una sola gota de sangre del paciente; seleccionar una muestra en estos casos es un desperdicio de tiempo y dinero. Por otro lado, si la población consiste en elementos muy diferentes entre si, una muestra pequeña puede ser un reflejo muy deficiente de las características de la población. En un estudio para estimar la estatura promedio de los estudiantes de sexo masculino de una determinada universidad, una muestra pequeña de n = 3 estudiantes, puede por azar consistir únicamente en miembros del equipo de Basketboll. Una muestra aleatoria de n = 100 estudiantes proporciona una cobertura mucho más amplia y por lo tanto, mayor información sobre las estaturas de los estudiantes de sexo masculino. Las decisiones sobre el tamaño de la muestra se toman de acuerdo a la variabilidad inherente en la población de mediciones y a la exactitud que se requiere del estimador. A mayor variabilidad de la población, mayor es el tamaño de la muestra que se requiere para mantener un determinado grado de exactitud en la estimación. Según los criterios expuestos, el tamaño de la muestra se puede obtener aplicando la siguiente fórmula:

Mzc2P(1 - P) n =

ME2+Zc2P(1 - P) Donde: n = Tamaño de la muestra. M = Tamaño de la población. Zc = Valor crítico para la distribución normal según margen de error. P = Valor de la probabilidad de variabilidad de la población. Se toma 0.5 como máxima variabilidad. E = Margen de error Ejemplo • Un profesor de Educación Física del Colegio Provincial de Pamplona, desea

conocer el peso promedio de los estudiantes matriculados durante 2001 en ese plantel. Según informes de la coordinación hay 1800 alumnos matriculados,

Page 25: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

22

dado que no dispone del tiempo suficiente para pesar a todos los alumnos, decide seleccionar una muestra aleatoria por estratos (grados académicos) con un margen de error del 5% y 95% de confiabilidad.

El tamaño de la muestra en este caso será:

1800(1.96)2 - (0.5)(0.5)

n = = 316 1800(0.05)2 +(1.96)2(0.5)(0.5)

M = 1800, tamaño de la población. Zc = 1 .96, corresponde al valor crítico para un 5% de error (95% de seguridad). P = 0.5 se ha considerado la máxima probabilidad de variabilidad para la población. E = 0.05 corresponde al margen de error 5%.

• Se desea realizar una investigación para conocer los problemas que se vienen

presentando en los colegios y escuelas de Cúcuta con relación a la falta de motivación para la práctica de la lectura.

Según las estadísticas de la Secretaría de Educación hay 120.500 alumnos matriculados en los niveles de primaria y secundaria, con un margen de error del 5%, la muestra que se seleccione al azar debe tener un tamaño de:

120500(1.96)2 – (0.5)(0.5)

n = = 383 120500(0.05)2 + (1.96)2 (0.5)(0.5)

2.4 TEORÍA DE LA DECISIÓN ESTADÍSTICA Muy a menudo, en la práctica, se tienen que tomar decisiones sobre poblaciones, partiendo de la información muestral de las mismas. Tales decisiones se llaman decisiones estadísticas. Por ejemplo se puede querer decir a partir de los datos de un muestreo, si un fertilizante es mejor que otro, si el nuevo sistema de evaluación es mejor que el antiguo, si una vacuna es efectiva, si el índice de desempleo de este año superó el del año pasado, etc.

Page 26: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

23

Para llegar a tomar decisiones, conviene hacer determinados supuestos o conjeturas acerca de las poblaciones que se estudian. Tales supuestos que pueden ser o no ciertos se llaman hipótesis estadísticas. 2.4.1 Hipótesis Estadística Una hipótesis estadística es una suposición que se hace acerca de la distribución de una variable aleatoria. Por ejemplo, que cierta distribución tiene una media aritmética de 20,3. 2.4.2 Hipótesis Nula Es la hipótesis de trabajo o hipótesis a aprobar. Se denota por Ho. Se construye artificialmente para que el investigador evalúe su hipótesis de investigación. 2.4.3 Hipótesis Alternativa Cualquier hipótesis que difiera de una hipótesis dada se llama hipótesis alternativa; por ejemplo si la hipótesis de trabajo Ho es que el tiempo promedio de recorrido en una competencia es de 4 horas; las hipótesis alternativas son que el tiempo promedio de recorrido es diferente de 4 horas. Ho: µ = 4 horas H1: µ ≠ 4 horas 2.4.4 Prueba de Hipótesis El razonamiento que se emplea en la prueba de una hipótesis es muy semejante al que se emplea en un proceso judicial. Al juzgar a un individuo por robo, la corte supone que el acusado es inocente mientras no se pruebe su culpabilidad. El fiscal debe obtener y presentar todas las evidencias disponibles en un intento por contradecir la hipótesis de “no – culpabilidad”. Lo que se conoce en la inferencia estadística como pruebas de hipótesis consiste en verificar, por medio de una prueba, la validez de una determinada proposición. En un problema estadístico el procedimiento a seguir en una prueba de hipótesis es el siguiente: • Formular la hipótesis nula Ho.

• Formular la hipótesis alternativa H1, de tal manera que el rechazo de la hipótesis nula implique la aceptación de la alternativa.

Page 27: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

24

• Se escoge convenientemente un estadístico de prueba. Esto quiere decir, elegir con base en una muestra (si no lo hay es necesario efectuarlo), un estimador sobre el cual estamos efectuando la prueba, de tal manera que conozcamos su distribución.

• Se elige un margen de error. Este margen se denomina comúnmente el nivel de significación y se denota por α.

• Se determina la región de aceptación y la de rechazo. Estas regiones se determinan de acuerdo al estadístico de prueba utilizado y al margen de error elegido.

• Se toma una decisión. Si como resultado de la realización de un experimento se obtiene un valor contenido en la región de rechazo, se rechaza la hipótesis nula, en cuyo caso se acepta H1: si se obtiene un valor contenido en la región de aceptación, se acepta la hipótesis nula.

Desde el punto de vista del estadístico, el problema que se presenta en una prueba de hipótesis es determinar cuál estadístico utilizar. Para seleccionar el estadístico de prueba se debe tener en cuenta la hipótesis nula, los datos conocidos de la población y de la muestra y el tamaño de la muestra. 2.5 ESTADÍSTICOS DE PRUEBA Los principales estadísticos de prueba son: • La distribución normal • La distribución t - student • La distribución X2 (chi cuadrado.) • La distribución F - Fisher Ejemplo Suponer que sé desea realizar un trabajo para experimentar una nueva metodología de la enseñanza en el español en 5o. de primaria. Para tal fin se seleccionaron dos colegios uno experimental y otro de control. Los resultados obtenidos en una prueba, después de realizar las actividades previstas fueron las siguientes:

Page 28: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

25

Grupo de Control 28 35 46 76 24 54 75 52 24 37 46 75 38 45

Grupo Experimental

75 26 48 36 47 54 72 51 26 39 49 80

¿Es significativa la diferencia de los puntajes en los dos grupos?

Solución • En este caso la hipótesis nula o hipótesis de trabajo es la de que los puntajes

promedios son iguales en los dos casos:

Ho = µ A = µβ

• La hipótesis alternativa H1 es que los puntajes promedios son diferentes:

H1 = µA ≠ µβ • Para seleccionar el estadístico de prueba apropiado se examinan los datos que

se conocen así: − Tamaño de la muestra de cada grupo. − Media aritmética de cada muestra. − Desviación estándar de cada muestra.

Con base en los datos conocidos se selecciona un estadístico de prueba. En este caso es la distribución t - student que da un valor específico.

• Elegir un margen de error por ejemplo el 5%. • Con base en los anteriores datos se determina la región de aceptación o de

rechazo. • Si el valor queda en la región de rechazo no se acepta que el promedio de

puntajes en los dos grupos es igual, por lo tanto es que el promedio de puntajes es diferente.

Page 29: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

26

Decisión: con un 95% de seguridad puedo afirmar que hay diferencia significativa entre los puntajes de los dos grupos. En algunos casos especiales se pueden utilizar los siguientes estadísticos de prueba: Caso 1 • La distribución de la población es normal. • La hipótesis nula es de la forma Ho: µ = K, significa que el valor de la media

poblacional es K. • Se conoce σ (desviación de la población). • Se tiene una muestra de tamaño n, se utiliza como estadístico de prueba la

distribución normal.

√n (x - µ) Z = con n - 1 grados de libertad

σ Caso 2 • La distribución de la población es normal. • La hipótesis nula es de la forma Ho: µ = K, significa que el valor de la media

poblacional es K. • No se conoce σ, se conoce S (desviación de la muestra). • Se tiene una muestra de tamaño n, se utiliza como estadístico de prueba la

distribución t – student.

√n(x - µ) t = con n - 1 grados de libertad

S Caso 3 • La distribución de la poblacional es normal. • La hipótesis nula es de la forma Ho: σ2 = S2, significa que no hay cambio de

variabilidad en la población y la muestra. • Se tiene una muestra de tamaño n, se utiliza como estadístico de prueba la

distribución “chi cuadrado”.

(n - 1) S2

X2 = con n – 1 grados de libertad σ

Page 30: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

27

Caso 4, Comparación de medias aritméticas • Se tienen dos poblaciones A y B las cuales se distribuyen normalmente. • Se extraen muestras de A y B de tamaño nA y nB respectivamente. • La hipótesis nula es de la forma Ho: µA = µB

• Se conoce σA y σB • Se utiliza como estadístico de prueba la distribución normal.

(xA - XB) - (µA - µB) Z =

√σA2/nA + σB

2/nB

Caso5, Comparación de Medias Aritméticas Lo mismo que el caso anterior pero no se conoce σA y σB: Parte 1. Si nA y nB son suficientemente grandes. En Estadística esta afirmación se utiliza para muestras de tamaño mayor o igual a 30.

nA y nB ≥ 30 Se utiliza como estadístico de prueba la distribución normal: (XA - XB) – (µA - µB)

Z = √SA

2/nB + SB2/nB

Parte 2: Si nA y nB < 30 Se utiliza come estadístico de prueba la distribución t – student: Caso 6: Inferencia Relativa a Dos varianzas • Se tienen dos muestras con distribución normal. • Se conocen las desviaciones standar de las dos muestras SA y SB. • La hipótesis nula es de la forma Ho: σA

2 = sB2.

• Se utiliza como estadístico de prueba la distribución F - Fisher

Con nA + nB – 2 grados de libertad

Page 31: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

28

SA 2

F = SB

2 Ejemplo • En una investigación tendiente a comprobar la lectura como medio de ocio

utilizado por los estudiantes de Pamplona se tomaron unas muestras y se obtuvieron los siguientes resultados:

n = 60 X = 30% = 18 σ = 21 Probar la hipótesis de que en promedio, el número de estudiantes de Pamplona que utilizan la lectura como medio de ocio es del 40%. Tomar un margen de error del 5%. Siguiendo los pasos mencionados anteriormente tenemos: Ho = µ = 24 α = 5% (margen de error) Según los datos conocidos utilizamos la distribución normal.

Page 32: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

29

Como -2.2 queda ubicado en la región de rechazo no se acepta la hipótesis nula. Decisión: con un 95% de seguridad no se puede afirmar que el 40% de los estudiantes utilizan la lectura como medio de ocio. • Para comprobar la efectividad de un programa contra la drogadicción se realizó

un trabajo para verificar los efectos de drogas alucinantes sobre el grado de criminalidad y se obtuvieron los siguientes resultados:

A = Usar droga B = No usar droga XA = 31 XB = 26 SA = 5 SB = 8 NA = 36

NB =70 Comprobar la hipótesis de que en promedio, el número de delitos es igual en ambas poblaciones. Utilizar un margen de error del 1%. Solución Ho: µA = µB como nA y nB ≥ 30 utilizamos Z. El valor critico para un 1% de error es + 2.58.

Page 33: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

30

Decisión: como 2.18 queda en la región de aceptación, se acepta la hipótesis nula. Por lo tanto con un 99% de seguridad podemos afirmar que no influye la utilización de droga en el grado de criminalidad. 2.6 TABLA DE CONTINGENCIA O COMPARACIÓN DE COLECTIVOS Los colectivos a comparar pueden ser subgrupos de una misma población comunidades, un mismo grupo en dos o más puntos del tiempo, etc. Existen múltiples procedimientos para hacer comparaciones y éstas se pueden representar en cuadros que resultan de cruce de variables llamados Tabla de Contingencia. Ejemplo • El siguiente cuadro resume la información obtenida por el Rector de un

Colegio, sobre el nivel de escolaridad y el sexo de los padres de familia:

NIVEL DE ESCOLARIDAD HOMBRES MUJERES

Analfabetos 3 5 Básica incompleta 22 24 Básica completa 33 37

Media incompleta 18 30 Media completa 15 20

Universidad incompleta 12 10 Universidad completa 6 2

• El siguiente cuadro presenta el porcentaje de niños, jóvenes, adultos y el grado

de motivación que presentaron en la realización de una actividad musical:

Motivación Niños Jóvenes Adultos Alto 56% 65% 26%

Medio 28% 31% 38% Bajo 16% 4% 36%

TOTAL 100% 100% 100% 2.6.1 Análisis de Tablas de Contingencia El análisis de tablas de contingencia es un procedimiento general para investigar la homogeneidad de poblaciones cualitativas. En síntesis, el método consiste en

Page 34: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

31

comparar las frecuencias observadas para cada atributo dentro de cada clase con las esperadas por un modelo que suponga homogeneidad en todas las clases o categorías. Una media de la discrepancia entre las frecuencias observadas y esperadas es suministrada por el estadístico X2 (léase chi - cuadrado) dado por: Donde: oi = Frecuencia observada

ei = Frecuencia esperada Si X2= 0 las frecuencias observadas teóricas concuerdan exactamente; mientras que si X2 > 0 no coinciden exactamente, a valores mayores de X2, mayores son las discrepancias entre las frecuencias observadas y esperadas. 2.6.2 Ensayos de Significación La hipótesis nula Ho corresponde a que no hay discrepancia entre las frecuencias observadas y esperadas. Se toman como grados de libertad. V = (h - 1) (k - 1) donde h corresponde al número de filas y k al número de columnas. Ejemplo La siguiente tabla muestra el número de alumnos que aprobaron las asignaturas A y B. Mediante un nivel de significación del 5%, ensayar la hipótesis de que no hay diferencia entre los resultados.

APROBARON NO Asignatura A 72 17 Asignatura B 64 23

TOTAL 136 40 h = 2 K = 2 v = (2 – 1) (2 - 1) = 1 (grados de libertad).

∑(oi - ei)2

X2 = ei

Page 35: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

32

Las frecuencias esperadas para los alumnos que APROBARON serán: 136/2 = 68; las frecuencias esperadas para los alumnos que NO APROBARON serán: 40/2=20. Con un nivel de significación del 5% y un grado de libertad no se puede rechazar la hipótesis. Conclusión: con un 95% de confianza no hay discrepancia entre los resultados de los que aprobaron y los que no aprobaron con relación a las asignaturas A y B. Proceso de Comprensión y Análisis • En un examen final de matemáticas la media fue de 72 y la desviación típica

fue de 15.

− Determinar las referencias tipificadas (es decir, graduaciones en unidades de desviación típica) de los estudiantes que obtuvieron puntuaciones de: 60, 93 y de 72.

− Hallar las puntuaciones correspondientes a las referencias tipificadas -1 y 1.6. • Hallar el área bajo la curva en cada uno de los siguientes casos:

− Entre Z = O y Z = 1.2

− Entre Z = -0.68 y Z = 0

− Entre Z = -0.46 y Z = 2.21 • En un examen de estadística, la media fue de 78 y la desviación típica 10.

− Determinar las puntuaciones estándar de dos estudiantes que obtuvieron 62 puntos.

(72 - 68)2 (64 - 68)2 (17 - 20)2 (23 - 20)2

x2 = + + + = 1.37 68 68 20 20

Page 36: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

33

− Hallar las puntuaciones de dos estudiantes cuyas puntuaciones estándar fueron -0.6 y 1.2.

• Una prueba estandarizada de comprensión de lectura se realiza entre 10000

estudiantes de secundaria. Se observa que las calificaciones están normalmente distribuidas con unas medidas de 500 y una desviación estándar de 60. Si se considera una calificación menor que 440 como indicadora de una grave deficiencia en la lectura, aproximadamente ¿cuántos estudiantes están catalogados como seriamente deficientes en comprensión de lectura?

• Se midió la estatura de 1000 niñas y se encontró que estaban normalmente

distribuidas con una media de 1.62 m y una desviación estándar de 5.08 cm. − ¿Aproximadamente cuántas niñas miden más de 1.73 m de altura?

− ¿Aproximadamente cuántas niñas tienen entre 1.52 y 1.62 m de estatura?

− ¿Cuántas están entre 1.57 y 1.67 de estatura? • El peso de 500 estudiantes varones de cierta universidad es de 151 lb y la

desviación típica es 15 lb. Suponiendo que los pesos están normalmente distribuidos, hallar cuántos estudiantes pesan:

− Entre 120 y 125 lb − Más de 185 lb − Menos de 128 lb − 128 lb − No más de 128 lb • Un programa de capacitación ha sido diseñado con el ánimo de mejorar la

habilidad de los operarios de una línea de producción. El programa es autoaplicable y por esto los operarios requieren diferentes números de horas para terminarlo. Un estudio de participantes anteriores revela que el tiempo promedio dedicado al programa es de 500 horas y que el tiempo se distribuye normalmente con una desviación estándar de 1000 horas.

− Cuál es la probabilidad de que un participante elegido de forma aleatoria tarde más de 500 horas en terminar el programa

− Cuál es la probabilidad de que un participante gaste entre 500 y 650 horas en terminar el programa

− Cuál es la probabilidad de que un participante gaste menos de 580 horas en terminar el programa.

Page 37: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

34

• La vida útil de cierto tipo de calentador eléctrico tiene una distribución aproximadamente normal, con media de 3.1 y desviación estándar de 1.2 años. Si este tipo de calentador tiene garantía de un año, ¿que porcentajes de calentadores necesitarán ser reemplazados?

• Las ventas diarias (de lunes a viernes) en un restaurante pequeño, tienen una

distribución normal, con una media de $53000 por día y una desviación estándar de $1200.

− ¿Cuál es la probabilidad que las ventas excedan de $70000 en un día dado?

− ¿El restaurante necesita ventas diarias de por lo menos $30000 para cubrir los gastos. ¿Cuál es la probabilidad de que, en un día dado el establecimiento no cubra los gastos?

• Se ha comprobado que el tiempo necesario para atender a un contribuyente en

una oficina de recaudación de impuestos está normalmente distribuido, con una media de 15 minutos y una desviación estándar de 5 minutos. Cuál es la probabilidad de que un cliente seleccionado aleatoriamente:

− Dure de 10 a 25 minutos.

− Tarde más de 20 minutos en la ventanilla.

− ¿Cuál es el tiempo mínimo que tardan el 10% de los clientes más demorados? • Plantear un tema de trabajo y: − Seleccionar la población − Cuantificarla − Seleccionar una muestra representativa − Suponer un margen de error − ¿Qué tamaño debe tener la muestra 7? − Qué método de muestreo va a utilizar?. ¿Por qué? • El muestreo por cuotas es una técnica de uso común en encuestas de opinión

pública. Al usar esta técnica, el entrevistador selecciona, de acuerdo con su criterio un número determinado de individuos (cuota) de cada uno de varios sectores de la población. Por ejemplo, se le puede pedir que entreviste a 10 mecánicos, 36 amas de casa o 7 abogados.

¿Bajo qué condiciones el muestreo por cuotas proporciona una muestra aleatoria?

Page 38: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

35

• En una Universidad, los estudiantes se oponen al nuevo régimen tributario. Se hizo esta declaración con base en una encuesta para la cual se escogieron al azar y se entrevistaron 86 estudiantes. El 52% de los entrevistados declararon que se oponían a la reforma tributaria. A partir de esta información, obtener un intervalo de confianza del 95% para la proporción real de estudiantes que se oponen a la reforma tributaria.

• Una prueba de Matemática aplicada a 9 estudiantes arrojó los siguientes

puntajes:

67 54 46 78 70 95 45 97 56

Encontrar un intervalo de confianza del 95% para la media real de los puntajes.

• Se desea estimar el puntaje promedio de los alumnos de un grupo escolar. Se

pretende que el error de estimación sea menor de 5 puntos con una probabilidad del 95%. Se sabe que el rango de los puntajes es de 84. ¿Cuál debe ser el tamaño de la muestra?

• La entidad encargada de la protección infantil reunió información con respecto

al número de niños abandonados que se pueden encontrar probablemente en una determinada ciudad los doce meses del año. Los resultados fueron los siguientes:

16 5 21 19 10 5 8 2 7 2 4 9

Estimar el verdadero promedio de niños abandonados con un nivel de confianza del 90%.

• Según los datos suministrados por el Ministerio de Justicia y la Dirección

General de Prevención y conciliación, en 1996 se registraron por ciudades los siguientes números de lesiones personales:

Medellín 1866 Barranquilla 1961 Bogotá 4685 Bucaramanga 1152

Cali 1765 Santa marta 394 Cúcuta 392 Popayán 540 Pereira 1739 Pasto 683

Manizales 1018 Arauca 415 Valledupar 480 San Andrés 91

Leticia 177 Quibdo 673

Page 39: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

36

Estimar el promedio de lesiones personales con un nivel de confianza del 95%. • Suponer que las alturas de 100 estudiantes varones de la Universidad XYZ

representan una muestra aleatoria de las estaturas de los 1546 estudiantes de esa Universidad. Determinar estimaciones sin sesgo con respecto de la varianza.

• Las mediciones de una muestra de masas dieron 8.3, 10.6, 9.7, 8.8, 10,2 y 9.4

kg respectivamente. Determinar estimaciones sin sesgo de la varianza de la población.

• El tiempo promedio empleado para la repartición de 240 camiones de una

empresa es de por lo menos 80 minutos, en base a una muestra sin reemplazamiento de 40 camiones encontramos: ∑X = 2800 y una desviación de 11. X: tiempo empleado en la repartición. ¿Con un nivel de significancia del 5% se podrá rechazar la hipótesis planteada inicialmente?

• El jefe de personal de una gran corporación esta contratando un gran número

de empleados para un trabajo en el extranjero. Durante la realización de pruebas la gerencia pregunta como marchan las cosas y el jefe de personal contesta “bien, creo que la puntuación promedio en el test de aptitudes será 90”. Cuando la gerencia revisa 20 de los resultados de la prueba, averigua que la puntuación media es 84 y la desviación estándar de esta puntuación es 11; si la gerencia quiere probar la hipótesis del jefe de personal en el nivel de significancia de 10%, ¿cuál será el procedimiento al que recurra?

• Una muestra de 25 observaciones tiene una media de 42 y una desviación

estándar de 8. Trabajando con un nivel de significancia del 1%. ¿Existe razón para rechazar la hipótesis de que la media de la población es de 46?

• Un fabricante de cigarrillos, analiza el tabaco de dos marcas diferentes, para

determinar el contenido de nicotina y obtiene los siguientes resultados en miligramos:

MARCA A: 24 26 25 22 23 MARCA B: 27 28 25 29 26

¿Los resultados anteriores, señalan que existe una diferencia en el contenido medio de nicotina en ambas marcas?

• Los salarios diarios de una industria están distribuidos normalmente con una

media de $132000 y una desviación estándar de $25000. Si una empresa de

Page 40: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

37

dicha industria, que cuenta con 4 obreros paga en promedio $122000 ¿puede acusarse a esta compañía de pagar salarios inferiores al nivel de significancia del 1%?

• Un fabricante de ciertas piezas de proyectiles, sostiene que en condiciones

normales de reparación, tienen una duración media µ = 320 horas. Probar esta afirmación frente a la alternativa µ ≠ 320, si 16 piezas duran un promedio de 308 horas, con una desviación de 29 horas. Utilizar un nivel de significancia del 5%.

• Una compañía esta evaluando el promover a sus empleados, es decir está

determinando la proporción de aquellos cuya habilidad, preparación y experiencia en la supervisión los califica para un ascenso a niveles superiores.

El director de talento humano le dice al presidente que el 80% de los empleados son promovibles. El presidente crea un comité especial para evaluar esta situación. El comité realiza entrevistas en profundidad con 150 empleados y en su juicio se da cuenta que sólo el 70% de la muestra llena los requisitos de promoción. El presidente quiere probar, en un nivel de significancia de 0.05 la afirmación del director de talento humano.

• Al jefe de personal se le pide determinar si los sueldos por hora de

trabajadores semiclasificados son iguales en dos ciudades. Se extraen muestras aleatorias simples de los sueldos por hora que se pagan en ambas localidades. Los resultados de la encuesta son:

Ciudad 1 X1 = 6.95 S1 = 0.40 n1 = 200 Ciudad 2 X2 = 7.10 S2 = 0.60 n2 = 175

La compañía quiere probar la hipótesis con un nivel del 5% de que no existe diferencia entre los sueldos por hora que ganan los trabajadores en las dos ciudades.

• Una compañía ha estado investigando dos programas educativos tendientes a

acrecentar el mejor trato de sus gerentes ante las necesidades de sus empleados. El programa original estaba compuesto de varias sesiones de pregunta y respuesta informal con algunos trabajadores. En los últimos años, se introdujo un programa formal con psicólogos profesionales. El nuevo programa es mucho más caro y el presidente de la compañía quiere saber con un nivel de significación del 5% si ese gasto ha mejorado el trato de los gerentes.

Page 41: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

38

Los datos arrojados con dos muestras son:

Programa Formal n1 = 12 x1 = 92 S1 = 15 Programa Informal n2 = 15 x2 = 84 S2 = 19

• En una muestra de 400 amas de casa, el 20% indicó preferencia por la marca

A de una margarina. Con posterioridad a una compañía de radio y televisión, se seleccionó una nueva muestra de amas de casa, del mismo tamaño y clase social. En esta muestra el 22% indicó preferencia por la marca A. De acuerdo con estos resultados y a un nivel del 5% ¿podría rechazarse la hipótesis de que la compañía fue inefectiva?

• La siguiente tabla presenta la relación entre las notas de los estudiantes de 5o

grado del Colegio de la Presentación de Bucaramanga en Matemática y Lenguaje.

Ensayar la hipótesis de que las notas de lenguaje son independientes de las obtenidas en Matemática, mediante el nivel de significación del 5% y del 1 %.

MATEMÁTICAS NOTAS ALTAS NOTAS MEDIAS NOTAS BAJAS NOTAS ALTAS 56 71 12 NOTAS MEDIAS 47 463 38 NOTAS BAJAS 14 42 85

• Suponer que se desea investigar los efectos combinados que el nivel de stress

y la dificultad del examen, causan en el rendimiento, en una tarea de solución de problemas. Para tal fin se seleccionaron cinco sujetos en cada grupo y los resultados sobre rendimiento son los siguientes:

TENSIÓN MODERADA INTENSA

SENCILLA

20 20 19 19 17

23 22 21 20 19

T A R E A

DIFICIL

22 21 20 19 18

18 16 15 14 12

Page 42: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

39

• Cuál es el promedio de puntaje del grupo:

− De tensión moderada − De tensión intensa − De tarea sencilla − De tarea difícil − De tensión moderada y tarea difícil − De tarea sencilla y tensión intensa − Total • Verificar si:

− Existe o no diferencia significativa entre el rendimiento de los sujetos en condiciones de tensión moderada y los de tensión intensa.

− Hay una diferencia significativa en el rendimiento de los sujetos a quienes se les asigna un problema sencillo y los que reciben uno difícil.

− Las dos variables (tensión y dificultad del problema) ejercen o no un efecto combinado sobre el rendimiento.

• Analizar:

− ¿Entre los cuatro grupos cuál es más homogéneo? − ¿Al considerar la variable tarea, cuál grupo tiene menor variación? − Existe diferencia significativa entre los datos observados y los datos esperados? • Los siguientes datos corresponden al puntaje obtenido por 10 estudiantes, de

un Colegio de Bucaramanga, en pruebas estandarizadas para medir habilidad matemática y habilidad en el lenguaje:

ALUMNOS HABILIDAD MATEMÁTICA

HABILIDAD EN LENGUAJE

1 25 40 2 22 71 3 59 79 4 35 48 5 93 61 6 17 30 7 98 88 8 21 49 9 77 45 10 25 62

Page 43: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

40

Distribuirlos en la siguiente tabla de contingencia: • Alta habilidad (Puntaje mayor de 50) • Baja Habilidad (Puntaje menor o igual a 50)

LENGUAJE

HABILIDAD ALTA BAJA

ALTA

M A T E M Á T I C A S

BAJA

Probar la hipótesis de que no existe discrepancia entre habilidades de Matemática y de Lenguaje.

Page 44: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

41

UNIDAD 3: Regresión y Correlación

Núcleos Temáticos y Problemáticos • Diagramas de Dispersión • Análisis de Regresión • Método de Mínimos Cuadrados • Correlación • Coeficiente de Correlación Proceso de Información Hasta el momento se ha tratado con experimentos aleatorios que incluyen solo una variable. Ahora se tratará con experimentos aleatorios que incluyen dos o más variables. Un problema de estimación que es particularmente importante en casi todo campo de estudio es el de pronosticar o predecir el valor de una variable de algún proceso, a partir de los valores conocidos de otras variables que estén relacionadas. 3.1 DIAGRAMA DE DISPERSIÓN Es la representación gráfica sobre un plano cartesiano de los puntos correspondientes al valor de dos variables. Ejemplo Suponer que los siguientes datos corresponden a la edad y peso de ocho niños:

Edad en años 12 10 8 6 4 10 9 6 Peso en Kilos 34 30 28 24 20 32 33 25

Page 45: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

42

Con el diagrama de dispersión es posible frecuentemente representar una línea recta o curva que aproxime a los datos. Tal curva se llama curva de aproximación. Si los datos se aproximan bien a una línea recta se dice que entre las variables existe una relación lineal; si se aproximan a una curva se dice que existe una relación no lineal. La relación o dependencia de estas variables de la muestra se conoce con el nombre de análisis de regresión. 3.2 ANÁLISIS DE REGRESIÓN Basándonos en los datos muéstrales, se puede estimar el valor de una variable correspondiente a un valor dado de una variable X. Esto se puede conseguir estimando el valor de la variable y de la recta o curva que se ajusta a los datos muéstrales. Existen varios métodos de ajuste, uno de los más utilizados es el de mínimos cuadrados. La recta o curva resultante se denomina recta de Regresión o Curva de Regresión.

Page 46: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

43

Ejemplo Con base en los datos obtenidos en un muestreo con niños sobre estatura y peso, se puede construir la recta de regresión tal que, conociendo la estatura del niño se estime su peso. Con base en una muestra, donde se relaciona la edad y la presión sanguínea se puede construir una recta de regresión; de tal forma que conociendo la edad de una persona se estime el valor de su presión sanguínea. La recta de regresión tiene la ecuación de la siguiente forma:

Y = mx + b Donde m es la pendiente o inclinación de la línea recta. Si m > O la recta en su gráfica está inclinada hacia la derecha. Si m < O la recta en su gráfica está inclinada hacia la izquierda. Para encontrar la ecuación de la recta de regresión se aplica un procedimiento especial y muy sencillo de realizar. Si la variable independiente x es el tiempo, los datos muestran los valores de la otra variable en diferentes tiempos. Los ordenados en relación con el tiempo se denominan “series de tiempo”. La recta o curva de regresión se denomina recta o curva de tendencia y se utiliza constantemente para fines de estimación, predicción o pronóstico. Ejemplo Con base en los datos de los últimos 10 años, del número de alumnos que participan en las actividades deportivas de un determinado colegio, se puede predecir el número de alumnos que participarán el próximo año en dichas actividades deportivas. 3.3 MÉTODO DE MÍNIMOS CUADRADOS Una forma de aproximar los datos de un diagrama de dispersión a una recta o curva es por medio del método de mínimos cuadrados.

Page 47: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

44

3.3.1 Recta de Mínimos Cuadrados Cuando los puntos del diagrama de dispersión tienden a estar alrededor de una línea, se dice que existe correlación lineal y la recta de aproximación por el Método de mínimos cuadrados se obtiene al reemplazar en la siguiente fórmula: Donde x = X – x y = Y – Y Esta recta se conoce como recta de regresión. Ejemplo Suponer que los siguientes datos corresponden al número de preguntas contestadas correctamente por 8 alumnos en dos pruebas de aptitud verbal; encontrar la recta de regresión Y sobre X, si un alumno obtiene 5 puntos en la primera prueba, ¿cuánto se espera obtener en la segunda prueba?

Puntuación Primera Prueba (x)

Puntuación Segunda Prueba (y)

X Y x = X - x y = Y - Y xy x2 y2

1 1 -6 -4 24 36 16 3 2 -4 -3 12 16 9 4 4 -3 -1 3 9 1 6 4 -1 1 1 1 1 8 5 1 0 0 1 0 9 7 2 2 4 4 4 11 8 4 3 12 16 9 14 9 7 4 28 49 16

X = 7 Y = 5 ∑ = 84 ∑ = 132 ∑ = 56

∑xy ∑x2

xY =

∑xy

Y = x ∑x2

Page 48: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

45

Y – 5 = 0.63 (X - 7) Y – 5 = 0.63X - 4.41 Y = 0.63X + 5 - 4.41 Y = 0.63X + 0.59 Por lo tanto si un alumno obtiene 5 puntos en la primera prueba (X) se espera que en la segunda obtenga: Y = 0.63 (5) + 0.59 Y = 3.15 + 059 +3.74 Y = 4 3.4 CORRELACIÓN La correlación mide el grado de relación entre las variables. Cuando se trata de dos variables, se habla de correlación simple y regresión simple. Cuando existen más de dos variables se habla de correlación múltiple y regresión múltiple. 3.4.1 Correlación Lineal Si todos los puntos de un diagrama de dispersión parecen encontrarse cerca de una recta la correlación se llama lineal. En tal caso, los pronósticos o estimativos se dan con base a una recta de regresión. La correlación lineal puede ser positiva o negativa. 3.4.2 Correlación Positiva Una variable tiende a incrementarse cuando se incrementa la otra. Por ejemplo la edad y la presión sanguínea. A esta correlación se le llama también correlación directa.

84 132

X Y=

Page 49: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

46

3.4.3 Correlación Negativa Una variable tiende a incrementarse cuando se disminuye la otra. Por ejemplo la temperatura y la altura sobre el nivel del mar. Esta correlación se llama también correlación inversa. 3.4.4 Correlación no Lineal Si todos los puntos del diagrama de dispersión parecen estar cerca de alguna curva la correlación se denomina no lineal. Si no existe ninguna relación entre las variables, se dice que no hay correlación entre ellas, es decir, no están correlacionadas. 3.5 COEFICIENTE DE CORRELACIÓN Con frecuencia se requiere de un indicador o medida de la fuerza con la que dos variables se encuentran linealmente relacionadas, de modo que el indicador no dependa de las escalas en las que cada una de las variables se hallan medido. Un tal indicador o medida se conoce como una medida de correlación lineal. La más usada en estadística es el llamado coeficiente de correlación de Pearson. Ésta cantidad se denota por r. Para encontrar su valor se aplica una fórmula específica. Si r toma un valor positivo se dice que existe correlación lineal directa; a medida que r se aproxime a 1 es mayor la relación directa entre las dos variables. Si r toma un valor negativo se dice que existe correlación lineal inversa; a medida que r se aproxime a -1 es mayor la relación inversa entre las dos variables. Si r = 0 implica ausencia de correlación lineal. Este coeficiente de correlación se puede aplica a datos que estén agrupados en tablas de contingencia, aplicando la fórmula específica. Una forma de encontrar él valor del coeficiente de correlación lineal r entre dos variables es aplicando la siguiente fórmula:

∑xyr =

√(∑x2)(∑y2)

Page 50: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

47

Donde x = X - xy y = Y - Y

Ejemplo El coeficiente de correlación de los puntajes obtenidos en las dos pruebas del ejemplo anterior es: Esto muestra que hay una correlación lineal positiva entre las variables muy alta, es decir que al aumentar el puntaje en la primera prueba también aumenta el puntaje en la segunda prueba. Proceso de Comprensión y Análisis • La compañía Hermanos Luna, cree que sus ingresos anuales (variable y)

dependen de sus gastos (variable x) en publicidad. Para comprobarlo, analiza la información registrada en los últimos seis años. Gastos en publicidad e ingresos en millones de pesos.

Gastos e Ingresos de la Compañía Hermanos Luna

Año Gastos (x) Ingresos (y) 1997 2 20 1998 3 25 1999 5 34 2000 4 30 2001 11 40 2002 5 31

− Graficar en un diagrama de dispersión la información conocida. − Estimar la ecuación de la recta para ver la dependencia o independencia de la

información. − Predecir los ingresos, si los gastos de publicidad van a ser de 7 millones − Obtener el error estándar del estimado para verificar la confianza en su modelo

de regresión.

84r = = 0.977

√132*56

Page 51: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

48

• El jefe de personal de una planta de ensamblaje de utensilios, establece una relación entre la edad del trabajador (x) y su ausentismo (y). Para esto recogió la información de una muestra de 10 empleados tomados al azar entre todas las hojas de vida de los empleados.

Edad (x) 42 27 36 25 22 39 57 119 33 30 Días de Ausencia (y) 2 7 5 9 10 4 4 8 6 5

Empleando un modelo de regresión lineal, se desea predecir el comportamiento de los empleados en cuanto a la edad y al ausentismo.

• El departamento de publicidad de la compañía T&T, desea saber si existe una

relación entre las ventas y el número de comerciales de televisión transmitidos por día para una muestra de siete ciudades.

Ventas en Cientos de Unidades Comerciales Trasmitidos por Día

y x 8.4 11 5.2 6 7.1 8 10 9

12.9 12 11.5 15 14.4 14

− Estimar las ventas en función del numero de comerciales por medio de la

ecuación de la recta y el error estándar del estimado.

− Calcular el estimado en ventas para 11 comerciales.

• Un equipo de investigadores de la UMATA han estudiado la relación entre la

cosecha de maíz y la temperatura promedio durante la etapa de crecimiento; las medidas durante varios años produjeron los siguientes resultados:

X Temp. en grados 19 23 25 24 26 21 Y Bultos por Ha 66 74 72 76 78 72

Estimar los bultos por hectárea en función de la temperatura, predecir el número de bultos de maíz por hectárea para una temperatura de 20 grados y el error estándar del estimado.

Page 52: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

49

• Un analista de una compañía vendedora de libros estudió la relación entre gastos de viajes en miles de pesos para 102 vendedores y la duración de estos viajes en días, para obtener los siguientes resultados:

Total de duración 510 días Total de gastos 7.140 Miles de pesos Producto de gastos por días 54.900 Suma de cuadrados de gastos 740.200 Suma de cuadrados de duración 4.150

− Con base en la información anterior calcular un modelo lineal para estimar los

gastos en función de la duración.

− Obtener el error estándar del estimado. • Con base en las normas de servicio, se obtuvo la información referente al área

en metros cuadrados (Y) y al número de turistas alojados (X) en ocho establecimientos. Los datos se presentan en miles:

l 1 2 3 4 5 6 7 8 X1 15 10 11 13 18 9 14 16 Y1 59 45 48 52 54 41 58 61

− Estimar el área contenida en función del número de turistas alojados. − Estimar el espacio para un total de 18 turistas. − Establecer el error de estimación. • La empresa Todo a Mil, maneja una cadena de 100 almacenes; con el objeto

de medir la eficiencia de las tiendas, se hizo un estudio acerca del volumen de ventas mensuales (Y) en función del número de empleados (X). Se obtuvieron los siguientes resultados:

∑X = 600 ∑Y = 1.600 ∑X2 = 5.200 ∑Y2 = 37.700

∑XY = 13.600 − Establecer un modelo lineal. − Estimar las ventas para un almacén con tres empleados. − Calcular el error estándar del estimado. • Las estadísticas de la Secretaría de Educación del Departamento Norte de

Santander, registraron durante el año 2002 los siguientes datos relacionados con el número de alumnos matriculados en Primaria, en Colegios oficiales.

Page 53: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

50

Años Alumnos 1993 125.543 1994 203.569 1995 287.569 1996 256.890 1997 356.983 1998 387.127 1999 403.005 2000 398.127 2001 417.345 2002 482.106

− Construir el diagrama de dispersión de los anteriores datos. − Encontrar el valor de la recta de regresión de mínimos cuadrados. − ¿Cuál es el valor del coeficiente de correlación y que significado tiene? − Con base a los anteriores datos estimar el número de alumnos que se

matricularán en el 2007. • Suponer que los siguientes datos corresponden al número de alumnos que

reprobaron el Grado Sexto en el Colegio CEMUP de la ciudad de Pamplona durante los últimos seis años.

AÑOS NÚMERO DE REPROBADOS

1996 12 1997 13 1998 7 1999 10 2000 7 2001 4 2002 5

− Construir el diagrama de dispersión. − Encontrar el valor de la recta de regresión de mínimos cuadrados. − Calcular el valor del coeficiente de correlación e interpretar el resultado. − Estimar el número de alumnos que reprobarán en el año 2004. • La siguiente tabla presenta las notas en Álgebra y Física de 10 estudiantes

elegidos al azar entre un grupo muy numeroso:

Page 54: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

51

Álgebra (X) Física (Y) 75 82 80 78 93 86 65 72 87 91 71 80

− Representar los datos. − Hallar una recta de mínimos cuadrados que ajuste los datos usando X como

variable independiente. − Hallar una recta de mínimos cuadrados que ajuste los datos usando Y como

variable independiente. − ¿Si un estudiante tiene 75 en álgebra, cuál es su nota esperada en física? − ¿Si un estudiante tiene 95 en física, cuál es su nota esperada en álgebra?

Page 55: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

52

ANEXO: Tablas

Page 56: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

53

Page 57: estadistica_probabilistica

Probabilidad Estadística

UNIVERSIDAD DE PAMPLONA – Centro de Educación Virtual y a Distancia

54

BIBLIOGRAFÍA GENERAL BERNAL V. Miguel. Estadística Descriptiva: J. Elaboración y Presentación de Datos Universidad de Pamplona, 1987.

GALLARDO, Yolanda. Estadística: Programa de Sicología Universidad de Pamplona. 1997.

MARTÍNEZ BENCARDINO, Ciro. Estadística Comercial. Bogotá: Norma, 1981.

MORENO GARZÓN, Adonay. Serie aprender a investigar: Recolección de la información. Cali: ICFES, 1995.

PARZEN, Emmanuel. Teoría Moderna de Probabilidades y sus Aplicaciones México: LIMUSA, 1991.

PEÑA SÁNCHEZ, Damel. Estadística Modelos y Métodos I. Fundamentos. Madrid: Alianza editorial, 1986.

PORTUS GOVINDEN. Lincoyán. Curso Práctico de Estadística. Bogotá: McGRAW - Hill, 1986.

SPIEGEL Murria R. Estadística. Madrid: McGraw Hill, 1993.