portafolios maria
TRANSCRIPT
PORTAFOLIO DE ESTADÍSTICA INFERENCIAL
UNIVERSIDAD POLITÉCNICA ESTATAL DEL CARCHI
ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN COMERCIAL INTERNACIONAL
Tulcán – Ecuador
DOCENTE: MSC. JORGE POZO
INTEGRANTES:
MARÍA PUETATE
MARZO 2012- AGOSTO 2012
INTRODUCCION
La estadística inferencial es necesaria cuando queremos hacer alguna afirmación sobre más
elementos de los que vamos a medir. La estadística inferencial hace que ese salto de la parte al
todo se haga de una manera “controlada”. Aunque nunca nos ofrecerá seguridad absoluta, sí nos
ofrecerá una respuesta probabilística. Esto es importante: la estadística no decide; sólo ofrece
elementos para que el investigador o el lector decidan. En muchos casos, distintas personas
perciben diferentes conclusiones de los mismos datos.
El proceso será siempre similar. La estadística dispone de multitud de modelos que están a
nuestra disposición. Para poder usarlos hemos de formular, en primer lugar, una pregunta en
términos estadísticos. Luego hemos de comprobar que nuestra situación se ajusta a algún
modelo (si no se ajusta no tendría sentido usarlo). Pero si se ajusta, el modelo nos ofrecerá una
respuesta estadística a nuestra pregunta estadística. Es tarea nuestra devolver a la psicología
esa respuesta, llenándola de contenido psicológico.
La estadística descriptiva, como indica su nombre, tiene por finalidad describir. Así, si queremos
estudiar diferentes aspectos de, por ejemplo, un grupo de personas, la estadística descriptiva
nos puede ayudar. Lo primero será tomar medidas, en todos los miembros del grupo, de esos
aspectos o variables para, posteriormente, indagar en lo que nos interese. Sólo con esos
indicadores ya podemos hacernos una idea, podemos describir a ese conjunto de personas.
OBJETIVO DE LA ESTADÍSTICA
La estadística es el conjunto de técnicas que se emplean para la recolección, organización,
análisis e interpretación de datos. Los datos pueden ser cuantitativos, con valores expresados
numéricamente, o cualitativos, en cuyo caso se tabulan las características de las observaciones.
La estadística sirve en administración y economía para tomar mejores decisiones a partir de la
comprensión de las fuentes de variación y de la detección de patrones y relaciones en datos
económicos y administrativos.
1
JUSTIFICACIÓN
El presente portafolio tiene como justificación recolectar todo el trabajo dado en clases como
portafolio de apoyo del estudiante y además ampliar mas el contenido con investigaciones
bibliográficas de libros ya que esto nos permitirá analizar e indagar de los temas no entendidos
para auto educarse el estudiante y así despejar los dudas que se tiene con la investigación y el
análisis de cada uno de los capítulos ya que la estadística inferencial es amplia y abarca
problemas que estas relacionados con el entorno para poder sacar nuestras propias decisiones
ya que la estadística inferencial nos ayudara a la carrera en la que estamos siguiendo como lo es
comercio exterior ampliar mas nuestros conocimientos y utilizar más el razonamiento y sacar
conclusiones adecuadas según el problema que se presente en el entorno ay que las
matemáticas y la estadística nos servirá a futuro para así poderlos emplear a futuro .
CAPITULO I
EL SISTEMA INTERNACIONAL DE UNIDADES
Las unidades del sistema internacional de unidades se clasifican en fundamentales y derivadas.
Las unidades fundamentales no se pueden reducir. Se citan las unidades fundamentales de
interés en la asignatura de ciencias e ingenierías de os materiales.
Las unidades derivadas se expanden en función de las unidades fundamentales utilizando signos
matemáticos de multiplicación y de división. Por ejemplo las unidades de densidad del sí son el
kilogramo por metro cubico algunas unidades derivadas tienen nombres y símbolos especiales.
2
Unidad de masa El kilogramo (kg) es igual a la masa del prototipo internacional del kilogramo
(Diaz, 2008)
Unidad de tiempo El segundo (s) es la duración de 9 192 631 770 periodos de la radiación
correspondiente a la transición entre los dos niveles HIPERFINOS del estado fundamental del
átomo de cesio 133. (Diaz, 2008)
Unidad de intensidad de corriente eléctrica El ampere (A) es la intensidad de una corriente
constante que manteniéndose en dos conductores paralelos, rectilíneos, de longitud infinita, de
sección circular despreciable y situados a una distancia de un metro uno de otro en el vacío,
produciría una fuerza igual a 2·10-7 newton por metro de longitud. (Diaz, 2008)
Unidad de temperatura termodinámica El kelvin (K), unidad de temperatura termodinámica,
es la fracción 1/273,16 de la temperatura termodinámica del punto triple del agua. (Diaz, 2008)
Unidad de cantidad de sustancia El mol (mol) es la cantidad de sustancia de un sistema que
contiene tantas entidades elementales como átomos hay en 0,012 kilogramos de carbono 12.
(Diaz, 2008)
Unidad de intensidad luminosa La candela (CD) es la unidad luminosa, en una dirección dada,
de una fuente que emite una radiación monocromática de frecuencia 540·1012 HERTZ y cuya
intensidad energética en dicha dirección es 1/683 WATT por estereorradián. (Diaz, 2008)
Peso: es una magnitud derivada se considera como una unidad vectorial. (Diaz, 2008)
Escalar: aquel que indica el número y la unidad. (Diaz, 2008)
Vector: indica número unidad dirección etc. (Diaz, 2008)
Magnitud derivada: el peso de la unidad newton es una unidad de fuerza. (Diaz, 2008)
Gravedad: es la que permite a los cuerpos caer en perpendiculares según la gravedad de la
tierra (Diaz, 2008)
MULTIPLOS Y SUBMULTIPLOS
Múltiplo
Un múltiplo de un número es otro número que lo contiene un número entero de veces. En otras
palabras, un múltiplo de n es un número tal que, dividido por n, da por resultado un número
entero Los primeros múltiplos del uno al diez suelen agruparse en las llamadas tablas de
multiplicar. (Pineda, 2008)
3
Submúltiplo
Un número entero a es submúltiplo de otro número b si y sólo si b es múltiplo de a, (Pineda,
2008).
COMENTARIO:
El Sistema Internacional de Unidades (SI) tiene la finalidad de: Estudiar el establecimiento de un
conjunto de reglas para las unidades de medida y como estudiantes de comercio exterior nos
ayuda muchísimo porque con el podemos obtener los resultados al almacenar una mercancía en
el contenedor sin perder el tiempo que es valioso en la carrera, y también si perder el espacio
dentro de dicho contenedor.
El sistema internacional de unidades es estudiado para obtener datos reales y a su vez poder dar
nuestros resultados sacando conclusiones propias de la carrera Para una comunicación
científica apropiada y efectiva, es esencial que cada unidad fundamental de magnitudes de un
sistema, sea especificada y reproducible con la mayor precisión posible.
4
ORGANIZADOR GRAFICO:
TRABAJO # 1
MÚLTIPLOS Y SUBMÚLTIPLOS
MÚLTIPLOS.- Se pueden obtener múltiplos de cualquier número, son aquellos que se obtiene al
sumar el mismo número varias veces o al multiplicarlo por cualquier número. (son infinitos),
(Aldape & Toral, 2005, pág. 94).
Ejemplo:
Múltiplos de 5:
5-10-15-20-25-30-35-405-500-1000
SUBMÚLTIPLOS.- Los submúltiplos son todo lo contrario, son las divisiones exactas de un
número, (Aldape & Toral, 2005).
Por ejemplo :
Submúltiplos de 30:
5
Sistema Internacional de Medidas y Unidades
Magnitudes fundamentales
Una magnitud fundamental
es aquella que se define
por sí misma y es
independiente de las
demás (masa, tiempo,
longitud, etc.).
Magnitudes derivadas
Para resolver el problema que suponga la utilización de unidades diferentes en distintos lugares del mundo, en la XI Conferencia General de Pesos y Medidas (París, 1960) se estableció el Sistema Internacional de Unidades (SI). En el cuadro siguiente puedes ver las magnitudes fundamentales del SI, la unidad de cada una de ellas y la abreviatura que se emplea para representarla:
Son la que
dependen de las
magnitudes
fundamentales.
Múltiplos Submúltiplos
Un número es un
submúltiplo si otro lo
contiene varias veces
exactamente. Ej.: 2 es
un submúltiplo de 14,
Un múltiplo de n es un número tal que,
dividido por n, da por resultado un número
entero
6, 10, 5, 2, 3, etc.
MAGNITUDES FUNDAMENTALES Y DERIVADAS
LAS MAGNITUDES FUNDAMENTALES.- Una magnitud fundamental es aquella que se define
por sí misma y es independiente de las demás (masa, tiempo, longitud, etc.).
LONGITUD: Es la medida del espacio o la distancia que hay entre dos puntos. La
longitud de un objeto es la distancia entre sus extremos, su extensión lineal medida de
principio a fin, (Serway & Faughn, 2006).
MASA: Es la magnitud que cuantifica la cantidad de materia de un cuerpo, (Serway &
Faughn, 2006).
TIEMPO: Es la magnitud física que mide la duración o separación de acontecimientos
sujetos a cambio, de los sistemas sujetos a observación, (Serway & Faughn, 2006).
INTENSIDAD DE CORRIENTE ELECTRICA: Se denomina intensidad de corriente
eléctrica a la cantidad de electrones que pasa a través de una sección del conductor en
la unidad de tiempo, (Serway & Faughn, 2006).
TEMPERATURA: Es una magnitud referida a las nociones comunes de calor o frío. Por
lo general, un objeto más "caliente" tendrá una temperatura mayor, (Serway & Faughn,
2006).
INTENSIDAD LUMINOSA: En fotometría, la intensidad luminosa se define como la
cantidad flujo luminoso, propagándose en una dirección dada, que emerge, atraviesa o
incide sobre una superficie por unidad de ángulo solido, (Enríquez, 2002).
6
CANTIDAD DE SUSTANCIA: Su unidad es el mol. Surge de la necesidad de contar
partículas o entidades elementales microscópicas indirectamente a partir de medidas
macroscópicas (como la masa o el volumen). Se utiliza para contar partículas,
(Enríquez, 2002).
MAGNITUDES DERIVADAS.- Son la que dependen de las magnitudes fundamentales.
VELOCIDAD: Es la magnitud física que expresa la variación de posición de un objeto en
función del tiempo, o distancia recorrida por un objeto en la unidad de tiempo,
(Enríquez, 2002).
AREA: Área es la extensión o superficie comprendida dentro de una figura (de dos
dimensiones), expresada en unidades de medida denominadas superficiales, (Enríquez,
2002).
VOLUMEN: Es una magnitud definida como el espacio ocupado por un cuerpo,
(Enríquez, 2002).
FUERZA: se puede definir como una magnitud vectorial capaz de deformar los cuerpos
(efecto estático), modificar su velocidad o vencer su inercia y ponerlos en movimiento
si estaban inmóviles, (Enríquez, 2002).
TRABAJO: El trabajo, en mecánica clásica, es el producto de una fuerza por la distancia
que recorre y por el coseno del ángulo que forman ambas magnitudes vectoriales entre
sí, (Enríquez, 2002).
La unidad del trabajo es el JOULE.
ENERGIA: Es una magnitud física abstracta, ligada al estado dinámico de un sistema y
que permanece invariable con el tiempo en los sistemas aislados. La unidad de la
energía es el Joule, (Enríquez, 2002).
7
Fórmulas de área y volumen de cuerpos geométricos
Figura Esquema Área Volumen
Cilindro
Esfera
Cono
Cubo A = 6 a2 V = a3
Prisma A = (perim. base •h) + 2 • area base V = área base • h
Pirámide
8
CONCLUSIONES
El sistema internacional de unidades es muy importante porque se involucra en nuestra
carrera permitiendo la relación económica con otros países mediante comercio
internacional y su negociación entre ellos. como también la práctica de problemas del
sistema internacional de unidades nos ayudan a ver la realidad de nuestro entorno de
cómo podemos solucionar problemas al momento de exportar una mercancía, que
cantidad de materia prima, electrodomésticos, enceres que actualmente se exporta en
gran cantidad, puede alcanzar dentro de un contenedor.
El sistema internacional de unidades nos ayudan a vincularnos en los negocios, como
realizar negociaciones en el exterior porque a través de este sistema podemos indicar el
volumen, área, del tipo de trasporte el cual se va a exportar la mercancía, que cantidad
de cajas por ejemplo podemos enviar al exterior este sistema es muy fundamental en la
carrera de comercio exterior.
Recomendaciones
Se recomienda saber todas las medidas del sistema internacional de unidades como
también las magnitudes , longitud, masa y volumen de las figuras geométrica para que
nuestro producto o mercancía pueda ser exportada al exterior, es necesario conocer
debido a que nos permitirá realizar una buena negociación conociendo la cantidad de
mercancía que puede introducirse en el transporte.
Es de mucha importancia, que como estudiantes de la carrera de comercio exterior
conozcamos las unidades básicas más utilizadas que se encuentran presentes en el
Sistema internacional para una correcta aplicación en los ejercicios propuestos. La
utilización de las medidas del Sistema Internacional se presenta a nivel internacional y
por ende son aplicadas en el los negocios de Comercio Internacional ya que permite una
mejor movimiento e intercambio.
9
10
BIBLIOGRAFÍA
Aldape, A., & Toral, C. (2005). Matemáticas 2. México: PROGRESO S.A.
Altamirano, E. (2007).
Anderson, D. R. (2005). Estadística para Administración y Economía. México: Cengage Learning.
Diaz, R. G. (2008). Unidades fundamentales .
Enríquez, H. (2002). Fundamentos de Electricidad. México: LIMUSA S.A.
Física, E. d. (1997). Brian Mckittrick. Madrid: Reverté S.A.
García, M. A. (2000). Estadística Avanzada con el Paquete Systat. Murcia: I.S.B.N.
J.R, W. D. (20007). Ciencias e Ingenieria de las Materias .
Pineda, L. (2008). matematicas.
Rodrígues, M. E. (2001). Coeficientes de Asociación. México: Plaza y Valdés.
11
Sabadías, A. V. (2001). Estadística Descriptiva e Inferencial . Murcia: COMPOBELL.
Serway, R. A., & Faughn, J. S. (2006). FÍSICA para bachillerato general. New York: THOMSON.
Weiers, R. M. (2006). Introducción a la Estadística para Negocios. México: Learning Inc.
Willliams, T. A. (2008). Estadística para Administración y Economía. México: Cengage Learning.
LINKOGRAFIA
http://www.sc.ehu.es/sbweb/fisica/unidades/unidades/unidades.htm
file:///K:/Tabla-de-Magnitudes-Unidades-Y-Equivalencias.htm
file:///K:/books.htm
file:///K:/volumenes/areas_f.html
file:///K:/cuerposgeoAreaVolum.htm
ANEXOS:
1.- Convertir 2593 Pies a Yardas.
2.- Convertir 27,356 Metros a Millas
3.- Convertir 386 Kilogramos a Libras.
12
4.- Convertir 2,352 Segundos a Año.
5.- Convertir 1.1 Millas/Hora a Metros/Segundo.
TRANSFORMACIONES
En muchas situaciones tenemos que realizar operaciones con magnitudes que vienen
expresadas en unidades que no son homogéneas. Para que los cálculos que realicemos sean
correctos, debemos transformar las unidades de forma que se cumpla el principio de
homogeneidad, (Ledanois & Ramos, 2002).
Por ejemplo, si queremos calcular el espacio recorrido por un móvil que se mueve a velocidad
constante de 72 Km/h en un trayecto que le lleva 30 segundos, debemos aplicar la sencilla
ecuación S = v·t, pero tenemos el problema de que la velocidad viene expresada en
kilómetros/hora, mientras que el tiempo viene en segundos. Esto nos obliga a transformar una
de las dos unidades, de forma que ambas sean la misma, para no violar el principio de
homogeneidad y que el cálculo sea acertado, (Ledanois & Ramos, 2002).
13
Para realizar la transformación utilizamos los factores de conversión. Llamamos factor de
conversión a la relación de equivalencia entre dos unidades de la misma magnitud, es decir, un
cociente que nos indica los valores numéricos de equivalencia entre ambas unidades, (Ledanois
& Ramos, 2002).
EJERCICIOS REALIZADOS EN CLASE
Volumen 300m3 transformar en pulgadas 3
v=300m3X (100)3¿¿
V= 100000mmh
ms
V= 100000mmh
x4m
1000m ,mx1h3600 s
=0 .028 ms
Q= 7200000 PULGADA
h8transformar
litros
s2
Q=7200000 pulgada3
h8X (2 .54 )3 ¿¿
Vol. Paralelepípedo L x a x h
Vol. Cubo a3
Vol. Esfera 43II R3
Vol. Cilindro II R2hVol. Pirámide A X B
3Área cuadrada l2
Área de un rectángulo B x h
Área de un circulo II R2
14
Área de un triangulo b X h2
En una bodega tiene un largo de 60 m un ancho de 30 m cuantas cadjas de manzana puede
ubicar en esta bodega en estas cajas tiene 60cm de lado y 30 de ancho y 40 de altura.
Vol. de p bodega = l x a h = 60 x 30 x3 = 5400 m3
Vol. De p caja = 60 x 30 x 40 = 72000 cm3
TRANSFORMACIÓN
72000cm3 x1m3
1000000cm3=0.0072m3
X= 1caja x54000m3
0.072m3 =75000cajas
Un tanquero tiene una longitud de 17 m y un radio del tanque de 1.50 m. ¿Cuántos litros se
puede almacenar en dicho tanque?.
RESOLUCION
VOL. CILINDRO = II R2h
VOL. CILINDRO= 3.1416 X (1.50¿2 X (17)= 0 120.17 m3
TRANSFORMACIÓN
120.17 m3 x1000000 cm3
1m3 x1 l
100 cm3=120165 .20 litros
15
16
SISTEMA INTERNACIONAL DE UNIDADES
LONGITUD
1 Km 1000 m
1 m 100 cm
1 cm 10 mm
1 milla 1609 m
1 m 1000 mm
MASA
1qq 100 lbs.
1 Kg 2.2 lbs.
1 qq 45.45 Kg
1 qq 1 arroba
1 arroba 25 lbs.
1 lb 454 g
1 lb 16 onzas
1 utm 14.8 Kg
1 stug 9.61 Kg
1 m 10 Kg
1 tonelada 907 Kg
ÁREA
m2 100 cm2
1 m2 10000 cm2
1 hectárea 10000 m2
1 acre 4050 m2
1 pie (30.48 cm¿2
1 pie 900.29 cm2
1 m2 10.76 pies2
17
COMENTARIO EN GRUPO:
Como comentario en grupo podemos decir que las transformaciones nos servirá en la carrera
del comercio exterior y además poder resolver problemas que se presenten ya que al realizar
ejercicios de cilindros y tanque etc., y otras formas geométricas nos servirá para determinar
cuántas cajas o bultos, etc. que pueden alcanzar en una almacenera o en cada uno de los
contenedores esto nos servirá al realizar prácticas o al momento de emprender nuestro
conocimientos a futuro.
ORGANIZADOR GRAFICO:
18
LONGITUD
Observamos que desde los submúltiplos, en la parte inferior, hasta los múltiplos, en la parte
superior, cada unidad vale 10 veces más que la anterior, (Riley & Sturges, 2004).
LONGITUD
1 KM 100 M1 M 100M, 1000MM
1 MILLA 1609M
1 PIE 30,48CM, 0,3048M
1 PULGADA 2,54CM
1 AÑO LUZ 9,46X1015M
TIEMPO.
El tiempo es la magnitud física con la que medimos la duración o separación de acontecimientos
sujetos a cambio, de los sistemas sujetos a observación, esto es, el período que transcurre entre
el estado del sistema cuando éste aparentaba un estado X y el instante en el que X registra una
variación perceptible para un observador (o aparato de medida). El tiempo ha sido
frecuentemente concebido como un flujo sucesivo de situaciones atomizadas, (López, March,
García, & Álvarez, 2004).
MEDIDAS DEL TIEMPO
1 AÑO 365 DIAS
1 MES 30 DIAS
1SEMANA 7 DIAS
1 DIA 24 HR
1 HORA 60 MIN,3600SEG
1 MINUTO 60 SEG.
MASA Y PESO.
La masa es la única unidad que tiene este patrón, además de estar en Sevres, hay copias en otros
países que cada cierto tiempo se reúnen para ser regladas y ver si han perdido masa con
respecto a la original. El kilogramo (unidad de masa) tiene su patrón en: la masa de un cilindro
fabricado en 1880, compuesto de una aleación de platino-iridio (90 % platino - 10 % iridio),
creado y guardado en unas condiciones exactas, y que se guarda en la Oficina Internacional de
Pesos y Medidas en Seres, cerca de París, (Hewitt, 2004).
19
PESO
De nuevo, atención a lo siguiente: la masa (la cantidad de materia) de cada cuerpo es atraída por
la fuerza de gravedad de la Tierra. Esa fuerza de atracción hace que el cuerpo (la masa) tenga un
peso, que se cuantifica con una unidad diferente: el Newton (N), (Torre, 2007).
SISTEMA DE CONVERSION DE MASA
1 TONELADA 1000 KG1 QQ 4 ARROBAS, 100 L
1 ARROBA 25 L
1 KG 2,2 L
1 SLUG 14,58 KG
1 UTM 9,8 KG
1 KG 1000 GR
1 L 454 GR, 16 ONZAS
TRABAJO # 2
20
21
22
23
24
25
26
27
28
29
CONCLUSIÓN:
La conversión de unidades es la transformación de una cantidad, expresada en una cierta unidad
de medida, en otra equivalente. Este proceso suele realizarse con el uso de los factores de
conversión y las tablas de conversión del Sistema Internacional de Unidades.
Frecuentemente basta multiplicar por un factor de conversión y el resultado es otra medida
equivalente, en la que han cambiado las unidades.
Cuando el cambio de unidades implica la transformación de varias unidades se pueden utilizar
varios factores de conversión uno tras otro, de forma que el resultado final será la medida
equivalente en las unidades que buscamos.
Cuando se trabaja en la resolución de problemas, frecuentemente surge la necesidad de
convertir valores numéricos de un sistema de unidades a otro, por lo cual es indispensable tener
conocimientos sobre las equivalencias de los diferentes sistemas de unidades que nos facilitan
la conversión de una unidad a otra, tomando en cuenta el país y la medida que se emplee en los
diferentes lugares.
RECOMENDACIÓN:
En toda actividad realizada por el ser humano, hay la necesidad de medir "algo"; ya sea el
tiempo, distancia, velocidad, temperatura, volumen, ángulos, potencia, etc. Todo lo que sea
medible, requiere de alguna unidad con qué medirlo, ya que las personas necesitan saber qué
tan lejos, qué tan rápido, qué cantidad, cuánto pesa, en términos que se entiendan, que sean
reconocibles, y que se esté de acuerdo con ellos; debido a esto es necesario tener conocimientos
claros sobre el Sistema De Conversión De Unidades pues mediante el entendimiento de este
sistema o patrón de referencia podremos entender y comprender con facilidad las unidades de
medida las cuales las podremos aplicar en la solución de problemas de nuestro contexto.
CRONOGRAMA DE ACTIVIDADES:
MES DE MARZO-ABRIL
ACTIVIDADES M J V S D L M
Investigar sobre el Sistema Internacional de Unidades y la Áreas y volúmenes de diferentes figuras geométricas
X X
Ejecución del Formato del Trabajo X
30
Resumen de los textos investigados X X
Finalización del Proyecto X
Presentación del Proyecto X
BIBLIOGRAFIA
Enríquez, H. (2002). Fundamentos de Electricidad. México: LIMUSA S.A.
Física, E. d. (1997). Brian Mckittrick. Madrid: Reverté S.A.
García, M. A. (2000). Estadística Avanzada con el Paquete Systat. Murcia: I.S.B.N.
Hewitt, P. G. (2004). Física Conceptual. México: Pearson Educación S.A.
J.R, W. D. (20007). Ciencias e Ingenieria de las Materias .
Ledanois, J. M., & Ramos, A. L. (2002). Magnitudes, Dimensiones y Conversiones de Unidades.
Caracas: EQUINOCCIO.
López, J. C., March, S. C., García, F. C., & Álvarez, J. M. (2004). Curso de Ingeniería Química.
Barcelona: REVERTÉ S.A.
Pineda, L. (2008). matematicas.
Riley, W. F., & Sturges, L. F. (2004). ESTÁTICA. Barcelona: REVERTÉ.
LINKOGRAFIA:
http://es.wikipedia.org/wiki/
Magnitud_fundamental#Unidades_en_el_Sistema_Internacional_de_Unidades_.28SI.29
http://es.wikipedia.org/wiki/Superficie_%28matem%C3%A1tica%29
http://www.quimicaweb.net/ciencia/paginas/magnitudes.html
http://www.profesorenlinea.cl/geometria/VolumenCilindro.htm
http://mimosa.pntic.mec.es/clobo/geoweb/volum1.htm
http://www.sc.ehu.es/sbweb/fisica/unidades/unidades/unidades.htm
31
ANEXOS:
1.- Investigar las medidas de un tráiler, de una mula y de un camión sencillo, además las
medidas de las cajas de plátano, manzanas, quintales de papa y arroz. Con esa información
calcular el número de cajas y quintales que alcanzan en cada uno de los vehículos.
TRAILER MULA CAMION SENCILLO
Largo 14.30m Largo 8.27m Largo 10.80m
Ancho 2.45m Ancho 2.50m Ancho 2.60m
Alto 2.6m Alto 1.44m. Alto 4.40m
Medidas de las cajas:
Medidas de las cajas de plátano
LARGO ANCHO ALTO
20cm 51cm 34cm
Medidas de las cajas de manzana
7.5cm 9.5cm 7.5cm
Desarrollo:
vol. trailer=l∗h∗a
vol. trailer=14.30m∗2.6m∗2.45m
vol. trailer=91.09m3
vol.mula=l∗h∗a
vol.mula=8.27m∗1.44m∗2.50m
vol.mula=29.77m3
vol. camion sencillo=l∗h∗a
32
vol. camion sencillo=10.8m∗4.40m∗2.60m
vol. camion sencillo=123.55m3
vol. caja platano=l∗h∗a
vol. caja platano=14.30cm∗2.6 cm∗2.45cm
vol. caja platano=91.09cm3
vol. caja platano=91.09cm3∗(1m)3
(100cm)3=9.11∗10−05m3
vol. cajamanzana=l∗h∗a
vol. cajamanzana=7.5cm∗9.5cm∗7.5cm
vol. cajamanzana=534.38cm3
vol. cajamanzana=534.38cm3∗(1m)3
(100cm)3=5.3∗108m3
a. vol. trailer=91.09m3
vol. caja platano=9.11∗10−05m3
1 caja de plátano-----------------911*10-05m3
X 91.09m3
x=1cajade platano∗91.09m3
9.11∗10−05m3
x=999820.23 cajas de platano .
33
b. vol. trailer=91.09m3
vol. cajamanzana=5.3∗108m3
1 caja de manzana-----------------5.3*108m3
X 9.11*10-05m3
x=1cajade manzana∗¿9.11∗10−05m3
5.3∗108m3
x=1.7¿10−13cajas de manzana.
c. vol. trailer=91.09m3
1qqpapa∗( 100 lb1qq )( 1kg2.2 lb )( 1000cm3
1kg )( 1m31kg )=( 100000m3
2200000 )=0.05m3
1 qq de papa-----------------0.05m3
X 9.11*10-05m3
x=1qqde papa∗9.11∗10−05m3
0.05m3
x=1.82¿10−03qqde papa
d. vol. trailer=91.09m3
1qqde arroz∗( 100 lb1qq )( 1kg2.2lb )( 1000cm3
1kg )( 1m3
1kg )=( 100000m3
2200000 )=0.05m31 qq de arroz-----------------0.05m3
X 9.11*10-05m3
34
x=1qqdearroz∗9.11∗10−05m3
0.05m3
x=1.82¿10−03qqde arroz
e. vol.mula=29.77m3
vol. caja platano=9.11∗10−05m3
1 caja de plátano-----------------911*10-05m3
X 29.77m3
x=1cajade platano∗29.77m3
9.11∗10−05m3
x=326783.75cajas de platano .
f. vol.mula=29.77m3
vol. cajamanzana=5.3∗108m3
1 caja de manzana-----------------5.3*108m3
X 29.77m3
x=1cajade manzana∗29.77m3
5.3∗108m3
x=5.62¿108 cajas demanzana .
g. vol.mula=29.77m3
1qq papa=0.05m3
1 qq de papa-----------------0.05m3
35
X 29.77m3
x=1qqde papa∗29.77m3
0.05m3
x=595.4 qqde papa.
h. vol.mula=29.77m3
1qqarroz=0.05m3
1 qq de arroz-----------------0.05m3
X 9.11*10-05m3
x=1qqdearroz∗9.11∗10−05m3
0.05m3
x=1.82¿10−03qqde arroz
i. vol. camion sencillo=123.55m3
vol. caja platano=9.11∗10−05m3
1 caja de plátano-----------------911*10-05m3
X 123.55m3
x=1cajade platano∗123.55m3
9.11∗10−05m3
x=1.36∗106 cajas de platano .
j. vol. camion sencillo=29.77m3
vol. cajamanzana=5.3∗108m3
36
1 caja de manzana-----------------5.3*108m3
X 123.55m3
x=1cajade manzana∗123.55m3
5.3∗108m3
x=2.33¿10−07cajas de manzana.
k. vol. camion sencillo=29.77m3
1qq papa=0.05m3
1 qq de papa-----------------0.05m3
X 123.55m3
x=1qqde papa∗123.55m3
0.05m3
x=2471qqde papa.
l. vol. camio nsencillo=29.77m3
1qq papa=0.05m3
1 qq de arroz-----------------0.05m3
X 123.55m3
x=1qqdearroz∗123.55m3
0.05m3
x=2471qqde arroz.
CRONOGRAMA DE ACTIVIDADES DEL PRIMER CAPÍTULO:
TiempoActividades
MARZO ABRIL MAYOSEMANAS SEMANAS SEMANAS1 2 3 4 1 2 3 4 1 2 3 4
PRIMERA CLASE
37
Competencia especifica (27-Marzo-2012)
X
Introducción de la Materia(27-Marzo-2012)
x
SEGUNDA CLASE
Sistema Internacional de Unidades(03-Abril-2012)
X
Tarea Sistema Internacional de Unidades.Entregar el 10 de abril del 2012
X
TERCERA CLASE
Aplicación de transformaciones (17 de abril del 2012)
X
Tarea Ejercicios de aplicación acerca del Sistema Internacional de unidades según las transformaciones(24 de abril del 2012)
X
CUARTA CLASE
Evaluación primer capitulo(03 de Mayo del 2012)
x
CAPITULO II
38
MARCO TEORICO:
COEFICIENTE DE CORRELACIÓN Y REGRESIÓN LINEAL
La correlación estadística determina la relación o dependencia que existe entre las dos variables
que intervienen en una distribución bidimensional. Es decir, determinar si los cambios en una
de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las
variables están correlacionadas o que hay correlación entre ellas.
Una medida estadística ampliamente utilizada que mide el grado de relación lineal
entre dos variables aleatorias. El coeficiente de correlación debe situarse en la banda de
-1 a +1. El coeficiente de correlación se calcula dividiendo la covarianza de las dos
variables aleatorias por el producto de las desviaciones típicas individuales de las dos
variables aleatorias. Las correlaciones desempeñan un papel vital en la creación de
carteras y la gestión de riesgos, (Weiers, 2006).
Comentario:
A una correlación se la puede apreciar con un grupo de técnicas estadísticas empleadas
para medir la intensidad de dicha relación entre dos variables, en donde se deben
identificar la variable dependiente y la independiente.
DIAGRAMA DE DISPERSIÓN
Representación gráfica del grado de relación entre dos variables cuantitativas.
Características principales
A continuación se comentan una serie de características que ayudan a comprender la naturaleza
de la herramienta.
Impacto visual
Un Diagrama de Dispersión muestra la posibilidad de la existencia de correlación entre dos
variables de un vistazo.
Comunicación
Simplifica el análisis de situaciones numéricas complejas.
39
Guía en la investigación
El análisis de datos mediante esta herramienta proporciona mayor información que el simple
análisis matemático de correlación, sugiriendo posibilidades y alternativas de estudio, basadas
en la necesidad de conjugar datos y procesos en su utilización, (García, 2000).
Comentario:
El diagrama de dispersión sirve para una representación gráfica más fácil y útil cuando
se quiere describir el comportamiento de un conjunto de dos variables, en donde
aparece representado como un punto en el plano cartesiano.
COEFICIENTE DE CORRELACIÓN RECTILINEA DE PEARSON
En estadística, el coeficiente de correlación de Pesaron es un índice que mide la relación lineal
entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de
Pesaron es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pesaron como un
índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando
ambas sean cuantitativas.
El coeficiente de correlación es una medida de asociación entre dos variables y se
simboliza con la literal r; los valores de la correlación van de + 1 a - 1, pasando por el
cero, el cual corresponde a ausencia de correlación. Los primeros dan a entender que
existe una correlación directamente proporcional e inversamente proporcional,
respectivamente, (Willliams, 2008).
Comentario:
El coeficiente de correlación de Pearson nos da una idea de que tan relacionadas están
dos variables, este número varía entre 0 y 1; si el coeficiente es > 0.9, entonces es una
buena correlación y cuando un coeficiente es < 0.3 indica que las variables no están
correlacionadas entre ellas y por lo que el 1 representa una correlación perfecta.
INTERPRETACIÓN DE UN COEFICIENTE DE CORRELACIÓN
40
El coeficiente de correlación como previamente se indicó oscila entre –1 y +1 encontrándose en
medio el valor 0 que indica que no existe asociación lineal entre las dos variables a estudio. Un
coeficiente de valor reducido no indica necesariamente que no exista correlación ya que las
variables pueden presentar una relación no lineal como puede ser el peso del recién nacido y el
tiempo de gestación. En este caso el r infraestima la asociación al medirse linealmente. Los
métodos no para métrico estarían mejor utilizados en este caso para mostrar si las variables
tienden a elevarse conjuntamente o a moverse en direcciones diferentes.
Como ya se ha planteado el grado de correlación mide la intensidad de relación lineal,
ya sea directa, inversa o inexistente entre dos variables, se dice que es directa si tiene
signo positivo, inversa de signo negativo y nula cuando el valor sea aproximadamente
igual a cero, (Anderson, 2005).
Comentario:
El coeficiente de correlación mide solo la relación con una línea recta, dos variables
pueden tener una relación curvilínea fuerte, a pesar de que su correlación sea pequeña;
por lo tanto cuando analicemos las relaciones entre dos variables debemos
representarlas gráficamente y posteriormente calcular el coeficiente de correlación
para un mejor entendimiento.
FORMULA
R=n¿¿
REGRESIÓN LINEAL SIMPLE
Elegida una de las variables independientes y representadas los valores de la variable
bidimensional, si observamos que la función que mejor se adapta a la forma de la nube de
puntos es una recta, tendremos un problema de regresión lineal. Si hemos elegido el carácter X
como variable independiente, tendremos a la recta de regresión de Y sobre X. Si elegimos Y como
variable independiente, se obtendrá la recta de regresión de X sobre Y.
Regresión Lineal Simple.- suponga que tenemos una única variable respuesta cuantitativa Y, y
una única variable predictiva cuantitativa X. Para estudiar la relación entre estas dos variables
examinaremos la distribución condicionales de Y dado X=x para ver si varían cuando varia x.
(MORER, 2004)
41
COMENTARIO:
Podemos concluir diciendo que una de las variables independientes y representadas los
valores que mejor se adapta a la forma de la nube de puntos es una recta, tendremos un
problema de regresión lineal. A demás el hecho de entender de que se trata una
regresión lineal y saberla aplicar relacionando dos variables nos será de mucha ayuda
en nuestro futuro ya que nos permitirá aplicar lo aprendido en problemas reales que se
nos presenten en nuestra vida profesional como por ejemplo el saber que tan buena
resulta una relación entre exportaciones e importaciones que el Ecuador ha realizado y
así con esto poder tomar decisiones.
CORRELACIÓN POR RANGOS
Cuando se obtienen datos en parejas, tales como observaciones de dos variables para un mismo
individuo, deseamos conocer si las dos variables están relacionadas o no y de estarlo, el grado de
asociación entre ellas.
Correlación Por Rangos.- Este coeficiente de Sperman, es muy utilizado en investigaciones de
mercado, especialmente cuando no se deben aplicar medidas cuantitativas para ciertas
características cualitativas, en aquellos casos , en donde se pueden aplicar ambos coeficientes de
correlación, encontraremos que sus resultados son bastante aproximados. (BENCARDINO,
2006).
42
COMENTARIO:
Son datos en pareja para poder conocer la relación que existe entre ellas para un solo
individuo en común, y medir el grado de asociación entre ellas. Esto es muy interesante
ya que en un futuro nos ayudara en lo que nos vamos a desarrollar que es un ambiente
de negocios, ya que podemos aplicar esta técnica estadística aprendida, y así poder
solucionar problemas que se nos presenten comúnmente y saber que tan buena es la
relación entre las dos variables propuestas es decir nos ayudara mucho ya que nos dará
una idea de que tan relacionadas linealmente están dos variables y si su relación es
positiva o negativa.
RANGO
La diferencia entre el menor y el mayor valor. En {4, 6, 9, 3, 7} el menor valor es 3, y el mayor es
9, entonces el rango es 9-3 igual a 6. Rango puede significar también todos los valores de
resultado de una función.
Rango.- es una categoría que puede aplicarse a una persona en función de su situación
profesional o de su status social. Por ejemplo: “Tenemos que respetar el rango del superior a la
hora de realizar algún pedido”, “Diríjase a mi sin olvidar su rango o será sancionado. (MORER,
2004)
COMENTARIO:
Rango es el valor que se diferencia entre el menor y el mayor valor. Rango puede
significar también todos los valores de resultado de una función, y se puede así
relacionar y correlacionar a dos variables para obtener resultados que nos ayudan a la
toma de decisiones. A demás un rango es importante ya que nos permite la obtención de
datos más exactos y pues con esto nuestro trabajo se entonara de forma más real y
sobre todo de forma más precisa, y por ende tomaremos decisiones más acertadas.
COMENTARIO GENERAL:
La correlación y regresión lineal están estrechamente relacionadas entre si las cuales nos
ayudan a comprender el análisis de los datos muéstrales para saber qué es y cómo se relacionan
entre sí dos o más variables en una población que deseemos estudiar para así poder determinar
posibles resultados que nos darán en un estudio de mercado por ejemplo ya que nuestra carrera
de comercio exterior está muy relacionada con ese ámbito.
43
La regresión lineal por otro lado nos permitirá graficar las dos variables a estudiar
determinando su situación y si es conveniente o no desarrollar lo propuesto o investigado. La
finalidad de una ecuación de regresión seria estimar los valores de una variable con base en los
valores conocidos de la otra.
Es decir en resumen que nos permitirá tomar decisiones acertadas dentro de un estudio ya sea
en una población que determinara el éxito o fracaso entre dos variables a estudiar, y facilitara la
recolección de información.
ORGANIZADOR GRAFICO:
TRABAJO #3
44
CORRELACION Y REGRESION
LINEAL
UNIVERSIDAD POLITÉCNICA ESTATAL DEL CARCHI
ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN COMERCIAL INTERNACIONAL
COMPETENCIA ESPECÍFICA
Capacidad para utilizar las ciencias exactas y dar solución a problemas del contexto aplicando la
estadística con rigor científico y responsabilidad.
MSC. JORGE POZO
MARIA PUETATE
NIVEL: 6TO“B”
Periodo – 2012
TEMA: CORRELACIÓN Y REGRESIÓN LINEAL
Problema: Desconocimiento de la correlación y regresión lineal para la aplicación en problemas
del contexto.
45
OBJETIVOS.
GENERAL
Dar solución a problemas planteados de acuerdo a la correlación y regresión lineal.
ESPECÍFICOS
Investigar bibliográficamente información de correlación y regresión lineal para
fortalecer el conocimiento adquirido y aplicarlo adecuadamente en la solución de
problemas
Realizar un análisis sobre el tema tratado para mejor comprensión
Poner en práctica los conocimientos adquiridos en la resolución de problemas
relacionados al ámbito de comercio exterior.
PLANTEAMIENTO
Con el tema de regresión y correlación trataremos el análisis de situaciones que se representa
en una distribución que contienen 2 variables X Y.
Nuestro principal objetivo, al analizar las dos variables X Y, es el poder determinar la relación
entre estas dos variables, es decir cómo se comportan las dos variables una con respecto a otra,
además de determinar si están o no correlacionadas y en caso afirmativo, en hallar que tan
fuerte es este grado de relación.
JUSTIFICACION
El presente tema se lo realiza con la finalidad de solucionar los ejercicios planteados y así lograr
tener una idea más clara en cuestiones relacionadas al comercio exterior, adquiriendo
conocimientos profundos sobre la correlación y relación lineal.
Los ejercicios a resolver nos permitirán ahondar los conocimientos adquiridos en relación al
tema y así poder analizar las variables establecidas y determinar su comportamiento, además de
establecer la correlación existente entre dichas variables a analizar
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
CRONOGRAMA DE ACTIVIDADES:
ACTIVIDAD
TIEMPO
M J V S L M M J
investigación libros
Investigación internet
Elaboración de inicio de
formato
Realizar de ejercicios
Entrega de tarea
65
66
67
68
69
70
71
72
73
ANEXOS:
74
Ejemplo 1:
La siguiente tabla representa las puntuaciones de 7 sujetos en dos variables X e Y.
X: 6 3 7 5 4 2 1
Y: 7 6 2 6 5 7 2
Calcule:
a. El coeficiente de correlación de Pearson entre X e Y
b. La recta de regresión de Y sobre X en puntuaciones directas
c. La varianza de Y ( ), la varianza de las puntuaciones pronosticadas ( ) y la
varianza error (
a)
X Y XY X2 Y2
6375421
7626572
4218143020142
369
49251641
49364
3625494
28 35 140 140 203
b)
c)
75
Ejemplo 2:
Se tienen los datos conjuntos de dos variables, X e Y, con los valores que se muestran en la tabla:
X: 1; 3; 5; 7; 9; 11; 13
Y: 1; 4; 6; 6; 7; 8; 10
a. Si utilizamos la variable X como predictora de la variable Y, ¿qué porcentaje de
variabilidad de Y no puede ser explicada por la variabilidad de X?.
b. ¿Qué valor pronosticaríamos en la variable Y, si en la variable X obtenemos un valor de
10?
c. Suponiendo que no dispusiéramos de la información relativa a la variable X, ¿qué valor
pronosticaríamos para la variable Y? (Razone su respuesta).
a) Completamos la siguiente tabla:
X Y XY X2 Y2
1 1 1 1 1
3 4 12 9 16
5 6 30 25 36
7 6 42 49 36
9 7 63 81 49
11 8 88 121 64
13 10 130 169 100
49 42 366 455 302
76
El cuadrado del coeficiente de correlación (coeficiente de determinación) se interpreta como
proporción de varianza de la variable Y que se explica por las variaciones de la variable X. Por
tanto: es la proporción de varianza no explicada. Esta proporción multiplicada por 100
es el tanto por ciento o porcentaje.
b) Aplicamos la ecuación de regresión de Y sobre X: Y= b.X + a. Siendo b la pendiente y ala
ordenada cuyas expresiones aparecen entre paréntesis.
c) Le pronosticaríamos la media, porque no disponiendo información de la variable X es con el
que cometemos menos error de pronóstico.
Ejemplo 3:
Elección de la prueba estadística para medir la asociación o correlación. Las edades en días
están en escala de tipo intervalo, tenemos dos variables, entonces aplicamos esta prueba.
Objetivo: Conocer qué grado de asociación existe entre la edad y peso corporal de niños de
edades desde el nacimiento hasta los 6 meses.
Hipótesis.
Entre las observaciones de edad de los niños y peso corporal existe correlación significativa.
Ho. Entre las observaciones de edad de los niños y pero corporal no existe correlación
significativa.
77
Ejemplo 4:
Se ha evaluado a 7 sujetos su inteligencia espacial (variable X) y sus puntuaciones fueron: 13, 9,
17, 25, 21, 33, 29. Además se les pidió a los sujetos que reconocieran un conjunto de figuras
imposibles (variable Y). Después de calcular la ecuación de regresión para pronosticar Y a partir
de X, se sabe que para una puntuación típica de 1,2 en X se pronosticaría una puntuación típica
de 0,888 en Y. También se sabe que la desviación típica de las puntuaciones pronosticadas para
Y es 11,1. Con estos datos calcular:
a. El coeficiente de correlación de Pesaron entre X e Y
78
Sujeto Xi
1 13 169
2 9 81
3 17 289
4 25 625
5 21 441
6 33 1089
7 29 841
Sumatorio 147 3535
79
a. La ecuación de regresión en puntuaciones diferenciales para pronosticar Y a partir de X
a. La varianza de los errores del pronóstico.
Ejemplo 5:
De dos variables X e Y, y para un grupo de 5 sujetos, se saben los siguientes datos que se
muestran en la tabla:
Calcular:
a) Recta de regresión de Y sobre X en puntuaciones directas.
b) Coeficiente de correlación de Pearson entre X e Y
80
c) La varianza de las puntuaciones pronosticadas.
EJEMPLO 6:
Se desea importar desde el país de Colombia transformadores eléctricos. El Ecuador tiene las
cotizaciones de cinco empresa diferentes, y se hace el análisis de cual empresa es la más
conveniente, y las unidades que se va a vender en el país de importación.
EmpresasValor de los
transformadoresx
Unidades posibles a vender
yX2 Y2 XY
1
2
3
4
5
1800
1500
1200
900
850
100
98
80
62
58
3.240.000
2.250.000
1.440.000
810.000
722.500
10.000
9.604
6.400
3.844
3.364
180.000
147.000
96.000
55.800
49.300
∑x = 6.250 ∑y = 398 ∑x2=8.462.500 ∑y2=33.212 ∑xy=
528.100
Fórmula:
r=n¿¿
r=5 (528.100 )−(6.250 )(398)
√ [5 (8.462 .500 )−(39.062.500)2 ] ¿¿¿
r= 2.640.500−2.487 .500√ [42.312 .500−39.062 .500 ] [166.060−158.404 ]
r= 153.000
√ [3.250 .000 ] [7.656 ]
81
r= 153.000157.740,29
r=0,969948768=0,97
Análisis: si se obtiene ese porcentaje se puede lograr una venta exitosa para la empresa
importadora.
EJEMPLO 7:
Se desea importar desde el país de Colombia transformadores eléctricos. El Ecuador tiene las
cotizaciones de cinco empresa diferentes, y se hace el análisis de cual empresa es la más
conveniente, y las unidades que se va a vender en el país de importación.
EmpresasValor de los
transformadoresx
Unidades posibles a vender
yX2 Y2 XY
1
2
3
4
5
1800
1500
1200
900
850
100
98
80
62
58
3.240.000
2.250.000
1.440.000
810.000
722.500
10.000
9.604
6.400
3.844
3.364
180.000
147.000
96.000
55.800
49.300
∑x = 6.250 ∑y = 398 ∑x2=8.462.500 ∑y2=33.212 ∑xy=
528.100
Fórmula:
r=n¿¿
r=5 (528.100 )−(6.250 )(398)
√ [5 (8.462 .500 )−(39.062.500)2 ] ¿¿¿
r= 2.640.500−2.487 .500√ [42.312 .500−39.062 .500 ] [166.060−158.404 ]
82
r= 153.000
√ [3.250 .000 ] [7.656 ]
r= 153.000157.740,29
r=0,969948768=0,97
Análisis: si se obtiene ese porcentaje se puede lograr una venta exitosa para la empresa
importadora.
EJEMPLO 8:
La empresa MIDECAR ha clasificado como mercancías de mayor responsabilidad las mercancías
peligrosas y frágiles obteniendo así los siguientes datos mensuales sobre las toneladas de
mercancías que ingresan sobre este tipo:
MESES Mercancías
Peligrosas
Mercancías
Frágiles
x y x^2 y^2 xy
Enero 189 85 35721 7225 16065,00
Febrero 105 96 11025 9216 10080,00
Marzo 125 78 15625 6084 9750,00
Abril 116 48 13456 2304 5568,00
Mayo 124 98 15376 9604 12152,00
659 405 91203 34433 53615
r=n¿¿
r=5 (53615 )−(659)(405)
√¿¿¿
r= 268075−266895√ [456015−434,281 ] [172165−164025 ]
83
r= 1180
√ [21734 ] [8410 ]
r= 1180
√182782940
r= 118013519.72
r= 118013519.72
=0.08
La relación que existe dentro de las mercancías frágiles y peligrosas tiende a positiva como lo
demuestra el resultado numérico coma la formula y al grafica respecto al eje x y eje y.
84
EJEMPLO 9:
3. De una determinada empresa Exportadora de Plátano se conocen los siguientes datos,
referidos al volumen de ventas (en millones de dólares) y al gasto en publicidad ( en miles de
dólares) de los últimos 6 años:
a) ¿Existe relación lineal entre las ventas de la empresa y sus gastos en publicidad?
85
r=N ¿¿
r=6 (7312 )−(296)(129)
√¿¿¿
r= 5688
√34803.195=0.304
ANALISIS: En este caso r es 0.304 por tanto existe correlación ordinal positiva y es imperfecta,
es decir a mayor gasto en publicidad mayor volumen de ventas.
EJEMPLO 10:
La empresa FERRERO desea importar nueces desde Colombia por lo cual no está seguro que
empresa de transporte contratar para la mercancía de acuerdo a esto esta empresa decide
verificar los rendimientos que han tenido estas empresas en el transporte por lo cual ha hecho
una investigación de mercado y a obtenido los siguientes resultados.
EMPRESAS DE
TRANSPORTE
CALIDAD DE
SERVICIO (X)
RENDIMIENTO (Y) X2 Y 2 XY
TRANSCOMERINTER
TRANSURGIN
TRANSBOLIVARIANA
SERVICARGAS
19
17
16
14
46
44
40
30
361
289
256
196
2116
1936
1600
900
874
748
640
420
86
66 160 1102 6552 2682
r¿(∑ XY )−(
(∑x ) (∑Y )N
)
√[∑X 2−((∑ X)2/(N ))][∑X 2−((∑ X)2/(N ))]
r=4 (2682 )−( (66 )160 )
√(4 (1102 )−(662 )) (4 (6552 )−(1602 ))
r= 0,038
Es una relación positiva pero se podría decir que la empresa no podrá depender de las dos
variables ya que no son muy dependientes el uno del otro.
EJEMPLO 11:
Se está efectuando un proyecto de investigación en una empresa para determinar si existe
relación entre los años de servicio y la eficiencia de un empleado. El objetivo de estudio fue
predecir la eficiencia de un empleado con base en los años de servicio. Los resultados de la
muestra son:
Empleados Años de Servicio
“X”
Puntuación de eficiencia
“Y” XY X2 Y2Y`
A 1 6 6 1 36 3.23B 20 5 100 400 25 4.64C 6 3 18 36 9 3.61D 8 5 40 64 25 3.77E 2 2 4 4 4 3.31F 1 2 2 1 4 3.23G 15 4 60 225 16 4.30
87
H 8 3 24 64 9 3.77 61 30 254 795 128
0 5 10 15 20 250
1
2
3
4
5
6
7
r=n¿¿
r=8¿¿
r = .3531
DESVIACIÓN ESTÁNDAR
syx=√∑ ¿¿¿¿
syx=√∑ y2−a¿¿¿
b = 202 = .0765
2639
a = 3.75 - .0765 (7.625) = 3.16
( y - y )2 ( y - y´ )2
5.0625 7.6729
88
1.5625 0.0961
0.5625 0.3721
1.5625 1.5129
3.0625 1.7161
3.0625 1.5129
0.0625 0.09
0.5625 0.5929
r2 = 15.5 - 13.5659 = 0.1247 = 0.1247
EJEMPLO 12:
Un analista de operaciones de comercio exterior realiza un estudio para analizar la relación
entre la producción y costos de fabricación de la industria electrónica. Se toma una muestra de
10 empresas seleccionadas de la industria y se dan los siguientes datos:
EMPRESAMILES DE
UNIDADES xMILES DE
$ yXY X2 Y2
A 40 150 6000 1600 22500
B 42 140 5880 1764 19600
C 48 160 7680 2304 25600
D 55 170 9350 3025 28900
E 65 150 9750 4225 22500
F 79 162 12798 6241 26244
G 88 185 16280 7744 34225
H 100 165 16500 10000 27225
I 120 190 22800 14400 36100
J 140 185 25900 19600 34225
x Σ 777 y Σ 1657 Fxy 132938 xΣ 2 70903 y Σ 2 277119
89
20 40 60 80 100 120 140 1600
20
40
60
80
100
120
140
160
180
200
r=N∑ XY−¿¿
r = 1´329,380 - 1´287,489 =
[709030 - 603729][2771190 - 2745949]
r = ___41891 = r= _41891__ = 0.8078
(105301) (25541) 51860.32
DESVIACION ESTANDAR
syx=√∑ ¿¿¿¿
syx=√∑ y2−a¿¿¿
Syx = (277119) - 134.7909 (1657) - (.3978) (132.938)
10 - 2
Syx = 10.53
90
MARCO TEORICO:
CORRELACIÓN Y REGRESIÓN LINEAL
La correlación y la regresión están muy relacionadas entre sí. Ambas implican la relación entre
dos o más variables. La correlación se ocupa principalmente. De establecer si existe una
relación, así como de determinar su magnitud y dirección, mientras que la regresión se encarga
principalmente de utilizar a la relación. En este capítulo analizaremos la correlación y más
adelante la regresión lineal
Relaciones;
La correlación se ocupa de establecer la magnitud y la dirección de las relaciones. Analizaremos
algunas características importantes generales de estas con las que comprenderemos mejor este
tema.
Relaciones lineales:
Veamos una relación lineal entre dos variable. La siguiente tabla nos muestra el salario mensual
que percibieron cinco agentes de ventas y el valor en dólares de las mercancías vendidas por
cada uno de ellos en ese mes.
Agente variable X mercancía vendida ($) Y variable salario ($)1 0 5002 1000 9003 2000 13004 3000 17005 4000 2100
Podemos analizar mejor la relación entre estas variables. Si trazamos una grafica trazamos los
valores XyY, para cada agente de ventas, como los puntos de dicha grafica. Sería una grafica de
dispersión o de dispersigrama.
La grafica de dispersión para los datos de los agentes de ventas aparece en el cuadro.
Una relación lineal.- entre dos variables, es aquella que puede representarse con la mejor
exactitud mediante una línea recta.
Problema de que ambos tienen escalas muy diferentes. Como mencionamos anteriormente
podemos resolver esta dificultad al convertir cada calificación en su valor Z transformado, lo
cual colocaría a ambas variables en la misma escala, en la escala Z.
91
Para apreciar la utilidad de los puntajes Z en la determinación de la correlación, consideremos el
siguiente ejemplo. Supongamos que el supermercado de su barrio está vendiendo naranjas, las
cuales ya están empacadas; cada bolsa tiene marcado el precio total. Ud. quiere saber si existe
una relación entre el peso de las naranjas de cada bolsa y su costo. Como Ud. Es investigador
nato, elige al azar seis bolsas y la pesa, de hecho están relacionadas estas variables. Existe una
correlación positiva perfecta entre el costo y el peso de las naranjas. Asi el coeficiente de
correlación debe ser igual a + 1.
Para utilizar esta ecuación primero hay que convertir cada puntaje en bruto en su valor
transformado. Esto puede tardar mucho tiempo y crear errores de redondeo con alguna algebra,
esta ecuación se puede transformar en una ecuación de cálculo que utilice datos en bruto:
Ecuación para el cálculo de la r de pearson
r¿(∑ XY )−(
(∑x ) (∑Y )N
)
√[∑X 2−((∑ X)2/(N ))][∑X 2−((∑ X)2/(N ))]
Donde ∑XY es la suma de los productos de cada pareja XyY ∑ XY también se llama la suma
de los productos cruzados.
Datos hipotéticos a partir de cinco sujetos:
92
SUBJETIVO X Y X2 Y2 XY
A 1 2 1 4 2
B 3 5 9 25 15
C 4 3 16 9 12
D 6 7 36 49 42
E 7 5 49 25 35
TOTAL 21 22 111 112 106
r¿(∑ XY )−(
(∑x ) (∑Y )N
)
√[∑X 2−((∑ X)2/(N ))][∑X 2−((∑ X)2/(N ))]
r¿(106 )−(
(21 ) (22 )5
)
√[111−((21)2/(5))][112−((22)2/(5))]
13.618.616
=0.731=0.73
PROBLEMA DE PRÁCTICA:
Tenemos una relación lineal imperfecta y estamos interesados en calcular la magnitud y
dirección de la magnitud y dirección de la relación mediante la r Pearson.
# de estudiantes IQ
(promedio de
calificaciones)
Promedio
de datos Y
X2 Y2 XY
123456789
101112
TOTAL
110112118119122125127130132134136138
1503
1.01.61.22.12.61.82.62.03.22.63.03.6
27.3
12.10012.54413.92414.16114.88415.62516.12916.90017.42417.95618.49619.044
189.187
1.002.561.444.416.763.246.764.00
10.246.769.00
12.9669.13
110.0179.2141.6249.9317.2225.0330.2260.0422.4384.4408.0496.8
3488.0
r¿(∑ XY )−(
(∑x ) (∑Y )N
)
√[∑X 2−((∑ X)2/(N ))][∑X 2−((∑ X)2/(N ))]
93
r¿(3488.7 )−(
(1503 ) (27.3 )12
)
√[189.187−((1503)2/(12))] [69.13−((27.3)2/(12))]
x=69.37581.088
=0.856=0.86
Una segunda interpretación de la r de pearson es que también se puede interpretar en términos
de la variabilidad de Y explicada por medio de X. este punto de vista produce más información
importante acerca de r y la relación entre X y Y en este ejemplo la variable X representa una
competencia de ortografía y la variable Y la habilidad de la escritura de seis estudiantes de
tercer grado. Suponga que queremos que queremos predecir la calificación de la escritura de
Esteban, el estudiante cuya calificación en ortografía es de 88.
Para calcular la r de Pearson para cada conjunto. Observe que en el conjunto B, donde la
correlación es menor, a algunos de los valores
r= ∑ ZxZy /(N−1)=¿¿
ZxZy Son positivos y otros son negativos. Estos tienden a cancelarse entre si, lo cual hace que r
tenga una menor magnitud. Sin embargo, en los conjuntos A y C todos los productos tienen el
mismo signo, haciendo que la magnitud de r aumente. Cuando las parejas de datos ocupan las
mismas u opuestas posiciones dentro de sus propias distribuciones, los productos ZxZy tienen
el mismo signo, la cual produce una mayor magnitud de r
Calculando r utilizando para el conjunto B, utilizando la ecuación para los datos en bruto ¿Qué
quiere utilizar la ecuación de los datos en bruto o la los puntajes z?
Sume la constante 5 de los datos X en el conjunto A y calcule r de nuevo, mediante la ecuación
de datos en bruto ¿ha cambiado el valor?
Construya una grafica de dispersión para las parejas de datos.
Sería justo decir que este es un examen confiable
Un grupo de investigadores a diseñado un cuestionario sobre la tensión, consistente en quince
sucesos. Ellos están interesados en determinar si existe una coincidencia entre dos culturas
acerca de la cantidad relativa de ajustes que acarrea cada suceso. El cuestionario se aplica a 300
94
estadounidenses y 300 italianos. Cada individuo debe utilizar el evento “matrimonio” como
estándar y juzgar los demás eventos en relación con el ajuste necesario para el matrimonio
recibe un valor arbitrario de 50 puntos. Si se considera un evento requiere de más ajustes que el
matrimonio, el evento debe recibir más de 50 puntos. el número de puntos excedentes depende
de la cantidad de ajustes requeridos. Después de cada sujeto de cada cultura ha asignado de
puntos a todos los eventos, se promedian los puntos de cada evento. Los resultados aparecen en
la siguiente tabla.
EVENTOS ESTADOUNIDENSES ITALIANOS
Muerte de la esposa 100 80
Divorcio 73 95
Separación de la pareja 65 85
Temporada en prisión 63 52
Lesiones personales 53 72
Matrimonio 50 50
Despedido del trabajo 47 40
Jubilación 45 30
Embarazo 40 28
Dificultades sexuales 39 42
Reajustes económicos 39 36
Problemas con la familia
política
29 41
Problemas con el jefe 23 35
Vacaciones 13 16
Navidad 12 10
a. Suponga que los datos tienen al menos una escala de intervalo y calcule la correlación
entre los datos de los estadounidenses y la de los italianos
b. Suponga que los datos solo tienen una escala ordinal y calcule la correlación entre los
datos de ambas culturas
INDIVIDUO EXAMEN CON LÁPIZ
Y PAPEL
PSIQUIATRA A PSIQUIATRA B
1 48 12 9
95
2 37 11 12
3 30 4 5
4 45 7 8
5 31 10 11
6 24 8 7
7 28 3 4
8 18 1 1
9 35 9 6
10 15 2 2
11 42 6 10
12 22 5 3
Un Psicólogo ha construido un examen lápiz-papel, a fin de medir la depresión. Para comparar
los datos de los exámenes con los datos de los expertos, 12 individuos “con perturbaciones
emocionales” realizan el examen lápiz-papel. Los individuos son calificados de manera
independiente por los dos psiquiatras, de acuerdo con el grado de depresión determinado para
cada uno como resultado de las entrevistas detalladas. Los datos aparecen a continuación.
Los datos mayores corresponden a una mayor depresión.
a. ¿Cuál es la correlación de los datos de los dos psiquiatras?
b. ¿Cuál es la correlación sobre las calificaciones del examen de lápiz y papel de cada
psiquiatra?
Para este problema, suponga que Ud. Es un psicólogo que labora en el departamento de recursos
humanos de una gran corporación. El presidente de la compañía acaba de hablar con Ud. Acerca
de la importancia de contratar personal productivo en la sección de manufactura de la empresa
y le ha pedido que ayude a mejorar la capacidad de la institución para hacer esto. Existen 300
empleados en esta sección y cada obrero fabrica el mismo artículo. Hasta ahora la corporación
solo ha recurrido a entrevistas para elegir a estos empleados. Ud. Busca bibliografía y descubre
dos pruebas de desempeño lápiz y papel, bien estandarizadas y piensa que podrían estar
relacionadas con los requisitos de desempeño de esta sección. Para determinar si alguna de ellas
se puede usar como dispositivo de selección elige a 10 empleados representativos de la sección
de la manufactura, garantizando que una amplio rango de desempeño quede representado en la
muestra y realiza las dos pruebas con cada empleado por semana, promediando durante los
últimos seis meses.
Desempeño
en el trabajo
1 2 3 4 5 6 7 8 9 10
96
Examen 1
Examen 2
50
10
25
74
19
35
62
20
40
90
20
49
98
21
50
52
14
29
68
10
32
80
24
44
88
16
46
76
14
35
CORRELACIÓN
4.1.1. TÉCNICAS DE CORRELACIÓN
En los capítulos anteriores, ustedes estudiaron las distribuciones de una sola variable. A
continuación abordaremos el estudio de dos variables y no solamente de una. Particularmente
estudiaremos qué sentido tiene afirmar que dos variables están relacionadas linealmente entre
si y cómo podemos medir esta relación lineal.
4.1.2. RELACIONES LINEALES ENTRE VARIABLES
Supongamos que disponemos de dos pruebas siendo una de ellas una prueba de habilidad
mental y otra una prueba de ingreso a la Universidad. Seleccionemos cinco estudiantes y
presentemos en la tabla Nº 4.1.1 los puntajes obtenidos en estas dos pruebas.
Tabla Nº 4.1.1
Estudiantes X
Prueba de habilidad mental
Y
Examen de Admisión
María 18 82
Olga 15 68
Susana 12 60
Aldo 9 32
Juan 3 18
La tabla nos dice que si podemos hacer tal suposición ya que los estudiantes con puntajes altos
en la prueba de habilidad mental tienen también un puntaje alto en el examen de admisión y los
estudiantes con puntaje bajo en la prueba de habilidad mental. Tienen también bajo puntajes en
el examen de admisión. En circunstancia como la presente (cuando los puntajes altos de una
variable están relacionados con los puntajes altos de la otra variable y los puntajes)
afirmaríamos que hay una relación lineal positiva entre las variables, entonces podemos definir
97
una relación lineal positiva entre ese conjunto de pares valores X y Y, tal la muestra la tabla N º
4.1.1
Supongamos que en lugar de los resultados de la tabla Nº 4.1.1, hubiéramos obtenido los
puntajes que se muestran en la tabla Nº 4.1.2 ¿podríamos afirmar que en esta situación los
puntajes de la prueba de habilidad mental pueden usarse para pronosticar los puntajes del
examen de admisión? También, aunque en este caso mostramos una relación contraria a la que
ocurre en la realidad ya que los sujetos con puntajes altos en el test de habilidad mental
aparecen con puntajes bajos en el examen de admisión y los sujetos con puntajes bajos en el test
de habilidad mental presentan los puntajes altos en el examen de admisión, entonces podemos
definir una relación lineal negativa entre un conjunto de pares valores X y Y (tal como en la tabla
Nº 4.1.2) es decir, los puntajes altos de X están apareados con los puntajes bajos de Y y los
puntajes bajos de X están apareados con los puntajes de Y.
Tabla Nº 4.1.2
Estudiantes X Prueba de habilidad mental Y Examen de Admisión
María 18 18
Olga 15 32
Susana 12 60
Aldo 9 68
Juan 3 82
Tabla Nº 4.1.3
Estudiantes X Prueba de habilidad
mental
Y Examen de Admisión
María 18 18
Olga 15 82
Susana 12 68
Aldo 9 60
Juan 3 32
Examinemos ahora la tabla Nº 4.1.3. En este casi ya no podemos afirmar que los puntajes de la
prueba de habilidad mental sirvan para pronosticar los puntajes del examen de admisión, ya que
98
unos puntajes bajos del examen de admisión y algunos puntajes bajos del test de habilidad
mental están apareados con otros puntajes altos del examen de admisión, entonces en este caso,
decimos que no existe una relación lineal entre las variables X y Y.
4.1.3. DIAGRAMA DE DISPERSIÓN
En las situaciones que se presentan en la vida real no tenemos solamente cinco parejas de
valores para ambas variables, sino muchísimas parejas. Otra forma alternativa de ver si existe o
no relación lineal entre dos variables seria hacer una grafica de los valores X y Y en un sistema
de coordenadas rectangulares, este tipo de gráfica es conocido con el nombre de diagrama de
dispersión, gráfico de dispersión o nube de puntos. Dibujemos el diagrama que corresponde a la
Tabla N º 4.1.1. Lo haremos haciendo corresponder a cada valor de la variable independiente X,
un valor de la variable dependiente Y, es decir, para la alumna Susana haremos corresponder du
puntaje en la prueba de habilidad mental (12) con su puntaje de la prueba de admisión (60); al
alumno Juan le hacemos corresponder su puntaje del test de habilidad mental (3) con su puntaje
del examen de admisión (18). Luego ubicaremos los cinco pares de puntajes en el sistema de
ejes rectangulares y obtendremos los gráficos Nº 4.1.1 y Nº 4.1.2
Observemos en el gráfico Nª 4.1.1 que la tabla Nª 4.1.1. Es descrita por el diagrama de
dispersión. Vemos en este gráfico que los cinco puntos dan la sensación de ascender en línea
recta de izquierda a derecha. Esto es característico en datos en los que existe una relación lineal
positiva. Aunque estos cinco datos no configuren una línea recta en forma perfecta. Se puede
trazar una línea recta que describa que estos puntos en forma bastante aproximada conforme se
ve en el gráfico Nª 4.1.2 y por esto decimos que la relación es lineal.
Si ocurre que todos los puntos de la gráfica de dispersión están incluidos en una sola línea en
forma exacta afirmamos que la relación lineal es perfecta. El grado en que se separan los puntos
de una sola línea recta nos da el grado en que la relación lineal no es perfecta. Así cuando menos
puntos se encuentran en una sola línea decimos que la relación lineal no es perfecta. Así cuando
menos puntos se encuentran en una sola línea decimos que la relación lineal entre las dos
variables es menos fuerte y cuando más puntos queden incluidos en una línea recta afirmamos
que la relación lineal es más fuerte.
99
100
GRÁFICO Nº 4.1.1.
Usando los datos de una tabla Nº 4.1.2 y utilizando la misma forma de razonar empleada hasta
ahora podemos construir el correspondiente gráfico de dispersión, tal como se muestra en el
gráfico Nº 4.1.3.
Podemos observar en el gráfico Nº 4.1.4. que la nube de puntos de la gráfica pueden delinearse
bien por una línea recta, lo que nos indica que hay una relación lineal entre las dos variables X y
Y Vemos también que la línea desciende de izquierda a derecha (tienen pendiente negativa) por
lo que decimos que la relación lineal entre las dos variables es negativa.
101
Si tenemos en cuenta la tabla Nº 4.1.3 podemos obtener una figura como se muestra en la gráfica
Nº 4.1.5 Notamos, en esta situación, que resultará inútil cualquier línea recta que trate describir
adecuadamente este diagrama de dispersión.
102
Y
80
70
60
50
40
30
20
10
2 4 6 8 10 12 14 16 18 20 X
4.1.4 COEFICIENTE DE CORRELACIONE RECTILINEA DE PEARSON
Con ayuda de las gráficas nos podemos formar una idea si la nube de puntos, o diagrama de
dispersión, representa una reacción lineal y si esta relación lineal es positiva o negativa, pero
con la sola observación de la gráfica no podemos cuantificar la fuerza de la relación, lo que si
conseguiremos haciendo uso del coeficiente r de Pearson.
El coeficiente de correlación r de Pearson, toma valores comprendidos entre 1 y + pasando por
0. El número -1 corresponde a una correlación negativa perfecta (los puntos del diagrama de
dispersión deben encontrarse formando perfectamente una línea recta). El numero +1
corresponde a una correlación positiva perfecta. (los puntos del diagrama de dispersión deben
encontrarse formando perfectamente una línea recta). El coeficiente de correlación r=0 se
obtiene cuando no existe ninguna correlación entre las variables. Los valores negativos
mayores que -1 indican una correlación negativa y los valores positivos menores que 1 indican
una correlación positiva.
Referente a la magnitud de r podemos decir que independientemente del signo, cuando el valor
absoluto de r esté más cercana de 1, mayor es la fuerza de la correlación, es así que -0,20 y
+0.20 son iguales en fuerza (ambos son dos valores débiles) los valores -0.93 y +0.93 también
son iguales en fuerza (ambos son dos valores fuertes).
Cálculo del Coeficiente r de Pearson utilizando una máquina calculadora cuando los datos
no son muy numerosos.
Dadas dos variables X y Y con sus respectivos valores. En la Tabla podemos calcular el
coeficiente de Pearson con una máquina calculadora mediante la siguiente fórmula.
r=N ¿¿
Tabla Auxiliar 4.1.4.
(1)x
(2)Y
(3)X^2
(4)Y^2
(5)XY
18 82 324 6724 1476
15 68 225 4624 1020
12 60 144 3600 720
9 32 81 1024 288
3 18 9 324 54
∑X = 57 ∑Y = 260 ∑X2 =783 ∑Y2 =16296 ∑XY =3558
En las columnas (1) y (2) se han escrito los valores de X y Y. En la columna (3) se han elevado al
cuadrado los valores de X. En la columna (4) se han elevado al cuadrado los valores de Y. En la
103
columna (5) se ha efectuado el producto de cada pareja de valores X y Y. Aplicando los datos en
la fórmula 4.1.1., se tiene:
r=(5 ) (3558 )−(57 )(260)
√ [5 (783 )−(57)2 ] [5 (16296 )−(260)2 ]
r= 17790−14820√ (3915−3249 )(81480−67600)
r= 2970
√ (666 )(13880);r= 2970
√9244080
r= 29703040,4
;r=0,98
INTERPRETACIONES DE UN COEFICIENTE DE CORRELACIÓN
¿Qué tan elevado es un coeficiente de correlación dado? Tofo coeficiente de correlación que no
sea cero indica cierto grado de relación entre dos variables. Pero es necesario examinar más
esta materia, porque el grado de intensidad de relación se puede considerar desde varios puntos
de vista. No se puede decir que un r de 0,50 indique una relación dos veces más fuerte que la
indicada por un r de 0, 25. Ni se puede decir tampoco que un aumento en la correlación de r =
0,40 a r = 0,60 equivalga a un aumento de r = 0,70 a r = 0,90. Es de observar que una correlación
de 0,60 indica una relación tan estrecha como una correlación de + 0,60. La relación difiere
solamente en la dirección.
Siempre que éste establecido fuera de toda duda razonable una relación entre dos variables, el
que el coeficiente de correlación sea pequeño puede significar únicamente que la situación
medida está contaminada por algún factor o factores no controlados. Es fácil concebir una
situación experimental en la cual, si se han mantenido constantes todos los factores que o sean
pertinentes, el r podría haber sido 1 en lugar de 0,20. Por ejemplos: generalmente la correlación
entre la puntuación de aptitud y el aprovechamiento académico es 0,50 puesto que ambos se
miden en una población cuyo aprovechamiento académico también es influenciable por el
esfuerzo, las actitudes, las peculiaridades de calificación de los profesores, etc. Si se mantuvieran
constantes todos os demás factores determinantes del aprovechamiento y se midieran
exactamente la aptitud y las notas, el r seria 1 en vez de 0,50.
Una conclusión práctica respecto a la correlación es que ésta es siempre relativa a la situación
dentro de la cual se obtiene y su magnitud no representa ningún hecho natural absoluto. El
coeficiente de correlación es siempre algo puramente relativo a las circunstancias en que se ha
104
obtenido y se ha de interpretar a la luz de esas circunstancias y sólo muy rara vez en algún
sentido absoluto.
Además podemos agregar que la interpretación de un coeficiente de correlación como de
medida del grado de relación lineal entre dos variables es una interpretación matemática pura y
está completamente desprovista de implicaciones de causa y efecto. El hecho de que dos
variables tiendan a aumentar o disminuir al mismo tiempo no implica que obligadamente una
tenga algún efecto directo o indirecto sobre la otra.
A continuación calcularemos con la fórmula antes indicada el coeficiente de PEARSON de la
relación presentada en la tabla.
Cuadro Auxiliar 4.1.5.
(1)x
(2)Y
(3)X^2
(4)Y^2
(5)XY
18 18 324 324 324
15 32 225 1024 480
12 60 144 3600 720
9 68 81 4624 612
3 82 9 6724 246∑X = 57 ∑Y = 260 ∑X2 =783 ∑Y2 =16296 ∑XY =2382
r=(5 ) (2382 )−(57 )(260)
√ [5 (783 )−(57)2 ] [5 (16296 )−(260)2 ]
r= 11910−14820√ (3915−3249 )(81480−67600)
r= −2910√ (666 )(13880)
;r= −2910√9244080
r=−29103040,4
;r=−0,96 Vemos que la correlación es fuerte y negativa.
Ahora calculemos con la misma fórmula de Pearson Nº 4.1.1. El Coeficiente de Correlación lineal
con los datos de la tabla nº 4.1.3.
Cuadro Auxiliar Nº 4.1.6
105
(1)x
(2)Y
(3)X^2
(4)Y^2
(5)XY
18 18 324 324 324
15 82 225 6724 1230
12 68 144 4624 816
9 60 81 3600 540
3 32 9 1024 96
∑X=57 ∑Y=260 ∑X2=783∑Y2=1629
6∑XY=3006
r=(5 ) (3006 )−(57 )(260)
√ [5 (783 )−(57)2 ] [5 (16296 )−(260)2 ]
r= 15030−14820√ (3915−3249 )(81480−67600)
r= 210
√ (666 )(13880);r= 210
√9244080
r= 2103040,4
;r=0,07 La correlación es muy débil y positiva.
CORRELACIÓN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS EN CLASES
El presente tema nos conduce a calcular el coeficiente de correlación r, que nos proporciona
información de la fuerza de la relación que existe entre dos conjuntos.
Ejemplo: calcular el grado de correlación entre las puntuaciones obtenidas en inventario de
hábitos de estudio y los puntajes obtenidos de un examen matemático, aplicados a un total de
134 alumnos de un colegio de la localidad.
^-^X Hábitos de Y ^\estudio
Matemáticas^
20 - 30 30 - 40 40 - 50 50 - 60 Total fy
70 -* 80 3 2 2 7
60 -> 70 1 0 4 5 10
50 ~» 60 2 6 16 3 27
40 50 4 14 19 10 47
106
30 >-'■» 40 7 15 6 0 28
20 M 30 8 2 0 1 t 1
10 20 1 1 2 4
Total f. 23 40 48 23 134
Podemos notar que el problema no es tan simple, como el casa anterior, dado, que ahora los
datos se han clasificado en una tabla de doble entrada N" 4.1.7. Este): cuadro muestra, en la
primera columna del lado izquierdo los intervalos de clase 0» la variable Y, los que cubren
todos los posibles datos acerca de las puntuaciones! alcanzadas por los estudiantes en la
prueba de Matemática. Nótese que los i n t e r v a l o s los crecen de abajo hacia arriba. En la fila
superior se presentan les intervalos <%
Dentro del cuadro en los casilleros interiores o celdas de la tabla, se encuentran las frecuencias
de celda que correspondan a puntajes que pertenecen tanto a un intervalo de la variable Y
como un intervalo de la variable X.
La fórmula que utilizaremos es la siguiente
Para obtener los datos que deben aplicarse en la formula vamos a construir el cuadro auxiliar al
mismo tiempo que se explica el significado de los símbolos de esa formula
Lo primero que hacemos es reemplazar los intervalos horizontales y verticales por sus
respectivas marcas de clase a continuación adicionalmente al cuadro N4.1.7 cinco columnas
por el lado derecho, cuyos encabezamientos son : f para la primera.
1) Para determinar las frecuencias marginales que se deben colocar en la columna f
sumamos las frecuencias de las celdas que están en la misma fila de la marca de clase
75, obtenemos 3+2+2=7, numero que se escribe en el primer casillero o celda de la
columna f. en la fila de la marca de clase 65 sumamos 1+4+5=10 numero que se escribe
debajo del 7.
2) Ahora vamos a determinar las frecuencias marginales de la variable x: en la columna
encabezada con la marca de clase 25 sumemos verticalmente las frecuencias
1+2+4+7+8+1=23
3) Centremos nuestra atención en la columna encabezada u, este signo significa
desviación estándar y procedemos a la misma forma en las tablas. Recuerden que las
desviaciones unitarias positivas: +1+2 y negativas : -1-2 y -3 corresponden a los
intervalos menores.
4) Luego vamos a determinar las desviaciones unitarias horizontales de la variable X. el
origen de trabajo es la marca de clase 45 que se halla en la fila superior del cuadro , por
esa razón , escribimos cero debajo de la frecuencia marginal 48.
107
5) A continuación vamos a determinar los valores que deben colocarse en la columna
encabezada. Para obtener los valores de la cuarta columna encabezada debemos tomar
en cuenta que por lo tanto basta multiplicar cada valor de la segunda columna por su
correspondiente valor de la tercera columna así se obtiene el respectivo valor de la
cuarta columna. En efecto:
(3)(21)=63 (20)(20)=40(+1)(27)=27; 00*00=0; (-1)(-28)=28; (-2)(-22)=44 y (-3)(-
12)=36
La suma 63+40+27+28+44+36=238
Ahora nos fijamos horizontalmente en la tercera fila. Tenemos que (f)(u)=fu por
consiguiente basta multiplicar verticalmente un valor de la primera fila por su
correspondiente valor de la primera fila por su correspondiente valor de la segunda fila
para obtener el respectivo valor de la tercera fila.
(23)(-2)=-46; (40)(-1)=-40; (48)(0)=0 y (23)(+1)=23
Sumando horizontalmente:
(-46)+ (-40)+ (23)=-86+23=-63
Vamos por la cuarta fila vemos que u (fu)= Fu2 luego basta multiplicar cada elemento de la
segunda fila por su correspondiente elemento de la tercera fila por su correspondiente
elemento de la tercera fila para obtener el respectivo elemento de la cuarta fila así:
(-2)(-46)=9; (-1)(-40)=40; 0*0=0y (+1)(23)=23
Para obtener valores de la quinta columna observamos que hay tres factores el 1 es la
frecuencia f de la celda o casillero que se está considerando el segundo factor es la
desviación unitaria u, el tercer factor es la desviación unitaria, por lo tanto el
procedimiento será el siguiente: tomemos el número 3 que es la frecuencia de la celda
determinada por el cruce de los intervalos que tienen la marcha de la clase 75
horizontalmente y 35 verticalmente.
Para ubicar el tercer factor corremos la vista del numero 3 hacia su derecha hasta llegar a
la columna de las desviaciones unitarias u y ubicamos el numero +3 formemos el producto
de estos tres números: (3)(--1)(+3)=-9 encerrado de un semicírculo lo escribimos en la
celda elegida
En la misma fila tomamos la celda siguiente: (2) (0)(+)
Continuando hacia la derecha (2) (+1)(+3)=6
X hábitos estudio Y matemática 25 35 45 55 Fy Uy FyUy FyU^2y
suma de los # en semicírculos
108
75 2 3 2 2 7 3 21 63 -3
65 1 0 4 5 10 2 20 40 6
55 2 6 16 3 27 1 27 27 -7
45 4 14 19 10 47 0 0 0 0
35 7 15 6 0 28 -1 -28 23 29
25 8 2 0 1 11 -2 -22 44 34
15 1 0 1 2 4 -3 -12 36 0
∑FxUx = 6
∑FxUx^2= 238
∑FxyUxUy= 59
Fx 23 40 48 23 134
Ux -2 -1 0 1
FxUx -46 -40 0 23 ∑FxUx=-63
FxUx^2 92 40 0 23∑FxUx^2=155
La fórmula del paso (9) lleva el signo ∑para indicar que se deben sumar horizontalmente los
números que están encerrados en los semicírculos de esa primera fila elegida así: -9+0+6. Este
número se escribe en la quita columna.
Trabajemos con la segunda fila: (1) (-2)(+2)= -4 se encierra en un semicírculo.
(0)(-1)(+2)= 0
(4)(0)(+2)= 0
(5)(+1)(+2)= 10
Sumando 0 + 0 + 10 = 10
Ahora con la tercera fila:
(2)(-2)(+1)= -4
(6)(-1)(+1)= -6
(16)(0)(+1)= 0
(0)(+1)(+1)= 3
Sumando: (-4) + (-6) + 0 + 3 = -7
Cuarta fila
(-4) + (-2) + 0 = 0 todos los productos vales cero, luego la suma = 0
Quinta fila
109
(7)(-2)(-1)= 14
(15)(-1)(-1)= 15
(6)(0)(-1)= 0
(0)(+1)(-1)= 0
La suma es: 14+15= 29
(8)(-2)(-2)= 32
(2)(-1)(-2)= 4
(0)(0)(-2)= 0
(1)(+1)(-2)= -2
La suma es: 32 + 4 -2 = 34
Séptima fila:
(1)(-2)(-3)= 6
(1)(0)(-3)= 0
(2)(1)(-3)= -6
Sumando: 6 + 0 – 6 = 0
Sumando los valores de la columna quinta.
Reuniendo los resultados anteriores, se tienen los datos para aplicar en la formula
n= 134
∑f xyU xU y= 59
∑f xU x = -63
∑f yU y= 6
∑f xU x2 = 155
∑f yU y2 = 238
110
r= (134 ) (59 )−(−63 )(6)
√ {(134 ) (155 )− (−63 )2 }{(134 ) (238 )−(62)
r= 7906+378
√(20770−3969 )(39892−36)
r= 0,358
Ejercicio Resuelto N° 2 de Cálculo de Coeficiente de Correlación Entre Conjuntos de Datos Agrupados
Calcular el coeficiente de correlación lineal de las puntuaciones en matemáticas y físicas de 100
estudiantes de la Facultad de Ciencias de la Universidad MN
X Puntuación matemáticas
Y Puntuación fisica 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 90 - 100
TOTAL
90 - 100 0 0 0 2 5 5 12
80 - 90 0 0 1 3 6 5 15
70 - 80 0 1 2 11 9 2 25
60 - 70 2 3 10 3 1 0 19
50 - 60 4 7 6 1 0 0 18
40 - 50 4 4 4 0 0 0 11
TOTAL 10 15 22 20 21 12 100
111
PUNTUACIÓN EN MATEMÁTICA
SUMA DE LOS NÚMEROS
ENCERRADOS EN SEMICÍRCULOS EN
CADA FILA
45 55 65 75 85 95 Fy Uy Fy Uy Fy U2y
PU
NT
UA
CIO
N E
NFI
SISC
A Y
95 2 5 5 12 2 24 48 54
85 1 3 6 5 15 1 15 15 30
75 1 2 11 9 2 25 0 0 0 0
65 2 3 10 3 1 19 -1 -19 19 2
55 4 7 6 1 18 -2 -36 72 28
45 4 4 3 11 -3 -33 99 36
fx 10 15 22 20 21 12 100 -3 -49 253 150
Ux -2 -1 0 1 2 3 3 fΣ y Uy fΣ y U2y Σ fxy Ux Uy
FxUx -20 -15 0 20 42 36 63 fΣ x Ux
Fx U2x 40 15 0 20 84 108 267 fΣ x U2
x
112
En este problema tenemos que calcular el confidente de correlación lineal r para dos conjuntos de datos
constituidos por los calificativos en una escala de 0 a 100, en matemáticas y en física para 100
estudiantes de la facultad de Ciencias de cierta universidad
Los datos se muestran en el cuadro N° 4.1.9 Notemos que a lo largo de la línea horizontal superior se
encuentran los intervalos que contienen los calificativos de matemáticas desde 40 hasta 100.
Igualmente en la primera columna vertical izquierda, se encuentran los calificativos para física de los
mismos estudiantes, desde el calificativo 40 hasta 100. Notese que en la columna de los calificativos de
física los datos crecen de abajo hacia arriba y para la fila horizontal superior vemos que los calificativos
en matemáticas crecen izquierda a derecha.
A continuación procederemos a calcular el confidente de correlación r para estos datos aplicando el
mismo método que utilizaremos en el problema anterior.
1) Traslademos los datos del cuadro N° 4.1.9. Llamaremos xy a cualquiera de las frecuencias de
los casilleros interiores del cuadro N° 4.1.9. En el cuadro N° 4.1.10. podemos observar que se
han agregado cinco columnas por el lado derecho y cuatro filas por la parte interior
Observemos en el cuadro N° 4.1.10 que los intervalos para la puntuación en matemáticas y para la
puntación en física se han remplazado por las marcas de clase correspondientes. Así en la fila
horizontal superior se han remplazado el primer intervalo 40 50 por su marca de clase45, el segundo
intervalo 50 60 por su marca de clase 55 y de esta manera se han remplazado los demás intervalos
por sus marcas de clases en el cuadro N° 4.1.10.
De igual forma para la columna primera de la izquierda vemos que los intervalos se han remplazado
por sus respectivas marcas de clase así para la puntuación en física el primer intervalo superior 90
100 se han remplazado por su marca de clase 95, el segundo intervalo superior 80 90 se ha
remplazado por su marca de clase 85 y así sucesivamente hasta llegar al intervalo inferior 40 50 que
se ha remplazado por su marca de clase 45.
Ahora vamos a realizar los pasos siguientes
1) Para las frecuencia marginales fy sumemos todos los valores fxy de la primera fila que tiene la
marca de clase 95. De esta forma tenemos: 2+5+5= 12 Para la segunda fila que corresponde a la
marca de clase 85 obtenemos: 1+3+6+5= 15 que escribimos en el segundo casillero de fy.
2) Dediquemos nuestra atención a las frecuencias marginales fx. el primer resultado de fx lo
obtenemos sumando las frecuencias fxy para la colunia que tiene la marca de clase 45, de esta
forma tenemos: 2+4= 10 que se escribe en el primer casillero de fx para el segundo casillero
113
tenemos el número 15 que se obtiene verticalmente de las frecuencias fxy de la columna que
tiene de marca de clase 55. Continuando con las sumas de las f de las demás columnas llenamos
las frecuencias marginales fx.
3) Atendamos la columna Uy la columna Uy tiene en total 6 casilleros arbitrariamente escogemos
uno de estos casilleros como origen de trabajo y le asignamos el numero 0. Aquí hemos
escogido el tercer casillero contando de arriba hacia abajo. Observamos ahora la primera
columna de la izquierda en donde están las marcas de clase de los puntajes de física. Aquí
observamos que las marcas de clase crecen de abajo hacia arriba entonces las desviaciones
unitarias en la columna Uy crecerán de abajo hacia arriba entonces del 0 hacia abajo, las
desviaciones unitarias son números negativos que van decreciendo hacia abajo.
Desde el 0 hacia arriba las desviaciones serán positivas y crecientes.
De manera que podemos observar que la columna Uy está conformada por los siguientes
números que crecen del 0 hacia arriba: 1,2 y desde el 0 hacia abajo decrece: -1,-2,-3.
4) Veamos la fila Ux
Notamos que el fila horizontal superior las marcas de clase crecen de izquierda a derecha de
igual forma las desviaciones unitarias crecerán de izquierda a derecha. Elegiremos como
origen de trabajo arbitrariamente uno del casillero Ux el tercero contando de izquierda a
derecha, y vamos asignando números positivos crecientes hacia la derecha del 0, así tenemos 1,
2,3 ya hacia la izquierda, a partir del cero, tendremos:-1y-2.
5) Expliquemos la columna fy Uy. Multipliquemos cada valor de fy por su correspondiente valor de
Uy y se obtiene un valor Fy Uy. Por ejemplo el numero 24 se obtiene multiplicando la frecuencia
marginal fy = 12 por su correspondiente desviación unitaria Uy = 2esto es, 12*2= 24. Para el
segundo casillero multiplicamos 15*1=15; para el tercero 25*0=, así hasta terminar con 11*(-
3)= -33.
6) Observemos la columna Fy U2y. L primera celda de esta columna tiene el número 48 que se
obtiene de multiplicando el valor Uy =2 de la segunda columna por su correspondiente valor Fy
Uy = 24 de la tercera columna, es decir, 2*24= 48. Para el segundo casillero de la columna f y U2y
, tenemos 15 que es igual a 1 por 15. De esta forma continuamos llenando los demás valores de
la columna Fy U2y.
7) Veamos ahora la fila fx ux. El número -20 del primer casillero de esta fila se obtiene
multiplicando la frecuencia marginal fx = 10 por su correspondiente desviación unitaria Ux = -2
es decir: 10 (-2)= -20.
Para el segundo casillero de FX UX, multiplicamos (-1)*(-15)= 15 y así sucesivamente 12*3= 36.
114
8) Veamos Fx U2x. El primer casillero de esta fila es 40 y es el resultado de multiplicar -2 del primer
casillero de la fila Fx Ux por menos 20 de su correspondiente primer casillero de la fila Ux esto
es, (-2)* (-20)= 40. Para el segundo casillero de fx U2x multiplicamos -1 del segundo casillero de
Ux por -15 de su correspondiente segundo casillero de FX UX, luego obtenemos (-1) *(-
15)=15 .Así continuamos multiplicando los valores de los casilleros Ux por sus
correspondientes valores de la fila Fx Ux hasta llegar a (3) (36)= 108.
9) Interesa ahora obtener los números encerrados en semicírculo, por ejemplo ahora, el numero
4, que corresponde a la marca de clase 75 para la puntuación en matemáticas y a la marca de
clase 95 de la puntuación en física.
10) Para saber cómo se obtiene este numero 4, corramos nuestra vista hacia la derecha
dirigiéndonos hacia la columna UY y obtenemos el numero 2. Del numero 4, encerrado en
semicírculo, bajemos la vista con dirección a la fila Ux y obtenemos 1. La frecuencia del casillero
donde esta el 4, encerrado en semicírculo, es fxy = 2. Multiplicando estos 3 factores tendremos
fxy Ux Uy = (2) (1) (2) = 4.
Podemos anunciar la siguiente regla:
Para obtener los valores encerrados en semicírculos en los casilleros interiores del cuadro N°4.1.10
multiplicamos el valor de la frecuencia fxy del casillero para el cual estamos haciendo el cálculo, por los
valores de las desviaciones unitarias Uy y Ux , obtenidas corriendo la vista hacia la derecha hasta
columna Uy y también hacia abajo hasta legar a la fila Ux.
Así por ejemplo, para el casillero que corresponde a las marcas de clase 75 en matemática y 85 en física,
tenemos la frecuencia de la celda Fxy = 3, los otros dos factores son: Uy =1 y Ux = 1.
Luego (3) x (1) x (1) = 3 que es el valor encerrado en semicírculo.
Para el casillero correspondiente a la marca de clase 55 en matemáticas marca de clase 45 en física,
tenemos:
fxy = 4, Uy = -3, Ux = -1
fxy Ux Uy = (4) (-3) (-1) = 12 que es el valor encerrado en semicírculo. Así podemos proceder para
obtener todos los demás valores encerrados en semicírculos.
115
Sumando las frecuencias marginales de la columna fy, se tiene ∑ fy =100. Sumando los valores de la
tercera columna se obtiene ∑fy Uy = - 49. Sumando los valores de la cuarta columna, tenemos ∑fy U^2y =
253. La suma de los valores de la quinta columna:
∑fxy Ux Uy = 150
Para todas las filas, en el último casillero de la derecha se tiene la suma de los valores de la fila. Así, por
ejemplo, ∑fx = 100; ∑fy = 100.
Para la tercera fila: ∑fx Ux = 63
Para la cuarta fila: ∑fx U^2x = 267
Estos totales de filas y columnas reemplazaremos en la fórmula.
r=(100 ) (150 )−(63 )(−49)
√ [100 (267 )−(63)2 ] [100 (253 )−(−49)2 ]
r= 15000−3087√ (26700−3969 )(25300−2401)
r= 18087
√ (22731 )(22899);r=18087
22815
r=0,79 Vemos que el coeficiente de correlación en este caso es 0.79.
Ejercicio Propuesto Nº 1 del Cálculo del Coeficiente de Correlación entre dos Conjuntos
Agrupados de Datos.
Supongamos que tenemos 30 sujetos a los que hemos aplicado una prueba de conocimientos de
Psicología General (variable x) y un test de inteligencia (variable y).
Aplicando los datos tomados del Cuadro Auxiliar en la fórmula tenemos:
Resultado:
116
r=(30 ) (70 )− (35 )(26)
√ [30(93)−(35)2 ] [30 (78 )−(26)2 ]
r= 2100−910√ (2790−1225 )(2340−676)
r= 1190
√ (1565 )(1664 );r= 1190
1613,7
r=0,74
Ejemplo propuesto N°2 del cálculo del coeficiente de correlación entre dos conjunto de datos
agrupados. Supongamos que se tienen 50 vendedores de cierta compañía. Estos vendedores durante un
año 1985 han realizado ventas tal como lo muestra el cuadro N°4.1.13, el que también muestra el
número de años de experiencia que tiene como vendedores.
Para dicho cuando, se pide calcular el coeficiente de correlación lineal r.
0 2 2 4 4 6 6 8 8 10 TOTAL
15 18 1 1
12 15 2 3 4 9
9 12 7 3 2 12
6 9 6 9 4 19
3 6 5 2 7
1 3 2 2
TOTAL 2 11 18 12 7 50
117
Años de experiencia
X
Monto de ventas
Tomando los datos obtenidos n el cuadro Auxiliar N°4.1.14 apliquemos en la formula N° 4.1.12, se tiene.
r=50 (46 )−(11 )(22)
√ ¿¿
r= 2300−242√(2950−121)(3600−484)
= 2058
√(2829 ) (3116 )
118
r=20582969
=0.6
119
Progresiones lineales simples
4.2.1. Regresión lineal simple
Al comenzar a estudiar las técnicas de correlación afirmamos que estudiaríamos dos variables y
no solamente una. Llamamos a esa ocasión X a una de las variables Y a la otra. En el tema que
nos ocuparemos ahora, estudiaremos la forma de predecir v valores de Y conociendo primero
los valores de X. Es así que viendo la tabla N 4.2.1, similar a la que utilizamos cuando
estudiamos correlación, conociendo el puntaje en la prueba de habilidad mental (variable X)
para un alumno determinado, podemos anticipar el puntaje del examen de admisión (variable
Y) del mismo alumno.
Consideraremos la relación lineal expresada por el cuadro N4.2.1 si dibujamos esa
relación, obtenemos el grafico N4.2.1. Como podemos observar todos los puntos se alinean
exactamente. En una sola línea recta, la que recibe el nombre de línea de regresión. Teniendo en
cuenta esta línea, podemos predecir cualquiera d los valores de Y conociendo el valor de X; para
X=25, según la recta, correspondiente de Y=35, para X=20 corresponde Y=30. Etc. En este caso
se trata de una correlación positiva perfecta cuyo coeficiente de correlación es +1.
Prueba de habilidad mental X Examen de Admisión
Y
SUSANA 5 15
IVAN 10 20
LOURDES 15 25
ALDO 20 30
JUAN 25 35
MARIA 30 40
CESAR 35 45
OLGA 40 50
Recordemos ahora el grafico N 4.1.2 que dibujamos cuando estudiamos correlación, en este
grafico observamos el diagrama de dispersión aproximado por una línea recta, la recta que
mejor se ajuste a los puntos del diagrama de dispersión, es decir, en la mejor medida procure
120
dejar igual número de puntos del diagrama de dispersión por encima de ella que igual número
de puntos debajo, se llama línea de regresión.
ECUACION DE LA REGRESION RECTILINEA
La ecuación que describe la línea de regresión es:
YR=Y +r (S y
S x)x−r (S y
S x)x
Y=mediade la variableY en lamuestra.
GRÁFICO
X = media de la variable X en la muestra.
X = un valor de la variable X
r = coeficiente de Pearson, de la correlación lineal entre las variables X y Y.
SY = desviación estándar de Y en la muestra.
SX = desviación estándar de X en la muestra.
Yr = Valor Y resultado del cálculo de la fórmula.
121
r = 1,00
Veamos cómo podemos predecir los valore de Y a partir de los valores de X. como el gráfico de
este cuadro es una línea recta ascendente sabemos que su coeficiente de correlación de Pearson
r = +1. Además tenemos los siguientes resultados:
X = 22,5 SX = 11,46 Y= 32,5 SY = 11,46
Estos resultados se pueden calcular a partir de los datos del cuadro. Apliquemos estos datos a la
fórmula, obtenemos la siguiente expresión:
YR=32,5+(1)( 11,4611,46 )X−(1 )( 11,4611,46 )22,5(a)
Simplificando términos obtenemos:
Y R=32,5+X−22,5 (b )
Y R=10+X
Escojamos cualquier valor de X, por ejemplo para María x = 30, reemplazando este valor en (b).
Y R=10+30=40 (c )
Vemos en le cuadro el valor que corresponde a María efectivamente es 40, es decir podemos
usar la ecuación para predecir los valores de Y conociendo los valores de X.
Esta fórmula de regresión se puede aplicar par dos variables X y Y, entre las cuales no es
obligatorio que exista una correlación lineal perfecta, es decir, no es obligatorio que el r para la
correlación entre X y Y sea siempre igual a 1. Este valor de r para otras aplicaciones de la
regresión, puede tomar cualquier valor distinto de 1.
Ejercicios Resueltos de Regresión Lineal Simple
Al aplicar un test de inteligencia a una muestra representativa constituida por 800 alumnos, se
obtuvo la puntuación media de 30,4 puntos, con la desviación estándar de 12,6 puntos.
La edad media de la muestra fue de 14,5 años, con la desviación estándar de 3,2 años.
El coeficiente de correlación lineal de Pearson entre la variable Y, edad de los sujetos estudiados
y la variable X, rendimiento mental de los mismos sujetos, fue r = 0,89.
Con estos datos se pide determinar la ecuación de regresión rectilínea de edad en base del
puntaje del rendimiento mental.
¿Qué edad corresponde a los sujetos que alcanzan puntuaciones de:
122
X1 = 18 Puntos X4 = 50 Puntos
X2 = 25 Puntos X5 = 60 Puntos
X3 = 45 Puntos X6 = 80 Puntos
Datos:
Y = 14,5 SY = 3,2 r = 0, 89
X = 30,4 SX = 12,6
Aplicando estos datos en la fórmula se tiene:
YR=14,5+(0,89)( 3,212,6 )X−(0,89 )( 3,212,6 )30,4
Y R=14,5+0,226 X−6,87
Y R=7,63+0,226 XEs la ecuación de regresión buscada.
Respuesta de la 1ra. Pregunta
X1 = 18
YR = 7,63 + 0,226 (18) = 7,63 + 4,07
YR = 11,7 años
Segunda pregunta
X2 = 25
YR = 7,63 + 0,226 (25) = 7,63 + 5,65
YR = 13,28 años
Tercera pregunta
X3 = 45
YR = 7,63 + 0,226 (45) = 7,63 + 10,17
YR = 17,8 años
Cuarta pregunta
X4 = 50
123
YR = 7,63 + 0,226 (50) = 7,63 + 11,3
YR = 18,93 años
Quinta pregunta
X5 = 60
YR = 7,63 + 0,226 (60) = 7,63 + 13,56
YR = 21,19 años
Sexta pregunta
X6 = 80
YR = 7,63 + 0,226 (80) = 7,63 + 18,08
YR = 25,71 años
Este cuadro contiene la primera columna los nombres de los alumnos, en la segunda están los
rangos de esos alumnos en la variable, en la tercera se hallan los rangos de los alumnos en la
variable Y. En la cuarta columna están las diferencias de los rangos correspondientes de las
variables X y Y. en la quinta columna se colocan las cuadros de las diferencias, ya calculadas.
CUADRO AUXILIAR Nº 4.3.4
ALUMNOS RENGO DE
X
RANGO DE
Y
D= DIFERENCIA D2
Rodríguez 3 3 0 0
Fernández 4 5 -1 1
Córdova 2 1 1 1
Flores 1 2 -1 1
Lema 5 4 1 1
APLICANDO LOS DATOS EN LA FORMULA Nº 4.3.1, SE TIENE
[p= −6 (4 )5(52−1)
=1−0.02]P= 0.08
124
Es una correlación positiva. Su valor es muy alto y poco común puesto que la práctica enseña
que en la correlación de la inteligencia con el rendimiento escolar en las asignaturas, casi
siempre se alcanza un valor próximo a 0.5.
EJEMPLO 2
Supongamos el siguiente cuadro nº 4.3.5. Queremos calcular el coeficiente de correlación por
rangos.
CUADRO Nº 4.3.5
EXAMINADOS PRUEBA DE HABILIDAD
MENTAL
X
APTITUD ACADÉMICA
Y
Susana 49 55
Iván 46 50
Lourdes 45 53
Aldo 42 35
Juan 39 48
maría 37 46
cesar 20 29
Olga 15 32
Observamos que los examinados están ordenados con respecto a la prueba de habilidad mental
de mayor a menor; podemos afirmar que la posición o rango que se podría asignar a Susana es
el primero, a Iván le correspondería el segundo, para Lourdes el tercero tal como se muestra en
el cuadro Nº4.3.6.
De igual forma podríamos ordenar la posición o rango de los postulantes según los resultados de
la prueba de aptitud académica Y del examen de admisión, lo que se muestra en el cuadro
Nº4.3.6 es así como Susana también ocupa el número de orden o rango primero y Lourdes ocupa
el segundo lugar o rango dos en esa prueba, así podemos continuar ordenando los alumnos
según su rango en la pruebe de aptitud académica y terminaremos con cesar que ocupa el rango
8 en tal prueba.
CORRELACIÓN POR RANGOS
Es el orden que posee o se asignan a cada miembro de un conjunto de de elementos de acuerdo
a una escala ordinal dada. El rango ubica el elemento en un punto de esa escala.
125
Por ejemplo: podemos establecer un ordenamiento de los alumnos de acuerdo a los puntajes
alcanzados en un examen. Así tenemos en el cuadro Nº 4.3.1 que sigue:
CUADRO Nº 4.3.1
ALUMNOS García León Pérez Ruíz Lazo Lora
PUNTAJES 40 65 52 70 76 56
Ordenándolos de acuerdo a la magnitud del puntaje, establecemos los rangos siguientes en el
cuadro Nº 4.3.1.
CUADRO Nº 4.3.2
ALUMNOS García León Pérez Ruíz Lazo Lora
RANGOS 6 3 5 2 1 4
4.3.2 COEFICIENTE DE CORRELACIÓN POR RANGOS
La correlación por rangos se refiere a la correspondencia en el ordenamiento de los elementos
de dos conjuntos dados. La fuerza de la correlación se mide por medio del coeficiente por rangos
de spearman, cuya fórmula es:
[ p=1− 6∑ D 2
n(n2−1) ]
En donde.
P= letra griega rho, designa el coeficiente de correlación por rangos.
D= diferencias de rangos correspondientes entre si pertenecientes a dos variables X y Y. Por
ejemplo d= X1−Y 1
n= numero de pares correspondientes.
EJEMPLOS Nº 1
126
En la primera columna de la izquierda del cuadro Nº 4.3.3 se presenta un grupo de 5
estudiantes; en la segunda columna están sus niveles mentales que se consideran como
categorías de la variable X, en la tercera columna se indican los resultados de una prueba de
matemáticas aplicadas al grupo, cuyas puntuaciones son valores de la variable Y.
CUADRO Nº 4.3.3
ALUMNOS NIVEL MENTAL
X
MATEMÁTICAS
Y
Rodríguez medio 35
Fernández interior al promedio 17
Córdova superior al promedio 48
flores muy superior al promedio 42
lema muy inferior al promedio 20
Calcular el coeficiente de correlación por rangos.
ESTUDIANTES CLASIFICACION DE
LOS RANGOS
CLASIFICACION DE LOS
RANGOS
D= DIF D2
RANGO X RANGO Y
SUSANA 1 1 0 0
ESTEBAN 2 3 -1 1
LOURDES 3 2 1 1
ALDO 4 6 -2 4
JUAN 5 4 1 1
MARIA 6 5 1 1
CESAR 7 8 -1 1
OLGA 8 7 1 1
127
∑D2 = 10
En la descripción de este cuadro la columna X corresponde a los rangos en las pruebas de
habilidad mental, la columna Y corresponde a los rangos de las pruebas de los estudiantes de
actitud académica. La columna D corresponde a la diferencia del rango de un elemento de la
columna X menos el rango de su correspondiente elemento en la columna Y. en la columna D2 se
halla el cuadrado de la diferencia anotada en la columna D.
Ahora para medir la correlación entre los resultados de la prueba de habilidad mental y del
examen de admisión, tomamos los datos del cuadro anterior en el que los datos están
transformados en rangos.
Conforme ya mencionamos en el ejemplo 1 la fuerza de la correlación en este tipo de problemas,
se determina por el coeficiente p (rho) de correlación de rangos de spearman. Aplicamos la
formula N° 4, 3,1 en donde
N= 8 pares
∑D2 = 10, este número es el resultado de la suma de los números D elevados al cuadrado que
figuran la columna D2.
Vemos que existe una correlación positiva fuerte entre las puntuaciones de la prueba de la
habilidad mental y los puntajes de la actitud académica del examen de admisión.
Caso de rangos empatados o repetidos
Examinemos el caso N° 4.3.7 y supongamos que en el examen de admisión de Susana y Esteban
obtuvieron el mismo puntaje 55 y por lo tanto a cualquiera de los dos le corresponde los rangos
primero o segundo para romper esta indeterminación, convenimos en asignar a cada uno de
ellos el promedio de ambos
Rangos, o sea 1+22
= 1.5 entonces tanto Susana como esteban tendrán el rango
Tratemos ahora los rangos del VI Ciclo vemos que los profesores L Y P están empleados o
igualados en puntaje por lo que a cualquiera de los dos le corresponde el rango 5 o el rango 6.el
rango que le asignemos serán el resultado de promedio 5 y 6 que son los dos rangos empatados,
luego (5+6) / 2 =5.5 será el número que le asignamos como rango.
Los profesores Fy Z tienen en el VI ciclo los rangos 3 y 4 a cualquiera de estos dos les
corresponde el tercer o cuarto lugar. El número que les asignaremos será (3+4) /2 = 3.5.
128
Luego elaboramos una columna para los nuevos rangos Y en donde a los profesores L y P les
asignaremos el rango 5.5 y a los profesores F Y Z les asignaremos el rango 3 Y 5. los profesores J
Y K seguirán con los rangos 1 y 2 respectivamente.
En La Columna D se colocan las diferencias X – Y
Nos ocuparemos ahora de la columna D2. En esta columna se encuentran valores de la columna
D elevados al cuadrado, luego sumamos los valores de la columna D2 y obtenemos ∑D
2 = 17.
Ahora aplicaremos la formula número 4.3.1.
Aquí ∑D
2 = 17.
N= 6
P= 1- = 0.5
Luego la correlación entre los puntajes asignados a los 6 pro0fesores por el V ciclo y los puntajes
asignados por el VI ciclo es positiva, pero su magnitud no es ni muy fuerte ni muy débil.
2º EJERCICIO
Cinco niños se someten a una pruebe de habilidad mental y los resultados de estas se ordenan
por rangos en la columna X. también se muestran en la columna Y los rangos de estos mismos 5
niños respecto al tiempo que gastan al mirar la tv.? (Ver cuadro Nº 4.3.1)
¿Existe correlación entre el rendimiento mental de los niños y el tiempo que gastan mirando tv.?
Calculando los nuevos rangos para la columna Y teniendo en cuenta rangos igualados
obtenemos:
ALUMNOS x YA 1 4 o 5B 2 4 o 5C 3 2 o 3D 4 1E 5 2 o 3
¿Existe correlación entre el rendimiento mental de los niños y el tiempo que gastan mirando tv?
129
6 (17)6 (36 -1)
Calculando los nuevos rangos para la columna Y. teniendo en cuenta los rangos iguales obtenemos:
X Y DX - Y
D2
A 1 4.5 -3.5 12.25B 2 4.5 -2.5 6.25C 3 2.5 0.5 0.25D 4 1 3 9E 5 2.5 2.5 6.25
ΣD2 = 34.00
Para Obtener Los Rangos Correspondientes A Los Niños A Y B Hemos Sumado Los Lugares Que
Podrían Ocupar Cualquiera De Los Dos Y Que Son 5 Y 4 Y Luego Esta Suma La Dividimos Entre El
Numero De Rango Igualados Que Son Dos, Esto Es: (4+5)/ 2= 4.5 Luego Rango Que Les
Corresponda A A Y B Es 4.5
DE IGUAL FORMA PROCEDEMOS PARA LOS RANGO C Y E obteniendo para ellos como nuevo
rango 2.5.
Ahora añadiremos una nueva columna D, en esta columna escribiremos diferencia entre uno de
los rangos de x menos el correspondiente rango de Y.
Elevamos al cuadrado cada valor de y y escribimos cada resultado en la columna del cuadrado.
Luego sumamos los valores de la columna de D2 y obtenemos ΣD2 =34.00
P=1−6 (34 )
2 !5 (25−1 )=1−204
120
P= 1 – 1.7=+0.7
Luego obtenemos una correlación negativa cuya magnitud es 0.7 que es un valor fuerte para
este tipo de situación.
EJERCICIO PROPUESTO DE CÁLCULO DE COEFICIENTE DE SPEARMAN
La tabla muestra siete estudiantes que ordenados alfabéticamente obtuvieron su número de
orden según sus calificaciones en teoría y práctica académica en un curso de lenguaje. Calcular
el coeficiente de correlación de SPEARMAN.
ALUMNOS PRACTICA X TEORIA YA 7 6
130
B 4 7C 6 5D 3 2E 5 1F 2 4G 1 3
2º EJERCICIO
El cuadro muestra las correspondientes alturas en centímetros de grupo de padres y de sus
hijos primogénitos.
1) calcular el coeficiente de correlación de espermas
2) calcular también el coeficiente de Pearson
3) son parecidos?
ALTURA PADRE X ALTURA HIJOS Y172 178164 154180 180190 184164 166164 166165 166180 175
RESPUESTA 1 p= 0.89
3º EJERCICIO
En la tabla los cinco siguientes individuos se han colocado por rangos de 1 a 5 sobre X e Y.
calcular el coeficiente de correlación.
X YA 2 3B 1 2C 3 1D 5 5E 4 4
RESPUESTA 1 p= 0.7
131
EJERCICIO
El gerente del personal una empresa agroindustrial estudia la relación entre la variable
dependiente Y y la variable independiente X de su personal obrero. Recoge una muestra
aleatoria de 10 trabajadores y se obtuvieron los datos en dólares por semana.
a) Determinar el diagrama de dispersión
b) De su comentario sobre el valor de la pendiente
La relación es positiva e imperfecta porque al pasar la recta no cruza por todos los
puntos, sin embargo el valor de la pendiente se aproxima a uno.
c) Estime el gasto que correspondería a un salario semanal de 90USD.
Salario (x)
Gasto (y)
X2 Y2 XY (xi -Ẋ) (xi - Ẋ)^2 (Yi -Ῡ) (Yi -Ῡ)^2
28 25 784 625 700 -17,8 316,84 -13,4 179,56
25 20 625 400 500 25 625 20 400
35 32 1225 1024 1120 35 1225 32 1024
40 37 1600 1369 1480 40 1600 37 1369
45 40 2025 1600 1800 45 2025 40 1600
50 40 2500 1600 2000 50 2500 40 1600
50 45 2500 2025 2250 50 2500 45 2025
35 30 1225 900 1050 35 1225 30 900
70 55 4900 3025 3850 70 4900 55 3025
80 60 6400 3600 4800 80 6400 60 3600
ƩX=458
ƩY=384 ƩX2=23784 ƩY2=16168
ƩXY=19550 Ʃ(xi -Ẋ) =412,2
Ʃ(xi - Ẋ)^2=
23316,84
Ʃ(Yi -Ῡ) =345,6
Ʃ(Yi-Ῡ)^2=15722,56
r=n¿¿
132
r=10 (19550 )− (458 )(384 )
√ [10 (23784 )−(458)2 ]¿¿¿
r= 195500−175872√ [237840−209764 ] [161680−147456 ]
r= 19628
√ [28076 ] [14224 ]
r= 19628
√399353024
r= 1962819983 ,82
r=0,98
Desviación Estándar (X)
Sx = √∑ ¿¿¿¿¿ Sx = √ 23316,8410=√2331,4 = 48,28
Ẋ = Ʃ X in
=45810
=45 ,8 Sy = √ 15722 ,5610=√1572 ,256 = 39, 65
Ῡ = ƩY in
=38410
=38 ,4
Y R= y+r ( SySx )x−r ( SySx
) x
Y R=38,4+0 ,98( 39 ,6548 ,28 )x−0 ,98( 39 ,6548 ,28 )45 ,8
Y R=38,4 +0 ,80 x−0 ,80(45 ,8)
Y R=1,54 +0,80 x
Y R=1,54 +0,80(90) = 73, 54 gasto de un salario semanal
133
r=n¿¿
r=6 (260 )−(47)(35)
√¿¿¿
r=1560−1645√¿¿¿
r= −85√277472490
r= −8516657.51
r = -0.005
COMENTARIO.- Vemos que los vehículos de 20 toneladas no tienen relación con los de 40 toneladas, ya que a los de 20 se los utiliza más para las importaciones que los de 40 debido a que son más ligeros al transportar las mercancías.
134
135
136
PRUEBA DE HIPÓTESIS
Hipótesis Estadística
Se llama hipótesis, a una suposición o conjetura; que se formula, con el propósito de ser
verificada. Cuando se establece la veracidad de una hipótesis, se adquiere el compromiso de
verificada en base a los datos de la muestra obtenida. La hipótesis estadística es
fundamentalmente distinta de una proposición matemática, debido que al decidir sobre su
certeza podemos tomar decisiones equivocadas, mientras que en la proposición matemática
podemos afirmar categóricamente si es verdadera o falsa.
Hipótesis Nula
Es una hipótesis que afirma lo contrario de lo que se quiere probar. En ella se supone que el
parámetro de la población que se está estudiando, tiene determinado valor. A la hipótesis nula,
se le representa con el símbolo Ho, y se formula con la intención de rechazarla.
Ejemplo: Para decidir que una moneda está cargada, suponemos lo contrario, es decir, que la
moneda es legal, esto es, que tiene igual probabilidad o proporción de salir cara, que de salir
sello. Llamamos P (proporción poblacional de cara) y Q (proporción poblacional de sello), P +Q
= 1 (proporción del total o 100% de los casos); pero la moneda es legal, entonces esperamos que
P = Q, reemplazando P por Q, P + P = 1, 2P = 1 y P = 0.5, es decir, la proporción poblacional de
éxito (cara), para todas las monedas legales es 0.5. Sobre esta base, durante la ejecución del
experimento, aceptamos que actúan únicamente las leyes del azar, descartando la influencia de
cualquier otro factor.
Hipótesis Alternativa
Es una hipótesis diferente de la hipótesis nula. Expresa lo que realmente creemos es factible, es
decir, constituye la hipótesis de investigación. Se le designa por el símbolo H a. En el ejemplo
citado, la hipótesis alternativa sería: H a: P ≠ 0.5, es decir, P > 0.5 o P < 0.5, si es que queremos
realmente averiguar que la moneda no es legal.
Concepto de significación en una Prueba Estadística
137
Suponiendo que está formulada una hipótesis y que al realizar un experimento para someterla a
prueba encontramos que el estadístico de la muestra, difiere marcadamente del valor del
parámetro que establece la hipótesis nula H 0, en ese caso, decimos que la diferencias
encontradas son significativas y estamos en condiciones de rechazar la hipótesis nula H 0 o, al
menos no aceptarla en base a la muestra obtenida.
En realidad estamos determinando, si la diferencia, entre el valor del parámetro establecido en
H 0 y el valor del estadístico obtenido en la muestra, se debe tan solo al error de muestreo (en
este caso aceptamos H 0); o si la diferencia es tan grande que el valor obtenido por el estadístico
de la muestra, no es fruto del error de muestreo, en este caso rechazamos H 0.
Prueba de Hipótesis
Se le llama también ensayo de hipótesis o décima de hipótesis. Son procedimientos que se usan
para determinar, se es razonable o correcto, aceptar que el estadístico obtenido en la muestra,
puede provenir de la población que tiene parámetro, el formulado en H 0.
Como resultado de la prueba de hipótesis, aceptamos o rechazamos H 0. Si aceptamos H 0,
convenimos en que el error de muestreo (el azar), por sí solo, puede dar lugar al valor al
estadístico que origina la diferencia entre éste y el parámetro. Si rechazamos H 0, convenimos
que la diferencia es tan grande, que no es fruto del error de muestreo (al azar) y concluimos que
el estadístico de la muestra no proviene de una población que tenga el parámetro estudiado.
El mecanismo para rechazar la hipótesis H 0, es el siguiente: suponemos como válida la hipótesis
nula H 0, la que afirma que el parámetro tiene cierto valor (supongamos el caso de la media
poblacional entonces H 0: ʯ = ʯ0. Tomamos una muestra y calculamos el estadístico de la
muestra (para el caso de la media el estadístico es la media muestral x ). Como suponemos que
H 0 es cierta, podemos suponer que la muestra proviene de la población que tiene como
parámetro el de H 0 (es decir, ʯ0 no serán muy diferentes) y la probabilidad de que dicha
diferencia muestral pequeña aparezca, será grande. Si en cambio tomamos una muestra de una
población que no tiene como parámetro ʯ0, en dicho caso el valor de x - ʯ0, será grande, (x será
muy distinto que ʯ0), es decir, dicha diferencia será significativa, y la probabilidad de obtener
dicha diferencia muestral al muestrear, será pequeña. Necesitamos un estándar, es decir, un
valor tal que, al comparar con él la probabilidad de obtener una diferencia entre x y ʯ0, nos
permita aceptar o rechazar H 0. Llamemos a este valor el nivel de significación. Este será talα
que, si la probabilidad de la diferencia entre x y ʯ0 es muy pequeña (menor que ),α
138
rechazaremos H 0 y la muestra aleatoria no proviene de la población con parámetro ʯ0; si la
probabilidad de la diferencia entre x - ʯ0 es grande (mayor que ) aceptamos α H 0 y la muestra
aleatoria proviene de la población con parámetro ʯ0.
Cuando se toma la decisión de rechazar o aceptar la hipótesis H 0, se corre el riesgo de
equivocarse (recuerde que nos hemos referido a la probabilidad de obtener una diferencia entre
x y ʯ0 y no de un hecho establecido), es decir, de cometer errores.
Estos posibles errores son:
Error tipo I
Consiste en rechazar la hipótesis H 0, cuando en realidad no debería ser rechazada, por ser
verdadera. La probabilidad de cometer el error tipo I, se llama alfa ( ).α
Error tipo II
Consiste en no rechazar a hipótesis Ho, cuando debería ser rechazada por ser falsa. La
probabilidad de cometer el error tipo II, se llama beta ( ).β
Se debe procurar que la probabilidad de los errores tipo I y tipo II, sean las más pequeñas
posibles, sin embrago, para un tamaño de muestra dado, el querer disminuir un tipo de error,
trae consigo, incrementar el otro tipo de error. La única forma de disminuir ambos errores, es
aumentar el tamaño de la muestra.
Nivel de significación de una Prueba Estadística.
En relación a la comprobación de una hipótesis dada, se llama nivel de significación, a la
probabilidad a de cometer el error tipo I, al rechazar la hipótesis nula Ho.
Los niveles de significación más usados en la práctica son: de 0.05 (5%) y de 0.01 (1%).
El nivel de significación de 5% se interpreta de la siguiente manera: en 100 casos, cabe esperar,
que en 5 de ellos se cometa una decisión equivocada, al rechazar la hipótesis Ho, cometiendo, en
consecuencia, un error de tipo I.
Pasos de una Prueba de Hipótesis
1o Formular la Ho y la H1
2o Determinar si la prueba es unilateral o bilateral.
139
3o Asumir el nivel de significación de la prueba.
4oDeterminar la distribución muestral que se usara en la prueba.
5o Elaborar el esquema de la prueba.
6o Calcular el estadístico de la prueba.
7o Tomar la decisión, para esto, se comparan el esquema de la parte.
5o, con el estadístico del paso 6o.
Ejemplo de una prueba de hipótesis utilizando los pasos anteriores.
Se realiza el experimento aleatorio de lanzar 50 veces una moneda, obteniéndose 34 veces el
resultado cara. Al nivel de significación de 5%, se quiere averiguar si la moneda está cargada.
1) Ho: P= 0.5, la moneda no está cargada.
H1: P≠ 0.5 la moneda está cargada (P>0.5 ó P<0.5).
2) La prueba debe ser bilateral o de dos colas, porque hay dos posibilidades en la H1:
a) Si se obtiene muchas veces cara, entonces la moneda está cargada de un lado
(P>0.5).
b) Si se obtiene pocas veces cara, entonces la moneda está cargada del otro lado
(P<0.5).
3) Asumimos el nivel de significación de 5%, con lo que estamos aceptando de que con la
probabilidad de 0.05, puede ocurrir que se rechace Ho, a pesar de ser verdadera;
cometiendo por lo tanto el error de tipo I. la probabilidad de no rechazar Ho, será de
0.95.
4) Determinar la distribución muestral que se utilizara en la prueba.
Tenemos por dato muestral la proporción 3450
, el parámetro de Ho, es la proporción
poblacional P; entonces utilizaremos la distribución muestral de proporciones para
describir la variación de las muestras por el error d muestreo. Tamaño de muestra n=
50> 30. (Muestra grande) aproximaremos la distribución muestral de proporciones,
mediante la distribución normal, porque n=50> 30.
5) Esquema de la prueba: En la distribución normal de probabilidades estandarizadas,
para el nivel de significación de 5%, el nivel de confianza será de 95%, entonces los
coeficientes críticos o coeficientes de confianza para la prueba bilateral serán: -1.96
1.96, es decir -1.96 ≤ z ≤ 1.96.
140
El esquema correspondiente es:
Si al realizar el experimento y calcular el puntaje estandarizado Z, encontramos que Z cae fuera
del intervalo -195 ≤ z ≥ 1.96, esto indicara que se debe rechazar H˳
Si por el contrario Z cae dentro del intervalo ya mencionado, eso indicara que no debemos
rechazar H˳
Vemos que hay dos regiones e rechazo, por eso la prueba se llama prueba bilateral o de dos
colas.
6) Cálculo de Z. utilizando la fórmula 5.3.2
Z= Xi−U pσ
Donde Xi corresponde en este caso a la producción de la muestra: p`
141
U p: es la medida de la distribución muestral de proporciones, igual a la proporción poblacional
P de H˳
σ : es la desviación estándar de la distribución muestral de proporciones, llamada también error
estándar de la proporción: σ p`
Z= p−pσp
Ejemplo de Prueba de una Cola o Unilateral.
Un laboratorio afirma que uno de sus productos tiene 905 de efectividad para curar una
enfermedad. En una muestra de 200 persona de aliviaron 160. Determinar que a afirmación no
es cierta, es decir, la medicina cura meno del 90% de los casos. Sea el nivel de significación 0.05.
142
1) .- H˳: P = 0.90 P, proporción poblacional de éxito.
H1: P < 0.90 Es lo que queremos probar.
2) .- Habrá una sola región de rechazo o región crítica y es aquella en la que la proporción
de personas curadas por la medicina es menor que 0.90; luego se trata de una prueba
unilateral, o de una sea cola; en esta caso de cola izquierda, que es la dirección a la que
apunta la desigualdad de H1.
3) Asumiendo el nivel de significación de 5% (0.05), en la distribución normal de
probabilidades estandarizada se tiene el coeficiente critico de Z= -1.65.
4) Como el dato es una proporción muestral, y en Ho hay una proporción poblacional,
usaremos la distribución muestral de proporciones.
5) El esquema de la prueba es:
6)
Z= p−pσp
´P = Proporción de la muestra = 160200
=0.8
P = Proporción de la población P = 0.9
143
Grados de libertad: el termino libertad se refiere a libertad para variar y recoger datos de la
muestra. Analicemos la fórmula para la desviación estándar corregida
s=√∑ (Xi−μ )2
n−1
Para calcular la desviación estándar es necesario estimar la media poblacional û mediante x= u,
es decir se eta estimando un parámetro poblacional por lo tanto por grados de libertad serán n-
1. Al querer calcular la desviación estándar ha disminuido en uno la libertad de escoger los
datos, por haber estimado un parámetro, la media poblacional.
En la prueba de STUDENT de diferencia de medidas, se estimaran dos medias poblacionales de
cada una de las dos poblaciones de las cuales se toman los datos, para calcular las dos medias.
Los grados de libertad serán n1+n2-2 donde n1 es el tamaño de la muestra 1, tomada de la
población 1 y n2 es el tamaño de la muestra tomada de la población 2.
Los grados de libertad están representados por la siguiente formula
Gl=n-k
N: numero de observaciones independientes
K: numero de parámetros estimados
Distribución de Student
Cuando:
I) el tamaño de la muestra es pequeño y este es menor que 30
II) la población de donde se obtienen los datos está distribuida normalmente
III) se desconoce la desviación estándar de la población entonces haremos uso de la distribución de Student
La distribución de Student está representada por el estadístico t:
t= x−us
√n−1
144
El estadístico z de la distribución normal era
z= x−uσ
√n
En el denominador de t tenemos s, que varía de muestra en muestra. En el denominador de z
tenemos o , la desviación estándar de la población que es una constante; t sigue una distribución
de Student con n-1 grados de libertad, los valores de t se pueden encontrar en la tabla
correspondiente en el apéndice de este libro. Existe un valor específico para cada grado de
libertad asociado con un determinado nivel de significación.
La grafica de la distribución de Student es más aplanada que la distribución normal Z.
Ejemplo de prueba de una media utilizando la distribución de student
Se aplico un test de inteligencia a una muestra de 15 alumnos de un salón de clase de cierto
Colegio y se determinó un CI promedio de 105.4 con una desviación estándar de 5.3. Se saber
que al estandarizar el mencionado test en los colegios secundarios de la localidad, se hallo un CI
medio de 101. Asumiendo un nivel de significación de 1% probar que el rendimiento mental del
grupo de 15 alumnos, es más alto que el promedio de estandarización del test.
U= rendimiento mental medio de estandarización = 101
X= rendimiento mental medio de la muestra = 105,4
1) formulación de la hipótesis
H0:µ = 101, no existe diferencias significativas en el rendimiento mental, de la muestra X y de la
población
H1: µ= >101
2) prueba unilateral de cola derecha, de acuerdo con H1,
145
Distribución de student
Distribución normal
3) Nivel De Significación Asumido: 1% = 0.01
4) Distribución aplicable para la prueba
Considerando que los datos son la media de la muestra X y la media poblacional µ, se debe
reutilizar la distribución maestral de medias, además como n <30 (muestra pequeña) y se
desconoce 0 (desviación estándar de la población) se empleara la distribución de student, ya
que ese sabe los valores de CI siguen una distribución normal.
5) Esquema grafico de la prueba
El nivel de significación es a = 0.01
Los grados de libertad son:
Gi= n-1 = 15 – 1=14g. De lib
En la tabla de distribución de student, con 14gl, a = 0.01 y prueba de 1 cola, encontramos el t
crítica: tc =2.624
146
6) Cálculo del estadístico de la prueba
Datos
X= 105.4 ; µ = 101 ; s= 5.3 ; n= 15
7) toma de decisiones
Observamos que t=3.11 se ubica en la región de rechazo por tanto se descarta que µ = 101 y se
acepta la alternativa µ > 101 es decir el grupo de 15 alumnos tiene rendimiento mental mayor
que el promedio de estandarización.
Ejemplo:
Una tableteadora de un laboratorio farmacéutico produce comprimidos de cierto medicamento,
con un peso medio de 2grs. Por comprimido. Para determinar si la maquina sigue en buenas
condiciones de producción, se tomó una muestra de 10 tabletas cuyos pesos en gramos son:
2.04; 1.96; 2.00; 1.98: 2.02; 2.01; 1.97; 1.94; 2.03; 2.01, asumiendo un nivel de significación de
0.01, verificar que la maquina no está en
Buenas condiciones de producción.
Llamemos:
µ: el peso medio de las tabletas producidas por la máquina.
147
1) Formulación de hipótesis
H0: µ= 2, la maquinas se halla en buenas condiciones.
H1: µ ≠ 2, la maquina no se halla en buenas condiciones
2) Prueba bilateral porque en H1 hay dos posibilidad
µ>2 o µ< 2
3) Nivel de significación , s4e asume el 1% = 0.01
4) Distribución de probabilidad apropiada para la prueba.
Considerando que las hipótesis se refieren a medios poblacionales, que se da como dato el valor
de la media población µ= 2grs, y que se puede calcular la media de la muestra, utilizaremos la
distribución muestral de las medias para efectuar la prueba. Siendo la muestra pequeña (n= 10)
y la desviación de student o de la población desconocida, no es aplicable la distribución normal y
por tanto recurridos a la distribución de student, asumiendo que la población.
148
Ejemplo:
Un laboratorio afirma que uno de sus productos tiene el 90% de efectividad para curar una
enfermedad. En una muestra de 200 personas se aliviaron 160. Determinar que la afirmación no
es cierta, es decir que la medicina cura menos del 90% de los casos. Si el nivel de significancia
(error de estimación) es del 0,05
149
1) Hallar H0 Y HA
H 0U=90%U=0,9
H 0U<90%U <0,9
2) Determinar la campana de gauss
Es unilateral de una cola
3) Determinar el valor de confianza
Nivel de confianza=95%
Error deestimación=0,05
Z=±1,65
4) Determinar el valor de n
N 1=200n>30
Utilizala prueba dehipótesis
5) Graficar la campana de gauss
150
6) Calcular el valor de z
P=160200
= 0,80
P=PROBABILIDAD DE LA POBLACIÓN
P=0,9
QX=ERROR DEESTIMACIÓN
QX=√ pqn
QX=√ (0,9 )(0,1)200
Qx=0,02
Z=P−PQx
Z=0.8−0,90,02
Z=−5
7) Rechazo de la hipótesis nula y aceptación de la hipótesis alternativa, porque los
medicamentos curan menos del 90% a los pacientes.
Ejemplo:
151
Una muestra de 80 alambres de acero producidos por la Fábrica A, da una resistencia media a la
rotura de 1230lobras con una desviación estándar de 120 libras. Una muestra de 100 alambres
de acero producidos por la Fábrica B da una resistencia media a la rotura de 1190 libras con una
desviación estándar de 90 libras. ¿Hay una diferencia real en la resistencia media de las dos
marcas de alambre de acero, si el nivel de confianza es el 95%?
1) Determinar la HO Y LA HA.
Ho: U1 = U2
Ha: U1 U2
2) Determinar la campana de gauss
La campana de gauss es bilateral de 2 colas
3) Determinar el valor de confianza
Nivel de significancia o E.E. = 0,05
Z =1,96 valor estandarizado
4) Determinar qué tipo de muestra se utiliza
n 1 = 80 n > 30
n 2 = 100 n > 30 Prueba de Hipótesis
5) Construir la campana de gauss
152
6) Calcular el puntaje z
x 1 = 1230 S1 = 120
x 2 = 1190 S2 = 90
Z= X 1−X2
√ S 12
n1+ S22
n2
Z= 1230−1190
√ 120280+ 90
2
100
Z= 40
√180+81
Z= 40
√261
Z= 4016,155
Z=42,4760√261
7) Rechazo la hipótesis nula y acepto la hipótesis alternativa. La rotura de los alambres de la
Fábrica A es diferente a la rotura de los alambres de la Fábrica B.
Los salarios diarios de una industria particular tiene una distribución normal con media de
23,20 dólares y una desviación estándar de 4,50 dólares. Si una compañía de esta industria
153
emplea 40 trabajadores, les paga un promedio de 21,20 dólares. ¿Puede ser acusada esta
compañía de pagar salarios inferiores con un nivel de significancia del 1%?
Ejemplo:
1) Determinar la HO Y LA HA.
Ho: U = 23,20
Ha: U > 23,20
2) Determinar la campana de gauss
La campana de gauss es de una cola
3) Nivel de confianza = 99%
Nivel de significancia o E .E .=0,01
Z=−2,33
4) Determinar qué tipo de muestra se utiliza
n=40n>30
40>30Prueba de Hipótesis
5) Construir la campana de gauss
154
6) Calcular el puntaje z
Z=
X−Us
√n
Z=
21,20−23,204,50
√40
Z=
−24,50
√40
Z=
−24,506,32
Z=−2,811
7) Rechazo la hipótesis nula y acepto la hipótesis alternativa. No está pagando a los trabajadores
lo que les corresponde entonces debe entrar a un juicio para resolver este inconveniente.
EJERCICIO PLANTEADO
Según una encuesta realizada se afirma que la exportación de petróleo crudo tiene el 95% de
efectividad para comercializarse en el mercado internacional. En una muestra de 45 países a los
que se envía el petróleo ecuatoriano, se reflejaron que 35 países los más grandes importadores
de petróleo tienen ventas elevadas. Determinar que la afirmación no es cierta, es decir que la
exportación de petróleo se comercializa en menos del 95%. Si se tiene un nivel de significancia
del 0,05.
1. Ho: U = 95%
Ha: U < 95%
2. La campana de Gauss es de una cola
3. = 95%α
155
Error de Estimación: 0,05
Z = -1,65
4. n = 45 n > 30 Prueba de Hipótesis
5. Construir Campana de Gauss
6. z= P−PQp
z=0,78−0,950,032
z=−5,31
P=3545
P=0,78
Qx=√ pqn
Qx=√ (0,95 )(0,05)45
Qx=0,032
7. Rechazo la hipótesis nula y acepto la hipótesis alternativa.
Las exportaciones de petróleo que el Ecuador realiza a diferentes países se
comercializan en más del 95%, por lo que el país puede continuar realizando sus
exportaciones al exterior.
DISTRIBUCIÓN T-STUDENT
156
En probabilidad y estadística, la distribución t-Student es una distribución de probabilidad que
surge del problema de estimar la media de una población normalmente distribuida cuando el
tamaño de la muestra es pequeño.
Una variable aleatoria se distribuye según el modelo de t-Student con n grados de libertad,
donde n es un entero positivo, si su función de densidad es la siguiente:
f(t)=
Γ ( n+12
)
Γ (n2)√nΠ
(1+t2
n)−12(n+1 )
, -∞<t <+∞ ,
Γ ( p )=∫0
∞
x p−1e−xdx siendo p>0
La gráfica de esta función de densidad es simétrica respecto del eje de ordenadas, con
independencia del valor de n, y de forma semejante a la distribución normal.
Propiedades:
1. La media es 0 y su varianza
nn−2 , n>2.
2. La gráfica de la función de densidad es en forma de campana.
3. Los datos están más disperso que la curva normal estándar.
4. A medida que n aumenta, la gráfica se aproxima a la normal N(0,1).
5. La gráfica es muy parecida a la de la normal estándar diferenciándose en que las colas
de t están por encima de la normal, y el centro se encuentra por debajo del de la normal.
6. Cuando los grados de libertad son altos, los valores de t coinciden con los de la normal.
Ejemplo:
La empresa de transporte pesado TRANSURGIR de la ciudad de Tulcán adquirió camines
nuevos que cargan un peso aproximado a 15 toneladas cada uno para determinar si esta
afirmación es verdad se tomo una muestra de 7 camiones con repletos de carga cuya carga
pesaba; 15,04tonn, 14,96tonn, 15tonn, 14,98tonn, 15,2tonn, 15,1tonn y 14,96tonn. Asumiendo
un nivel de significancia de 0,01 verificar que los camiones si cumplen con el peso establecido.
1) Ho: u=15tonnHa: u≠2 u es diferente de dos
157
2) Bilateral
3) 99% 0,01 gl=n-1gl= 10-1= 9t=±3,250
4) n˂30 T-student
5) GRAFICA
S=√∑¿¿¿
6)x= X – u
S
√n−1.
x=15,034 – 150,082
√7−1.
1,030,340,0822,44.
=0,340,33.
=1,03
7) Aceptamos la hipótesis nula y rechazamos la hipótesis alternativa ya que el peso que puede transportar cada camión se encuentra en la zona de aceptación.
Ejemplo:
158
Xi (Xi-X) (Xi-X)2
15,04 0,0060,0000326
53
14,96 -0,0740,0055183
67
15 -0,0340,0011755
1
14,98 -0,0540,0029469
39
15,2 0,1660,0274612
24
15,1 0,0660,0043183
67
14,96 -0,0740,0055183
67
105,24
-0,00000000000000888
17841970,0469714
29
Un fabricante de focos afirma que su producto durará un promedio de 500 horas de trabajo.
Para conservar este promedio esta persona verifica 25 focos cada mes. Si el valor y calculado cae
entre –t 0.05 y t 0.05, él se encuentra satisfecho con esta afirmación. ¿Qué conclusión deberá él
sacar de una muestra de 25 focos cuya duración fue?:
PRUEBA CHI - CUADRADO
Pruebas Paramétricas. Se llama así a las pruebas de hipótesis que cumplen tres requisitos
fundamentales:
1. La variable de la prueba debe ser la variable cuantitativa.
2. Los datos se obtienen por muestreo estadístico.
3. Los datos deben ajustarse a determinadas distribuciones estadísticas.
Ejemplos.
1. La prueba basada en la distribución normal de probabilidades.
2. La prueba de student.
Pruebas No Paramétricas.- llamadas también pruebas de distribución libre. Son aquellas que:
1. La variable de la prueba puede ser cualitativa o cuantitativa.
2. Los datos se obtienen por muestreo estadístico.
3. Son independientes de cualquier distribución de probabilidad.
Ejemplo.
La prueba de Chi – Cuadrado (también llamada prueba Ji –Cuadrado).
Las pruebas paramétricas son mas poderosas. Sin embargo cuando la variable es cualitativa,
sólo se puede usar las pruebas no paramétricas.
159
El Estadístico Chi – Cuadrado
En un estadístico que sirve de base para una prueba no paramétrica denominada prueba chi –
cuadrado que se utiliza especialmente para variables cualitativas, esto es, variables que carecen
de unidad y por lo tanto sus valores no pueden expresarse numéricamente. Los valores de estas
variables son categorías que sólo sirven para clasificar los elementos del universo del estudio.
También puede utilizarse para variables cuantitativas, transformándolas, previamente, en
variables cualitativas ordinales.
El estadísticos chi- cuadrado se define por
x2=(n−1 ) S2
a2
En donde:
n= número de elementos de la muestra.
n-1= número de grados de libertad
s2= varianza de la muestra
a2= varianza de la población
Desarrollaremos un ejemplo numérico con la finalidad de fijar el concepto de Chi – cuadrado.
Ejemplo:
En un estudio de la capacidad de aprendizaje de matemáticas, en los niños de una población, se
tomó una muestra representativa de 40 niños. Se les aplicó una prueba de diagnostico del
aprendizaje en matemáticas y con los datos obtenidos se calculó la varianza s2=8.4, conociendo
que la varianza poblacional es de α2= 12,37, calcular el valor del estadístico chi-cuadrados.
Datos:
n= 40 S2= 8,4 a2= 12,37
x2=(40−1 )8,412,37
x2=26,48
Ahora vamos a elaborar el concepto de DISTRIBUCIÓN MUESTRAL DEL ESTADÍSTICO CHI-
CUADRADO.
160
Supongamos que se realiza los pasos siguientes:
1. De una población de N elementos se extrae todas las muestras posibles del mismo
tamaño n.
2. Con los datos de cada muestra se calcula el estadístico chi – cuadrado.
3. Con todos los valores de Chi – cuadrado se forma una distribución de frecuencias; éstas
se denomina distribución muestral del Chi-cuadrado.
Esta distribución muestral se representa gráficamente en un sistema de coordenadas, colocando
en el eje de abscisas los valores del estadístico Chi- cuadrado.
Cuadrado en el eje vertical se colocan las frecuencias de cada valor del chi-cuadrado.
El área encerrada bajo la curva y el eje horizontal es igual a uno y representar la probabilidad de
que Chi-cuadrado tome valores mayores que 0.
El área rayada situada a la derecha de la ordenada levantada en la abscisa x2 (gl), representa la
probabilidad ∝ de cometer el error tipo l en la prueba de chi-cuadrado. Esta probabilidad ∝ es
el nivel de significación de la prueba. El valor x2 (gl) se llama valor crítico del CHI-CUADRADO y
se determina por medio de una tabla especial, que representa al final del libro el aprendizaje de
tablas.
Antes de entrar en el manejo de la tabla debemos tener encuentra que para una probabilidad
dad, por ejemplo ∝=0.05, al aumentar el número de grados de libertada también aumenta el
valor crítico de Chi-cuadrado; esto se ilustra en las tres figuras siguientes:
161
Este crecimiento del valor crítico se debe a que el aumentar el número de grados de libertad, la
curva de la distribución muestral de Chi-cuadrado tiende a tomar una forma más extendida y
por tanto el punto crítico se desplaza hacia la derecha.
Descripción y manejo de la tabla.- La tabla de valores críticos de x2 se encuentra en el
apéndice. En la línea horizontal superior encabezando en cada columna se hallan los valores de
.
En la primera columna de la izquierda están los grados de libertad. Los ejemplos siguientes el
manejo de la tabla.
1. Ejemplo:
∝=0.05 y gl= 4 g de l
A partir de gl=4g de l, dirigimos una visual hacia la derecha hasta cortar a la visual que baja
por ∝=0.05; en la intersección se encuentra el valor crítico ∝=9.488 .
2. Ejemplo:
Si ∝=5%=0.05 y gl=6 gdel
162
Hallamos x2 (6)=12.592
3. Ejemplo:
Si ∝=5%=0.05 y gl=10gde lEncontramos x2 (10) = 18.307
Con estos 9 valores de la variable de estudio X, vamos a elaborar el cuadro de frecuencias
observadas correspondientes a las 10 categorías establecidas.
Cuadro 11. 3. 2
Intervalos Conteo Frecuencias
Observadas
Menos de 6,26 a 6, 26 IIII - I 6
6 , 26 a 11,62 IIII - I 6
11,62 a 15,51 III 3
15,51 a 18,80 IIII 5
18,80 a 21,96 IIII 4
21,96 a 25,12 IIII - IIII 10
25,12 a 28,41 III 3
28,41 a 32,30 IIII 4
32,30 a 37,66 IIII 4
37,66 a más. IIII 5
A continuación debemos realizar la clasificación y conteo de los 50 datos, es decir, colocar a cada
uno de ellos dentro de su categoría representándolo por una tarja. La suma de las tarjas de cada
clase da la frecuencia observada de esta clase.
Para facilitar el cálculo del estadístico chi-cuadrado mediante la fórmula indicada
(X 2=∑ (Oi−E i)2
Ei
)
163
Agregamos las frecuencias observadas y esperadas en celdas tal como se presenta a
continuación. Recordemos que se fijo la frecuencia esperada de 5 en cada intervalo, luego:
Frecuencia observada O, y frecuencia esperada E, en la Prueba Chi-cuadrado de Bondad de
Ajuste.
Ei 5 5 5 5 5 5 5 5 5 5
Oi 6 6 3 5 4 10 3 4 4 5
X2 (7 )= (6−5 )2
5+
(6−5 )2
5+
(3−5 )2
5+
(5−5 )2
5+
(4−5 )2
5+(10−5)2
5+
(3−5 )2
5+
(4−5 )2
5+
(4−5 )2
5+
(5−5 )2
5
X2(7)=38+5=7,6
7) Toma de decisiones
Observamos que este valor de Chi-cuadrado, en el esquema grafico (figura 11.3.5) se ubica en la
regresión de aceptación, luego aceptamos H o esto es, que la muestra se obtiene de una
población distribuida normalmente.
Problema
De una investigación demográfica se conoce que los habitantes de ciertos países se distribuyen
en la forma siguiente: 0- 20 años, 25%; 21 – 40 años, 35%; 41 -61 años, 25%; 61 -80 años, 10%;
81 – 100 años, 5%.
Después de transcurridos varios años se quiso probar que la distribución poblacional de las
edades no ha cambiado para lo que se selecciono una muestra respectiva de 1000 personas y se
observo que las frecuencias de las 5 categorías fueron: 0- 20 años, 200; 21 – 40 años, 300; 41 -
61 años, 300; 61 -80 años, 100; 81 – 100 años, 100.
1) H o la distribución actual por edades es igual a la del año de ejecución del censo
H 1 La distribución actual por edades no es igual a la del año de ejecución
2) La prueba es unilateral y de cola derecha
3) Nivel de significación a= 0.10
4) Se utiliza la distribución CHI – CUADRADO
ESQUEMA DE LA PRUEBA
164
77.14
7.779
Existen k= 5 celdas, tenemos gl = K-1 = 5-1=4 grados de libertad a = 0.10 en la tabla de
CHI – CUADRADO obtenemos
x2 (4 )=7.779
5) CALCULO DEL ESTADÍSTICO DE LA PRUEBA
200 300 300 100 100
Las frecuencias observadas nos las proporcionan con la muestra aleatoria de los 1.000
habitantes.
165
250 350 250 100 5
CALCULO DE LAS FRECUENCIAS ESPERADAS
E1 = 1.000 X 25% = 250 E2 = 1.000 X 35% = 350
E3 = 1.000 X 25% = 250 E4 = 1.000 X 105% = 100
E5 = 1.000 X 5% = 50
CALCULO DEL ESTADISTICO CHI – CUADRADO
x2 (4 )=∑I=1
5 (Oi−Ei)2
E i
x2 (4 ) = (200−250)
250
2
+ (300−350)
350
2
+(300−250)
250
2
+(100−100)
100
2 +(100−50)50
2
x2 (4 ) = 10+7.14+10+0+50
x2 (4 )= 77.14
6) TOMA DE DECISIONES
Vemos que el estadístico calculado CHI – CUADRADO (77.14) es mayor que el valor
critico encontrado en la tabla (7.779) vemos que 77.14 cae en la región de rechazo por
lo tanto rechazamos H o y aceptamos H 1, es decir la distribución actual por edades no
es igual a la de la investigación demográfica.
CORRECCIÓN DE YATES
Cuando el número de grados de libertad es igual a la unidad, es necesario realizar una
corrección por continuidad durante el cálculo del estadístico de la prueba. Esta corrección se
166
11.21
3.841
denomina de yates y consiste en disminuir en 0.05 al valor absoluto de la diferencia ¿ entre las
frecuencias observadas y as frecuencias esperadas.
El ejemplo siguiente ilustra la aplicación de esta corrección.
PROBLEMA
En el año de 1960, la proporción de hombres y mujeres de cierta institución de enseñanza
superior, fue de 75% y 25%, respectivamente. Con la finalidad de verificar si el transcurso del
tiempo había originado algún cambio en las proporciones de estudiantes de ambos sexos, en el
año de 1970 se tomó una muestra aleatoria de 100 alumnos de 1º ciclo, obteniendo 60 hombres
y 40 mujeres. Con estos datos realizar la verificación por medio de la prueba de CHI –
CUADRADO, asumiendo el nivel de significación de a= 5%.
1) H o la distribución de hombres y mujeres en el año de 1970 también es de 75% y de
25% respectivamente
H 1 La distribución de hombres y mujeres en el año de 1970 no es del 75% ni del 25%
respectivamente
2) La prueba es universal y de cola derecha
3) Nivel de significación a= 0.05
4) Emplearemos la distribución muestral de CHI – CUADRADO
167
5) ESQUEMA DE LA PRUEBA
Existen 2 categorías entonces K= 2 y gl = K – 1 =2-1=1 a= 0.05 con estos datos vamos a
la tabla de CHI – CUADRADO y obtenemos x2 (1 ) 3.841.
6) CALCULO DEL ESTADÍSTICO DE LA PRUEBA
60 40
OBTENCIÓN DE LOS VALORES ESPERADOS
Valor esperado para los hombres: 100 x 75% = 75
Valor esperado para las mujeres: 100 x 25% = 25
CACULO DEL ESTADÍSTICO DE LA PRUEBA
Como gl = 1 utilizaremos la corrección de yates
x2 (1 ) (|O1−E1|−0.5¿¿¿2)E1
+(|O2−E2|−0.5¿¿¿2)
E2
x2 (1 ) (|60−75|−0.5¿¿¿2 )75
+(|40−25|−0.5¿¿¿2 )
25
x2 (1 ) (|−15|−0.5¿¿¿2 )
751+
(|−15|−0.5¿¿¿2 )25
168
75 25
x2 (1 ) (15−0.05¿¿¿2 )
75+
(15−0.05¿¿¿2 )25
x2 (1 ) =2.8+8.41= 11.21
7) TOMA DE DESICIONES
Como el valor de CHI – CUADRADO es de 11.21, mayor que el valor CHI – CUADRADO
afirmamos que 11.21 cae en la región de rechazo, luego rechazamos la H o por lo tanto
afirmamos que la distribución de hombres y mujeres no es del 75% ni del 25%
respectivamente.
En un estudio realizado en el departamento de investigación del ESAN acerca del perjuicio étnico hacia el negro. En los universitarios de lima se aplico.
169
Lugar de residenciaGrado de perjuicio
Barriadas Barrios populares
intermedios
Barrios residenciales
total
Alto 32 225 50 307Bajo 28 290 79 397Total 60 515 129 704
Una encuesta a los universitarios según su lugar de procedencia, obteniendo los resultados que presenta la siguiente tabla
Al nivel de significación Q=0.05, determinar que las variables perjuicio étnico hacia el negro y
lugar de residencia son independientes
1. Ho: el perjuicio étnico y el lugar de residencia son independientes
H1: existe dependencia entre las variables.
2. La prueba es unilateral y la cola derecha
3. Asumimos el nivel de significación de Q= 0.05
4. Utilizaremos la distribución muestral de chi-cuadrado porque las dos variables son
cualitativas.
5. Esquema de la prueba
Gl =(C-1) (F-1) 1.1.3.4
Gl =(3-1) (2-1) = 2 11.3.4
Gl= 2
Q= 0.05
X2 = (2) = 5.991
C= # de columnas
F= # de filas
170
6. Calculo del estadístico de la prueba x= 3.54 5.991
Formula
x2=∑ij
❑
(Qij−EijEij )2
X2= 3.54
Ya conocemos las frecuencias observadas para determinar las frecuencias esperadas
emplearemos la misma tabla, manteniendo invariables de frecuencias marginales de dos
variables
¿(32−26.16)2
26.16+(25−224.58)2
224.58+(50−56.25)2
56.25+
(28−33.84 )233.84
+(79−72.78 )272.75
=3.54
Lugar de ResidenciaGrado de perjuicio
Barriadas Barrios populares
(intermedios)
Barrios residenciales
total
Alto E11 E12 E13 307Bajo E21 E22 E23 397Total 60 515 129 704
Cuando las variables X y Y son independientes, las frecuencias de cada celda son igual al
productos de las frecuencias marginales correspondientes dividido por el tamaño de la muestra.
E11=60∗307704
=26.16
E12=515∗307704
=224.58
E13=129∗307704
=56.25
E21=60∗397704
=33.84
171
26.16
32
224.58
225
33.84
28
290.42
290
72.75
79
56.25
50
E22=515∗397704
=290.42
E23=129∗397704
=72.75
Las frecuencias esperadas y las asociadas determinan las frecuencias observadas anteriormente
172