estadistica,general

205
1 La estadística, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más efectiva. 1.1. LA ESTADISTICA La Estadística es mucho más que sólo números apilados y gráficas bonitas. Es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias. La ausencia de ésta conllevaría a un caos generalizado, dejando a los administradores y ejecutivos sin información vital a la hora de tomar decisiones en tiempos de incertidumbre. La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las probabilidades, con la cual se adhirió a la Estadística a las ciencias formales. 1.2. DEFINICIÓN DE ESTADÍSTICA Porque la estadística va tomando más importancia en la investigación científica, en el aspecto académico y en el desarrollo profesional. - Porque sirve como herramienta de investigación objetiva y veraz, - Porque a través de un conjunto de datos obtenidos adecuadamente, permite tomar decisiones adecuadas y oportunas;

Upload: gabriela-pereyra-fernandez

Post on 18-Feb-2016

221 views

Category:

Documents


1 download

DESCRIPTION

estadistica

TRANSCRIPT

Page 1: ESTADISTICA,general

1

La estadística, es la

ciencia que trata de la

recopilación, organización

presentación, análisis e

interpretación de datos

numéricos con el fin de

realizar una toma de

decisión más efectiva.

1.1. LA ESTADISTICA

La Estadística es mucho más que sólo números apilados y gráficas bonitas.

Es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de

todas las demás ciencias.

La ausencia de ésta conllevaría a un caos generalizado, dejando a los

administradores y ejecutivos sin información vital a la hora de tomar decisiones en

tiempos de incertidumbre.

La Estadística que conocemos hoy en día debe gran parte de su realización a los

trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las

probabilidades, con la cual se adhirió a la Estadística a las ciencias formales.

1.2. DEFINICIÓN DE ESTADÍSTICA

Porque la estadística va tomando más importancia en la investigación científica, en el

aspecto académico y en el desarrollo profesional.

- Porque sirve como herramienta de investigación objetiva y veraz,

- Porque a través de un conjunto de datos obtenidos adecuadamente, permite tomar

decisiones adecuadas y oportunas;

Page 2: ESTADISTICA,general

2

- Porque permite apreciar objetivamente las diferencias de algún fenómeno de

incertidumbre en el tiempo y en el espacio

1.3. UTILIDAD E IMPORTANCIA

- Las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad,

control de calidad y en otras actividades; estudios de consumidores; análisis de resultados

en deportes; administradores de instituciones; en la educación; organismos políticos;

médicos; y por otras personas que intervienen en la toma de decisiones.

- Diagnostico de un problema cualquiera, ejemplos: Diagnostico de las enfermedades,

diagnostico del nivel de vida, del nivel socioeconómico, el nivel educativo, etc.

- Determinar prioridades en los programas de salud, educación, de las empresas privadas,

o de otros problemas de las comunidades o personales

- Establecer y analizar las relaciones entre las variables (causa efecto)

- Realizar pronósticos a través del tiempo

- Estimar valores poblacionales, tomando solo una muestra

NOTA: Sin embargo para que el uso de la estadística sea adecuado, es necesario trabajar

con muchos datos, porque el uso de pocos datos puede dar lugar a interpretaciones no

consistentes.

1.4. DIVISION DE LA ESTADISTICA

La Estadística se ha dividido en dos grandes ramas: la Estadística Descriptiva y la

Inferencial:

La estadística Descriptiva: consiste sobre todo en la presentación de datos en

forma de tablas y gráficas. Esta comprende cualquier actividad relacionada con los

datos y está diseñada para resumir o describir un conjunto de datos, sin intentar

inferir nada que vaya más allá de los datos, como tales.

La estadística Inferencial: Se deriva de muestras, de observaciones hechas sólo

acerca de una parte de un conjunto numeroso de elementos y esto implica que su

Page 3: ESTADISTICA,general

3

análisis requiere de generalizaciones que van más allá de los datos. Como

consecuencia, la característica más importante del reciente crecimiento de la

estadística ha sido un cambio en el énfasis de los métodos que describen a métodos

que sirven para hacer generalizaciones. La Estadística Inferencial investiga o analiza

una población partiendo de una muestra tomada. Los problemas de la inferencia

estadística son: la estimación de parámetros y las pruebas de hipótesis

1.5. HISTORIA DE LA ESTADÍSTICA

Los comienzos de la estadística pueden ser hallados en el antiguo

Egipto, cuyos faraones lograron recopilar, hacia el año 3050 AC, recogió

datos relativos a la población y la riqueza del país con el objetivo de

preparar la construcción de las pirámides. En el mismo Egipto, Ramsés

II hizo un censo de las tierras con el objeto de verificar un nuevo reparto.

Page 4: ESTADISTICA,general

4

En el antiguo Israel la Biblia da referencias, en el libro de los Números,

de los datos estadísticos obtenidos en dos recuentos de la población

hebrea. El rey David por otra parte, ordenó a Joab, general del ejército

hacer un censo de Israel con la finalidad de conocer el número de la

población.

Los griegos y los Chinos efectuaron censos periódicamente con

fines tributarios, sociales (división de tierras) y militares (cálculo de

recursos y hombres disponibles). La investigación histórica revela

que se realizaron 69 censos para calcular los impuestos, determinar

los derechos de voto y ponderar la potencia guerrera.

Pero fueron los romanos, maestros de la organización política,

quienes mejor supieron emplear los recursos de la estadística.

Cada cinco años realizaban un censo de la población y sus

funcionarios públicos tenían la obligación de anotar nacimientos,

defunciones y matrimonios, sin olvidar los recuentos periódicos del

ganado y de las riquezas contenidas en las tierras conquistadas.

Para el nacimiento de Cristo sucedía uno de estos

empadronamientos de la población bajo la autoridad del imperio.

Durante los mil años siguientes a la caída del imperio

Romano se realizaron muy pocas operaciones Estadísticas,

con la notable excepción de las relaciones de tierras

pertenecientes a la Iglesia, compiladas por Pipino el Breve en

el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se

realizaron en Francia algunos censos parciales de siervos.

En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del Gran

Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras de

Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra.

Page 5: ESTADISTICA,general

5

Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico,

Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes

operaciones al método científico, de tal forma que cuando se crearon los Estados Nacionales

y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los

datos económicos.

Para el año 1532 empezaron a registrarse en Inglaterra las

defunciones debido al temor que Enrique VII tenía por la

peste. Más o menos por la misma época, en Francia la ley

exigió a los clérigos registrar los bautismos, fallecimientos y

matrimonios. Durante un brote de peste que apareció a fines

de la década de 1500, el gobierno inglés comenzó a publicar

estadísticas semanales de los decesos. Esa costumbre

continuó muchos años, y en 1632 estos Bills of Mortality

(Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo. En 1662, el

capitán John Graunt usó documentos que abarcaban treinta años y efectuó predicciones

sobre el número de personas que morirían de varias enfermedades y sobre las proporciones

de nacimientos de varones y mujeres que cabría esperar. El trabajo de Graunt, condensado

en su obra Natural and Political Observations Made upon the Bills of Mortality

(Observaciones Políticas y Naturales Hechas a partir de las Cuentas de Mortalidad), fue un

esfuerzo innovador en el análisis estadístico.

Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los

recursos nacionales, comprensiva de datos sobre organización política, instrucciones

sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas

de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la

teoría Estadística.

Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como

resultado de la especulación sobre si la población aumentaba, decrecía o permanecía

estática.

Page 6: ESTADISTICA,general

6

En los tiempos modernos tales métodos fueron resucitados por

algunos reyes que necesitaban conocer las riquezas

monetarias y el potencial humano de sus respectivos países. El

primer empleo de los datos estadísticos para fines ajenos a la

política tuvo lugar en 1691 y estuvo a cargo de Gaspar

Neumann, un profesor alemán que vivía en Breslau. Este

investigador se propuso destruir la antigua creencia popular de

que en los años terminados en siete moría más gente que en

los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad.

Después de revisar miles de partidas de defunción pudo demostrar que en tales años no

fallecían más personas que en los demás. Los procedimientos de Neumann fueron

conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre,

quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas

de mortalidad que hoy utilizan todas las compañías de seguros.

Durante el siglo XVII y principios del XVIII, matemáticos

como Bernoulli, Francis Maseres, Lagrange y Laplace

desarrollaron la teoría de probabilidades. No obstante

durante cierto tiempo, la teoría de las probabilidades limitó

su aplicación a los juegos de azar y hasta el siglo XVIII no

comenzó a aplicarse a los grandes problemas científicos.

Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en

1760 la palabra estadística, que extrajo del término italiano statista

(estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia

serían el aliado más eficaz del gobernante consciente. La raíz remota de

la palabra se halla, por otra parte, en el término latino status, que significa

estado o situación; Esta etimología aumenta el valor intrínseco de la

palabra, por cuanto la estadística revela el sentido cuantitativo de las más

variadas situaciones.

Page 7: ESTADISTICA,general

7

Jacques Quételect es quien aplica las Estadísticas a las ciencias

sociales. Este interpretó la teoría de la probabilidad para su uso en

las ciencias sociales y resolver la aplicación del principio de

promedios y de la variabilidad a los fenómenos sociales. Quételect

fue el primero en realizar la aplicación práctica de todo el método

Estadístico, entonces conocido, a las diversas ramas de la ciencia.

Entre 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales

para la teoría Estadística; la teoría de los errores de observación, aportada por

Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por

Laplace, Gauss y Legendre.

A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por

Correlación, que tenía por objeto medir la influencia relativa de los factores

sobre las variables. De aquí partió el desarrollo del coeficiente de correlación

creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J.

Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios

estudios sobre la medida de las relaciones.

Los progresos más recientes en el campo de la Estadística se

refieren al desarrollo del cálculo de probabilidades,

particularmente en la rama denominada indeterminismo o

relatividad, se ha demostrado que el determinismo fue

reconocido en la Física como resultado de las investigaciones

atómicas y que este principio se juzga aplicable tanto a las

ciencias sociales como a las físicas.

Page 8: ESTADISTICA,general

8

ETAPAS DE DESARROLLO DE LA ESTADÍSTICA

La historia de la estadística está resumida en tres grandes etapas o fases.

1.- Primera Fase: Los Censos:

Desde el momento en que se constituye una autoridad política, la idea de

inventariar de una forma más o menos regular la población y las riquezas

existentes en el territorio está ligada a la conciencia de soberanía y a los primeros

esfuerzos administrativos.

2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política:

Las ideas mercantilistas extrañan una intensificación de este tipo de

investigación. Colbert multiplica las encuestas sobre artículos

manufacturados, el comercio y la población: los intendentes del Reino

envían a París sus memorias. Vauban, más conocido por sus

fortificaciones o su Dime Royale, que es la primera propuesta de un

impuesto sobre los ingresos, se señala como el verdadero precursor

de los sondeos. La escuela inglesa proporciona un nuevo progreso al superar la fase

puramente descriptiva. Sus tres principales representantes son Graunt, Petty (autor de la

famosa Aritmética Política) y Halley.

Chaptal, ministro del interior francés, publica en 1801 el primer censo general de población,

desarrolla los estudios industriales, de las producciones y los cambios, haciéndose

sistemáticos durante las dos terceras partes del siglo XIX.

3.- Tercera Fase: Estadística y Cálculo de Probabilidades:

El cálculo de probabilidades se incorpora rápidamente como un

instrumento de análisis extremadamente poderoso para el estudio de

los fenómenos económicos y sociales y en general para el estudio de

fenómenos “cuyas causas son demasiados complejas para

conocerlos totalmente y hacer posible su análisis”.

Page 9: ESTADISTICA,general

9

CRONOLOGIA DE LA ESTADISTICA

Época Contribuidor Contribución

Grecia antigua

Filósofos Ideas sobre el análisis no cualitativo

Siglo XVII Graunt, Petty Estudio de la estadística vital

Pascal, Berno Estudio probabilístico acerca del cambio del juego

Siglo XVII D´Moire, Laplace, Gauss

Curva normal, regresión aplicada sobre estudios de astronomía

Siglo XIX

Quetelet Astrónomo que primero aplicó el análisis estadístico a biología humana.

Galton Estudia la variación genética en humanos (usando regresión y correlación lineal)

Pearsons Estudio de la selección natural usando correlación, formando primero departamentos académicos de estadística, Journal de Biométrica, ayudados de el análisis de Chi Cuadrada

Siglo XX

Gossett (Student)

Estudio de procesos, alerta la comunidad estadística acerca de problemas con pequeñas muestras, presentando la prueba t´student

Fisher Evolución biológica presentada- presentación de ANOVA , resalta la importancia del diseño experimental.

Siglo XX

Wilcoxon Bioquímico estudió pesticidas, equivalente no parámetrico de dos pruebas.

Kruskal Wallis Economista que presentó el equivalente no parámetrico de ANOVA

Spearman Psicólogo que presenta el equivalente no parámetrico del coeficiente de correlación

Kendall Estadista que presenta otro equivalente no parámetrico del coeficiente de correlación.

Tukey Estadista que presenta el procedimiento de la comparación múltiple.

Dunnett Bioquímico que estudia los pesticidas, presenta un procedimiento de comparación múltiple para grupos control.

Keuls

Agrónomo que presenta una procedimiento de comparación múltiple. Prueba muchas ventajas sobre cálculos a mano y en calculadora, estimula el fondo de la investigación mediante nuevas técnicas

Page 10: ESTADISTICA,general

10

ETAPAS DEL TRABAJO ESTADISTICO

EN LA INVESTIGACION CIENTIFICA

La estadística se incluye en todas las etapas de investigación, desde el diseño hasta el

análisis final de la información. Podemos distinguir tres grandes etapas:

a) Diseño: Define de cómo se realizara la investigación, esta etapa es crucial, porque

un estudio bien diseñado o con datos incorrectamente recolectados puede no

responder a las preguntas de la investigación. Esta etapa incluye la población

objetivo, el tamaño de muestra, los mecanismos de selección de la muestra, los

tratamientos de los datos.

b) Descripción: Esta etapa ayuda a comprender la estructura de los datos para detectar

patrones de comportamientos. Una forma de resumir la información es mediante los

gráficos y las tablas, otra forma es mediante algunas medidas descriptivas.

c) Inferencia: Predicciones y toma de decisiones sobre las características de una

población en base a la información recogida en una muestra.

Page 11: ESTADISTICA,general

11

CONCEPTOS Y DEFINICIONES PREVIAS

1. POBLACIÓN - es el conjunto total de elementos (individuos, objetos o medidas) que

poseen algunas características comunes observables en un lugar (espacio) y en un

momento (tiempo) determinado. Cuando se vaya a llevar a cabo alguna investigación

debe de tenerse en cuenta algunas características esenciales al seleccionarse la

población bajo estudio. Entre éstas tenemos:

a. Homogeneidad - que todos los elementos de la población tengan las mismas

características según la variables de estudio. Por ejemplo, si se investiga la

drogadicción entre jóvenes mujeres adolescentes, entonces hay que definir

claramente las edades que comprenden la adolescencia (12 y 21 años).

b. Tiempo - se refiere al período de tiempo donde se ubica la población de

interés.

c. Espacio - se refiere al lugar donde se ubica la población de interés. Un

estudio no puede ser muy abarcador y hay que limitarlo a un área o

comunidad en específico.

d. Tamaño de la población. Es sumamente importante porque ello determina o

afecta al tamaño de la muestra, además que la falta de recursos y tiempo

también nos limita la extensión de la población que se vaya a investigar. La

población puede ser Finita o Infinita.

2. MUESTRA - la muestra es un subconjunto de la población. La muestra para que

tenga valor, debe ser representativa, esto significa que la muestra debe contener

todos los tipos de elementos de la población (Si en la población hay altos, bajos,

gordos y flacos en la muestra también deben contener a todos estos tipos de

elementos) y adecuada, es decir debe ser lo suficientemente grande para contener la

cantidad necesaria de representación (cálculo del tamaño de la muestra). La muestra

puede ser probabilística o no probabilística

Page 12: ESTADISTICA,general

12

3. PARAMETRO: Es un valor que se obtiene a partir de los datos de una Población o

son los valores que se originas al analizar una población. Un parámetro es un

sumario descriptivo de alguna característica de una población (la media aritmética,

mediana, desviación estándar). Ejemplo: La tasa de desempleo se ha mantenido en

18%. Es un índice estadístico que va dirigido a describir a la población. Muchos de

estos índices se obtienen mediante registros oficiales de agencias del Gobierno.

4. ESTADISTICO O ESTADIGRAFO: Es un valor que se obtiene a partir de los datos de

una muestra o son los valores que se originan al analizar una muestra. Debe

entenderse que el parámetro y el estadígrafo son conceptos muy similares. Su

diferencia radica realmente en que el estadígrafo se calcula sobre una muestra y el

parámetro se calcula con relación a una población.

5. DATOS: Notación o son símbolos que describen condiciones, hechos, situaciones o

valores. Ejemplo: 18 años, 1.55 cm, Católica, Alto

6. UNIDAD MUESTRAL: Para seleccionar una muestra, primero se define la Unidad de

Análisis que puede ser un cliente, un votante, una organización, un libro contable, un

periódico, un hospital, un paciente, etc. Esta definición nos permite identificar “Quien

va ha ser medido”, “Quien nos va ha dar la información” y por lo tanto precisar

claramente el problema a investigar y los objetivos de la investigación.

Page 13: ESTADISTICA,general

13

7. VARIABLES: Es una característica observable que poseen

los elementos y que puede tomar diferentes valores.

Ejemplo: Edad, Talla, Tipo de religión

III. EJERCICIOS

En los ejemplos siguientes identifique los elementos indicados en el recuadro:

3.1. Un estudio de 250 pacientes admitidos en un hospital durante el año pasado reveló

que, en promedio, los pacientes viven a 22.5 kilómetros del hospital.

Población

Muestra

Unidad de Análisis

Variable de estudio

3.2. Un estudio de 300 hogares en un pueblo sureño revelo que 20 por ciento tiene al

menos un hijo en edad escolar.

Población

Muestra

Unidad de Análisis

Variable de estudio

3.3. Varias veces durante el día un ingeniero de control de calidad, en una fábrica textil,

selecciona diferentes muestras de metros cuadrados de telas, las examina y registra el

número de imperfecciones que encuentra.

Población

Muestra

Unidad de Análisis

Variable de estudio

Page 14: ESTADISTICA,general

14

3.4. Un investigador médico examina los efectos de un agente cancerígeno en las ratas.

Tres semanas después de inyectado el agente en una rata, el investigador realiza una

intervención quirúrgica para extraer y pesar los tumores.

Población

Muestra

Unidad de Análisis

Variable de estudio

3.5. Un gerente desea conocer si aquellos trabajadores que reciben 25 días de vacaciones

son más productivos durante el año, que los que reciben solo 15 días. El gerente

selecciona una muestra de 40 trabajadores y registra su rendimiento laboral.

Población

Muestra

Unidad de Análisis

Variable de estudio

3.6. De un establo se seleccionan 1000 vacas y se desea conocer el número promedio de

litros de leche que se obtienen por vaca y por día.

Población

Muestra

Unidad de Análisis

Variable de estudio

Page 15: ESTADISTICA,general

15

En los siguientes ejemplos identifique los parámetros y los estimadores:

3.7. En cierta universidad el decano de un colegio al hacer los preparativos para una

presentación de consejeros, necesita conocer el promedio del número de estudiantes

por clase. El decano descubre que:

En una muestra de 20 grupos, el número promedio de

estudiantes por grupo es de 77.

En un estudio acerca de toda la universidad, el

promedio por grupo resulta en 84.

3.8. Un aforador que está interesado en conocer el promedio de precipitación pluvial

durante el mes de septiembre, reporta:

El promedio de precipitación pluvial para septiembre de

1998 y septiembre de 1999.

El promedio de precipitación pluvial para todos los

septiembres, desde el principio de los registros

calculados hasta el presente año.

3.9. Un fisiólogo está interesado en el índice de latidos cardiacos por persona, después de

ciertas cantidades de ejercicio. Está interesado en lo siguiente:

El índice más elevado de latidos cardiacos de 100

personas después de ejercicios vigorosos.

El índice de latidos cardiacos promedio de todas las

personas, antes de realizar ejercicios.

Page 16: ESTADISTICA,general

16

IV. ACTIVIDADES DE AUTO EVALUACIÓN

Antes de continuar con los demás temas, es conveniente que te autoevalúes, desarrollando

las preguntas en forma individual. Luego coteja tus respuestas con la teoría estudiada y

califica de acuerdo a la escala siguiente:

19 – 20 puntos Excelente

17 – 18,5 puntos Muy bueno

14 – 16,5 puntos Bueno

11 – 14,5 puntos Regular

Menos de 11 Malo

Si tienes un calificativo menor a 14,5 puntos debes estudiar un poco más. Es

recomendable que revises las partes que has fallado.

Si tiene un calificativo menor de 11 puntos, es recomendable revisar los temas en

estudio, haciendo énfasis en los temas que perciba alguna dificultad.

4.1. Define los siguientes términos: (4 ptos)

a) Estadística:…………………………………………………………………………………

………………………………………………………………………………..……

b) Población:…………………………………………………………………………………

…………………………………………………………………………………..……

c) Muestra:.……………………………………………………………………………………

………………………………………………………………………………..…

d) Dato:………………………………………………………………………………………

………………………………………………………………………………..……

Page 17: ESTADISTICA,general

17

4.2. La estadística que se ocupa de interpretar los resultados obtenidos con las técnicas

descriptivas, para tomar decisiones se denomina….......................................... (1Pto)

4.3. Es la característica medible o descrita mediante un valor o atributo de un elemento en

estudio………………………...………………………………………………… (1Pto)

4.4. Un objetivo general de la Estadística es estimar los parámetros de la población, usando

muestras estadísticas. (2 ptos)

a) Verdadero b) Falso Justifique su respuesta.

…………………………………………………………….…………………………………

……………………………………………………….………………………………………

4.5. La estadística descriptiva tiene como objetivo: (1Pto)

a) Probar la significación de los resultados

b) Ser herramienta indispensable en el muestreo

c) Descubrir las causas que originan el hecho

d) Lograr conclusiones más allá de las muestras

e) Efectuar comparaciones sin sacar conclusiones de tipo más general

4.6. Se debe responder verdadero si el enunciado es siempre válido. En caso contrario se

deberá sustituir la palabra subrayada por otra, con la cual el enunciado tenga validez:

(5 ptos)

a) Parámetro es el resultado al aplicar una medida a las características de las

unidades de una población.

b) El conteo de los empleados de una empresa de acuerdo a su cargo, es un

ejemplo de características cuantitativas.

c) La Estadística Descriptiva, es el “estudio” de una muestra a fin de hacer

estimaciones acerca de la población de la cual se tomó la muestra.

d) Una población infinita tiene un número ilimitado de elementos

e) Estimador es la medida estadística obtenida con los datos de la población.

Page 18: ESTADISTICA,general

18

4.7. En el año 2006, se realizó un muestreo de opinión para determinar si los profesores de

Lima prefieren como texto de consulta el libro de Propedéutica de Razonamiento

Matemático de la editorial Lumbreras con respecto a otro. Con este fin se entrevistaron

a 2000 profesores y entre ellos 1 500 prefirieron dicho texto. Responda lo siguiente: (4

ptos)

¿Cómo estuvo formada la muestra?

¿Cómo estuvo formada la población?

¿Cuál fue la variable de estudio?

¿Cuál fue valor estadístico?

VI. REFERENCIAS BIBLIOGRÁFICAS

6.1. WAYNE W. DANIEL. (2004) BIOESTADISTICA. Base para el análisis de las Ciencias de la

Salud. 4ta Edición. Editorial LIMUSA. México D.F.

6.2. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima – Perú.

6.3. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición. Edith. PHH

S. A. – México.

6.4. FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición – Edith. Prentice

Hall Hispanoamericana S.A.- México.

6.5. GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la Psicología y la

Educación. Edit. Mc Graw-Hill – México.

6.6. MILLER, Irwin y FREUND, John E., 1995. Probabilidad y Estadística para Ingenieros – Edit.

Prentice Hall Hispanoamericana S.A. – México.

6.7. MOYA, Rufino, (1991). Estadística Descriptiva. Editorial San Marcos- Lima- Perú.

6.8. WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía. 3era

edición – Edith. McGraw-Hill Companies, Inc. – Santa Fe de Bogotá- Colombia.

Fuentes electrónicas:

http://www.eumed.net/cursecon/libreria/drm/index.htm

Page 19: ESTADISTICA,general

19

Sesión 2 Variables y Escalas de Medición

Recolección de datos

1. Explica qué es una Variable.

2. Identifica y ejemplifica las clases de variables.

3. Reconoce la importancia de la recolección de datos reales en la investigación.

4. Describe en forma clara y precisa las técnicas más importantes a utilizar en el

proceso de recolección de datos.

5. Identifica las fuentes de la información.

6. Elabora cuestionarios básicos para recolectar datos.

1. Valora la importancia que tiene la clasificación de las Variables Estadísticas; según

las diferentes escalas de medición en la investigación científica.

2. Asume una actitud reflexiva para identificar las técnicas e instrumentos de

recolección de datos adecuados.

3. Valora la importancia que tienen las técnicas e instrumentos a utilizar en la de

recolección de datos como parte fundamental del proceso estadístico.

4. Asume una actitud reflexiva, crítica, creativa y participativa en la realización de las

actividades de aprendizaje.

Variables. Clasificación. Escalas de Medición. Recolección de Datos. Técnicas e Instrumentos.

CAPACIDADES

ACTITUDES

CONTENIDO

Page 20: ESTADISTICA,general

20

DEFINICION: Las variables son atributos o características

observables y cuantificables que poseen los objetos.

VARIABLES

Cada rasgo o aspecto de una población constituye una variable. La edad de unas personas,

su sexo, color de su piel, nacionalidad, su nivel de motivación, niveles de ansiedad, el

número de nacimientos, número de matrimonios, frecuencia de suicidios, estatura, peso,

niveles de inteligencia, actitudes, entre muchas otras.

Las variables constituyen la unidad básica de toda investigación. Generalmente cuando se

investiga un asunto o problema lo primero que se hace es definir y clarificar el problema y lo

que realmente se hace en esta fase es establecer la relación de causa y efectos entre dos o

más variables. Por ejemplo, supongamos que se vaya a investigar el problema de la

ansiedad como una condición que afecta al aprovechamiento académico de los estudiantes

en una determinada escuela entre niños de tercer grado. En este caso tenemos dos

variables principales: ansiedad y aprovechamiento académico. Niños de tercer grado es

otra variable que indica la población bajo estudio. Y si él (la) investigador(a) interesa saber si

hay o no diferencias significativas entre niñas y varones sobre el efecto de la ansiedad,

entonces añadiría otra variable en su investigación: el sexo.

Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según

la naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes

clasificaciones:

Page 21: ESTADISTICA,general

21

CLASIFICACIÓN DE LAS VARIABLES

CLASIFIC. VARIABLES TIPOS EJEMPLOS

POR SU

RELACION DE

DEPENDENCIA

O CAUSAL

INDEPENDIENTES

Es la variable que se manipula con la intención de observar cambios en otra

variable (var. Dependiente)

La educación de las madres

(Analfabeto, Primaria, secundaria,

Superior, etc)

DEPENDIENTES

Aquella en la que se observa cambios por efectos producidos por algún estimulo

(var. Independientes)

La desnutrición (Alta, media, baja)

El rendimiento de los hijos (aprobado,

desaprobado)

POR SU

NATURALEZA

VAR. CUALITATIVA

Indican una característica o cualidad de

un elemento, las operaciones

aritméticas, no son significativas.

Sexo, Nacionalidad, Nombres

Marcas de auto, Colores,

Grado de Satisfacción, puesto laboral,

grado de instrucción, estado Civil,

VAR. CUANTITATIVA

Cuando los datos que se estudia son

números y es posible operarlas

aritméticamente

DISCRETA

Solo adoptan ciertos valores y existe espacio

entre ellos.

edad,

número de días

cantidad hijos

CONTINUA

Cuando adopta cualquier valor dentro de un

rango especifico.

longitud,

superficie, volumen,

peso, tiempo, dinero

SEGÚN EL

NUMERO DE

VARIABLES

UNIDIMENSIONAL

Cuando se estudia una sola variable o muchas, pero en forma independiente

La edad, El rendimiento

La autoestima, El estado Civil

BIDIMENSIONAL

Cuando se estudia dos variables al mismo tiempo, para ver la relación entre

ellas

Horas de estudio y el rendimiento

La autoestima y el rendimiento

Salario y el tiempo de servicio en años

MULTIDIMENSIONAL

Cuando se estudia más de 2 variables al mismo tiempo.

El Sexo, la edad, el salario y el

rendimiento

Page 22: ESTADISTICA,general

DEPARTAMENTO DE INVESTIGACIÓN

ESTADÍSTICA GENERAL

- 22 -

ESCALAS DE MEDICIÓN

Es una sucesión de medidas que permite organizar datos en orden jerárquico y mediante un

esquema específico para asignar números o símbolos con el objeto de designar

características de una variable (Ary, Jacobs, Razavieh, 1984). La taxonomía más conocida

sobre las escalas de medición las presenta Stevens (1951) quien las clasifica en nominales,

ordinales, de Intervalos y de razón. A continuación veamos los cuatro tipos de escalas de

medición.

ESCALAS NOMINALES

Las escalas nominales son aquellas donde se clasifican a los elementos

en categorías cualitativamente distintas.

Consiste simplemente en agrupar objetos en clases o asignar las

personas de acuerdo a alguna cualidad una vez que los objetos o

personas posean características comunes que lo hagan pertenecer a

una categoría.

Se pueden utilizar números en las escalas nominales, pero estas solo

como etiquetas, nunca se utilizarán para llevar a cabo los

procedimientos matemáticos de suma, resta, multiplicación y división.

Por ejemplo, El DNI, la placa de los automóviles.

Su función solamente está dada para efectos de identificación, no

podemos hacer alguna estimación de la magnitud de lo que

clasificamos.

Los elementos solo pueden ser

clasificados en categorías pero no

se da un orden o jerarquía.

• Existe un orden o jerarquía entre las categorías.

• Posee un atributo de orden (Desnutrición, El nivel

de instrucción, Intensidad)

• Establece la distancia entre una medida y otra.

• Carece de un cero absoluto.

• Es posible cuantificar la diferencia entre dos valores.

• Generalmente tienen unidad de medida.

• Existe el 0 absoluto, es la ausencia de la variable medida.

• Esta escala permite todas las operaciones matemáticas.

• La multiplicación y la división adquieren significación

• La diferencia entre dos valores es importante y definido.

DICOTOMICAS

TRICOTOMICASMULTITOMICASa. Nominales

b. Ordinales

c. De Intervalo

d. De razón

Page 23: ESTADISTICA,general

- 23 -

ESCALAS ORDINALES

Escala ordinal = Nominal + Orden

Las escalas ordinales son las que clasifican a las personas, eventos u

objetos en una posición con relación a cierto atributo, pero sin indicar la

distancia que hay entre las posiciones.

Cuando se asignan números es sólo para indicar el orden de las

posiciones de lo que se está clasificando. Por ejemplo, el cuadro de

meritos del curso de Estadística.

En este nivel también se definen varias categorías, pero además de

mostrar un ordenamiento existe una relación de “mayor o menor que”

entre ellas.

Las etiquetas, símbolos o números asignados si indican jerarquía,

aunque no es posible conocer la magnitud de la diferencia entre cada

una de las categorías

Con las escalas ordinales tampoco se pueden llevar a cabo las

operaciones aritméticas de suma, resta, multiplicación y división. La

diferencia que puede haber entre unas personas u objetos en este tipo

de escala no necesariamente constituye unidades iguales o absolutas

que puedan utilizarse para determinar si el que tiene un segundo lugar

posee el doble valor que el que queda en cuarta posición. Por ejemplo,

en un evento atlético de una carrera que no haya sido cronometrada,

podemos saber quién llegó primero, segundo y tercer lugar, pero no

podemos saber con precisión la velocidad entre un corredor y otro. La

diferencia que hay entre el primero y el segundo no necesariamente es

igual a la que hubo entre el segundo y el tercero.

Page 24: ESTADISTICA,general

- 24 -

ESCALA DE INTERVALO

Esta escala mide las variables de manera numérica

Los números de esta escala permiten establecer distancias entre 2

individuos.

Las operaciones aritméticas de suma o resta son perfectamente

realizables y significativas, no siendo la multiplicación o división (no

tienen significados)

El cero es un valor que no indica ausencia de la característica (es decir

es relativo) y es colocado en algún lugar de la escala. Ejemplo: la

Temperatura, donde el cero no implica la ausencia de temperatura

Ejemplo2: La escala de inteligencia posee un punto 0, pero nunca se va

a encontrar a un ser humano con cero de inteligencia.

ESCALA DE RAZON O COCIENTE

El cero, indica la ausencia de la característica que se está midiendo

(cero absoluto)

Las operaciones aritméticas de multiplicación y división adquieren

significado

La diferencia entre 2 valores es significativa y de magnitud definida.

Ejemplo1: 0 ingreso de ventas, significa que no se ha producido ninguna

venta.

Ejemplo2: un artículo que pesa 6 kg., tiene el doble de peso que otro de

3 kg.

Page 25: ESTADISTICA,general

- 25 -

CARACTERISTICAS, EJEMPLOS Y LIMITACIONES DE LAS

ESCALAS DE MEDICION

ESCALA CARACTERISTICAS USOS/EJEMPLOS LIMITACIONES

Nominal

Se clasifican las

personas, eventos u

objetos en categorías

Denominaciones religiosas,

partidos políticos, nombres

de objetos, pinturas,

movimientos literarios.

No se pueden precisar

diferencias cuantitativas

entre las categorías.

Ordinal

Se clasifican u ordenan

las

personas, objetos y

eventos en determinada

posición

Orden de llegada de atletas

en una carrera,

puntuaciones de una

prueba, rangos militares,

nivel de popularidad de

estudiantes en una escuela.

Restringida para

Identificar diferencias

relativas, pero no precisa

diferencias en cantidad

absoluta entre personas

u objetos.

Intervalo

Escala que posee

unidades de igual

magnitud. El punto cero

de la escala es arbitrario

y no refleja la ausencia

del atributo.

Temperaturas (Celsius y

Fahrenheit), fechas del

calendario, escala de

inteligencia.

Razones no tienen

sentido ya que el punto

cero es establecido

convencionalmente

Razón

Escala que posee un

punto cero absoluto e

intervalos de igual

magnitud.

Distancia, peso, estatura,

tiempo requerido para

realizar una tarea escolar.

Ninguna, excepto que su

uso se supedita

mayormente a medir

cualidades físicas más

que para la medición de

aspectos psicológicos.

Page 26: ESTADISTICA,general

- 26 -

PRUEBAS ESTADISTICAS ASOCIADAS A CADA UNA DE LAS ESCALAS DE

MEDICION

Los siguientes cuadros contienen las principales pruebas estadísticas. Estos cuadros solo

representan una guía o procedimiento estadístico en particular.

A. PRUEBAS ESTADÍSTICAS DESCRIPTIVAS MÁS FRECUENTES DE ACUERDO A LA

ESCALA DE MEDICIÓN DE LA VARIABLE DE ESTUDIO

TIPO DE

DESCRIPCION

ESCALA DE LA

VARIABLE MÉTODO O TÉCNICA ESTADISTICA

Variables

individuales

Cualitativa (nominal

u ordinal)

- Frecuencias, proporciones o porcentajes

representados por grafico de barras, pastel o

pictograma

Cuantitativa

(Intervalo o razón)

- Distribución de frecuencias en clases.

- Frecuencias acumuladas

- Medidas de tendencia central, dispersión,

posición, curtosis.

Asociación entre

variables

Cualitativa con

cualitativa

- Tablas de contingencia

- Gráficos de barras

- Prueba de Kendall, de Cramer, de Spearman

Cualitativa con

cuantitativa

- Tablas de clasificación categórica con

promedios y desviaciones o error estándar

de cada entrada

Cuantitativa con

cuantitativa

- Grafico de puntos (dispersión)

- Coeficiente de correlación de Pearson

- Recta de regresión

Page 27: ESTADISTICA,general

- 27 -

B. PRUEBAS ESTADÍSTICA INFERENCIALES MÁS FRECUENTE DE ACUERDO A LA

ESCALA DE MEDICIÓN DE LA VARIABLE EN ESTUDIO.

TIPO DE

DESCRIPCION

ESCALA DE LA

VARIABLE METODO O TECNICA ESTADISTICA

Variables

individuales

Nominales

- Prueba Z para una proporción poblacional.

- Prueba X2 para varias proporciones en

una sola población.

- Intervalos de confianza para proporciones

Ordinales

- Prueba del signo o binomial para la

mediana poblacional

- Intervalo de confianza para proporciones

Asociación entre

variables

Muestras grandes

con distribución

normal

- Prueba t-student para un promedio

poblacional.

- Intervalo de confianza para el promedio

Muestras

pequeñas sin

distribución normal

- Prueba del signo o binomial para la

mediana poblacional.

- Intervalo de confianza para el promedio

Page 28: ESTADISTICA,general

- 28 -

C. PRUEBAS ESTADÍSTICAS PARA ESTUDIOS COMPARATIVOS MAS FRECUENTES

DE ACUERDO A LAS ESCALAS DE MEDICIÓN DE LA VARIABLE EN ESTUDIO.

TIPO DE

DESCRIPCION

ESCALA DE

LA VARIABLE

METODO O TECNICA ESTADISTICA

Independientes

(sin control de

factores de

confusión)

Nominal

- Prueba de Fisher

- Prueba X2

- Calculo del riesgo relativo

- Modelos logísticos y logarítmicos lineales

Ordinal

- Prueba U de Mann Whitney (dos poblaciones)

- Prueba de Kruskall Wallis (2 o más

poblaciones)

- Modelos logarítmicos lineales

Independientes Razón

- Prueba t-student (dos poblaciones)

- Análisis de varianza para la prueba F (más de

2 poblaciones) seguida de la prueba de

medias de Tukey, Dunkan, etc.

- Prueba de logrank para comparar sobreviva.

- Regresión múltiple

Dependientes

con bloques o

igualación de

atributos

Nominal

- Prueba de McNemar.

- Método de Mantel Haenzel

- Prueba de X2 para cada bloque

- Modelo logísticos y logarítmicos lineales.

Ordinal - Prueba de Friedman

- Prueba de Wilcoxon para rangos señalados

- Modelos logarítmicos lineales

Razón

- Prueba “t” apareada

- Análisis de varianza para prueba F con 2

criterios de clasificación con prueba de Tukey

- Regresión múltiple

Page 29: ESTADISTICA,general

- 29 -

RECOLECCION DE DATOS

La recolección de datos proporciona la materia prima para el proceso estadístico. La

veracidad de los resultados depende de la calidad de los datos que se recolecten. A menudo

esta actividad de recolección es la que consume mayor tiempo y costo, por lo que es lógico

concluir que es muy importante planearla y ejecutarla adecuadamente.

La recolección de datos implica tres actividades:

o Seleccionar o desarrollar un instrumento de medición.

o Aplicar ese instrumento de medición

o Codificar las mediciones obtenidas para su análisis.

FUENTES DE INFORMACION

Los datos pueden reunirse a partir de fuentes de información existentes o pueden obtenerse

mediante encuestas y estudios experimentales diseñados para conseguir nuevos datos. Las

fuentes de información pueden ser:

Primarias Información que se obtiene

directamente de la Unidad

de observación

Secundarias Información elaborada a base de

datos de las fuentes primarias

Fuentes de datos

internos. aquellas que la empresa puede

obtener y explorar por sus

propios medios y recursos sin

necesidad de acudir a terceros

Reportes Financieros,

Reporte de operaciones,

planificación, reportes

especiales, etc

Informes, Análisis o

comparaciones sobre reportes

anteriores de la empresa

Fuentes de datos

externos Información que están situadas

fuera de la empresa cuya

información puede obtenerse a

través de diferentes medios

Informes de Estudio de

mercado, estudio de

posicionamiento,

Reportes del INEI

Análisis o informes basados en

los reportes del INEI, Ministerios

u otras entidades que genera

información estadística

Una fuente de información es el lugar, la institución, la persona donde están

los datos que se necesitan para la investigación.

Page 30: ESTADISTICA,general

- 30 -

TECNICAS E INSTRUMENTOS DE RECOLECCION

DE DATOS

Desde el inicio de la investigación se hace necesario decidir sobre el enfoque a

utilizar, lo que determina las características de todo el estudio.

Un buen instrumento determina en gran medida la calidad de la información, siendo

esta la base para las etapas subsiguientes y para los resultados.

La metodología utilizada en la recolección de datos debe definir el tipo de información

requerida (cuantitativa, cualitativa o ambas).

Método: Representa la estrategia o camino a través del cual se establece la relación

entre el investigador y el consultado para la recolección de los datos, se citan la

observación y la encuesta.

Técnica: conjunto de reglas y procedimientos que permiten al investigador establecer

la relación con el objeto o sujeto de la investigación.

Instrumento: mecanismo que usa el investigador para recolectar y registrar la

información; formularios, pruebas, test, escalas de opinión, listas de chequeo.

Las principales técnicas de recolección de datos son:

ENCUESTA

OBSERVACIÓN ENCUESTA

ENTREVISTA ANÁLISIS DOCUMENTAL

Page 31: ESTADISTICA,general

- 31 -

La encuesta

La entrevista

La observación (no experimental y experimental)

El Análisis documentario

1. LA OBSERVACION

Es el registro visual de lo que ocurre en una situación real, clasificado y consignando

los datos de acuerdo con algún esquema previsto y de acuerdo al problema que se

estudia.

VENTAJAS DESVENTAJAS

Permite obtener datos cuantitativos y

cualitativos.

Se observan características y

condiciones de los individuos.

También conductas, actividades,

características o factores ambientales.

Puede ser utilizada en cualquier

investigación y área del saber.

Es un método que no depende de

terceros o de registros; con ello se

eliminan sesgos y ambigüedades.

Se requiere de mucha habilidad y

agudeza para “ver” los

fenómenos estudiados.

Demanda gran cantidad de

tiempo.

Tiene sesgos; el humano ve lo

que quiere ver.

Al momento de la interpretación

pueden distorsionrse los hechos

e ir más allá de lo que vimos en

realidad.

PARA REDUCIR LOS PROBLEMAS SE UTILIZA

Definir claramente los objetivos perseguidos.

Determinar claramente la unidad de observación.

Registrar las condiciones en que se asumirá la observación y las conductas

LOS ERRORES MAS COMUNES EN LA OBSERVACION

Los fenómenos a observar no se dan de la misma manera en todos los sujetos

de observación.

Cuando el observador tiene ideas prejuiciadas.

Cuando el instrumento no es válido o es poco exacto o está mal definido.

Page 32: ESTADISTICA,general

- 32 -

TIPOS DE OBSERVACION

CLASES TIPOS CARACTERISTICAS

Según el

Nivel de

participación

Observación

Participante

El investigador se involucra total o

parcialmente con la actividad objeto de

investigación.

La observación se hace desde el interior del

grupo.

Pueden intervenir las emociones del

investigador.

Observación

NO

Participante

El investigador no se involucra en la

actividad objeto de estudio.

Los datos pueden ser más objetivos.

Al no integrarse al grupo los datos pueden no

ser exactos, reales y veraces.

Según la

forma de

registrar la

conducta

Observación

Directa

Cuando el investigador se pone en contacto

personalmente con el hecho o fenómeno que

se quiere investigar

Observación

Indirecta

A través de filmadoras u otro medios

audiovisual

Según la

Planificación

de la

observación

Simple o No

estructurada

El investigador utiliza lineamientos generales

parta observar y luego escoge lo que estima

relevante a los efectos de la investigación

propuesta.

Fundamentalmente usada para estudios

exploratorio

Sistemática

o

Estructurada

El investigador dispone de un instrumento

estructurado y estandarizado para medir las

variables en estudio (lista de cotejos, etc).

Page 33: ESTADISTICA,general

- 33 -

2. LA ENTREVISTA

Es la comunicación interpersonal establecida entre el investigador y el sujeto de

estudio a fin de obtener respuestas verbales a las interrogantes planteadas sobre el

problema propuesto.

VENTAJAS

Es aplicable a toda persona, (incluyendo a con limitaciones física o

psicológica).

Permite estudiar aspectos psicológicos o de otra índole donde se desee

profundizar en el tema.

Permite obtener información más completa,

A través de ella el investigador puede: Aclarar el propósito del estudio,

especificar claramente la información que necesita, aclarar preguntas y permite

usar triangulación.

Permite captar mejor el fenómeno estudiado ya que permite observar lenguaje

no verbal.

TIPO DE ENTREVISTAS

1. ENTREVISTA ESTRUCTURADA

Se elabora un formulario estandarizado.

Idénticas preguntas y en el mismo orden a todos los sujetos.

Los sujetos eligen la respuesta de 2, 3 o pocas más alternativas.

Los comentarios y explicaciones son los mismos para todos.

VENTAJAS DESVENTAJAS

Respuestas cortas y precisas.

Información fácil de procesar.

El entrevistador no requiere

gran entrenamiento.

Información uniforme.

La información puede ser muy

superficial.

Limitada la posibilidad de

profundizar en un aspecto

determinado.

Difícil obtener información

confidencial.

Page 34: ESTADISTICA,general

- 34 -

2. ENTREVISTA NO ESTRUCTURADA

Es flexible y abierta, pero regida por los objetivos de la investigación.

Las preguntas, su contenido, orden y formulación es controlado por el

investigador, el que puede adaptarlas dependiendo de las situaciones

y características de los sujetos en estudio.

El entrevistado también cuenta con libertad para dar sus respuestas.

Se utiliza un instrumento guía que contiene las orientaciones de los

temas a tratar.

Muy útil para estudios exploratorios, descriptivos y cualitativos

VENTAJAS DESVENTAJAS

Adaptable y aplicable

a toda clase de

sujetos en diversas

situaciones.

Permite profundizar

en los temas de

interés.

Orienta posibles

hipótesis y variables

cuando se exploran

áreas nuevas.

Requieren mucho tiempo.

Muy costosos por el tiempo de las entrevistas.

Limitado para personas con problemas de la

palabra.

Dificultad para tabular datos que han sido

recopilados de distinta forma.

Se requiere crear confianza y comodidad

entre el entrevistado y el entrevistador.

Se requiere habilidad técnica para obtener la

información y mayor conocimiento respecto

del tema.

Debido a que son entrevistas en profundidad

habitualmente se utilizan muestras pequeñas.

CONSIDERACIONES PARA LAS ENTREVISTAS

Para evitar el rechazo o atrasos al aplicar entrevistas:

Establecer los contactos necesarios para el buen fin de las entrevistas.

Entrevistador debe estar bien capacitado.

El entrevistador debe establecer una buena comunicación con el

entrevistado, uso de vestuario adecuado, lenguaje adecuado, escuchar

adecuadamente, no apresurar al entrevistado, etc.

Buen registro de la información a fin de poder interpretarla adecuadamente.

El entrevistador debe:

Page 35: ESTADISTICA,general

- 35 -

Dejarle un mensaje positivo al entrevistado.

Jamás dar consejos,

Jamás hacer juicios morales,

Jamás rebatir al entrevistado.

3. LA ENCUESTA

Método que utiliza un formulario impreso, destinado a obtener respuestas

sobre el problema en estudio y que el sujeto investigado llena por sí mismo.

La encuesta puede aplicarse a grupos o individuos estando presente el

investigador. Incluso puede enviarse por correo a los destinatarios.

Algunos instrumentos utilizado en la encuesta son: EL CUESTIONARIO, TEST

– FORMULARIOS - PRUEBAS

VENTAJAS DESVENTAJAS

Costo relativamente bajo.

Proporciona información sobre

un mayor número de personas

en un período breve.

Fácil para obtener, cuantificar,

analizar e interpretar datos.

Menores requerimientos de

personal capacitado.

Mayor posibilidad de mantener

anonimato de los encuestados.

Eliminación de los sesgos que

introduce el encuestador.

Es poco flexible, la información no

puede variar ni profundizarse.

Si el cuestionario se envía por

correo, es posible que no sean

devueltos o que no se obtengan

respuestas.

No utilizable en personas que no

saben leer ni escribir.

No permite aclarar dudas.

Resulta difícil obtener

cuestionarios completamente

contestados.

Se deben obtener grandes

muestras.

Page 36: ESTADISTICA,general

- 36 -

4. ANALISIS DOCUMENTARIO

Este tipo de investigación es la que se realiza apoyándose en fuentes de carácter

documental (documentos que se encuentran en los archivos, como cartas, oficios,

circulares, expedientes, etc).

Consiste en seleccionar las ideas informativamente relevantes de un documento a

fin de expresar su contenido sin ambigüedades para recuperar la información

contenida. Esta representación puede ser utilizada para identificar el documento e

identificar su contenido o para servir de sustituto del documento.

III. EJERCICIOS

3.1. De los siguientes incisos, ¿cuáles representan variables discretas y cuáles variables

continuas?

a) El número de acciones vendidas por día en la bolsa de valores.

b) Las temperaturas registradas cada media hora en un observatorio.

c) El tiempo de vida de baterías de equipos celulares con cámara y MP3.

d) El ingreso anual de los profesores universitarios.

e) La longitud de 1000 tornillos producidos por una fábrica.

3.2. Establece una correspondencia entre las variables indicadas y la clasificación que se

muestra a continuación:

VARIABLES CLASIFICACION

1 El peso y la talla A Cualitativa – Nominal.

2 Ciclos de estudios de una carrera

profesional B

Dependiente, independiente

– Bidimensional.

3 El ingreso familiar en soles C Cuantitativa discreta –

Unidimensional.

4 Lugar de nacimiento de los

estudiantes de la UCV D Cualitativa – Ordinal.

5 La raza y la religión del padre de los

pobladores de una ciudad E

Cualitativa, cualitativa –

Bidimensional.

6 El Nº de libros que tiene cada una de

las universidades del Perú F

Cuantitativa continua –

Razón.

Page 37: ESTADISTICA,general

DEPARTAMENTO DE INVESTIGACIÓN

ESTADÍSTICA GENERAL

- 37 -

3.3. Indica a qué clase de variable: por su naturaleza y por su escala de medición,

pertenece cada uno de los siguientes casos:

a) Cantidad de hombres y mujeres en un aula de clase.

b) La edad (en años cumplidos) de los estudiantes de la UCV.

c) Grado de instrucción de los PPFF de los alumnos de un centro educativo.

d) El nivel de autoestima.

e) Etapas del desarrollo.

f) Coeficiente intelectual.

3.4. Proporciona una definición operacional en cada uno de los siguientes casos:

a) Un buen trabajador b) Un bonito día

c) Un servicio de atención rápido d) Tiempo de estudio

e) Número de personas en el hogar f) Un buen estudiante

3.5. Un investigador que está estudiando hábitos de consumo le pregunta a cada vigésima

persona que entra en un supermercado acerca del número de veces que va de

compras semanalmente

a) Si la persona encuestada responde 2, ¿esta respuesta es una muestra, variable,

medida estadística, parámetro o dato? ¿La respuesta es un valor cuantitativo o

cualitativo?, ¿porqué?

b) A la persona encuestada también se le pregunta por su edad, estado civil e

ingresos y responde: 32, soltero, S/. 1500 respectivamente. Identifique los

elementos de cada uno de estos datos.

3.6. Propón las técnicas e instrumentos que se podrían utilizar en la recolección de datos

para responder las preguntas que se presentan a continuación y explica la razón de su

elección.

a) ¿Cuál es la opinión de los estudiantes de la universidad sobre la actual política

educativa?

b) ¿Qué opinan los residentes de una urbanización y del Consejo Territorial

correspondiente, sobre la seguridad ciudadana en dicha urbanización?

Page 38: ESTADISTICA,general

- 38 -

c) ¿Cuáles son los niveles de desempeño del docente y de rendimiento de los

alumnos del curso de Estadística General de la UCV?

d) ¿Existe relación entre el nivel de autoestima de los trabajadores de una empresa y

su nivel de satisfacción en el trabajo?

e) ¿Cuál es la opinión de los decanos de las facultades sobre las fortalezas y

debilidades de la investigación científica en la universidad y sus causas?

f) ¿Cuáles son los tiempos promedio de espera y de atención de los clientes de un

banco en las colas que se forman en las ventanillas y la opinión al respecto?

g) ¿Cuál es la opinión de los residentes en el distrito de Salaverry sobre la calidad del

agua potable y la calidad de atención al cliente?

h) ¿Cuál es el pronóstico de las ventas de una empresa para los años 2009 y 2010,

teniendo en cuenta las ventas durante los últimos diez años?

i) ¿Cuál es el desgaste de los rodamientos de cierto tipo de máquinas y su relación

con el tipo de aceite que se utiliza para lubricarlas?

j) ¿Cuál es la opinión de las autoridades del sector turismo del departamento de la

Libertad sobre cómo incrementar el flujo de turistas nacionales y extranjeros hacia

el departamento?

3.7. Un profesor está interesado en analizar la relación entre el rendimiento académico de

los estudiantes de un examen con otras variables como edad, género, escuela, tiempo

de estudio fuera de clase, tiempo de diversión fuera de clase, otras actividades que

realiza fuera de clase, método de estudio, etc. Algunas de las preguntas o ítems del

primer cuestionario que elabora como instrumento para recolectar los datos son:

1) Edad

2) Género

3) Escuela a la que pertenece

4) ¿Cuántas horas a la semana

dedica al estudio, fuera de clases?

5) ¿Además de estudiar, realiza otro

tipo de trabajo?

6) ¿Cuántas horas a la semana dedica a

trabajar, además de estudiar?

7) ¿Realiza actividades de diversión?

8) ¿Cuántas horas a la semana dedica a

divertirse?

9) ¿Cuál es el método de estudio que

utiliza?

10) ¿Cuál es tu estrato socio-económico?

Page 39: ESTADISTICA,general

39

ACTIVIDADES DE REFORZAMIENTO

4.1. Propón la técnica e instrumento de recolección de datos que se podrían utilizar para

lograr los siguientes objetivos.

4.2. Algunos de los objetivos específicos de una investigación para analizar la satisfacción

de los clientes de un restaurante son: (a) Describir el perfil de los clientes, (b) Evaluar

la atención del personal, según la opinión de los clientes, (c) Determinar la opinión de

los clientes sobre la calidad de la comida, (d) Conocer la opinión de los clientes sobre

la infraestructura, (e) Identificar las razones por las que los clientes prefieren el

restaurante. Elabora un cuestionario estructurado y codificado, considerando por lo

menos dos preguntas para cada objetivo.

Objetivos Técnicas Instrumentos

Conocer la opinión de los estudiantes universitarios

sobre la política económica del gobierno

Conocer la opinión de los gerentes de las

entidades financieras sobre las últimas “medidas”

del gobierno en su sector.

Estimar el número promedio de automóviles por

hora que pasan por el cruce de dos avenidas y el

tiempo promedio entre llegadas

Evaluar el cumplimiento de las normas en el

otorgamiento de préstamos para vivienda en una

entidad financiera

Analizar si existe relación entre el nivel de

autoestima y el rendimiento académico de los

estudiantes de una facultad

Page 40: ESTADISTICA,general

40

REFERENCIAS BIBLIOGRÁFICAS

1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima

– Perú.

2. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición.

Edit. PHH S. A. – México.

3. FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición –

Edit. Préntice Hall Hispanoamericana S.A.- México.

4. GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la

Psicología y la Educación. Edit. Mc Graw-Hill – México.

5. MILLER, Irwin y FREUND, John E.,1995. Probabilidad y Estadística para Ingenieros

– Edit. Préntice Hall Hispanoamericana S.A. – México.

6. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-

Lima- Perú.

7. WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía.

3era edición – Edit. McGraw-Hill Companies, Inc. – Santa Fe de Bogotá- Colombia.

Page 41: ESTADISTICA,general

41

MUESTREO

I. DEFINICIONES PRELIMINARES:

UNIDAD DE ANÁLISIS:

Para seleccionar una muestra, primero se define la Unidad de Análisis que puede ser un

cliente, un votante, una organización, un libro contable, un periódico, un hospital, un paciente,

etc. Esta definición nos permite identificar “Quien va ha ser medido”, “Quien nos va ha dar la

información” y por lo tanto precisar claramente el problema a investigar y los objetivos de la

investigación.

POBLACION OBJETIVO:

Una vez que se ha definido la unidad de análisis se procede a delimitar la población que va a

ser estudiada y sobre la cual se pretende generalizar o inferir los resultados. Entonces, una

población es el conjunto de todas las unidades de estudio que concuerdan con una serie de

especificaciones o características. Para seleccionar la muestra debe delimitarse la población

identificando sus características o variables de interés a fin de determinar los parámetros

poblacionales. En algunos casos, la delimitación de una población no sólo depende de los

objetivos del estudio, sino de otras razones prácticas. Las poblaciones tienen que ser

especificadas en contenido, lugar y tiempo.

MUESTRA:

La muestra es un subconjunto de elementos que pertenecen a una población de estudio. Para

seleccionar una muestra debemos de tener presente el tipo de muestreo a utilizar: muestreo

probabilística y el muestreo no probabilístico. Se tiene que definir la variable de interés, para

que en función de esta se sepa qué tipo de muestreo utilizar. Luego calcular el tamaño de

muestra y finalmente seleccionar las unidades de análisis.

Page 42: ESTADISTICA,general

42

A. TECNICAS PROBABILISTICAS

MUESTREO

Es una TÉCNICA ESTADÍSTICA por la cual se realizan inferencias a la población examinando

solo una parte de ella, ésta parte recibe el nombre de MUESTRA, la cual debe ser

estadísticamente representativa y adecuada.

Ventajas: Desventajas:

Costo reducido • Presencia del error de muestreo

Mayor rapidez • Presencia de gran variabilidad de las obs.

Claridad

TÉCNICAS DE MUESTREO: Existen 2 tipos de técnicas de muestreo:

A. TECNICAS PROBABILISTICAS: B. TECNICAS NO PROBABILISTICAS

Muestreo aleatorio • El muestreo a criterio o juicio.

Muestreo aleatorio estratificado • El muestreo por cuotas.

Muestreo sistemático • El muestreo por conveniencia.

Muestreo por conglomerados • El muestreo intencional

MUESTREO ALEATORIO:

Escoge al azar los miembros de la población hasta completar el tamaño muestral previsto.

En teoría se enumeran previamente todos los elementos y de acuerdo con una tabla de

números aleatorios se van escogiendo.

El procedimiento puede darse con o sin reemplazos y esta condición afectará posteriormente el

análisis.

a. Sin reposición:

Cuando un elemento es seleccionado y puede volver a ser seleccionado, se dice que hacemos

un muestreo aleatorio con reemplazamiento o con reposición. Generalmente recibe el nombre

de muestreo aleatorio simple. (m.a.s.)

b. Con reposición:

En caso de que el elemento no vuelva a formar parte de la población de manera que no puede

volver a ser seleccionado se dice que se ha obtenido la muestra mediante un muestreo

aleatorio sin reposición o reemplazamiento. En algunos libros, este método recibe también el

nombre de muestreo irrestrictamente aleatorio.

Page 43: ESTADISTICA,general

43

B. TECNICAS NO PROBABILISTICAS

MUESTREO POR CUOTAS:

También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un

buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o

"adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el

muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.

MUESTREO SISTEMATICO:

En la población (N) se elige el primer elemento al azar.

Luego los demás se escogen cada cierto intervalo (k), hasta completar el tamaño muestral (n).

El tamaño del intervalo (k) se calcula así: k = N/n

MUESTREO ESTRATIFICADO:

Considera que al interior del universo existen estratos (subgrupos internamente homogéneos

pero cualitativa y cuantitativamente diferentes entre sí), y que no se cumple la condición de

selección aleatoria pues los miembros del grupo mayoritario tienen una mayor probabilidad de

ser seleccionados en la muestra.

MUESTREO POR CONGLOMERADO:

En el muestreo por conglomerados, la población se divide en unidades o grupos, llamados

conglomerados (generalmente son unidades o áreas en los que se ha dividido la población),

que deben ser lo más representativas posible de la población, es decir, deben representar la

heterogeneidad de la población objeto del estudio y ser entre sí homogéneos.

MUESTREO A JUICIO:

Se busca seleccionar a individuos que se juzga de antemano tienen un conocimiento profundo

del tema bajo estudio, por lo tanto, se considera que la información aportada por esas personas

es vital para la toma de decisiones.

Page 44: ESTADISTICA,general

44

II. DISEÑO DE LA MUESTRA:

Para determinar el tamaño, primeramente hay que identificar la variable a estudiar

(Cuantitativa o cualitativa). Luego depende de cuatro factores o elementos que son los

siguientes:

MUESTREO OPINÁTICO O INTENCIONAL:

El investigador selecciona aquellos casos que le están más disponibles. Los resultados que se

obtengan no podrán generalizarse más allá de los individuos que componen la muestra, al igual

que las conclusiones.

BOLA DE NIEVE:

Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta

conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen

estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos,

etc.

Page 45: ESTADISTICA,general

45

III. TAMAÑO DE LA MUESTRA

3.1. PARA UNA VARIABLE CUANTITATIVA:

a. Un nivel de confianza: Que es adoptado por el investigador, el cual puede ser 90%,

95% o 99% y que origina el valor de Z.

b. El error de estimación (E): Que también es fijado por el investigador

c. La desviación estándar ó varianza: que son valores que se obtienen por estudios

anteriores, por la muestra piloto o por la distribución de la población.

d. El Tamaño de la población (N): Que generalmente no se conoce.

Se quiere saber cómo se comporta una cierta

característica en una Población particular

La población

está bien

definida

?

Definir La

población

Es posible

observar toda la

población?

Observaruna Muestra

Hacerun Censo

NONO

De que naturaleza es el parámetro

que se quiere estimar

?

Las observaciones pueden atribuirse a los miembros la

población

Muestreo Representativo

para estimar una Proporción

Variable Cualitativa

Variable Cuantitativa

Muestreo Representativo

para estimar una Media

Page 46: ESTADISTICA,general

46

3.2. PARA UNA VARIABLE CUALITATIVA:

a. Un nivel de confianza: Que es adoptado por el investigador, el cual puede ser 90%,

95% o 99% y que origina el valor de Z.

b. El error de estimación (E): Que también es fijado por el investigador

c. La proporción poblacional (P): que son valores que se obtienen por estudios

anteriores, por la muestra piloto y si no se conoce asumir p=0.5.

d. El Tamaño de la población (N): Que generalmente no se conoce.

3.3. FORMULAS PARA DETERMINAR EL TAMAÑO DE MUESTRA:

VARIABLE

Cualitativa

(Proporción

Poblacional)

Cuantitativa

(Promedio

Poblacional)

POBLACION INFINITA

(Cuando no se conoce N) 2

2

0

)-1(=

E

PPZn 2

22

0 =E

SZn

POBLACION FINITA

(Cuando se conoce N)

)-1(+)1-(

)-1(= 22

2

PPZNE

NPPZn

222

22

+)1-(=

SZNE

NSZn

Z = es el valor de la distribución normal estandarizada para un nivel de confianza

fijado por el investigador.

S = Desviación estándar de la variable fundamental del estudio o de interés para el

investigador. Obtenida por estudios anteriores, muestra piloto, criterio de

experto o distribución de la variable de interés.

P = es la proporción de la población que cumple con la característica de interés.

E = % del estimador o en valor absoluto (unidades). Fijada por el investigador.

N = Tamaño de la población.

Page 47: ESTADISTICA,general

47

3.4. ESTIMACION DE LOS VALORES A APLICAR EN LAS FORMULAS

A. Valor de Z: es el valor de la abscisa de la distribución normal estandarizada

teniendo en cuenta el nivel de confianza fijado por el investigador, por lo tanto

este valor se encuentra en las tablas estadística respectiva. Para hacer el

trabajo menos tedioso, presentamos a continuación los diferentes valores de Z

VALORES DE LA DISTRIBUCIÓN NORMAL

ESTANDARIZADA(Z)

Nivel de confianza

(1-)

Nivel de

significancia

()

Valor Z

Bilateral Unilateral

90% = 0.90

95% = 0.95

98% = 0.98

99% = 0.99

10% = 0.10

5% = 0.05

2% = 0.02

1% = 0.01

1.64

1.96

2.33

2.58

1.28

1.64

2.05

2.32

B. Cálculo del Valor de P:(Se calcula este valor cuando la variable es

CUALITATIVA)

Que son valores que se obtienen por estudios anteriores, por la muestra piloto y

si no se conoce asumir p=0.5.

C. Cálculo del Valor de la varianza (Si la variable es CUANTITATIVA): este

valor es obtenida por estudios anteriores, muestra piloto, criterio de experto o

distribución de la variable de interés.

D. Cálculo del error de estimación: Generalmente se asume 2%, 5%, y 8% de

error. Este valor es fijado por el investigador. Es la diferencia entre el parámetro

(población) y el estimador (Muestra). Es decir, por ejemplo E=| x |. Este

error puede ser absoluto o relativo. Si E=±0.35 se denomina error absoluto. Si

consideramos un error del 10% de la media, es decir, E=10%( x )= 0.10(3.5)=

0.35 se denomina error relativo.

Page 48: ESTADISTICA,general

48

CASOS

CASO Nº 01: (Cuando se conoce la varianza)

CASO Nº 02: (cuando se conoce la varianza)

CASO Nº 03:

En un estudio realizado en la Minera Barrick se obtuvo que el

promedio de horas extras por trabajador es de 3.3 hrs., con una

varianza de 4.18 hrs2. Si en el presente año cuenta con 120

trabajadores, los cuales registran sus horas extras en tarjetas de

control. Determinar el tamaño de muestra necesario para estimar el

promedio de horas extras diarias con un error del 10% del promedio

y una confianza del 95%.

El Director del Departamento de Salud Pública de la Ciudad de

Trujillo desea obtener una muestra de los registros de casos de

mordidas de perro, reportadas durante el año anterior, para estimar la

edad media de las personas mordidas. El Director desea una

muestra con una seguridad del 95%, con un error del 5% del

promedio. En base a estudios anteriores se conoce que la edad

promedio de las personas que son mordidas por perros es de 25

años y la desviación estándar es de 5 años. ¿De que tamaño debe

ser la muestra?

De una población de 1,043 pequeños establecimientos comerciales

con 5 o más empleados, en una área del centro de la ciudad de

Trujillo, se requiere ser muestreada para estimar el numero medio de

empleados por establecimiento, teniendo información preliminar que la

desviación estándar es de 1.3 empleados.

¿Qué tamaño debe ser la muestra, si la estimación se establece una

precisión de 0.25 con una confianza del 95%?.

Analice los resultados obtenidos.

Page 49: ESTADISTICA,general

49

CASO Nº 04: (Cuando no se conoce la varianza-Muestra piloto)

CASO N° 05: (Cuando existen estudios previos)

Por estudios científicos se sabe que el Coeficiente de Inteligencia promedio para jóvenes

según la escala de Weshler es de 100 puntos con una desviación estándar de 15 puntos.

Determinar el tamaño de muestra para realizar una investigación sobre niveles de

inteligencia en la Universidad Privada del Norte, si se admite un error del 2% del promedio y

una seguridad del 95%.

CASO N° 06:

Se desea determinar una muestra representativa para conocer la opinión en contra de la

población acerca de la explotación del Cerro Quilish-Cajamarca. Se aplicó una muestra piloto

a 20 de los 10000 cajamarquinos, obteniéndose los siguientes datos. Cuál es el tamaño de

muestra con un 95% de confianza y un error del 2%?

Grupo Tamaño de muestra

A favor

En contra

Indecisos

9

8

3

Total 20

La Dirección Regional de Salud DIRESA-Trujillo esta realizando una

investigación acerca del comportamiento del peso de niños en la ciudad de

Trujillo y ver si presenta un plan de salud para mejorar esta factor latente de

bajo de peso. Como no se conoce la varianza se obtiene una muestra piloto

de 20 niños cuyos pesos son:

14.8, 14.2, 15.3, 15.4, 15.0, 15.2, 15.3, 14.2, 15.2, 15.5, 15.6, 16.4, 14.8,

15.1, 15.8, 16.1, 14.5, 15.3, 14.9, 15.9.

Determinar el tamaño de muestra apropiado con una confianza del 95% y

un error tolerable del 1% respecto al promedio.

Page 50: ESTADISTICA,general

50

CASO N° 07:

CASO Nº 08:

El administrador del Restaurante “El Romano” desea saber que proporción de sus Clientes-

Turistas están inconformes con las atenciones recibidas durante su estadía en Trujillo. ¿De

que tamaño debe ser la muestra si se considera E=0.05, nivel de confianza del 95% y no se

dispone de alguna otra información?

CASO N° 09:

Se desea estimar la proporción de jóvenes de la ciudad de Trujillo

que hacen uso de Internet como mínimo una hora diaria con un 95%

de confianza. De estudios anteriores se conoce que P=0.70 y se

desea un E = 5%. Suponiendo que N = 1500. Cual debe ser el

tamaño de muestra.

En una muestra piloto de tamaño 50 estudiantes universitarios,

seleccionados de 4,000 estudiantes se encuentra que 30 fuman, que

tamaño deberá ser la muestra, para que la precisión de estimación

“p” sea del 5%, considere una confianza del 95%.

Page 51: ESTADISTICA,general

51

Sesión 4 Organización de los datos:

Tablas y Gráficos Estadísticos

1. Construye e Interpreta los diferentes tipos distribuciones de frecuencias.

2. Presenta adecuadamente los cuadros estadísticos.

3. Construye e interpreta los gráficos de acuerdo a las normas técnicas del INEI

1. Valora la importancia que tiene la distribución de frecuencias y los gráficos como

método de organización y como método para describir el comportamiento de las

variables de interés.

2. Valora la importancia que tiene la estructura y la presentación adecuada de los cuadros

y gráficos estadísticos para descubrir patrones de comportamiento en la Investigación

científica.

3. Actitud creativa y disposición a trabajar en equipo.

Organización de datos: Distribución de Frecuencias. Interpretación. Presentación

de Cuadros. Representación grafica de acuerdo a las normas técnicas del INEI

CAPACIDADES

ACTITUDES

CONTENIDO

Page 52: ESTADISTICA,general

52

CUADROS ESTADISTICOS

I. CUADRO ESTADISTICO

Un cuadro estadístico es un arreglo ordenado de filas y columnas, de datos estadísticos

o características relacionadas, con el objeto de presentar adecuadamente información

estadística. (Ejemplo: las tablas del BCR, INEI). Deben ser diseñados de tal forma que el

lector pueda dirigirse fácilmente al cuadro.

II. FINALIDAD: Es ofrecer información resumida de fácil lectura, comparación e

interpretación

III. VENTAJAS:

Los cuadros permiten presentar en forma resumida y ordenada muchos datos.

Es un instrumento que clasifica, resume y comunica información estadística.

Facilita el análisis de los datos.

IV. PARTES DE CUADRO ESTADISTICO

Page 53: ESTADISTICA,general

53

1. Número: Es el código de identificación. El número se anota junto a la palabra tabla o

cuadro, ejm.: Tabla Nº 1, Cuadro Nº 1

2. Título: Se refiere a la descripción del contenido del cuadro. Debe indicar la

característica principal en estudio, lugar y tiempo que se realizó el trabajo.

3. Encabezamiento: Es la descripción de las filas y columnas de un cuadro

estadístico. El encabezamiento se ubica en la parte superior del cuerpo del cuadro.

4. Columna Matriz: En esta columna se designa la naturaleza del contenido de cada

fila. Se anotan las categorías o las diferentes clases de la escala de clasificación

utilizada.

5. Cuerpo del Cuadro: Se ubica la distribución de los datos estadísticos de acuerdo a

las indicaciones del encabezamiento y la columna matriz.

6. Notas explicativas: Se refiere a cualquier nota aclaratoria sobre el contenido del

cuadro estadístico.

7. Fuente: Sirve para indicar de donde se obtuvo la información estadística.

Ejemplo: Cuadro Nº 1

Intervenciones por delitos, registrados por la Policía Nacional, en el País

y en el Departamento de La Libertad, según tipo de falta: 2009

TIPO DE FALTA INTERVENCIONES EN DELITOS

TOTAL DPTO LA RESTO

Page 54: ESTADISTICA,general

54

PAIS LIBERTAD PAIS

Contra la vida el cuerpo y la salud 23681 2137 21544

Contra la tranquilidad pública 1/ 1296 1 1295

Contra el patrimonio 109112 7793 101319

Contra la familia 6669 21 6648

Contra la libertad 8531 424 8107

Contra la seguridad pública 7736 17 7719

Contra el orden económico 4247 -- 4247

Delito tributario 15081 -- 15081

Contra la fe pública 1483 6 1451

Contra la administración pública 314 6 308

Otros 924 36 888

TOTAL 179074 10467 168607

Fuente: Policía Nacional del Perú- División de Estadística

V. ERRORES MAS COMUNES

Disposición incorrecta de los datos

Títulos y encabezamientos incompletos e inadecuados

Datos no comparables: establecer comparaciones es una de las partes más

importantes del análisis

Cuadro sobrecargado

CLASIFICACION DE LOS CUADROS ESTADISTICOS

Page 55: ESTADISTICA,general

55

CUADROS DE DISTRIBUCION DE FRECUENCIAS

DEFINICION: Es una forma de organizar u resumir los datos con la finalidad de describir el

comportamiento de las variables de interés. Esta organización tabular, consiste en presentar

la lista de valores de la variable, clases o categorías junto con el número de veces que se

repite cada valor de la variable (frecuencia)

Page 56: ESTADISTICA,general

56

Donde: fi : Frecuencia absoluta simple

hi : Frecuencia relativa simple

Fi : Frecuencia absoluta acumulada

Hi : Frecuencia relativa acumulada

EJEMPLO

Simples Acumuladas

# hijos fi hi Fi Hi

0 hijos f1 = 6 6/13 = 46.1%

F1 = f1 = 6 H1 =F1/N = 46.1%

1 hijos f2 = 4 4/13 = 30.8%

F2 = f1+f2 =10 H2 =F2/N = 76.9%

2 hijos f3 = 3 3/13 = 23.1%

F3 = f1+f2+f3 =13 H3 =F3/N = 100%

Total 13 100%

f2 : 4 personas tienen 1 hijo

h1: El 46.1% de la población tiene 0 hijos (no tiene hijos)

F2: 10 personas tiene 1 o menos hijos

H2: el 76.9% de la población tiene 1 hijo o menos

Page 57: ESTADISTICA,general

57

GRAFICOS ESTADISTICOS

• Un gráfico es la representación de un fenómeno estadístico por medio de figuras

geométricas, cuyas dimensiones son proporcionales a la magnitud de los datos

representados.

• Su objeto principal es la representación de los datos de forma gráfica, que permita

de un solo golpe de vista darse cuenta del conjunto de elementos representados y de

evidenciar sus variaciones y características.

• El gráfico es un auxiliar del cuadro estadístico, no lo sustituye sino que lo

complementa.

• En estadística los gráficos están en relación a las variables de estudio: cuantitativa o

cualitativa

I. PARTES DE UN GRAFICO ESTADISTICO

LEYENDA:

1. TITULO DEL GRAFICIO:

2. ESCALAS:

3. CUERPO:

4. FUENTE:

5. LEYENDA:

Page 58: ESTADISTICA,general

58

II. CLASIFICACION DE LOS GRAFICOS ESTADISTICOS

A. GRAFICO PARA VARIABLES CUALITATIVA O CUANTITATIVA DISCRETA

Page 59: ESTADISTICA,general

59

B. GRAFICO PARA VARIABLES CUANTITATIVAS CONTINUAS

III. PRINCIPALES GRAFICOS ESTADISTICOS

A) HISTOGRAMA DE FRECUENCIAS

Para construir un histograma de frecuencias, se trazan barras por arriba de cada

intervalo de clase y a una altura que es igual a la frecuencia de la clase.

Page 60: ESTADISTICA,general

60

B) POLIGONO DE FRECUENCIAS

Para construir un polígono de

frecuencias absolutas simples se

traza una línea poligonal sobre los

puntos marcados, teniendo en

cuenta la marca de clase y sus

frecuencias correspondientes.

El polígono de

Frecuencias acumuladas se

llama OJIVA

10 20 30 40

12

10

8

6

4

2

0

y

f

0

1

2

3

4

5

6

7

8

9

5 15 35 25 45 y

f

0

10

20

30

40

50

60

70

80

90

1 2 3 4 5 6 y

F

Ilustración 1: Histograma de Frecuencia

Page 61: ESTADISTICA,general

61

C) GRAFICO DE BARRAS

Estos gráficos constituyen una herramienta adecuada para comparar los tamaños

relativos de cantidad que se distribuyen en el espacio.

Ejemplo: Número de personas que visitaron, durante un mes, lugares turísticos

de una ciudad.

LUGAR TURISTICO

Nº DE PERSONAS

A 40

B 20

C 30

D 15

TOTAL 105

D) GRAFICO CIRCULAR

Sirve para representar la división de un todo en las partes que lo constituyen. El

círculo total es dividido en partes por medio del trazado de radios, según los grados

del ángulo correspondiente.

Ejemplo: La siguiente tabla muestra la situación académica de un grupo de

estudiantes al final de un ciclo académico

CONDICION

Nº DE

ESTUD %

APROBADO 35 70

DESAPROBADO 8 16

INHABILITADO 5 10

RESERVA DE MAT 2 4

TOTAL 50 100

0

5

10

15

20

25

30

35

40

45

A B C D

f

APROBADO; 70

DESAPROBADO;

16

INHABILITADO;

10

RESERVA DE

MAT; 4

Page 62: ESTADISTICA,general

62

EJEMPLOS

IV. ERRORES MAS COMUNES EN LA CONFECCION DE GRAFICOS

Falta de Titulo o títulos extremadamente extensos.

No usa correctamente las partes de un grafico

Escasez de datos

No uso de la identificación.

Títulos que no responden a las preguntas básicas.

Gráficos muy cargados y/o sumamente complejos de interpretar.

Desproporción notable entre las longitudes de los ejes.

Omisión de los rótulos de los ejes y/o las unidades de medida.

Page 63: ESTADISTICA,general

63

EJERCICIOS

1. Se presenta os tiempos (en minutos) que demoran 45 estudiantes en un

consultorio Psicológico de la universidad

Tiempo de

ocupación

(min)

Frecuencia

Absoluta

Frecuencia

Relativa

simple

Frec.

Absoluta

acumulada

Frec.

Relativa

acumulada

20 – 30 7

30 – 40 16

40 – 50 12

50 – 60 3

60 – 70 5

70 – 80 2

TOTAL 45

a) Completa la información del cuadro estadístico

b) Hacer la grafica respectiva

2. Los siguientes datos corresponden al número de hijos de cada una de las 30

familias de una urbanización de Trujillo.

2 4 6 0 3 1 3 5 2 4 1 5 3 0 2

4 3 2 1 0 3 4 5 2 0 2 3 5 4 2

Presentar la información en un cuadro estadístico y grafico estadístico

3. La siguiente información corresponde a las calificaciones individuales de 50

alumnos en un examen de ingles de la Universidad Cesar Vallejo

84 47 74 57 42 35 50 85 81 60

65 53 54 68 85 65 52 35 33 71

74 65 77 45 73 55 91 61 41 40

59 65 60 76 64 69 48 55 78 94

67 47 88 89 77 73 66 98 66 70

Page 64: ESTADISTICA,general

64

a) Presentar la información en un cuadro estadística, utilizando intervalos

cerrados

b) Grafica un histograma de frecuencia absolutas simples

c) Graficar un polígono de frecuencia relativas simples

d) Grafica una ojiva porcentual menor que

4. Las siguientes observaciones expresan el número de veces que 22

consumidores compraron una determinada marca de un producto en los 2

últimos meses

Primer mes 0 2 5 0 3 1 8 0 3 1 1

Segundo mes 9 2 4 0 2 9 3 0 1 9 8

a) Construir la distribución de frecuencias relativas y la de frecuencias

relativas acumuladas

b) Representar ambas distribuciones en un grafico comparativo

c) ¿Qué proporción de personas no compraron nunca dicha marca?

d) ¿Qué porcentaje de consumidores adquirieron dicha marca menos de 5

veces?

5. Los siguientes datos corresponden al número de bibliotecarias o

bibliotecarios en las bibliotecas públicas de las diferentes provincias

españolas

4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2

5 3

2 2 5 3 3 8 12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7 12

a) Hallar la distribución de frecuencias relativas y representarla mediante un

diagrama de barras

b) Obtener y representar la distribución de frecuencias relativas acumuladas

c) ¿Qué proporción de provincias tiene más de 7 bibliotecarios?

Page 65: ESTADISTICA,general

65

6. Los dos cuadros siguientes presentan datos sobre el gasto mensual en

calefacción para un apartamento de dos habitaciones

Calefacción por gas

25.42 26.22 25.22 23.60 27.77 28.52 21.60 29.49 26.22

25.22 20.19 23.97 26.32 23.38 26.77 31.56 25.42 22.72

27.58 29.96 26.22 23.97 28.17 18.01 22.98

Calefacción por electricidad

33.52 51.01 41.99 33.82 25.93 30.32 32.06 39.86 24.62

31.80 48.58 44.65 31.30 35.04 19.24 40.78 43.39 34.78

25.43 33.82 26.47 34.78 32.02 27.98 32.92

a) Hacer una tabla de distribución de frecuencia

b) Comparar ambas distribuciones gráficamente

c) ¿Qué conclusiones pueden extraerse?

7. Las siguientes medidas corresponden a las alturas de 50 niños y niñas

1.56 1.59 1.63 1.62 1.65 1.58 1.56 1.59 1.53 1.54

1.61 1.59 1.51 1.62 1.62 1.52 1.54 1.50 1.49 1.56

1.53 1.49 1.57 1.54 1.53 1.63 1.68 1.62 1.47 1.65

1.59 1.58 1.57 1.47 1.64 1.56 1.52 1.59 1.57 1.59

1.55 1.59 1.53 1.56 1.53 1.62 1.62 1.62 1.60 1.54

a) Construir una distribución de frecuencias absolutas y relativas

b) Obtener las correspondientes distribuciones de frecuencias acumuladas

c) Representar las distribuciones anteriores mediante histogramas

d) Dibujar los correspondientes polígonos de frecuencias

e) Hallar, a partir del polígono de frecuencias acumuladas, la proporción

de observaciones entre 1.59 y 1.62 ambas inclusive

f) ¿Qué conclusiones pueden extraerse?

Page 66: ESTADISTICA,general

66

8. En la oficina de un diario, el tiempo que se tardan en imprimir la primera

plana fue registrado, durante 50 días. A continuación se transcriben los

datos, aproximados a décimas de minuto.

20.8 22.8 21.9 22.0 20.7 20.9 25.0 22.2 22.8 20.1

23.3 20.9 22.9 23.5 19.5 23.7 23.6 19.0 25.1 25.0

21.3 21.5 19.9 24.2 24.1 19.8 23.9 22.8 23.9 19.7

21.1 20.9 21.6 22.7 25.3 20.3 23.1 20.7 19.5 23.8

21.8 24.3 22.5 21.2 23.8 23.8 20.7 24.2 24.2 24.1

a) Presenta los datos en una distribución de frecuencias con amplitud

de clase entera, utilizando la fórmula de Sturges.

b) Calcula e interpreta las frecuencias porcentuales simples y

acumuladas.

c) Determina ¿qué porcentaje de las veces, la primera plana del

periódico puede imprimirse en menos de 24 minutos?

d) Construye un diagrama de tallos y hojas. Interpreta

9. Para realizar un estudio de la cantidad de azúcar vendida por semana en

una tienda, se tomó una muestra de 35 semanas del año 2000, obteniéndose

los siguientes resultados (en cientos de Kg.)

68 48 66 21 28 30 46 38 69 50 90 38

21 35 92 53 53 21 27 52 55 50 48 35

36 52 45 24 28 31 39 46 61 81 46

a) Organiza los datos usando el diagrama de tallos y hojas. Interpreta.

b) Construye una distribución de frecuencias que tenga 7 clases de amplitud

entera.

c) Observando la distribución de frecuencias obtenida, ¿qué puede decir sobre

la asimetría?

d) Interpreta las frecuencias simples y porcentuales.

Page 67: ESTADISTICA,general

67

10. Una muestra de tiempos, en minutos, de llamadas telefónicas que recibe

una secretaria son:

Organiza los datos en una distribución de frecuencias considerando las

frecuencias absolutas simples (fi) y los porcentajes simples.

11. Considerando la amplitud de clase entera, construya las clases y sus

correspondientes límites reales para la variable pago por consumo telefónico

mensual en los siguientes casos:

a) Xmin = S/. 52.5 Xmáx = S/. 385.8, k = 6 redondeado a

décimos.

b) Xmin = S/. 153.55 Xmáx = S/. 595.75 , k=8 redondeado a

centésimos.

12. Cuando se les pidió clasificar la destreza que se requiere para obtener una

alta calificación en un nuevo juego de computadora como principiante,

aprendiz, competidor, maestro o experto, 45 evaluadores respondieron de la

manera siguiente: experto, maestro, maestro, competidor, experto, maestro,

maestro, maestro, experto, aprendiz, maestro, maestro, maestro, maestro,

experto, maestro, competidor, maestro, maestro, principiante, experto,

competidor, maestro, maestro, experto, experto, maestro, maestro, maestro,

competidor, competidor, experto, maestro, experto, experto, experto,

competidor, maestro, maestro, y experto. Ahora:

Construye una tabla que indique las frecuencias correspondientes a estas

clasificaciones de la destreza que se requiere para obtener una calificación

alta.

3 6 2 3 3 1 4 5 2 4 3 1 2 4 4 5 3 1 2 4 1 4 8

1 2 3 4 5 2 7 2 3 5 3 4 4 3 4 3 6 2 1 3 6 4 5

3 2 4 3 2 4 5 3 7 1 3 4 3 4 1 3 7 3 2 1 3

Page 68: ESTADISTICA,general

68

13. Se han tomado muestras de ventas, en soles, realizadas en una empresa

durante los meses de julio y agosto. Los datos son los siguientes:

Mes de julio

20.00 425.00 40.00 380.00 18.00 43.00 47.50 30.00 434.08 16.00 62.50

30.00 11.60 37.00 98.50 4.80 235.00 97.50 490.00 147.00 235.50 124.00

158.00 194.65 30.00 16.15 200.00 60.00 22.50 30.00 45.00 490.00 413.00

122.00 15.93 90.62 55.00 86.00 188.80 32.50 307.40 92.00 140.00 5.70

63.00 90.00

Mes de agosto

120.00 34.45 14.00 40.00 95.00 390.30 49.10 29.19 17.20 93.00 160.00

21.00 32.00 19.50 141.00 76.00 4.20 18.50 88.50 88.00 70.00 48.00

40.00 12.10 129.20 50.00 35.00 78.00 82.00 356.70 86.00 6.20 14.10

5.80 50.00 141.00 32.00 50.00 117.50 50.00 300.00 3.00 12.00 13.00

55.00 33.00 500.00

a) Construye distribuciones de frecuencias de las ventas (una para cada mes)

considerando las clases: 0 á menos de 100.00, 100 á menos de 200.00, etc.

b) Construye una distribución de frecuencias para las ventas del mes de julio

utilizando la fórmula de Sturges. Compara con las distribuciones obtenidas en (a),

¿cuál es mejor? Explica.

ACTIVIDAD EN CLASE

Recolecta la siguiente información de los alumnos del aula.

Edad Genero Talla Peso Estado

civil

Numero de

hermanos

1. Indicar la clasificación de cada tipo de variable (Cualitativa o Cuantitativa)

2. Hacer las tablas de frecuencia de Edad, genero, talla, Peso, Estado Civil, #

Hermanos

3. Hacer las graficas respectivas de cada variable.

Page 69: ESTADISTICA,general

69

ACTIVIDADES DE AUTO EVALUACIÓN (TABLAS)

Antes de continuar con los siguientes temas, es conveniente que te autoevalúes,

desarrollando las preguntas en forma individual. Luego coteja tus respuestas con la

teoría estudiada y califícate en la escala de 0 – 20:

4.1. Los pesos de los estudiantes de una sección de Estadística de la UCV,

redondeados a enteros, varían entre 52 y 83 kilogramos. Indica los límites

nominales y los límites reales de siete clases en que se podrían agrupar estos

pesos. (3 ptos)

4.2. Los números de análisis de sangre por día que se realizan en un hospital se

agrupan en una distribución que tiene las clases 25-39, 40-54, 55-69, 70-84 y 85-

99. Encuentra: a) las fronteras de clase, b) las marcas de clase, c) la amplitud de

clase. (3 ptos)

4.3. Las marcas de clase de una distribución del número de asaltos registrados

diariamente en una delegación de policía son 4, 13, 22, 31 y 40. Encuentra: a) los

límites de clase nominales, b) los límites reales. (2 ptos)

4.4. Para agrupar las ventas que varían entre $10.00 y $60.00, un dependiente utiliza

las clasificaciones siguientes: $10.00-19.99, $20.00-35.99, $35.00-49.00 y $50.00-

59.99. Explica las dificultades que se tendrían al utilizar estas clases. (2 ptos)

4.5. Una compañía de computadoras recibió un pedido urgente del mayor número de

computadoras domésticas que pudiera entregar en un período de tiempo de seis

meses. Los expedientes de la compañía ofrecen las siguientes entregas diarias:

(5 ptos)

Page 70: ESTADISTICA,general

70

22 65 65 57 55 50 65 77 73 30 62 54 48 65

79 60 63 45 51 68 79 83 33 41 49 28 55 61

65 75 55 75 39 87 45 50 66 65 59 25 35 53

a) Agrupa estas cifras de entrega diaria en una distribución que tenga las clases

20-29, 30-39, 40-49,.., 80-89.

b) ¿Cuáles son los límites reales o fronteras de clase?

c) Calcula las frecuencias absolutas acumuladas y porcentuales acumuladas

“menos que” y “mayor que”. Interpreta las frecuencias de la segunda y quinta

fila.

4.6. En la redacción del diario “El Observador” el tiempo requerido para formar la

primera página completa fue registrado durante 50 días. Los datos, redondeados a

la décima de minutos más cercana, se dan a continuación: (5 ptos)

20.8 22.8 21.9 22.0 20.7 20.9 25.0 22.2 22.8 20.1

25.3 20.7 22.5 21.2 23.8 23.3 20.9 22.9 23.5 19.5

23.7 20.3 23.6 19.0 25.1 25.0 19.5 24.1 24.2 21.8

21.3 21.5 23.1 19.9 24.2 24.1 19.8 23.9 22.8 23.9

19.7 24.2 23.8 20.7 23.8 24.3 21.1 20.9 21.6 22.7

a) Utilizando la fórmula de Sturges, construye una distribución de frecuencias

absolutas, que incluya frecuencias simples y frecuencias porcentuales

acumuladas “menor que” y “mayor que”, utilizando una amplitud de clase de 0.8

minutos.

b) Halla los límites reales de clase de la distribución.

Page 71: ESTADISTICA,general

71

ACTIVIDADES DE AUTO EVALUACIÓN (GRAFICOS)

Antes de continuar con los siguientes temas, es conveniente que te autoevalúes,

desarrollando las preguntas en forma individual. Luego coteja tus respuestas con la

teoría estudiada:

1. A continuación se da el consumo semanal de carne de vacuno en una muestra de

80 familias de la comunidad de Namora:

Consumo (Kg/Sem.) 0 - 1,9 2 - 3,9 4 - 5,9 6 - 7,9 8 - 9,9

Nº de familias 15 26 20 13 6

a) Construye un polígono de frecuencias y describe el comportamiento de la

variable.

b) Construye las ojivas “menor que” y “mayor que” en un sólo gráfico

2. La Asociación Nacional de Vendedores de Muebles de Estados Unidos recabó los

datos siguientes de una muestra de 130 vendedores, que representan las

ganancias totales por comisiones que obtienen los vendedores anualmente:

Ganancias Frecuencias

$5.000 o menos

$5.001 - $10.000

$10.001 - $15.000

$15.001 - $20.000

$20.001 - $30.000

$30.001 - $40.000

$40.001 - $50.000

más de $50.000

2

12

11

33

32

20

13

7

Page 72: ESTADISTICA,general

72

a) Construye una ojiva que le ayude a responder las preguntas siguientes:

b) ¿Qué % de vendedores gana más de 20,000 dólares?

c) Aproximadamente ¿cuánto ganará al año un vendedor de muebles cuyo

desempeño fuera de cerca del 25% del máximo esperado?

3. Para una muestra de 155 estudiantes de una Facultad, se obtuvo la siguiente

distribución de los estudiantes por género y según tipo de ingreso a la Universidad

a) Interpreta cualquier porcentaje de cada uno de los casilleros del cuadro.

b) Construye un gráfico de barras simples para la variable género. Comenta.

c) Construye un gráfico de barras agrupadas que considere ambas variables.

Comenta.

d) Construye un gráfico de barras apiladas. Comenta.

26 16 42

61.9% 38.1% 100.0%

28.6% 25.0% 27.1%

16.8% 10.3% 27.1%

34 22 56

60.7% 39.3% 100.0%

37.4% 34.4% 36.1%

21.9% 14.2% 36.1%

31 26 57

54.4% 45.6% 100.0%

34.1% 40.6% 36.8%

20.0% 16.8% 36.8%

91 64 155

58.7% 41.3% 100.0%

100.0% 100.0% 100.0%

58.7% 41.3% 100.0%

A

B

C

TIPO DE

INGRESO

Total

MASCULINO FEMENINO

GÉNERO

Total

Page 73: ESTADISTICA,general

73

REFERENCIAS BIBLIOGRÁFICAS

1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima

– Perú.

2. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición.

Edit. PHH S. A. – México.

3. FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición –

Edit. Préntice Hall Hispanoamericana S.A.- México.

4. GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la

Psicología y la Educación. Edit. Mc Graw-Hill – México.

5. MILLER, Irwin y FREUND, John E., 1995. Probabilidad y Estadística para

Ingenieros – Edit. Préntice Hall Hispanoamericana S.A. – México.

6. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-

Lima- Perú.

Page 74: ESTADISTICA,general

74

Sesión 6 Medidas Estadísticas:

Tendencia Central – Posición - Dispersión

1. Realiza cálculos básicos utilizando las fórmulas,

tanto para datos simples como para datos

agrupados, de las medidas de tendencia central.

2. Interpreta las medidas calculadas, usando como

referencia el contexto y las variables en estudio.

3. Calcula e interpreta cuantiles.

4. Analiza la presencia de valores extremos en un

conjunto de datos.

1. Valora la importancia que tienen las medidas de tendencia central y los cuantiles en la

descripción de las poblaciones estadísticas en estudio.

2. Actúa trabajando en equipo con responsabilidad, puntualidad y orden en la ejecución de

las tareas y trabajos asignados, asumiendo una posición reflexiva y crítica hacia los

resultados obtenidos.

Medidas de Tendencia Central. Media Aritmética, Mediana y Moda. Cuantiles. Valores

Atípicos y Extremos.

CAPACIDADES

ACTITUDES

CONTENIDO

Page 75: ESTADISTICA,general

75

MEDIDAS ESTADISTICAS

En numerosas ocasiones, en vez de trabajar con todos los datos, es preferible disponer de

una o más medidas descriptivas que resumen los datos de forma cuantitativa. Se trata, de

resumir en unos cuantos valores la información más importante y útil contenida en un

conjunto de datos, haciendo más fácil la comprensión y la comparación de las diversas

características de las poblaciones o muestras.

VI. DEFINICIÓN

Las medidas estadísticas son medidas de resumen que se calculan a partir de una

muestra y que describen ciertos aspectos de una serie o distribución de datos para

poder tener un mejor conocimiento de la población

VII. FINALIDAD

Las medidas estadísticas pretenden "resumir" la información de la "muestra" para poder

tener así un mejor conocimiento de la población

VIII. ALGUNAS CONSIDERACIONES PARA UNA MEDIDA ESTADISTICA:

1. Debe definirse de manera objetiva: dos observadores distintos deben llegar al

mismo resultado numérico.

2. Usar todas las observaciones y no algunas de ellas solamente, de manera que

si varía alguna observación la medida considerada debe reflejar esta variación.

3. Tener un significado concreto: la interpretación debe ser inmediata y sencilla.

4. Ser sencilla de calcular.

5. Prestarse fácilmente al cálculo algebraico: Lo que permitirá demostraciones más

elegantes.

6. Ser poco sensible a las fluctuaciones muestrales. Esta condición es

imprescindible en la Estadística Matemática y en la Teoría de Sondeos.

Page 76: ESTADISTICA,general

76

IX. CLASIFICACION DE LAS MEDIDAS ESTADÍSTICAS

a. MEDIDAS DE TENDENCIA CENTRAL

Son valores que se ubican en la parte central de un conjunto de datos o de una

distribución.

Las medidas de centralización responden a la pregunta. ¿Alrededor de qué

valor se agrupan los datos?

Estas medidas solo se calculan para variables cuantitativas.

EL conocimiento de estas medidas es de gran utilidad tanto en los niveles de

decisión como de ejecución.

Las principales medidas de tendencia central son:

MUESTRA POBLACION

Media aritmética simple X

Media ponderada X p p

La Mediana me Me La Moda mo Mo

Page 77: ESTADISTICA,general

77

1.1. LA MEDIA ARITMÉTICA O PROMEDIO ( o ��):

Es el valor representativo de una población o conjunto de datos

También se llama Esperanza matemática, valor medio o promedio aritmético

Se obtiene sumando todos los valores de los datos observados y se divide entre el

número total de ellos.

Solo es aplicable para el tratamiento de datos cuantitativos.

Existen dos formas de trabajar con los datos: sin agruparlos o agrupándolos en

tablas de frecuencias.

Formulas de cálculo de la media aritmética:

POBLACION (N) MUESTRA (n)

Datos sin

Agrupar

μ =∑ Xi

N

�� =∑ Xi

n

Datos

Agrupados * fi

μ =∑ 𝑋𝑖. 𝑓𝑖

N

�� =∑ 𝑋𝑖. 𝑓𝑖

n

Page 78: ESTADISTICA,general

78

Ejemplo: Suponga que se han registrado 20 observaciones referentes a los

ingresos semanales del jefe de hogar de un determinado distrito. De la información

muestral obtenida calcule el promedio:

36 55 55 41

25 55 55 55

41 41 57 37

40 31 58 58

45 36 43 43

Solución: Calculamos el promedio muestral:

1.2. LA MEDIANA (Me)

Valor que divide en dos partes iguales un conjunto de datos ordenados en forma

ascendente o descendente

En otras palabras es el valor que ocupa del lugar central.

La cantidad de datos que queda por debajo y por arriba de la mediana son iguales.

Es una medida de tendencia central que divide al total de n observaciones

debidamente ordenadas o tabuladas en dos partes de igual tamaño, cada una con

el 50% de los datos observados.

Formulas de cálculo de la mediana:

n es par n es impar

Datos no

agrupados

Valor que está en la mitad

de la serie ordenada

Promedio de los 2 valores

centrales

Datos

Agrupados

(TABLAS)

𝑀𝑒 = 𝐿𝐼 + 𝑐 [

𝑛2 − 𝐹𝑗−1

𝐹𝑗 − 𝐹𝑗−1]

n

n

iix

x 1 35.4520

0.907

20

4358...2536

Page 79: ESTADISTICA,general

79

Para datos no agrupados: Para calcular la mediana, los n datos originales

1) Se ordenan en forma ascendente o descendente los datos

2) Se halla el lugar en donde se encuentra la mediana

Se presenta dos casos:

a) Para un número par de datos:

La mediana será el promedio de los dos valores centrales.

Ejemplo: Calcular e interpretar la mediana

Xi : 650, 750, 850, 1000, 750, 820, 850, 1200, 1000, 1000

Solución:

1) Ordenando en forma ascendente

Xi: 650, 750, 750, 820, 850, 850, 1000, 1000, 1000, 1200

2) Como n = 10 (par) se ubica el lugar en donde se encuentra la Me

𝑀𝑒 =𝑋𝑛

2+ 𝑋𝑛

2+1

2=

𝑋5 + 𝑋6

2=

850 + 850

2= 850

3) Interpretación: El 50% de los trabajadores tienen un ingreso máximo de S/. 850,

el otro 50% supera dicho ingreso.

b) Para un número impar de datos:

La mediana será el valor que está ocupando la posición central.

Ejemplo: Los siguientes datos corresponden a los tiempos de acceso en minutos a 11

Páginas Web cargadas por la tarde en el horario de 14 a 15 horas desde una PC

Me 50% 50%

Page 80: ESTADISTICA,general

80

Xi: 2.9, 1.4, 1.2, 3.4, 1.3, 2.5, 1.6, 1.8, 2.3, 1.5, 1.0

Solución: Ordenando los datos en forma ascendente

Xi: 1.0, 1.2, 1.3, 1.4, 1.5, 1.6, 1.8, 2.3, 2.5, 2.9, 3.4.

𝑀𝑒 = 𝑋𝑛+12

= 𝑋11+12

= 𝑋6 = 1.6

Interpretación: El 50% de las páginas Web son cargadas en un tiempo de acceso

Máximo de 1.6 minutos., el otro 50% supera dicho tiempo.

1.3.- LA MODA (Mo)

Definición: Es el valor que ocurre con más frecuencia

Es especialmente útil para datos de tipos nominal, ordinal y de intervalos

Una distribución puede ser: amodal sino tiene ninguna moda,

unimodal si tiene una moda,

bimodal si tiene dos modas y

multimodal si tiene tres o más modas.

PROPIEDADES DE LA MODA

La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, de

intervalos, y relativa).

Me 50% 50%

Page 81: ESTADISTICA,general

81

La moda no es afectada por valores extremos.

DESVENTAJAS DE LA MODA

En muchas series de datos no hay moda porque ningún valor aparece más de una

vez.

En algunas series de datos hay más de una moda, en este caso uno podría

preguntarse ¿cuál es el valor representativo de la serie de datos?

CÁLCULO Cálculo de la moda para datos agrupados

𝑀𝑜 = 𝐿𝐼 + 𝑐 [𝑓𝑗 − 𝑓𝑗−1

(𝑓𝑗 − 𝑓𝑗−1) + (𝑓𝑗 − 𝑓𝑗+1)]

𝑀𝑜 = 𝐿𝐼 + 𝑐 [∆1

∆1 + ∆2]

Donde: ∆𝟏 = 𝑓𝑗 − 𝑓𝑗−1 y ∆𝟐 = 𝑓𝑗 − 𝑓𝑗−1

USO ADECUADO DE LA MEDIA, MEDIANA Y MODA.-

De las tres medidas de tendencia central, se observa que:

1°) La media aritmética tiene la ventaja de que toma en cuenta para su calculo, la

totalidad de los valores de la variable, aumentando o disminuyendo de acuerdo a

ellos, pero a causa de este problema, puede tener la desventaja que es afectada

por la existencia de valores muy altos o muy bajos en los extremos.

En conclusión cuando el comportamiento de la variable es más o menos simétrico

la media aritmética es la más recomendable.

Page 82: ESTADISTICA,general

82

2°) La mediana se usa cuando existe mucha dispersión de los datos.

3°) Así también la mediana es la mas ventajosa en usarla cuando en el primer o último

grupo o clase no tiene límite definido.

4°) La moda no es muy usual, pero se emplea cuando se quiere conocer el valore que

se presenta más frecuentemente.

b. MEDIDAS DE POSICION

2.1. CUARTILES (Qi):

Se denotan por Qi, donde k=1,2,3

Son valores que dividen a un conjunto de datos en 4 partes iguales, es decir,

cada sector tiene el 25% de los datos.

El Q2 coincide con la mediana

Para calcular los cuartiles se utilizan las formulas adecuadas ya sea si son datos

agrupados o datos no agrupados.

Formula: Qi = LI + c [in

4−Fj−1

Fj−Fj−1]

Ejemplo datos sin agrupar:

o Número Impar de datos 2, 3, 4, 5, 6, 7, 9

o Numero par de datos 1, 2, 3, 4, 5, 6, 7, 9

Q1 Q2 Q3

2.5

Q1

4.5

Q2

6.5

Q3

Page 83: ESTADISTICA,general

83

Ejemplo datos agrupados:

fi FI

[ 50 – 60 ) 8 8

[ 60 – 70 ) 10 18

[ 70 – 80 ) 16 34

[ 80 – 90 ) 14 48

[ 90 – 100 ) 10 58

[ 100 – 110 ) 5 63

Total 63

2.2. DECILES (Di):

Se denotan por Di, donde i=1,2,3,4,5,6,7,8,9

Son valores que dividen a un conjunto de datos en 10 partes iguales, es decir,

cada sector tiene el 10% de los datos.

D5 coincide con la mediana

Formula: Di = LI + c [in

10−Fj−1

Fj−Fj−1]

2.3. PERCENTILES (Pi):

Se denotan por Pi, donde i=1,2,3,4,5,6,7,8,9,10, … , 99

Son valores que dividen a un conjunto de datos en 100 partes iguales, es decir,

cada sector tiene el 1% de los datos.

Cuartil 1 (Q1) 1∗63

4= 15.75

Q1 = 60 + 10 [15.75 − 8

18 − 8] = 67.75

Cuartil 2 (Q2) 2∗63

4= 31.5

Q1 = 70 + 10 [31.5 − 18

34 − 18] = 78.44

Page 84: ESTADISTICA,general

84

Formula: Pi = LI + c [in

100−Fj−1

Fj−Fj−1]

EJEMPLO:

Suponga que se han registrado 20 observaciones referentes a los ingresos

semanales del jefe de hogar de un determinado distrito. De la información muestral

obtenida calcule el cuatil1, decil 8 y percentil 97:

36 55 55 41

25 55 55 55

41 41 57 37

40 31 58 58

45 36 43 43

Solución:

Seguimos el siguiente procedimiento:

1. Ordenar la serie en forma ascendente

2. Definir la posición de los cuartiles, deciles y percentiles siguiendo la formula

correspondiente.

3. Luego

Cuartil1

Ordenando los datos de forma ascendente:

25 31 36 36 37 40 41 41 41 43 43 45 55 55 55 55 55 57 58 58

Calcularemos la ubicación del cuartil 1 para lo cual definimos la posición del

cuartil 1(K=1): QK Wk(n+1) 0.25(20+1) 5.25.

De esto decimos que el cuartil 1 esta entre la ubicación 5ºy 6º (pues el valor

hallado es 5.25), luego para hallar el valor de la ubicación 5.25 interpolamos:

5.0º 37

5.25º de esto obtenemos que la ubicación 5.25º 39.75

6.0º 40

Page 85: ESTADISTICA,general

85

Po lo tanto Q1: 39.75.

Decil 8: Ordenando los datos de forma ascendente:

25 31 36 36 37 40 41 41 41 43 43 45 55 55 55 55 55 57 58 58

Calcularemos la ubicación del decil 8 para lo cual definimos la posición del

decil 8 (D=8): DK Wk(n+1) 0.80(20+1) 16.80.

De esto decimos que el decil 8 esta entre la ubicación 15ºy 17º (pues el valor

hallado es 5.25), luego para hallar el valor de la ubicación 5.25 interpolamos:

15.0º 55

16.8º de esto obtenemos que la ubicación 16.80º 55.0

17.0º 55

Po lo tanto D8: 55.0

Page 86: ESTADISTICA,general

86

c. MEDIDAS DE DISPERSIÓN

Son indicadores estadísticos que representan cuan dispersas se encuentran los datos de

la variable, señalándonos el grado de concentración de los mismos con respecto al

promedio de la distribución.

Las medidas de dispersión se usan para:

a) Verificar la confiabilidad de los promedios.

b) Establecer como base para el control de la variable. Así tenemos:

Coeficiente de Variación

Desviación estándar

Varianza

Rango

Medidas de

Dispersión

Page 87: ESTADISTICA,general

87

Alta dispersión (medida de dispersión alta) --- baja concentración alrededor

del promedio. DATOS HETEROGENEOS

Baja dispersión (medida de dispersión baja) -- Alta concentración alrededor

del promedio. DATOS HOMOGENEOS

Las medidas de dispersión más usuales son:

MUESTRA POBLACION

Rango R R

Varianza S2 2

Desviación estándar S

3.1. RANGO: R = Max - Min

Se denota por R y la medida de variabilidad más fácil de calcular.

Es la diferencia que existe entre el valor máximo y el valor mínimo del conjunto

de datos.

Su uso es muy limitado, pues solo toma en cuenta los valores extremos

Ejemplo: La edad de 10 alumnos en un aula de clase, es según se muestra a

continuación. Se pide hallar el rango.

23 18 28 18 16 26 19 20 21 18

Solución. Rango = 28 - 16 = 12

Luego, existe una dispersión de 12 años.

3.2. VARIANZA (σ2):

Mide la variabilidad de un conjunto de datos respecto a un valor central

(promedio)

Page 88: ESTADISTICA,general

88

Mide la variabilidad pero en unidades elevadas al cuadrado, por lo tanto es ilógica

su interpretación.

Para calcular la varianza se utilizan las formulas adecuadas ya sea sin son datos

agrupados o datos no agrupados.

POBLACION MUESTRA

DATOS SIN

AGRUPAR

N

xN

i

i

1

2

2

1

1

2

2

n

xx

S

n

i

i

DATOS

AGRUPADOS

N

fY i

N

i

i .1

2

2

1

.1

2

2

n

fxY

S

n

i

ii

ABREVIADA 21

2

2

N

XN

i

i

21

2

2

1

n

XN

i

i

Donde:

Xi valores de la variable X

Yi marca de clase de cada variable o grupo

N tamaño de la población

n tamaño de la muestra

2 Varianza poblacional

S2 Varianza muestral

3.3. DESVIACIÓN ESTANDAR (σ):

Mide la variabilidad de un conjunto de datos respecto a su valor central pero en

unidades originales.

Page 89: ESTADISTICA,general

89

Esta es la medida de variabilidad que tiene una interpretación lógica.

Se obtiene al sacar la raíz cuadrada de la varianza.

DESVIACION STANDARD: 2

2SS

Ejemplo: En una de las fábricas de Motor Perú, se producen autos de diversas

marcas, desde Enero a Agosto de 2007

Meses : Ene Feb Mar Abr May Jun Jul Agos

Producción: 100 130 90 120 100 140 110 98

Defina la variable en estudio y halle la varianza y Desviación Standard.

3.4. COEFICIETE DE VARIACIÓN (CV):

Es el grado de desviación con relación a la media.

Este coeficiente se usa para comparar las medias aritméticas o promedio de

diferentes muestras.

El C.V. sirve para determinar si un conjunto de datos tiene un comportamiento

homogéneo o heterogéneo.

Para llegar a determinar la homogeneidad se compara con un valor del 33%.

o Si el CV ≤ 33% Los datos tiene un comportamiento homogéneo.

o Si el CV > 33% Los datos tiene un comportamiento heterogéneo.

Nota.- Cuanto menor es el C.V. mejor será la estimación del promedio y el

proyecto será mejor.

%100*..

VC %100*..

X

Svc

Donde: C.V. = coeficiente de variación de la población

c.v = coeficiente de variación muestral

Page 90: ESTADISTICA,general

90

= Desviación estándar poblacional

µ = Media aritmética poblacional

S = Desviación estándar muestral

X = Media aritmética muestral

Ejemplo.- Considerar dos proyectos de inversión A y B. Ambos tienen una ganancia

promedio igual a $ 500. La Desviación estándar es 63.25 y 516.20 respectivamente.

Halle cuál de los dos proyectos es mejor.

Solución: A B µ 500 500

63.25 516.20

C.V.

Luego el mejor proyecto es:

EJEMPLO:

Suponga que se han registrado 20 observaciones referentes a los ingresos

semanales del jefe de hogar de un determinado distrito. De la información muestral

obtenida calcule el Rango, varianza muestral, desviación estándar y el coeficiente

de variación

36 55 55 41

25 55 55 55

41 41 57 37

40 31 58 58

45 36 43 43

Solución:

Rango: minmax VVR 58-25 33

Varianza muestral:

Para calcular VARIANZA para datos sin agrupar, trabajamos con la formula:

1

1

2)(2

n

n

ixix

s 08.9919

55.1882

120

2)38.4543(2)38.4558(...2)38.4525(2)38.4536(

Page 91: ESTADISTICA,general

91

La varianza tiene una interpretación un poco dificultosa de entender, es por eso

que nos ayudamos de la desviación estándar cuando queremos interpretar esta

medida.

Desviación estándar muestral:

Para calcular la desviación estándar para datos sin agrupar, trabajamos con la

formula: 𝑠 = √𝑠2 = √99.08 = 9.95

Este valor se puede interpretar como la variabilidad promedio de los datos

con respecto con respecto a su valor ��

Coeficiente de variación:

Para calcular el coeficiente de variación para datos sin agrupar, trabajamos con

la formula:

𝐶𝑉 = 𝑠 /�� ∗ 100 = (9.95/45.38) ∗ 100 = 21.93%

Como, CV 21.93 ≤ 33%, podemos decir que el conjunto de datos tiene un

comportamiento homogéneo.

Page 92: ESTADISTICA,general

92

EJERCICIOS:

A.- CIENCIAS ECONOMICAS Y CONTABLES

1. La empresa A tiene 100 empleados, con su sueldo promedio mensual por empleado de $

250. La empresa B tiene 200 empleados con un sueldo promedio mensual de $ 240.

a. ¿Cuál es el sueldo promedio mensual de las dos empresas en conjunto?

b. Si las dos empresas se agrega una tercera con 50 empleados y un sueldo

promedio mensual por empleado de $ 300, ¿Cuál es el sueldo promedio para las

tres empresas en conjunto?

2. El ingreso medio mensual de los 16,500 obreros de una compañía es de S/. 116.00 y de

los 12,900 empleados de esta compañía es de S/. 148.00. Si los obreros reciben una

aumento del 20% sobre sus ingresos más una bonificación de S/. 50.00 por condiciones

de trabajo y los empleados reciben un aumento del 30% más S/. 60.00 por refrigerio.

¿Cuál es el ingreso promedio de todos los trabajadores de la compañía después del

aumento?

3. Un auxiliar de contabilidad está trabajando en una Tienda Comercial, en la cual se han

realizado ciertas ventas, que han sido facturadas. Se presenta las facturas identificadas

según nro de código.

FACTURAS: 123, 140, 300, 126, 127, 128, 129, 130, 141, 142, 120, 131, 132, 111, 133,

135, 134, 139, 142, 146.

a. Se le pide ordenar las facturas y luego aplicar los cuartiles Q1, Q2, Q3.

b. Calcular el nro. De factura mediana e interpretar correctamente

Page 93: ESTADISTICA,general

93

4. Después de ser capacitados un grupo de trabajadores en una Empresa, rindieron un

examen de evaluación, donde los resultados oscilan entre:

a. (Calcule los cuartiles: Q1, Q2, Q3, interprete correctamente cada estadígrafo).

b. Cuál es el promedio de nota después de recibir una capacitación

c. Cuál es la nota mediana después de recibir una capacitación

d. Cuál es la nota más frecuente en el grupo de trabajadores.

5. En la sgte. Tabla se presenta los sueldos de magistrados

de la Corte Superior, se pide calcular el promedio, moda

y la mediana e interpretar correctamente cada estadígrafo.

6. Establezca, con base estadística, en cuál de las siguientes empresas el salario está

repartido de forma más equitativa.

Empresa A Empresa B

nº de personas salario

percibido

(S/.)

nº de personas salario

percibido (S/.)

15

20

30

20

15

800

1000

1200

1500

7500

10

30

35

24

1

800

1000

1200

1500

7500

Yi-1 -Yi fi

0-50 14

50-100 18

100-150 19

150-200 5

Xi fi

1200 16

1400 23

1600 17

1800 41

2000 32

2200 21

Page 94: ESTADISTICA,general

94

Calcular el promedio de salario percibido en el grupo de trabajadores de la Empresa

A y de l a Empresa B.

B.- CIENCIAS DE LA SALUD

1. En los siguientes ejercicios calcular el promedio, mediana y moda e interpretar

correctamente cada estadígrafo.

a. Pesos de pacientes que fueron evaluados en análisis de sangre, en un

laboratorio.

PESOS fi

20-25 5

26-31 9

32-37 15

38-43 10

44-49 6

TOTAL

b. Medidas de paredes de áreas de salud de consulta que se encontraron en el

Hospital Regional

2. Un farmacéutico realiza ventas de medicinas en FARMACIA INKAFARMA, del reporte de

ventas tiene a su disposición el nro de boletas emitidas con respectivos códigos. Se le

pide ordenar las facturas y luego encontrar el nro de factura mediana. Se le pide ordenar

las facturas y luego aplicar los cuartiles Q1, Q2, Q3.

FACTURAS: 123, 140, 300, 126, 127, 128, 129, 130, 141, 142, 120, 131, 132, 111, 133,

135, 134, 139, 142, 146.

MEDICIONES(cms.) fi

1.2- 2.6 7

2.7-4.1 23

4.2-5.6 70

5.7-7.1 135

7.2-8.6 27

TOTAL

Page 95: ESTADISTICA,general

95

3. Se presenta el nro. de vacunas que se aplicaron a niños menores de 5 años. según

fueron atendidos en diferentes puestos de salud. Calcula el promedio, la mediana y la

moda, e interprete correctamente.

2 3 4 5 5 5 5 5 6 6 6 6 7 7 7 7 7 7 8 8

4. A aquellos pacientes que sienten mejoría todos los días del

tratamiento se les realiza un estudio sobre el tiempo de

reacción del medicamento (en minutos), encontrándose

recogido los datos en la siguiente tabla:

Calcula el promedio, mediana, moda e interpreta correctamente

cada estadígrafo. Identifica la variable en estudio y realiza una

grafica adecuada.

5. A continuación se presenta el número de pacientes que son atendidos por dia en el

consultorio de un doctor

10 13 4 7 8 11 10 16 18 12 3 6 9

9 4 13 20 7 5 10 17 10 16 14 8 18

Obtener su promedio, moda y mediana

6. Una distribución estadística viene dada por la siguiente tabla:

10, 15) 15, 20) 20, 25) 25, 30) 30, 35)

fi 3 5 7 4 2

Hallar el promedio, moda y mediana

Tiempo de reacción

Nº de pacientes

0-10 300

10-20 500

20-30 400

30-40 500

40-60 300

Page 96: ESTADISTICA,general

96

C.- INGENIERIA:

1. En una investigación agrícola en el Valle de Chancay se determinó la producción total en

(kilogramos), de un cierto cultivo, el cual fue sembrado en 20 parcelas experimentales.

Los resultados fueron:

Producción en Kg: 40, 35, 38, 40, 41, 37, 41, 38, 20, 25, 33, 27, 25, 28, 44, 22, 29, 36

a. Construya una tabla de Distribución de frecuencias

b. Calcular el promedio, mediana y moda y los cuartiles 1, 2 y 3 e interpretar

correctamente

2. La distribución de establecimientos

industriales,

según su producción mensual (en millones

de soles), es la siguiente

Calcular:

a. El promedio de producción

b. La producción mediana

c. La producción más frecuente

3. En cada uno de las sgtes. Tablas determinar las medidas descriptivas que se te pide.

Media, Mediana, moda y sus interpretaciones.

a. Cantidad en litros de insecticida que se necesita para la fumigación de las plagas

según por nro. de terrenos de cultivo

PRODUCCION ESTABLECIMIENTOS

Menos de 5

5 a 10

10 a 25

25 a 50

50 a 100

100 a 250

250 a 500

500 a más

39

19

14

12

9

4

2

1

MEDICIONES fi

1.2- 2.6 7

2.7-4.1 23

4.2-5.6 70

5.7-7.1 135

7.2-8.6 27

TOTAL

Page 97: ESTADISTICA,general

97

b. Sueldos en soles que se les paga a los trabadores que realizan siembra y riego

en los cultivos de Chavimochic

SUELDO fi

240-364 13

365-489 76

490-614 18

615-739 9

740-864 4

TOTAL

4. Se presenta el nro. frutos maduros hallados cada dos semanas en una huerta de cultivos.

2 3 4 5 5 5 5 5 6 6

6 6 7 7 7 7 7 7 8 8

Calcula el promedio de frutos, el fruto mediano. El fruto más frecuente. e interpreta.

5. Se tiene en cuenta el nro. de sembríos de arroz por valles de la costa peruana fue lo

sgte:

Calcula:

a) El promedio, mediana, moda e interpreta

cada estadígrafo.

b) Realiza una gráfica correspondiente de acuerdo al tipo

de variable.

sembrío fi

1 3

2 7

3 10

4 5

5 10

TOTAL

Page 98: ESTADISTICA,general

98

6. Las temperaturas recogidas en un determinada ciudad durante el mes de Enero se

muestran en la siguiente tabla:

Temperatura en ºC 19 20 21 22 23 24

Número de días 7 9 6 4 3 2

a. ¿Cuántos días hizo por encima de 21ºC? ¿Cuántos por debajo de 23ºC?

b. ¿Cuántos días hizo la temperatura máxima?

c. Calcula la media, la moda y la mediana.

7. El siguiente cuadro muestra la distribución de la renta anual (en miles de soles) en que

incurren 50 viviendas:

Marca de Clase

18.85 21.55 24.25 26.95 29.65 32.35 35.05

N° de Viviendas

3 2 7 7 11 11 9

a) Halle e intérprete según el enunciado la Media, mediana y moda.

b) Estime el porcentaje de viviendas con rentas superiores o iguales a 26 000 soles pero

menores que 32 000 soles.

8. Una compañía requiere los

servicios de un técnico

especializado. De los expedientes

presentados, se han seleccionado

2 candidatos: A y B, los cuales

reúnen los requisitos mínimos requeridos.

Para decidir cual de los 2 se va a contratar, los miembros del Jurado deciden tomar 7

pruebas a cada uno de ellos.

a. Halle e interprete la media, mediana y moda de los dos candidatos.

b. Estadísticamente ¿Cuál de los candidatos debe ser contratado? Fundamente su

respuesta

Prueba

1 2 3 4 5 6 7

Puntaje obtenido por A

57 55 54 52 62 55 59

Puntaje obtenido por B

80 40 62 72 46 80 40

Page 99: ESTADISTICA,general

99

D.- EDUCACION:

1. Se realiza una estadística en dos centros de enseñanza, uno público y otro privado,

referente a la nota global del bachillerato de cada uno de los alumnos que van a acudir a

los exámenes de selectividad. Las distribuciones de frecuencias son las siguientes:

Centro privado Centro público

Nota global de

cada alumno.

Frecuencias

5,5 10

6.5 15

7.5 20

8.5 30

9.5 15

Se pide:

a. A la vista de la tabla, te sugiere algún comentario de especial importancia. ¿Cuál

es el motivo de que los datos se presente en dos tablas de diferente tipo?

b. Estudiar las diferentes medidas de tendencia central (promedios) en las dos

distribuciones. En cada distribución ¿cuál te parece más representativo? ¿por

qué?

c. Indique cual es la nota mediana de cada grupo.

2. En las sgte. Tabla, se presenta la sgte.

Información y se pide calcular la Media

aritmética, mediana y moda.

Tenemos la siguiente información sobre

el gasto semanal en ocio de un grupo de

estudiantes universitarios.

NIVEL DE GASTO (€) Nº DE JÓVENES

0-5

5-10

10-15

15-20

20-25

25-30

4

11

16

22

8

6

Nota global de cada alumno.

Frecuencias

250

150

100

20

Page 100: ESTADISTICA,general

100

3. Hemos pasado una prueba de actitud a 200 aspirantes al ingreso en la Escuela de

Psicología. Para cada aspirante hemos anotado el número de preguntas acertadas, y con

ellas hemos elaborado la distribución de frecuencias que presentamos en la tabla nro. 1.

Dibuje una representación gráfica de las frecuencias absolutas. Calcule el promedio de

notas, la mediana de y la moda e intérprete correctamente cada estadígrafo.

Tabla nro. 1.

Preguntas Acertadas Frecuencia absoluta

21-25 16

26-30 20

31-35 30

36-40 42

41-45 22

46-50 29

51-55 23

56-60 18

4. Se muestra la frecuencia de la cantidad de bolas metidas en 2 horas por Eduardo y sus

amigos.

(Li - Ls) fi

10-20 2

20-30 3

30-40 5

40 - 50 8

50-60 12

5. Dada las edades de 20 señoritas del ciclo anual.

15 17 19 20 18 18 19 17 16 17

20 15 20 18 15 15 16 17 15 17

Calcular el promedio, mediana, moda

Se pide calcular la mediana, moda y media.

Page 101: ESTADISTICA,general

101

6. Se tiene que:

A 2 3 3 5 7 6 7 5 8 4

B 6 7 5 2 9 1 7 6 4 2

C 3 4 7 6 8 9 7 6 3 2

Se pide determinar el promedio, mediana y moda.

7. Dada la distribución de frecuencias de cierto número de alumnos:

Edades 20 22 24 26 28

fi 5 4 6 3 2

Determinar el promedio aritmético entre la mediana y la media.

8. La siguiente tabla refleja las calificaciones de 30 alumnos en un examen de Matemáticas:

nota 2 4 5 6 7 8 9 10

Nº alumnos 2 5 8 7 2 3 2 1

a. ¿Cuántos alumnos aprobaron? ¿Cuántos alumnos sacaron como máximo un

7?¿Cuántos sacaron como mínimo un 6?

b. Calcular la nota media, la moda y la mediana

Page 102: ESTADISTICA,general

102

SEGUNDA UNIDAD

Page 103: ESTADISTICA,general

103

Sesión 8 y 9 Regresión Lineal Simple

Correlación

1. Establece el tipo de relación entre variables cuantitativas utilizando diagramas de

dispersión.

2. Calcula e interpreta los coeficientes de la ecuación de regresión lineal simple.

3. Construye relaciones funcionales lineales simples y realiza predicciones

4. Calcula e interpreta el coeficiente de correlación.

5. Calcula e interpreta el coeficiente de determinación para regresión simple..

1. Valora la importancia que tiene el análisis estadístico de asociación de variables

en general y específicamente en la investigación científica.

2. Asume una actitud reflexiva, crítica y creativa al aplicar los métodos y técnicas

Estadísticas de regresión y correlación al análisis de relaciones de causa-efecto

Regresión Lineal Simple. Diagrama de Dispersión. Correlación. Coeficiente de

Correlación de Pearson. Coeficiente de Determinación. Interpretaciones.

ACTITUDES

CONTENIDO

CAPACIDADES

Page 104: ESTADISTICA,general

104

Con frecuencia, las variables que constituyen una distribución bidimensional muestran un

cierto grado de dependencia entre ellas. Un ejemplo de esta relación aparece en la relación

de peso y altura: aunque no existe una ley causal que relacione ambas variables, en

términos estadísticos se aprecia una dependencia entre ellas (cuando aumenta la altura,

suele hacerlo también el peso). Esta dependencia se refleja en la nube de puntos que

representa a la distribución, de modo que los puntos de esta gráfica aparecen condensados

en algunas zonas.

En tales casos, se pretende definir una ecuación de regresión que sirva para relacionar las

dos variables de la distribución. La representación gráfica de esta ecuación recibe el nombre

de línea de regresión, y puede adoptar diversas formas: lineal, parabólica, cúbica,

hiperbólica, exponencial, etc.

Análisis de regresión

Propósito: determinar la ecuación de regresión; se usa para predecir el valor de la

variable dependiente (Y) basado en la variable independiente (X).

Procedimiento: seleccionar una muestra de la población y enumerar los datos por

pares para cada observación; dibujar un diagrama de dispersión para visualizar la

relación; determinar la ecuación de regresión.

La ecuación de regresión: Y’= a + bX, donde:

o Y’ es el valor promedio pronosticado de Y para cualquier valor de X.

o a es la intercepción en Y, o el valor estimado de Y cuando X = 0

o b es la pendiente de la recta, o cambio promedio en Y’ por cada cambio de

una unidad en X:

Page 105: ESTADISTICA,general

105

REGRESIÓN LINEAL

Cuando la línea de regresión se asemeja a una recta (regresión lineal), puede ajustarse a

esta forma geométrica por medio de un método general conocido como método de los

mínimos cuadrados. La recta de ajuste tendrá por ecuación:

𝑌 = 𝛽0 + 𝛽1𝑋

Vamos a llamar a “X: VARIABLE INDEPENDIENTE o EXPLICATIVA”, y a la otra la

llamaremos “Y: VARIABLE DEPENDIENTE o EXPLICADA”.

Donde los coeficientes β0 y β1 se calculan teniendo en cuenta que:

La recta debe pasar por el punto ( ).

La separación de los puntos de la gráfica de dispersión con respecto a la recta de

regresión debe ser mínima.

CÁLCULO DE LOS COEFICIENTES β0 y β1:

1° Cálculo de β1: 𝜷𝟏 =𝑪𝒐𝒗(𝒙,𝒚)

𝑽(𝒙)

2° Cálculo de β0: 𝜷𝟎 = �� − 𝜷𝟏��

Donde:

�� =∑ 𝑌𝑖

𝑛𝑖=1

𝑛: Media Aritmética de Y.

�� =∑ 𝑋𝑖

𝑛𝑖=1

𝑛: Media Aritmética de X.

Page 106: ESTADISTICA,general

106

CORRELACIÓN (r)

El coeficiente de correlación (r) mide el grado de relación lineal (intensidad) de la relación

entre dos variables cuantitativas. El coeficiente r puede tomar valores entre -1.00 y 1.00.

Básicamente, esta información se refiere a dos características de la relación lineal: la

dirección o sentido y la cercanía o fuerza.

Es importante notar que el uso del coeficiente de correlación sólo tiene sentido si la

relación a analizar es del tipo lineal. Si ésta no fuera no lineal, el coeficiente de

correlación sólo indicaría la ausencia de una relación lineal más no la ausencia

de relación alguna.

El coeficiente de correlación se expresa como:

𝑅 =𝐶𝑜𝑣(𝑥, 𝑦)

𝜎𝑥𝜎𝑦=

𝑆𝐶𝑥𝑦

√(𝑆𝐶𝑥)(𝑆𝐶𝑦)

Donde:

𝑆𝐶𝑥𝑦 = ∑ 𝑋𝑖𝑌𝑖𝑛𝑖=1 −

(∑ 𝑋𝑖𝑛𝑖=1 )(∑ 𝑌𝑖

𝑛𝑖=1 )

𝑛: Suma Cruzada de X e Y.

𝑆𝐶𝑥 = ∑ 𝑋𝑖2𝑛

𝑖=1 −(∑ 𝑋𝑖

𝑛𝑖=1 )

2

𝑛: Suma de Cuadrados de X.

𝑆𝐶𝑦 = ∑ 𝑌𝑖2𝑛

𝑖=1 −(∑ 𝑌𝑖

𝑛𝑖=1 )

2

𝑛: Suma de Cuadrados de Y.

0 1 -1

Correlación perfecta Positiva

Correlación perfecta negativa

Correlación nula

Fuerte Positiva

Débil Positiva

Débil Negativa

Fuerte Negativa

Page 107: ESTADISTICA,general

107

Correlación negativa perfecta (r=-1) Correlación Positiva perfecta (r=1)

Correlación Nula

Page 108: ESTADISTICA,general

108

Correlación Positiva Fuerte

EL COEFICIENTE DE DETERMINACION “R2”

El coeficiente de determinación, r2 - la proporción de la variación total en la variable

dependiente Y que está explicada por o se debe a la variación en la variable independiente

X. El coeficiente de determinación es el cuadrado del coeficiente de correlación, y toma

valores de 0 a 1.

El objetivo principal del análisis de regresión es proyectar el valor de la variable dependiente

conociendo o suponiendo valores para la variable independiente. La confiabilidad de las

proyecciones está dada por la confiabilidad de la ecuación, la cual se mide a través del

coeficiente de determinación y de los errores de los coeficientes de regresión.

Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer

de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste

lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad

del ajuste se utiliza el coeficiente de determinación, definido como sigue:

Page 109: ESTADISTICA,general

109

𝑅2% = (𝑅2) × 100

Donde:

R: Coeficiente de Correlación.

EJERCICIOS

Después de haber leído la bibliografía básica propuesta en el punto 2.1, resuelve los

siguientes ejercicios:

1. Para cada uno de los siguientes conjuntos de datos bivariantes graficar sus

correspondientes diagramas de dispersión de puntos. ¿Qué tipo de relación

funcional, cree usted, se podría ajustar mejor a los datos?, ¿Por qué?

2. Se realiza un estudio para determinar el efecto de la reducción de las horas de

sueño sobre la habilidad para resolver problemas sencillos. La reducción de las

horas de sueño es de 8, 12, 16, 20 y 24 horas sin dormir. En el estudio participaron

un total de 10 individuos, con dos en cada nivel de reducción. Después de su

período específico de reducción de horas de sueño, cada individuo fue sometido a

X 5 10 8 19 14 19 15 15 25 20 20

Y 2 7 13 14 15 16 10 5 7 10 5

X 3 6 5 1 4 2 3 7 4

Y 16 14 12 8 18 11 11 5 20

X 6 2 1 4 1 3 4 1 3 2 4

Y 10 16 14 10 16 13 11 15 14 14 12

X 6 14 15 18 10 16 14 12 18 17

Y 8 11 16 17 11 14 13 10 14 18

a)

b)

c)

d)

Page 110: ESTADISTICA,general

110

un conjunto de problemas simples de suma, observándose el número de errores.

Los resultados fueron:

Número de errores (Y) 8, 6 6, 10 8, 14 14, 12 16, 12

Reducción de horas de

sueño (X)

8 12 16 20 24

a) Grafica el diagrama de dispersión de puntos.

b) Encuentra la recta de mínimos cuadrados apropiada para estos datos.

c) En el diagrama de dispersión de puntos, grafica la recta de mínimos

cuadrados.

d) Interpreta los coeficientes de regresión.

3. Los gastos semanales de publicidad y las ventas semanales de una empresa, en

dólares, para una muestra de diez semanas son:

Gastos

semanales de

publicidad

41

54

63

54

48

46

62

61

64

71

Ventas

semanales

1250 1380 1425 1425 1450 1300 1400 1510 1575 1650

a) Establece la recta de regresión de mínimos cuadrados que permita predecir las

ventas semanales en función de los gastos en publicidad.

b) Representa gráficamente los puntos y la recta de mínimos cuadrados. Comenta.

c) Interpreta la pendiente de la recta de regresión.

d) Pronostica las ventas para gastos semanales de publicidad de 50 y 60 dólares.

e) ¿Cuáles son los errores de estimación cuando se predice las ventas semanales

para gastos semanales de publicidad de 61, 62 y 63 dólares respectivamente?

Page 111: ESTADISTICA,general

111

4. Las calificaciones en un examen de estadística y el número de horas de estudio

para el examen, de una muestra de doce estudiantes de una sección, se presentan

en el siguiente cuadro.

Tiempo de

estudio 3 3 3 4 4 5 5 5 6 6 7 8

Calificación 9 12 11 12 15 14 16 15 18 16 15 17

a) Halla la recta de regresión de mínimos cuadrados considerando la calificación

en el examen como variable dependiente.

b) Interpreta la pendiente de la recta de regresión.

c) Calcula el error estándar de estimación. ¿Para qué se utiliza esta medida?

5. En una empresa se tiene interés en pronosticar el tiempo, en minutos, que toma

atender a un cliente en caja (Y) y se decide utilizar como variable independiente el

monto de las compras en dólares (X). Se tomó una muestra de 18 clientes y se

obtuvieron los siguientes resultados: x = 861, x2 = 60323, xy = 5177.3, y =

75.4, y2 = 455.86.

a) Halla la recta de regresión que mejor se ajusta a los datos e interpreta la

pendiente.

b) Grafica la recta de regresión.

c) Utiliza el gráfico de la recta de regresión para realizar dos predicciones de la

variable dependiente.

d) Calcula el error de estimación.

e) Calcula e interpreta el coeficiente de correlación

6. Para los puntajes de ansiedad (X) y de aptitud académica (Y) de diez postulantes

a un trabajo se han obtenido los siguientes resultados: x = 847, x2 = 71927,

y = 446, y2 = 20058, xy = 37615.

a) Halla la recta de regresión de mínimos cuadrados que se ajusta a estos datos.

Interpreta la pendiente.

Page 112: ESTADISTICA,general

112

b) Interpreta la pendiente de la recta de regresión.

c) Grafica la recta de regresión.

d) Calcula e interpreta el coeficiente de correlación

7. Se ha tomado una muestra de 16 ventas de una casa comercial. Para cada venta

se han observado el precio de venta (X) y la cantidad vendida (Y) y se han obtenido

los siguientes resultados: x = 77.9, y = 749, SCx = 75.53, SCy = 7114.44 y

SCxy = - 489.89.

a) Halla la recta de regresión de mínimos cuadrados.

b) Interpreta la pendiente.

c) Pronostica la cantidad vendida para precios de venta de X=3 y x=5.

d) Calcula e interpreta el coeficiente de determinación.

8. Según investigaciones, el porcentaje de desembolso por empresas manufactureras

estadounidenses en plantas y equipo que fue destinado al control de polucióín

durante el periodo 1975–1987 fue como sigue:*

1975 1980 1981 1984 1987

9.3 4.8 4.3 3.3 4.3

*Fuente: Survey of Current Business.

a) Obtenga un modelo de regresión lineal, donde X: tiempo en años desde 1975.

b) Grafique la ecuación de la Recta.

c) Use el modelo calculado en (a) para estimar el porcentaje en 1985.

Page 113: ESTADISTICA,general

113

3.9. La siguiente tabla muestra el beneficio neto, en millones de dólares, de la

empresa Disney durante los años 1984-1992.

Beneficios estimados al $5 millón más cercano.

Fuente: Informes de compañía/The New York Times, Dic. 1992.

a) Estime la ecuación de la recta de mejor ajuste para estos datos.

b) Interprete el coeficiente β1.

c) Use el modelo calculado para hacer una estimación.

9. La siguiente tabla muestra la producción de soja, en millones de toneladas, en la

región Cerrados de Brasil, como función del área cultivada en millones de hectáreas.

Área

(Millones de hectáreas) 10,1 12,1 12,9 16,2 21,0

Producción

(Millones de toneladas) 15 25 30 40 60

*Fuente: Ministerio de Agricultura de Brasil/New York Times.

Page 114: ESTADISTICA,general

114

a) Obtenga la ecuación de la recta de regresión lineal.

b) Interprete el coeficiente β1.

Use el modelo calculado para hacer una estimación.

10. Para una muestra de 20 operadores de máquinas se tienen registrados, la nota del

examen de ingreso (X) y la evaluación de eficiencia laboral (Y). A partir de estos

datos se han obtenido los siguientes coeficientes para la recta de regresión de

mínimos cuadrados: 0 = 28.64 y 1 = 1.01.

a) Escribe la recta de regresión e interpretar 1 .

b) Estima el puntaje promedio de evaluación de eficiencia laboral para los

operadores que obtuvieron 75 puntos en el examen de ingreso.

c) Grafica la recta de regresión.

11. La siguiente información corresponde a calificaciones obtenidas por 10 estudiantes

en un examen de Estadística y su calificación final promedio.

Calificación

en examen

14

18

16

12

10

15

17

11

08

12

Calificación

promedio

12

14

15

10

11

12

12

11

10

11

a) Grafica el diagrama de dispersión. Comentar

b) Halla la recta de regresión de mínimos cuadrados. Interpretar la pendiente.

c) Calcula el coeficiente de correlación lineal. Interpreta.

d) Calcula el coeficiente de determinación. Interpreta.

Page 115: ESTADISTICA,general

115

12. En un estudio con 15 observaciones mensuales, un analista financiero quiere

determinar la relación de la tasa porcentual de rendimiento (Y) de las acciones de

una empresa sobre la tasa porcentual de rendimiento (X) de un índice bursátil.

Dispone de la siguiente información:

x = 33.8, y = 33.5, xy = 79.22, x2 = 80.34, y2 = 79.45

a) Estima la regresión lineal de Y sobre X. Realiza una predicción.

b) Calcula el coeficiente de correlación lineal. Interpreta.

c) Calcula el coeficiente de determinación. Interpreta.

13. Un vendedor de bienes desea establecer la relación entre el número de semanas

que las casas están en el mercado antes de venderse y el precio que por ellas se

pide. La información es la siguiente:

Semana

6.2

6.7

7.5

8.5

11.5

9.5

12.2

9.8

Precio

(miles)

25

82

100

95

120

110

130

135

a) Grafica la dispersión de puntos.

b) Halla la ecuación de regresión de Y sobre X. Interpreta la pendiente.

c) Realiza dos predicciones.

d) Calcula e interpreta el coeficiente de determinación.

e) Calcula el error estándar de estimación.

Page 116: ESTADISTICA,general

116

14. La siguiente tabla y gráfica muestran el consumo mensual de energía en función del

área del domicilio:

Área

(m2) 119,8 125,4 136,6 148,8 158,9 170,9 183,9 207,2 223,0 272,2

Consumo

(kw-hrs) 1180 1170 1260 1490 1570 1710 1800 1840 1960 1950

a) Establezca la recta de regresión de mínimos cuadrados que permita predecir el

consumo de energía en función del área del domicilio.

b) Represente gráficamente los puntos y la recta de mínimos cuadrados. Comenta al

respecto.

c) Interprete la pendiente de la recta de regresión.

d) Calcule e interprete el Coeficiente de Correlación R.

e) Calcule e interprete el Coeficiente de Determinación R2.

15. En el servicio central de turismo del país se ha observado que el número de plazas

hoteleras ocupadas es diferente según sea el precio de la habitación. Sobre el total

de plazas ocupadas en un año se tiene:

Precio

(US$./noche)

260 650 1000 1400 2100 2500 2700 3300 4000

Nº Habitac

Ocupadas

4725 2610 1872 943 750 700 700 580 500

a) Representa gráficamente para comprobar que existe cierta dependencia lineal

entre las variables.

b) Halle la ecuación de la recta de regresión del precio sobre el número de

habitaciones.

c) ¿Cuántas habitaciones se llenarían a US$1500?

Page 117: ESTADISTICA,general

117

16. El volumen de ahorro y la renta del sector familias en billones de pesos, para el

período 77-86 fueron:

a) Encuentre la recta de regresión considerando el ahorro como variable

independiente.

b) Encuentre la recta de regresión considerando la renta como variable

independiente

c) Para el año 87 se supone una renta de 24.1 billones de pesos. ¿Cuál será el

ahorro esperado para el año 87?

17. La tabla presenta datos ficticios para un estudio de adolescentes en riesgo de

desarrollar obesidad.

N° de comidas

rápidas consumidas

la última semana

2 2 5 2 4 3 3 2

Peso (Kg.) 50,8 59,4 77,6 72,6 82,6 74,8 67,6 62,1

a) Trace un diagrama de dispersión del peso regresionado a partir del número de

comidas rápidas consumidas en la última semana.

b) Calcule el coeficiente de correlación R de Pearson para estas dos variables, así

como la ecuación de regresión 𝑌 = 𝛽0 + 𝛽1𝑋.

Año 77 78 79 80 81 82 83 84 85 86

Ahorro 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0

Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5

Page 118: ESTADISTICA,general

118

18. La tabla siguiente contiene la edad (X) y la máxima de la presión sanguínea (Y) de

un grupo de 10 mujeres:

Edad 56 42 72 36 63 47 55 49 38 42

Presión 14,8 12,6 15,9 11,8 14,9 13,0 15,1 14,2 11,4 14,1

a) Determine la recta de regresión de Y sobre X, justificando la adecuación de un

modelo lineal.

b) Interprete la pendiente.

c) Mida la bondad del modelo.

d) Realice las siguientes predicciones, sólo si tienen sentido:

Presión sanguínea de una mujer de 51 años.

Presión sanguínea de una niña de 10 años.

Presión sanguínea de un hombre de 54 años.

19. El crecimiento de los niños desde la infancia a la adolescencia generalmente sigue

un patrón lineal. Se calculó una recta de regresión mediante el método de mínimos

cuadrados con datos de alturas de niñas norteamericanas de 4 a 9 años y el

resultado fue: β0 = 80 y β1 = 6. La variable dependiente Y es la altura (en cm.) y X

es la edad (en años).

a) Interprete los valores estimados del intercepto y de la pendiente.

b) Cuál será la altura predicha de una niña de 8 años.

c) Cuál será la altura predicha de una mujer de 25 años. Comente el resultado.

20. En 1991 se publicó un trabajo “Diseñando plantas en climas difíciles” en la revista

Field Crops Research, los datos usados en la investigación son:

Duración 92 92 96 100 102 102 106 106 121 143

Rendimiento 1,7 2,3 1,9 2,0 1,5 1,7 1,6 1,8 1,0 0,3

Con X = la duración de la cosecha de porotos de soya en días, Y = rendimiento

de la cosecha en toneladas por hectárea.

Page 119: ESTADISTICA,general

119

a) Estime la recta de regresión mediante el método de mínimos cuadrados.

Interprete los estimadores en el contexto de la pregunta

b) ¿Existe una relación lineal significativa entre la duración y el rendimiento de la

cosecha?

c) Estime el rendimiento si la duración de la cosecha fue de 104 días.

21. Un investigador cree que la inteligencia de los niños, medida a través del

coeficiente intelectual (CI en puntos), depende del número de hermanos. Toma una

muestra aleatoria de 15 niños y ajusta una regresión lineal simple. Los resultados

aparecen en la tabla adjunta.

CI 110 115 120 118 110 108 105 104 98 99 99 100 90 93 90

N° Hmos 0 1 1 1 2 2 2 3 3 4 4 5 5 5 6

a) Encuentre e interprete el coeficiente de correlación R.

b) Dé la ecuación de la recta de regresión. Interprete los estimadores en el contexto

de la pregunta.

¿Existe una relación lineal significativa entre el número de hermanos y el

coeficiente intelectual?

22. Se desea saber si existe alguna relación entre la ingestión y la absorción de grasas

en lactantes desnutridos. Se realizan 20 determinaciones de ingestión y absorción

cuyos resultados se muestran en la tabla que sigue:

INGESTIÓN Y ABSORCIÓN DE GRASAS EN 20 LACTANTES

DESNUTRIDOS

Caso N° Ingestión Absorción Caso N° Ingestión Absorción

1 1,4 0,7 11 2,0 1,4

2 1,6 1,2 12 1,4 1,1

3 2,1 1,6 13 1,9 1,5

4 1,7 1,1 14 1,8 1,3

5 1,8 1,3 15 1,9 1,5

Page 120: ESTADISTICA,general

120

6 2,6 2,0 16 1,6 1,4

7 1,5 1,2 17 1,9 1,7

8 2,5 1,5 18 2,1 1,7

9 2,7 2,4 19 1,6 1,3

10 1,8 1,5 20 1,6 1,1

a) Estime β0 y β1 mediante el método de mínimos cuadrados. Interprete los

coeficientes de regresión.

b) Encuentre e interprete el coeficiente de correlación R.

c) ¿Existe una relación lineal significativa entre la ingestión y la absorción de

grasas?

23. La siguiente tabla presenta los datos sobre el número de cambios de aceite al año

(X) y el costo de la reparación (Y), en miles de pesos, de una muestra aleatoria de 8

autos de una cierta marca y modelo.

N° Cambios

de Aceite 3 5 2 3 1 4 6 4

Costo

(miles de

pesos)

150 150 250 200 350 200 50 125

a) Haga un gráfico de dispersión con los datos, verifique el supuesto de linealidad.

b) Encuentre la recta de regresión de mínimos cuadrados.

c) Interprete los valores estimados del intercepto y de la pendiente.

d) Estima cuál será el costo de reparación de un auto que ha tenido 4 cambios de

aceite.

e) Si cambia X por Y, ¿obtendrá la misma recta de regresión?

f) Calcule el residuo para la primera observación (X=3, Y=150).

Page 121: ESTADISTICA,general

121

24. Para la economía española, disponemos de los datos anuales redondeados sobre

consumo final de los hogares a precios corrientes (Y) y renta nacional disponible

neta (X), tomados de la Contabilidad Nacional de España base 1995 del INE , para

el período 1995-2002, ambos expresados en miles de millones de euros:

Año 1995 1996 1997 1998 1999 2000 2001 2002

Y 258,6 273,6 289,7 308,9 331,0 355,0 377,1 400,4

X 381,7 402,2 426,5 454,3 486,5 520,2 553,3 590,3

Considerando que el consumo se puede expresar como función lineal de la renta,

determine:

a) Los parámetros β0 y β1 de la recta de regresión.

b) El coeficiente de determinación de dicha regresión.

c) La predicción del valor que tomará el consumo para una renta de 650.000

millones de euros.

25. Se supone que se puede establecer cierta relación lineal entre las exportaciones de

un país y la producción interna de dicho país. En el caso de España, tenemos los

datos anuales (expresados en miles de millones de pesetas) para tales variables

correspondientes al quinquenio 2002-06 en la siguiente tabla:

Año Producción Exportaciones

2002 52,654 10,420

2003 53,972 11,841

2004 57,383 14,443

2005 61,829 16,732

2006 65,381 18,760

A partir de tal información, y considerando como válida dicha relación lineal, se pide:

a) Si la producción para el año 2007 fue de 2.210.610 millones de pesetas, ¿cual

sería la predicción de las exportaciones para este año? ¿Qué grado de precisión

tendría dicha predicción?

Page 122: ESTADISTICA,general

122

b) ¿Qué tanto por ciento de la varianza de las exportaciones no vienen explicadas

por la producción interna, y se debe a otro tipo de variables?

26. Un estudiante de la Escuela Universitaria de Estudios Empresariales de la

Universidad de Sevilla, para poder pagarse sus estudios, debe trabajar como

camarero en un bar de copas de su localidad. A este establecimiento, suelen acudir

todos los jóvenes de la zona. Este año, con los conocimientos aprendidos, decide

por fin estudiar la relación existente entre la cantidad de sal de las galletas saladas

y el consumo de bebidas, ya que es costumbre dar al cliente este aperitivo cuando

pide una consumición. Se sabe que las galletas no pueden tener una concentración

de sal superior a 3,5 gramos por cada 1000 galletas y, por ello, decide ir variando a

partir de 1 gramo la concentración de 0,5 en 0,5 gramos cada semana e ir anotando

el incremento en caja semanalmente, obteniendo la siguiente tabla:

Gramos de sal por

1000 galletas

Ingresos

(pesetas)

1 140,3

1,5 150

2 165

2,5 175

3 200

A partir de tales cifras, se quiere conocer:

a) ¿Considera justificado el planteamiento de un modelo lineal para expresar la

relación entre las variables?

b) Si el propietario desea unos ingresos de 160.000 pesetas, ¿qué cantidad de sal

debería aportar por cada 1000 galletas? Si aporta el máximo permitido de sal,

¿cuál sería el ingreso en caja? Explicar cuál de las dos predicciones le merece

mayor confianza.

Page 123: ESTADISTICA,general

123

¿Cuál sería la variación porcentual de los ingresos cuando la cantidad de sal

aumenta en un 1% sobre el último valor de la tabla? Si aumentamos en 1gr. la sal

por cada 1000 galletas, ¿cuánto variarán los ingresos?

27. La factura mensual del gasto telefónico de una pequeña empresa se ha

incrementado notablemente en los últimos meses. Los estudios realizados por el

administrador de la misma argumentan que el mayor uso de Internet dentro de la

misma es la principal causa del mayor gasto en teléfono, lo que ha hecho que se

estudie la posibilidad de acogerse a alguno de los múltiples bonos o tarifas

especiales que ofrecen las compañías, lo que hasta la fecha todavía no se llevó a

cabo. Las últimas cifras mensuales no hacen sino confirmar esta relación:

Mes Enero Febrero Marzo Abril Mayo

Cuantía de la factura

telefónica (€)

55 100 118 120 142

Tiempo de conexión

(minutos)

200 500 700 800 1000

De acuerdo con la información anterior, responda a las siguientes preguntas:

a) Suponiendo la existencia de una relación de tipo lineal entre tiempo de conexión y

gasto telefónico, ¿qué porcentaje de las variaciones en la cuantía de la factura

telefónica no podrían ser explicadas linealmente por el tiempo de conexión a

Internet dentro de la compañía?

b) ¿Cuál sería la cuantía de la factura telefónica de la compañía de acuerdo a esta

relación lineal si no se conectase a Internet en la empresa?

c) ¿Cuál sería el gasto telefónico estimado según esta relación lineal si el tiempo de

conexión a Internet fuera de 2000 minutos? ¿Le parece aceptable tal predicción?

Justifique su respuesta.

Se considera que un incremento del 20% en el tiempo de conexión a Internet

respecto al realizado en el mes de mayo conllevaría a que la factura telefónica se

Page 124: ESTADISTICA,general

124

elevase de forma extraordinaria. ¿Cuál sería el incremento relativo en la misma si

ello se produjese? Justifique su respuesta.

28. Una juguetería ha examinado la evolución reciente de las ventas de su muñeco

“Qco” (Y, en millones de euros) junto con los gastos de publicidad de ese muñeco

(X, en millones de euros), obteniéndose los siguientes resultados:

Año 2003 2004 2005 2006 2007 2008 2009

Y 126 135 156 156 150 150 180

X 20 25 30 32,5 35 32 34

A partir de esta información, responda a las siguientes cuestiones:

a) ¿Se puede afirmar que al aumentar los gastos en publicidad se incrementarán las

ventas? Obtenga los parámetros del ajuste lineal que explique las ventas en

función de los gastos. Interprete dichos coeficientes e indique la bondad del ajuste

realizado.

b) Si para este año 2010 aumentásemos los gastos de publicidad en un 1%, ¿en qué

porcentaje se espera que variasen las ventas, según el modelo lineal?

29. Para un conjunto de personas que están siguiendo una dieta de adelgazamiento, se

han recogido datos sobre el peso perdido desde el inicio de la misma (variable Y,

en Kg.) y el tiempo que llevan siguiendo la dieta (variable X, en semanas), los

cuales se muestran en la siguiente tabla:

Y 2,4 5,4 5,6 8,4 10,6 13,5 15 15

X 3 5 6 8 11 13 15 16

a) Estime el modelo lineal que explica el peso perdido en función del tiempo que se

lleva siguiendo la dieta e interprete los parámetros.

b) Para el modelo estimado en el apartado anterior, descomponga la varianza total

como suma de la explicada y la no explicada por el mismo y obtenga, a partir de

tal descomposición, el coeficiente de determinación.

Page 125: ESTADISTICA,general

125

c) Según el modelo considerado, ¿qué peso esperaría perder una persona que siga

la dieta durante 2 meses (8 semanas)? ¿Y una persona que esté dispuesta a

seguir la dieta durante dos años (108 semanas)? ¿Qué fiabilidad le otorga a cada

una de las estimaciones anteriores?

30. Con el objetivo de estudiar la relación lineal entre el precio de los automóviles y el

número de unidades vendidas, se procedió a recoger datos sobre tales magnitudes

durante el pasado mes en una determinada región. Los resultados obtenidos fueron

los siguientes:

Precio

(miles de euros) 7,5 9 10,5 12 14 16 18 20,5 23,5 27

Cantidad

vendida por mes 450 425 400 350 325 300 290 280 260 200

En función a los datos recabados para esa región y mes:

a) Una empresa radicada en la región tiene previsto para el mes próximo aumentar

el precio de su modelo más vendido en 500 �. Si suponemos como válida la

relación lineal entre las dos variables analizadas para los datos del pasado mes,

¿cómo afectaría este hecho a las ventas de dicho modelo?

b) Si el modelo más caro de la tabla anterior se abaratase para el mes próximo un

3%, ¿cómo variarían las ventas de dicho modelo?

31. En una muestra de familias se han analizado las variables ahorro anual (Y) y renta

anual (X), medidas ambas en miles de euros. Los datos obtenidos han sido los

siguientes:

Ahorro

(Y) 1,9 1,8 2,0 2,1 1,9 2,0 2,2 2,3, 2,7 3,0

Renta

(X) 20,5 20,8 21,2 21,7 22,1 22,3 22,2 22,6 23,1 23,5

Page 126: ESTADISTICA,general

126

A partir de tales datos, se pide:

a) Obtener el modelo lineal que explica el ahorro de las familias en función de su

renta.

b) ¿Qué familia aumentaría en un mayor porcentaje su ahorro si su renta se viese

incrementada en un 5%, la familia que tiene la menor renta de entre todas o la

que posee la mayor renta?

c) ¿Cuál será el incremento absoluto del ahorro cuando una familia aumente su

renta anual en 500 euros?

d) ¿Qué porcentaje de varianza de la variable ahorro queda explicado por la variable

renta a través del modelo lineal planteado?

REFERENCIAS BIBLIOGRÁFICAS

1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima

– Perú.

2. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición.

Edit. PHH S. A. – México.

3. FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición –

Edit. Préntice Hall Hispanoamericana S.A.- México.

4. GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la

Psicología y la Educación. Edit. Mc Graw-Hill – México.

5. MILLER, Irwin y FREUND, John E.,1995. Probabilidad y Estadística para Ingenieros

– Edit. Préntice Hall Hispanoamericana S.A. – México.

6. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-

Lima- Perú.

7. WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía.

3era edición – Edit. McGraw-Hill Companies,

Page 127: ESTADISTICA,general

127

ESTADISTICA INFERENCIAL

TERCERA UNIDAD

Page 128: ESTADISTICA,general

128

Sesión 11 Introducción a las Probabilidades:

Probabilidades

Distribución Normal

1. Realiza cálculos básicos sobre probabilidades de eventos.

2. Identifica y construye espacios muestrales para experimentos.

3. Conoce y aplica las propiedades de probabilidad para resolver problemas.

4. Calcula e interpreta probabilidades de sucesos con distribución normal.

1. Valora la importancia que tiene la probabilidad y la distribución de probabilidad normal

y sus propiedades en la Inferencia Estadística Clásica.

2. Actúa trabajando en equipo con responsabilidad, puntualidad y orden en la ejecución

de las tareas y trabajos asignados, asumiendo una posición reflexiva y crítica hacia

los resultados obtenidos.

Nociones de Probabilidad. Espacio Muestral. Probabilidad de un Evento.

Propiedades. Distribución Normal.

ACTITUDES

CONTENIDO

CAPACIDADES

Page 129: ESTADISTICA,general

129

PROBABILIDAD

DEFINICIONES PREVIAS:

1) Experimento Aleatorio (E) : es aquel fenómeno cuyos resultado depende del azar y

cumple ciertas características:

a) El experimento se puede repetir indefinidamente bajo condiciones idénticas.

b) Se puede describir el conjunto de todos los resultados posibles, pero no se

pueda asegurar o predecir un resultado en particular.

c) Si se repite un número grande de veces debe aparecer cierta regularidad

estadística.

2) Sucesos: un suceso de un Experimento Aleatorio (E) es cada uno de los posibles

resultados de dicho experimento que no puede descomponerse en resultados más

simples

3) Espacio Muestral (S): Es el conjunto de todos los resultados posibles (sucesos) de un

experimento aleatorio. A los ejemplos previos corresponden los siguientes espacios

muestrales en notación de conjuntos:

EJEMPLO:

EXPERIMENTO ALEATORIO ESPACIO MUESTRAL (S)

1) Observar el lanzamiento de una moneda. E= {Cara, Sello}

4) Eventos (A, B, etc) Es cualquier subconjunto de resultados de un espacio muestral S.

Los siguientes son eventos asociados a los espacios muestrales previos.

Suceso 1 Suceso 2

Page 130: ESTADISTICA,general

130

EXPERIMENTO ALEATORIO ESPACIO

MUESTRAL (S)

EVENTOS

A. Observar el lanzamiento de una moneda. Cara, Sello A1: Que salga cara

A2: Que salga sello

B. Observar el lanzamiento de un dado. 1,2,3,4,5,6 B1: Que salga par

B2: Que salga impar

B3; Que salga > 4

C. Medir la duración de un equipo electrónico.

D. Contar el número de vehículos que pasan

por un cruce en lapsos de un minutos.

0,1,2,4,5,….

E. El lanzamiento de dos dados. (1,1); (1,2); (1,3); … E1: Suma de las caras superiores es igual a 7

E2: La suma de las caras superiores es menor que 5

F. Lanzamiento de un dado y una moneda (1,S); (2,S); …(1,C);

F1: Salga un 6 y una cara

Page 131: ESTADISTICA,general

131

DEFINICIÓN DE PROBABILIDAD SEGÚN LAS TRES ESCUELAS DE

PENSAMIENTO DIFERENTES: LA TEORÍA CLÁSICA, LA TEORÍA DE

FRECUENCIA RELATIVA Y LA TEORÍA SUBJETIVA

1.1. LA TEORÍA CLÁSICA.

Dada por Andrei Kolmogorov, 1903 a 1987, probabilista ruso.

Se aplica cuando todos los elementos del espacio muestral (sucesos) tienen la

misma probabilidad de ocurrir.

Sea S el espacio muestral asociado a un experimento aleatorio y sean SA i

para n..,,2,1i eventos.

Ejemplo 1:

Se tiene el siguiente exp. Aleatorio E: Lanzamiento de dos monedas al aire.

a) ¿Calcule el espacio muestral?

b) Sea el evento A: salga solo una cara. Plantee el evento A, utilizando conjunto

c) ¿Cuál es la probabilidad de que salga 1 cara?

1.2. LA TEORÍA DE LA FRECUENCIA RELATIVA.-

Se debe a Pierre Simón de Laplace, 1749 a 1827.

Supóngase que repetimos n veces un experimento aleatorio, sean A un evento

asociado al experimento y al espacio S. Sean An el número de veces en que

ocurren A o sea el número de elementos del conjunto.

Definimos la frecuencia relativa del evento A:

como nn0 A entonces 1n

n0 A

o sea 0 ≤ hA ≤ 1

DEFINICIÓN DE PROBABILIDAD

CLÁSICA

Probabilidad de un evento =# de resultados favorables

# de resultados posiblesDEFINICIÓN DE PROBABILIDAD

CLÁSICA

Probabilidad de un evento =# de resultados favorables

# de resultados posibles

nnn

nh A

AA 0;

Page 132: ESTADISTICA,general

132

Ejemplo 1.

Se tiene información acerca de los cargos y el sexo del personal de cierta empresa.

Cuál es la probabilidad de que al seleccionar un trabajador éste sea:

a) Contador y sea hombre

b) Abogado y mujer

c) Mujer

d) Sabiendo que el trabajador es ingeniero. ¿Cuál es la probabilidad de que sea

hombre?

e) Sabiendo que el trabajador sea mujer. ¿Cuál es la probabilidad de que sea

abogado?

Ejemplo 2.

Localice todos los valores de probabilidad asociados a la siguiente tabla de Carrol

que ofrece información sobre la hipertensión y el hábito de fumar.

No

fumadores

Fumadores

moderados

Fumadores

empedernidos

Hipertensos

10 20 15

No hipertensos

30 15 10

a. Si se selecciona aleatoriamente uno de estos pacientes, encuentre la probabilidad

de que la persona sea:

a. fumadora moderada:

b. no hipertensa:

c. no hipertensa ni fumadora :

Sexo Abogado Contador Ingeniero TOTAL

Hombres 10 5 6

Mujeres 15 4 7

TOTAL

Page 133: ESTADISTICA,general

133

d. hipertensa y fumadora empedernida:

e. Sabiendo que el paciente no fuma. ¿Cuál es la probabilidad de que sea

hipertensa?

f. Sabiendo que el paciente es hipertenso. ¿Cuál es la probabilidad de que sea

fumador empedernido?

1.3. LA TEORÍA SUBJETIVA.

Se refiere a la posibilidad de que un evento particular ocurra, que es asignada por un

individuo basándose en la información que tenga disponible y en su propia experiencia

o presentimientos.

Ejemplos de probabilidad subjetiva son las apuestas en eventos atléticos o deportivos

o la estimación del futuro de una acción.

AXIOMAS DE LA PROBABILIDAD

1) 1AP0 i

P(Ai) 0 0.5 1

Sin probabilidad Tan probable Certeza

De ocurrir como improbable de ocurrir

2) 1)()( iAPSP

PROPIEDADES DE LAS PROBABILIDADES

PROPIEDAD 1: La probabilidad de un evento imposible es cero.

En efecto AA

APAP como A A excluye a

Entonces APPAP 0P

Page 134: ESTADISTICA,general

134

PROPIEDAD 2: COMPLEMENTO DE UN EVENTO

Veamos:

A = S por lo tanto P(A ) = P(S)

Como A excluye P(A) + P( ) = 1

entonces P( )= 1 – P(A) B

PROPIEDAD 3: LEY DE LA ADICION (UNION DE DOS EVENTOS)

PROPIEDAD 4: UNION DE 3 O MAS EVENTOS

CPBPAPCBAP

CBPCAPBAP

CBAP

Page 135: ESTADISTICA,general

135

PROPIEDAD 5: PROBABILIDAD CONDICIONAL

Sean A y B dos sucesos en S. Indicaremos con ABP la probabilidad

condicional del suceso B, dado que A ha ocurrido, así:

1AP0,AP

BAPABP

PROPIEDAD 5: EVENTOS INDEPENDIENTES

Dos eventos son INDEPENDIENTES si el resultado de uno NO afecta al otro, es decir

Cuando P(A B⁄ ) = P(A) o P(B A⁄ ) = P(B)

PROPIEDAD 6: PROBABILIDAD DE UNA INTERSECCION

De la probabilidad condicional podemos deducir que P(A ∩ B) = P (A). P (B/A)

Si A y B son independientes, entonces P(B/A) = P(B)

P(A ∩ B) = P (A). P (B)

Page 136: ESTADISTICA,general

136

EJERCICIOS:

1. Las probabilidades de que A, B y C resuelvan un cierto problema son 1/2, 3/5 y 2/3

respectivamente. ¿Cuál es la probabilidad de que el problema sea resuelto por lo

menos por uno de los tres?

2. Una tabla de mortalidad muestra que las probabilidades de que A y B vivan 25 años

más son 0.9 y 0.8 respectivamente. Calcula la probabilidad que al final de 25 años

ambos hayan muerto.

3. De 300 estudiantes de educación superior, 100 están inscritos en inglés y 80 en

Computación. Estas cifras de inscripción incluyen 30 estudiantes inscritos en

ambos cursos. ¿Cuál es la probabilidad que al seleccionar un estudiante al azar,

esté inscrito únicamente en inglés o en Computación?

4. En general, la probabilidad de que algún prospecto realice una compra cuando lo

visita un vendedor es 40%. Si un vendedor elige tres prospectos al azar de un

archivo y los visita: ¿Cuál es la probabilidad de que?:

A) Los tres prospectos realicen la compra?

B) El vendedor logre al menos dos ventas?

C) El vendedor logre al menos una venta?

D) Ningún prospecto realice la compra?

5. La tabla de contingencias que se muestra a continuación, presenta información

sobre las reacciones de los votantes con respecto a un nuevo plan de impuestos

sobre la propiedad, de acuerdo con su afiliación partidaria.

Page 137: ESTADISTICA,general

137

CUADRO No 1: REACCION DE VOTANTES RESPECTO A UN NUEVO PLAN DE

IMPUESTOS SOBRE LA PROPIEDAD SEGUN SU AFILIACIÓN PARTIDARIA.

Fuente: Datos Hipotéticos

a) Elabora la tabla de probabilidad conjunta.

b) Determina e interpreta las probabilidades marginales.

c) Si de estas 400 personas, se elige una persona al azar, ¿cuál es la probabilidad

que esté a favor del plan de impuestos?

d) Si de estas 400 personas, se elige una persona al azar, ¿cuál es la probabilidad

que pertenezca a PRO PERÚ?

6. La probabilidad de que un individuo consuma bebidas alcohólicas y fume es de

15/50, de que consuma bebidas alcohólicas es 25/50, y de que fume es de 20/50.

Calcula las siguientes probabilidades:

a) Que fume o consuma bebidas alcohólicas.

b) Que fume, sabiendo que consume bebidas alcohólicas.

c) ¿Son excluyentes los sucesos fumar y consumir bebidas alcohólicas?

7. CUADRO No 2: DISTRIBUCION PORCENTUAL DE GRUPOS HEMATICOS EN LA

POBLACION DEL DISTRITO DE LA ESPERANZA.

F/T A B AB O

Rh + 34% 9% 4% 38%

Rh - 6% 2% 1% 6%

Fuente: Datos Hipotéticos

Afiliación

Partidaria

Reacción Total

A favor Neutral Se opone

NUEVO PERÚ 120 20 20 160

PRO PERÚ 50 30 60 140

Otros 50 10 40 100

Total 220 60 120 400

Page 138: ESTADISTICA,general

138

De la información que se presenta en cuadro No 2 Resolver:

a) ¿Cuál es la probabilidad de que una persona tenga sangre tipo O?

b) ¿Cuál es la probabilidad de que una persona tenga sangre Rh-?

c) ¿Cuál es la probabilidad de que en un matrimonio ambos tengan Rh-

d) ¿Cuál es la probabilidad de que en un matrimonio ambos tengan tipo AB?

e) ¿Cuál es la probabilidad de que una persona tenga Rh- si tiene sangre tipo O?

f) ¿Cuál es la probabilidad de que una persona tenga sangre tipo B si tiene Rh+?

8. Los tiempos de reemplazo de los televisores tiene una distribución normal con una

media de 8.2 años y una desviación Standard de 1.1 años. Determina la

probabilidad que un televisor seleccionado al azar tenga un tiempo de reemplazo de

menos de 7 años.

9. Las duraciones de los embarazos tienen una distribución normal con una media de

268 días y una desviación estándar de 15 días. Si estipulamos que un bebé es

prematuro si nace al menos tres semanas antes de lo debido. ¿Qué porcentaje de

bebés nacen prematuramente?

10. Los puntajes de cociente intelectual (IQ) están distribuidos normalmente con una

media de 100 y una desviación estándar de 15. MENSA es una organización para

personas con cociente intelectual elevado, y sólo acepta personas con un IQ mayor

de 131.5.

a) Si se escoge aleatoriamente a una persona, determina la probabilidad de que

satisfaga el requisito de MENSA.

b) En una región representativa con 75 000 habitantes, ¿cuántos son elegibles

para MENSA?

Page 139: ESTADISTICA,general

139

11. El Cuerpo de Infantes de la Marina de EEUU requiere que los hombres tengan

estaturas entre 1.60 y 1.95 m. Determina el porcentaje de hombres que satisfacen

ese requisito de estatura, sabiendo que la Encuesta Nacional de Salud de ese país

revela que las estaturas de los estadounidenses de sexo masculino tienen una

distribución normal con una media de 1.725 m y una desviación estándar de 0.07

m.

12. Los niveles de colesterol en el suero de hombres con edades entre 18 y 24 años

están distribuidos normalmente con una media de 178.1 y una desviación estándar

de 40.7. Todas las cifras están dadas en mg/100 ml, y los datos se basan en la

Encuesta Nacional de Salud de EEUU. El nivel de colesterol en el suero se

considera demasiado alto si está en el 7% superior, encuentre la cantidad de

mg/100 ml para los niveles excesivamente altos.

13. Se recolectó información sobre el peso del recién nacido y si la madre fumó o no

durante el embarazo. Los datos se presentan a continuación:

CUADRO No 3: DISTRIBUCION DE LOS RECIEN NACIDOS DE ACUERDO A SU

PESO SEGÚN LA CONDICION DE FUMAR DE LA MADRE

CONDICIÓN PESO R.N.

TOTAL DE FUMADORA BAJO NORMAL

SI 30 10 40

NO 20 140 160

TOTAL 50 150 200

FUENTE: DATOS HIPOTETICOS

A. ¿Cuál es la probabilidad que el recién nacido tenga bajo peso?

B. ¿Cuál es la probabilidad que una gestante fume?

C. ¿Cuál es la probabilidad que el niño seleccionado tenga un peso normal?

Page 140: ESTADISTICA,general

140

VARIABLES ALEATORIAS Y SUS DISTRIBUCIONES

DE PROBABABILIDADES

VARIABLE ALEATORIA:

Es una función que asigna un valor numérico a cada suceso o resultado de un espacio

muestral. Es una variable cuyo valor numérico está determinado por el resultado del

experimento aleatorio

Las variables aleatorias se le denota con letras mayúsculas X, Y,Z; y su valores se

denotan con letras minúsculas x, y, z

Las Variables aleatorias se clasifican en dos tipos: DISCRETAS y CONTINUAS

o VARIABLE ALEATORIA DISCRETA: Cuando puede tomar un numero finito o

infinito, pero enumerable de posibles valores

o VARIABLE ALEATORIA CONTINUA: Cuando puede tomar un número

infinito (no enumerable) de valores

CARACTERISTICAS DE LAS VARIABLES:

VA. DISCRETA VA. CONTINUA

MEDIA O

PROMEDIO 𝐸(𝑋) = ∑ 𝑋𝑖𝑃(𝑋𝑖)

𝑛

𝑖=1

𝐸(𝑋) = ∫ 𝑋𝑖𝑓(𝑋𝑖)𝑑𝑥

VARIANZA 𝑉(𝑋) = ∑(𝑋𝑖 − 𝐸(𝑥))2𝑃(𝑋𝑖)

𝑁

𝑛

𝑖=1

𝑉(𝑋) = ∫(𝑋𝑖 − 𝐸(𝑥))2𝑓(𝑋𝑖)

𝑁

TIPO DE

GRAFICOS

Page 141: ESTADISTICA,general

141

DISTRIBUCIONES DE PROBABILIDAD

Son modelos que describen la forma en que se espera que varíen los resultados o probable

valores de una variable aleatoria.

Debido a que estas distribuciones tratan sobre expectativas de que algo suceda,

resulta ser modelos muy útiles para hacer inferencias y para tomar decisiones en

condiciones donde hay incertidumbre

Las distribuciones de probabilidad son esencialmente modelos gráficos que

relacionan los diversos probables valores que puede tomar una variable aleatoria

Tradicionalmente se clasifican en dos grandes familias:

o Distribuciones Parámetricas

o Distribuciones No Parámetricas

Muchos de los acontecimientos cotidianos, pueden ser asimilados a funciones probabilísticas

teóricas, que son de gran ayuda en la toma de decisiones bajo condiciones de incertidumbre.

Eminentes estudiosos de la estadística han planteado modelos probabilísticos que han

contribuido al desarrollo de la ciencia. Veamos algunos de ellos:

DISCRETAS CONTINUAS

Distribución Binomial Distribución Normal

Distribución Poisson Distribución Normal Estandar

Distribución Geométrica Distribución t - Student

Distribución Hipergeometrica Distribución F - Senedector

Page 142: ESTADISTICA,general

142

PRINCIPALES CARACTERISTICAS DE UNA DISTRIBUCION DE PROBABILIDAD

Una distribución se caracteriza, en general, por medio de tres criterios:

a.- El valor central o medida de posición (la media, la mediana o la moda).

b.- Una cantidad que expresa el grado de dispersión (la desviación estándar).

c.- La forma de la curva, es decir la forma general de la distribución probabilística

Page 143: ESTADISTICA,general

143

LA DISTRIBUCIÓN NORMAL O GAUSSIANA

La distribución normal, llamada también Curva de Gauss (en recuerdo al científico Karl

Gauss (1777 – 1855) que lo descubrió), es la distribución de probabilidad más importancia

en la Estadística y por ende del Cálculo de Probabilidades.

Esta distribución de probabilidad es importante porque las variables aleatorias continuas

(peso, edad, talla, producción, gasto en publicidad, temperatura, ventas, PBI, ganancias,

etc.) que son variables que más se evalúan en una investigación científica o investigación

de mercados se aproximan a esta distribución de probabilidad.

También es importante porque se utiliza como aproximación de las distribuciones discretas

tales como: la Binomial, la Poisson, etc.

Se puede reconocer por su forma acampanada

Page 144: ESTADISTICA,general

144

CARACTERÍSTICAS

1. Tiene como parámetros a y

2. Su función de probabilidad está dada por:

Xexf ,2

1)(

2X

2

1

3. El área total bajo la curva normal es igual a 1

4. El promedio puede tomar valores entre – y + mientras que > 0, entonces existen

infinitas curvas normales.

5. En la distribución normal, la mayoría de las probabilidades se centra en la zona central

6. Cada distribución normal es especificada por su media µ y su desviación estándar σ.

Page 145: ESTADISTICA,general

145

X ~ N (µ, σ2)

7. Esta función de probabilidad es asintótica con respecto al eje X, (a pesar de tener

recorrido infinito, la curva nunca toca el eje X); además es unimodal y es simétrica con

respecto a la media .

8. El área bajo esta función o curva es 1 ó 100%, de la misma manera se sabe que las

áreas comprendidas bajo la curva normal son :

1. = 68.3%

2. 2 = 95.5%

3. 3 = 99%

- -3 -2 -1 1 2 3 +

LA DISTRIBUCIÓN NORMAL ESTÁNDAR

2z

21

f(Z z) N 0, 1 e z2

Page 146: ESTADISTICA,general

146

1. Es una distribución Normal a la cual se le ha modificado la escala original; esta

modificación se ha logrado restando la media al valor de la variable original y

dividiendo este resultado por , la nueva variable se denota por Z y recibe el nombre de

variable estandarizada

ZX

2. La modificación de la escala ha permitido elaborar una tabla para el cálculo de las

probabilidades; si esto no hubiera sido posible, sería necesario construir una tabla para

cada valor de y .

3. La función de densidad de la variable estandarizada es:

f z ez

( )

1

2

1

2

2

4. El promedio (valor esperado) y la varianza de Z son: E(Z) = 0 , V(Z) = 1

5. Notación:

Si X es v.a. continua distribuida normalmente con media y varianza 2, la denotamos

por: X N ( , 2).

Page 147: ESTADISTICA,general

147

Aplicando esta notación a la variable normal estandarizada Z, escribimos:

ZN (0, 1), esto se interpreta como, Z tiene distribución normal con media 0 y varianza

1.

6. La superficie bajo la curva normal Z estandarizada también es igual a 1. Por

consiguiente, las probabilidades pueden representarse como áreas bajo la curva normal

escandalizada entre dos valores.

7. Debido a que la distribución normal es simétrica muchas de las tablas disponibles

contienen solo probabilidades para valores positivos de Z.

USO DE TABLA: Si se conoce el comportamiento de una variable es decir se sabe que

tienen una distribución normal, para calcular las diferentes probabilidades se tiene que

estandarizar la variable. Una vez estandarizada la variable, recién utilizar la tabla de la

distribución normal estandarizada o tabla Z.

FORMULAS:

a. )()()(

aZP

axPaxP

b. )(1)(1)(1)(

aZP

axPaxPaxP

c. )()()()()(

aZP

bZPaxPbxPbxaP

EJERCICIOS:

1. Determinar la probabilidad de cada una de las siguientes expresiones:

Page 148: ESTADISTICA,general

148

a) P ( Z < 1.25 ) b) P ( Z< -2.28)

c) P (Z < 0 ) d) P ( 0 < Z < 2.5 )

e) P ( -2.38 < Z < 0 ) f) P ( - 2.25 < Z < 2.25 )

g) P (1.55 < Z < 2.35) h ) P ( Z > 2.43 )

2. En una población normalmente distribuida con media µ = 30 y variancia igual a 25 se

pregunta: ¿Qué porcentaje del total de las observaciones estarán entre 20 y 35?

3. Se sabe que el peso medio de la población de un grupo de estudiantes es igual a 60 Kg.,

y su desviación estándar es igual a 3 kg. ¿Halle la probabilidad de que el peso de un

alumno este entre 55 y 65 Kg?

4. El peso de los atletas de pruebas de medio fondo sigue una distribución normal con media

64,3 kilos y desviación típica 2,3 kilos. Hallar un intervalo centrado alrededor de la media

que contenga:

a) El 68,3% de la población.

b) El 95,5% de la población.

c) El 99,7% de la población

5. El rendimiento académico de los estudiantes de la UPN, tiene una distribución normal con

media igual a 16 y varianza igual a 4. Si se selecciona un estudiante de esta Universidad,

encuentre la probabilidad de que:

a. El rendimiento sea mayor que 16

b. El rendimiento sea menor que 14

c. El rendimiento este entre 14 y 18

d. El rendimiento este entre 15.5 y 16.5

Page 149: ESTADISTICA,general

149

6. Los salarios mensuales de los trabajadores de una empresa tiene un comportamiento

normal cuya media es S/. 2100 y una desviación estándar de S/. 450. Cuantos

trabajadores tienen salarios:

a. Menores de S/. 2150.

b. Menos de S/. 2200.

c. Mas de S/. 2180.

d. Entre 2080 y 2150 soles.

7. El tiempo de duración de los focos de alumbrado eléctrico producidos por una compañía

eléctrica tiene una distribución normal con una media de 1000 horas y una desviación

estándar de 750 horas. Determinar la probabilidad de que:

a. Un foco tomado al azar se queme antes de las 990 horas de funcionamiento

b. Un foco se que queme entre 980 y 1120 horas de funcionamiento.

c. Un foco dure más de 998 horas

8. NEUMA Perú, es una empresa que produce llantas para automóviles en nuestro país. La

vida útil de estas llantas se distribuye aproximadamente como una normal con media y

desviación estándar iguales a 32000 y 1000 millas respectivamente. Esta empresa quiere

exportar estas llantas por lo que empieza a hacer ciertos cálculos acerca de la calidad de

estas llantas, para lo cual se hace las siguientes preguntas:

a. Cual es la probabilidad de una llanta producida por esta empresa tenga una vida útil

de 31900 millas.

b. Cual es la probabilidad de una llanta producida por esta empresa tenga una vida útil

desde 31000 y 33000 millas.

c. Si la empresa fija una garantía de 30000 millas. ¿Qué porcentaje de esta producción

necesitará ser reemplazada?

9. El peso de los estudiantes de la escuela de Ing. Industrial de la UPN, tienen una

distribución normal que tiene una media de 60 Kgs. y una desviación estándar de 18 kgs.

Calcular la probabilidad de que un estudiante pese entre:

a. Entre 58 y 65 Kgs.

Page 150: ESTADISTICA,general

150

b. Menos de 71 Kgs.

c. Más de 69 Kgs.

10. El tiempo requerido para realizar una pregunta de examen es una variable aleatoria cuya

distribución es aproximadamente normal con media 12.9 minutos y una desviación

estándar de 2.0 minutos. ¿Cuáles son la probabilidades de que un alumno resuelva una

pregunta del examen en:

a. Al menos 11.5 minutos.

b. Entre 11.0 y 14.8 minutos.

c. A lo mas 12 minutos

d. Entre 10 y 13 minutos.

ACTIVIDAD DE AUTO EVALUACIÓN:

Antes de continuar con los últimos temas, es conveniente que te autoevalúes,

desarrollando las preguntas en forma individual. Luego coteja tus respuestas con la

teoría estudiada:

1. Supone que el administrador de un gran condominio de departamentos elabora los

estimados subjetivos de probabilidad sobre la cantidad de departamentos que

estarán vacíos el próximo mes:

Vacantes Probabilidad

0 0.05

1 0.15

2 0.35

3 0.25

4 0.10

5 0.10

Page 151: ESTADISTICA,general

151

Determina la probabilidad de cada uno de los siguientes sucesos:

a) No hay departamentos vacíos.

b) Cuando menos hay 4 departamentos vacíos.

c) Hay 2 o menos departamentos vacíos.

2. El gerente de una tienda de decoración vende de 0 a 4 jarrones de porcelana cada

semana. En base a su experiencia, se asigna probabilidades de vender los

jarrones: P(0) = 0.08, P(1) = 0.18, P(2) = 0.32, P(3) = 0.30, P(4) = 0.12.

a) ¿Son válidas estas asignaciones de probabilidad? ¿Por qué?

b) Sea A el evento en el cual se venden 2 o menos en una semana. Determina

P(A).

c) Sea B el evento en el cual se venden 4 o más en una semana. Determina P

(B).

3. CUADRO No 3: DISTRIBUCION DE ALUMNOS DE LA UCV SEGÚN EL NUMERO

DE ACTIVIDADES EXTRACURRICULARES QUE PARTICIPA.

NUMERO de Actividades 0 1 2 3 4 5

NUMERO de ALUMNOS 8 20 12 6 3 1

Fuente: Datos Hipotéticos

RESOLVER:

a) Sea A el evento en que un alumno participa al menos en una actividad.

Determina P(A).

b) Sea B el evento en que un alumno participa en 3 o más actividades. Determina

P(B).

c) ¿Cuál es la probabilidad de que un alumno participe exactamente en 2

actividades?

Page 152: ESTADISTICA,general

152

4. Durante el invierno en Huancayo, el Sr. Llajaruna tiene problemas para arrancar sus

dos automóviles La probabilidad que el primero arranque es 0.80 y la probabilidad que

el segundo arranque es 0.40, también hay una probabilidad de 0.30 de que arranquen

ambos:

a) Define los eventos que intervienen y emplea notación de probabilidades para

mostrar la información anterior.

b) ¿Cuál es la probabilidad que al menos un automóvil arranque?

c) ¿Cuál es la probabilidad de que el Sr. Llajaruna no pueda arrancar uno de los

dos automóviles?

5. Se ha ajustado el proceso de fabricación de un tornillo de precisión de manera que

la longitud promedio de los tornillos sea 13 cm. Por supuesto, no todos los tornillos

tienen un longitud exacta, debido a fuentes aleatorias de variabilidad que generan

una variación de 0.1 cm aprox. Si se sabe que la distribución de las longitudes tiene

una forma normal, determina la probabilidad de que un tornillo elegido al azar tenga

una longitud entre 13.2 y 13.4 cm.

6. Se sabe que el tiempo útil de un componente eléctrico tiene una distribución normal

con media 2000 horas y desviación estándar 200 horas.

a) Calcula la probabilidad de que un componente elegido al azar dure más de

1950 horas.

b) ¿A qué cantidad de horas corresponde el 10% superior de la duración de los

componentes?

7. El tiempo que se requiere para reparar cierto tipo de transmisión automotriz en un

taller mecánico tiene distribución normal con media 45 min. y desviación estándar 8

min. El gerente de servicio planea hacer que se inicie la reparación de la

transmisión de los automóviles de los clientes diez minutos después de que se

recibe el vehículo, y le dice al cliente que el automóvil estará listo en una hora.

A) ¿Cuál es la probabilidad de que el gerente esté equivocado?

Page 153: ESTADISTICA,general

153

B) ¿Qué asignación de tiempo de trabajo se requiere para que haya una

probabilidad del 75% de que la reparación de las transmisiones se lleve a

cabo dentro de ese tiempo?

REFERENCIAS BIBLIOGRÁFICAS:

1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima

– Perú.

2. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición.

Edit. PHH S. A. – México.

3. KAZMIER, Leonard y DÍAZ MATA, Alfredo, 1991. Estadística aplicada a la

Administración y Economía, Segunda Edición – Editorial Mc Graw Hill – México.

Page 154: ESTADISTICA,general

154

4. MILLER, Irwin y FREUND, John E., 1995. Probabilidad y Estadística para

Ingenieros – Edit. Prentice Hall Hispanoamericana S.A. – México.

5. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-

Lima- Perú.

6. TRIOLA, Mario F., (2000). Estadística Elemental, Séptima Edición – Editorial

Addison Wesley Longman – México.

7. WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía.

3era edición – Edit. McGraw-Hill Companies, Inc. – Santa Fe de Bogotá- Colombia.

Page 155: ESTADISTICA,general

155

NOCIONES DE ESTADISTICA

INFERENCIAL

Page 156: ESTADISTICA,general

156

Sesión 12 Nociones de Estadística Inferencial:

Prueba de Hipótesis

6. Posee nociones sobre el procedimiento para probar hipótesis estadísticas.

7. Plantea hipótesis en sus investigaciones.

8. Realiza pruebas de hipótesis estadísticas paramétricas básicas: para una media, dos

medias, una proporción y dos proporciones poblacionales.

9. Realiza la prueba de hipótesis estadística: Ji cuadrada.

1. Valora la importancia que tiene el método estadístico para la contrastación de hipótesis

en la investigación científica.

2. Asume una actitud analítica al conocer y aplicar a su carrera profesional la docimasia

de hipótesis.

1. Nociones de Estadística Inferencial. Prueba de Hipótesis. Prueba de Hipótesis sobre

la Media y la Proporción Poblacional. Uso de la Tabla de la Distribución T Student.

2. Prueba de Hipótesis sobre Comparación de Medias y de Proporciones.

3. Prueba de Hipótesis sobre Relación entre Variables Cualitativas. Uso de la Tabla de

la Distribución Ji Cuadrada.

ACTITUDES

CONTENIDO

CAPACIDADES

Page 157: ESTADISTICA,general

157

Inferencia Estadistica

Estimacion

Puntual Intervalo

Prueba de Hipotesis

Una Poblacion

Dos poblaciones

Muestreo

µ p σ2 µ p σ2

Distribuc.

Muestrales

Page 158: ESTADISTICA,general

158

ESTADISTICA INFERENCIAL

La inferencia estadística o estadística inferencial es una parte de la Estadística que

comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de

una población, a partir de una pequeña parte de la misma.

El objetivo de la estadística inferencial es obtener la información acerca de una población,

partiendo de la información que contiene una muestra. El proceso que se sigue para

seleccionar una muestra se denomina Muestreo.

Las ventajas que nos brinde el muestreo son:

- Los operativos son menores.

- Posibilita analizar un mayor número de variables.

- Permite controlar las variables en estudio.

ESTIMACION ESTADISTICA:

Es el conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una

población a partir de los datos proporcionados por una muestra.

Por ejemplo, una estimación de la media de una determinada característica de una

población de tamaño N podría ser la media de esa misma característica para una

muestra de tamaño n

La estimación se divide en tres grandes bloques, cada uno de los cuales tiene

distintos métodos que se usan en función de las características y propósitos del

estudio:

o Estimación puntual

o Estimación por intervalos.

o Estimación bayesiana.

Page 159: ESTADISTICA,general

159

Estimación Puntual: Consiste en la estimación del valor del parámetro mediante un sólo

valor, obtenido de una muestra. Por ejemplo, si se pretende estimar la talla media de un

determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimación

puntual la talla media de los individuos.

Estimación por Intervalos

Consiste en la obtención de un intervalo dentro del cual estará el valor del parámetro

estimado con una cierta probabilidad. Para calcular la estimación por intervalo o Intervalo de

confianza (IC), en primer lugar se procede a:

Seleccionar el nivel de confianza (grado de fiabilidad en el intervalo), 1-α y

α nivel de error.

Un nivel de confianza del 95%, implica que 95% de todas las muestras incluye al

parámetro y solo un 5% de las muestras producirá un intervalo erróneo.

Cuanto mayor es el nivel de confianza se estima que el valor del parámetro este

dentro del intervalo.

ESTIMACIÓN PARA LA MEDIA POBLACIONAL.

Sabemos que:

XZ Pero también

n

σ

µ-XΖ

Como no conocemos el parámetro µ y lo queremos estimar por medio de la media de

la muestra, sólo se despejará µ de la formula anterior, quedando lo siguiente

Para muestras mayores a 30 n

σΖXµ /2α-1

Para muestras menores que 30 n

stXµ /2)α-1;1-(n

Page 160: ESTADISTICA,general

160

Donde S la desviación estándar de la muestra y t es la distribución de la t de

Student con n – 1 grados de libertad y nivel de confianza igual a /2-1 .

Para el caso de tamaños de muestra grande se puede utilizar una estimación

puntual de la desviación estándar, es decir igualar la desviación estándar de la

muestra a la de la población (s= ).

El error de estimación de µ será la diferencia absoluta entre x y µ, es decir

despejando:

Error de estimación de µ n

/2-1X-µ

Ejemplo:

1. Se encuentra que en una dieta la concentración promedio de vitaminas a partir de

una muestra de 36 mediciones en sitios diferentes del hospital es de 2.6 gramos

por mililitro. Suponga que la desviación estándar de la concentración de vitaminas

es 0.3.

a) Señale la estimación puntual para µ.

b) Encuentre el intervalo de confianza al 95% para la concentración media de

vitaminas en las dietas de dicho hospital.

c) Halle el error de estimación de µ para la pregunta b.

d) Encuentre el intervalo de confianza al 99% para la concentración media de

vitaminas en las dietas de dicho hospital.

e) Halle el error de estimación de µ para la pregunta d.

Solución:

a) La estimación puntual para µ es: X µ, es decir µ= 2.6 gr/ml

b) IC para la media poblacional se calcula:

n

σΖXµ /2α-1

Page 161: ESTADISTICA,general

161

36

3.0)96,1(6.2µ

Estimación de una Proporción

Una proporción es una razón de una parte con respecto a un todo y que generalmente

pertenecen a un experimento aleatorio de tipo binomial, es decir con solo dos posibles

respuestas.

𝑝 = # 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑞𝑢𝑒 𝑐𝑢𝑚𝑝𝑙𝑒 𝑐𝑖𝑒𝑟𝑡𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑖𝑠𝑡𝑖𝑐𝑎

𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝐸𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠

Sabemos que:

n

pq

pZ

Como no conocemos el parámetro π y lo queremos estimar por medio de la proporción

de la muestra, sólo se despejará π de la formula anterior, quedando lo siguiente:

n

pqZp *2/1

Error de estimación de π 𝜀 = 𝑝 − 𝜋 = 𝑍1−∝ 2⁄ ∗ √𝑝𝑞

𝑛

Ejemplo: Un fabricante de reproductores de discos compactos utiliza un conjunto de

pruebas amplias para evaluar la función eléctrica de su producto. Todos los

reproductores de discos compactos deben pasar todas las pruebas antes de venderse.

Una muestra aleatoria de 500 reproductores tiene como resultado 15 que fallan en una

Page 162: ESTADISTICA,general

162

o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los

reproductores de discos compactos de la población que no pasan todas las pruebas.

Para la distribución Normal utilice la siguiente tabla:

Nivel de confianza 2

Z

90% 1.645

95% 1.96

99% 2.576

Page 163: ESTADISTICA,general

163

Ejemplo 1: En población cuya distribución se desconoce se obtiene una muestra (m.a.s.) de

2000 valores de la que resulta una media de 225 y una desviación típica de 10. Suponiendo

que la varianza muestral coincide con la poblacional, estimar un intervalo para la media de la

población con un nivel de confianza del 95%.

Tendríamos 1- =0.95 luego =0.05; S=10= (muestra grande n>30); n=2000, para una

población normal.

95.0)(22

n

Zxun

ZxP

el resultado sería : µ [224,56 , 225,44] con el 95 % de confianza.

Ejemplo 2: Las ventas diarias de cierta oficina comercial se supone que siguen una

distribución normal. Para estimar el volumen medio de ventas por día se realiza una muestra

de 10 días escogidos al azar, resultando que la media de las ventas de esos 10 días es S/.

100 con una desviación típica de S/. 4. Dar un intervalo de estimación para el volumen medio

de ventas por día con una confianza del 95 %.

Conocemos que según la información que poseemos, estamos ante: Distribución

normal; n=10 (muestra pequeña); S=4(poblacional desconocida); media muestral=100;

Para 1- =0.95, luego =0.05 con lo que 26.2)9(2

glt (según tabla T)

95.0)(22

n

Stxu

n

StxP

El resultado sería: µ [S/.96,99 ; S/.103,01] con el 95 % de confianza.

Ejemplo 3: Se quiere obtener un intervalo de confianza para el valor de las ventas medias

por hora que se producen en un kiosco. Para ello realizamos una muestra consistente en

elegir al azar las ventas que se realizaron durante 1000 horas distintas; muestra cuyos

resultados fueron: ventas medias por hora S/. 4000, y varianza de dicha muestra S2/. 4000.

Obtener dicho intervalo con un nivel de confianza del 95.5 %.

Page 164: ESTADISTICA,general

164

Queremos construir un intervalo para la media con las siguientes características:

Tamaño muestral=n=1000, con muestreo aleatorio simple, la población no es normal ni

conocemos su varianza.

El resultado de la muestra es 4000x , S2=4000.

Si bien se trata de un intervalo para la media con varianza desconocida y población no

normal, dado que el tamaño muestral es grande podemos suponer normalidad y tomar como

varianza poblacional a la muestral así:

95.0)(22

n

zxun

zxP

El resultado sería: µ [S/.399,08 ; S/.4003,92] con el 95 % de confianza.

EJERCICIOS

Una media:

1. Una máquina llena un determinado producto en bolsas cuyo peso medio es μ gramos.

Suponga que la población de los pesos es normal con desviación estándar 20 gramos.

Estime μ mediante un intervalo de confianza del 95%, si una muestra aleatoria de 36

bolsas ha dado una media de 495 gramos

2. Se decide estimar la media μ del nivel de ansiedad de todos los estudiantes

preuniversitarios. Se supone que la población de los puntajes de la prueba para medir la

ansiedad se distribuye normalmente con desviación están dar igual a 10 puntos.

3. Determinar el intervalo para μ con confianza del 95%, si una muestra aleatoria de

tamaño 100 ha dado una media de 70 puntos.

Page 165: ESTADISTICA,general

165

4. El tiempo en, minutos que utilizan los clientes en sus distintas operaciones en un banco

local es una variable aleatoria cuya distribución se supone normal con una desviación

estándar de 3 minutos. Se han registrado los tiempos de las operaciones de 9 clientes

del banco resultando una media igual a 9 minutos:

a. Hallar el nivel de confianza si la estimación de μ es el intervalo de 7 a 11 minutos.

b. Calcular la probabilidad de que la media de los tiempos de todas las muestras de

tamaño 9 esté entre 6.5 y 11.5 minutos.

1. Un fabricante afirma que el peso promedio de las latas de fruta en conserva que saca al

mercado es 19 onzas. Para verificar esta afirmación se escogen al azar 20 latas de la

fruta y se encuentra que el peso promedio es 18.5 onzas Suponga que la población de

los pesos es normal con una desviación estándar de 2 onzas.

a. Utilizando un intervalo de confianza del 98% para μ, ¿se puede aceptar la

afirmación del fabricante?

b. ¿Qué tamaño de muestra se debe escoger para estimar μ si se quiere un error no

superior a 0.98 onzas con confianza del 95%?

2. Se quiere hacer una encuesta para estimar el tiempo promedio por semana que los

niños ven televisión. Por estudios anteriores se sabe que la desviación estándar de

dicho tiempo es de 3 horas. Con el nivel de confianza del 99%.

a. ¿Qué tamaño de muestra se debería elegir si el error de la estimación puntual no

es superior a media hora?

3. Un fabricante produce focos cuya duración tiene distribución normal. Si una muestra

aleatoria de 9 focos da las siguientes vidas útiles en horas:

775, 780, 800, 795, 790, 785, 795, 780, 810

a. Estimar la duración media de todos los focos del -fabricante mediante un intervalo

de confianza del 95%.

b. Si la media poblacional se estima en 790 horas con una confianza del 98%,

¿cuánto es el error máximo de la estimación si se quiere una confianza del 98%?

Page 166: ESTADISTICA,general

166

4. El ingreso mensual de cada una de las 500 microempresas de servicios de una ciudad,

es una variable aleatoria con media μ desconocida. Con el fin de simplificar la

recaudación de impuestos, la Sunat ha dispuesto que a estas empresas se las grave

mensualmente con un 10% de sus ingresos. De una muestra al azar de 50

microempresas se obtuvo un ingreso mensual promedio de $1000 con una desviación

están dar de $80.

a. Estime el monto medio de los ingresos de las microempresas de la ciudad con un

intervalo de confianza del 95%

b. Estime el monto promedio de la recaudación a estas microempresas con un

intervalo de confianza del 95%

c. Si el propósito de la SUNAT es lograr mensualmente una recaudación total de al

menos $52,000 a estas microempresas, ¿es factible que se cumplan sus metas?,

¿por qué?

Una proporción:

5. En un estudio socioeconómico se tomó una muestra aleatoria de 100 comerciantes

informales y se encontró entre otros datos los siguientes: un ingreso medio de $600,

una desviación estándar de $50 y sólo el 30% tienen ingresos superiores a $800.

a. Estimar la proporción de todos los comerciantes con ingresos superiores a $800,

mediante un intervalo de confianza del 98%.

b. Si la proporción de todos los comerciantes con ingresos superiores a $800 se

estima entre 20.06% y 39.94% ¿qué grado de confianza se utilizó?

6. Una muestra aleatoria de 400 menores de 16 años revela que 220 consumen licor.

a. Estimar la proporción de menores de 16 años que consumen licor en toda la

población mediante un intervalo de confianza del 99%.

7. Un fabricante estima en 5% la proporción de piezas defectuosos de los 5,000

producidos. Para confirmar tal estimación primero se debe escoger una muestra

aleatoria,

Page 167: ESTADISTICA,general

167

a. ¿cuántas piezas debe tener la muestra si se quiere tener una confianza del 95%

que el error de la estimación no será superior a 0.047?

b. Se escoge una muestra aleatoria del tamaño calculado en a), si en ella se

encuentran 40 piezas defectuosos, mediante un intervalo de confianza del 95%,

¿se puede inferir que la estimación del fabricante es coherente con la

estimación efectuada a partir de la muestra aleatoria?

8. La oficina de planificación familiar de cierta provincia quiere estimar el porcentaje de

familias con más de 4 hijos.

a. ¿Qué tamaño de muestra se requiere para asegurar con una confianza del 95%

que el error de la estimación de tal porcentaje no sea superior a 0.05?

b. Si en una muestra aleatoria de 385 familias se encuentra que 154 de ellas tienen

más de 4 hijos. Estime el porcentaje de familias con más de 4 hijos en toda la

provincia, mediante un intervalo de confianza del 98%.

9. Para estimar el porcentaje de todos los electores a favor de un candidato, una

encuestadora debe determinar el tamaño" de la muestra aleatoria para escoger de una

población de 10,000 electores, ¿qué tan grande debería ser la muestra si se quiere

tener una confianza del 95% que el error de estimación no sea superior al4.8%?

10. Se probó una muestra aleatoria de 400 cinescopios de televisor y se encontraron 40

defectuosos. Estime el intervalo que contiene, con un coeficiente de confianza de 0.90,

a la verdadera fracción de elementos defectuosos.

Page 168: ESTADISTICA,general

168

Page 169: ESTADISTICA,general

169

PRUEBA DE HIPOTESIS

las hipótesis que formulamos lo serán lógicamente sobre la población. Bien afectando a

algún parámetro de ésta, lo que da origen a los contrastes paramétricos o bien a otras

características de la mismas que no lo sean estrictamente, lo que origina contrates "no"

paramétricos.La solución estadística del problema de contrastación se basará en los datos

muestrales y la base estadística (probabilística) de la que arrancará el contraste, de algún

estadístico muestral.

CONCEPTOS BÁSICOS

a) Hipótesis: Es una respuesta a priori a un problema. Es una conjetura sobre el valor

concreto que tiene en realidad

b) Hipótesis Estadística: Llamamos hipótesis estadística a una suposición que se hace

respecto a un parámetro poblacional. Las hipótesis estadísticas comprenden:

a. Hipótesis Alternativa: Es la cuantificación de la hipótesis científica; es la que

nos interesa probar. Se denota por Ha.

b. Hipótesis Nula: Es la hipótesis que se desea contrastar. Es el supuesto

contrario de la hipótesis alternativa. Se denota por Ho. Esta hipótesis se

formula con el solo propósito de rechazarla o anularla, motivo por el cual,

recibe el nombre de hipótesis nula.

c) Estadístico De Prueba: Es un valor, determinado a partir de la información

muestral, que se utiliza para aceptar o rechazar la hipótesis nula.

d) Nivel de Significación: Después de plantear la hipótesis nula y la alternativa, el

siguiente paso es definir el nivel de significación. Este es la probabilidad de rechazar

la hipótesis nula cuando en realidad es verdadera.

Page 170: ESTADISTICA,general

170

Decisión posible Ho Verdadera Ho Falsa

Aceptar Ho

DECISIÓN CORRECTA

=(1-

“Nivel de Confianza” o “Evidencia

Estadística”

ERROR TIPO II

β

Rechazar Ho

ERROR TIPO I

α

DECISIÓN CORRECTA

(1-

“Poder Estadístico”

Si la hipótesis nula (H0) es cierta y nuestra decisión es no rechazarla, la decisión ha

sido correcta.

Si la hipótesis nula (H0) es cierta y nuestra decisión es rechazarla, la decisión provoca

un error. Dicho error se denomina error tipo I.

Si la hipótesis nula (H0) es falsa y nuestra decisión es no rechazarla, la decisión

provoca un error. Dicho error se denomina error tipo II.

Si la hipótesis nula (H0) es falsa y nuestra decisión es rechazarla, la decisión ha sido

correcta.

Pasos a Seguir para Realizar una Prueba de Hipótesis

1º Plantear la hipótesis estadística Ho y Ha.

2º Fijar el nivel de significancia α.

3º Elegir la distribución de probabilidad. Z o t

4º Establecer las regiones de aceptación y rechazo de la hipótesis nula.

5º Encontrar el valor experimental. Reemplazando los valores muestrales obtenidos

en la distribución propuesta en el punto número 3.

6º Observar si el valor experimental pertenecen a la RA/RR de Ho y decidir si se

acepta o no la hipótesis nula.

7º Concluir.

Page 171: ESTADISTICA,general

171

Estadísticos de Prueba: (z o t)

Estadísticos de Prueba para la Media de una Población

Caso I: Para muestra grande (n≥30) y cuando te dan la varianza poblacional.

𝒛 =�� − 𝛍𝟎

𝝈��

𝒅𝒐𝒏𝒅𝒆 𝝈�� =𝝈

√𝒏

Caso II: Para muestra pequeña (n<30): 𝒕 =��−𝛍𝟎

𝐬

√𝒏

Estadísticos de Prueba para la Proporción de una Población

Sea p la proporción muestral y p0 la proporción poblacional.

𝒛 =𝒑 − 𝒑𝟎

√𝒑𝟎𝒒𝟎

𝒏

Estadísticos de Prueba para la Media de Dos Poblaciones

Caso I: Muestras Grandes

Para muestra grande (n≥30) y cuando te dan las varianzas poblacionales:

𝒛𝒄 =(��𝟏 − ��𝟐)

√𝝈𝟏

𝟐

𝒏𝟏+

𝝈𝟐𝟐

𝒏𝟐

O con las varianzas muestrales como estimadores de las varianzas poblacionales:

Page 172: ESTADISTICA,general

172

𝒛𝒄 =(��𝟏 − ��𝟐)

√𝒔𝟏

𝟐

𝒏𝟏+

𝒔𝟐𝟐

𝒏𝟐

Caso II: Muestras Pequeñas

Para muestras pequeñas (n<30) y varianzas poblacionales desconocidas:

𝒕𝒄 =��𝟏 − ��𝟐

√(𝒏𝟏 − 𝟏)𝑺𝟏𝟐 + (𝒏𝟐 − 𝟏)𝑺𝟐

𝟐

√𝒏𝟏𝒏𝟐(𝒏𝟏 + 𝒏𝟐 − 𝟐)

𝒏𝟏 + 𝒏𝟐→ 𝒕𝒏𝟏+𝒏𝟐−𝟐

Caso III: t-Student

Cuando se supone que las varianzas poblacionales son iguales (muestras homogéneas):

𝒕𝒄 =(��𝟏 − ��𝟐) − (𝝁𝟏 − 𝝁𝟐)

√𝐒𝐩𝟐 (

𝟏𝒏𝟏

+𝟏

𝒏𝟐)

→ 𝒕𝒏𝟏+𝒏𝟐−𝟐 𝒅𝒐𝒏𝒅𝒆 𝐒𝐩𝟐 =

(𝒏𝟏 − 𝟏)𝒔𝟏𝟐 + (𝒏𝟐 − 𝟏)𝒔𝟐

𝟐

𝒏𝟏 + 𝒏𝟐 − 𝟐

Caso IV: t-Student-Welch

Cuando se supone que las varianzas poblacionales son diferentes (muestras heterogéneas):

𝑡𝑐 =(��1−��2)

√𝑠1

2

𝑛1+

𝑠22

𝑛2

→ 𝒕𝒈𝒍 donde 𝑔𝑙 =[

𝑠12

𝑛1+

𝑠22

𝑛2]

2

[𝑠1

2

𝑛1]

2

𝑛1−1+

[𝑠2

2

𝑛2]

2

𝑛2−1

Caso V: Diferencia Pareada

Cuando se obtienen dos mediciones repetidas de un mismo artículo o sujeto. En

consecuencia se trabajara con la diferencia de este par de datos

Page 173: ESTADISTICA,general

173

𝑻𝒄 =��√𝒏

𝑺𝑫→ 𝒕𝐧−𝟏

Estadísticos de Prueba para Diferencia de Proporciones

𝒛 =𝒑𝟏 − 𝒑𝟐

√𝒑𝒒 [𝟏

𝒏𝟏+

𝟏𝒏𝟐

]

, 𝒄𝒐𝒏 𝒑 =𝒙𝟏 + 𝒙𝟐

𝒏𝟏 + 𝒏𝟐 𝒚 𝒒 = (𝟏 − 𝒑)

Regiones de Aceptación y Rechazo de la Hipótesis Nula

Page 174: ESTADISTICA,general

174

EJERCICIOS

1. Al estudiar si conviene tener o no una sucursal en la ciudad de Trujillo, la gerencia

de una gran tienda comercial de Lima, establece el siguiente criterio para tomar una

decisión: Abrir la sucursal sólo si el ingreso promedio familiar mensual en dicha

ciudad es no menos de $ 500 y no abrirla en caso contrario. Si una muestra

aleatoria de 100 ingresos familiares de esa ciudad ha dado una media de $ 480.

¿Cuál es la decisión a tomar al nivel de significancia del5%?, Se sabe que la

distribución de los ingresos tiene una desviación estándar poblacional es igual a $

80.

2. El gerente de ventas de una compañía afirma que sus vendedores venden

semanalmente en promedio $ 1500. Al nivel de significación del 1% pruebe la

hipótesis del gerente versus la hipótesis del presidente de los vendedores que

afirma que el promedio de las ventas semanales es mayor, si una muestra de 36

vendedores ha dado una media igual a $ 1510. se sabe que la varianza semanal es

de $ 900.

3. En un estudio de control de calidad de automóviles, se considera un parámetro de

evaluación si arranca en menos de 3 minutos. Para lo cual se ha tomado 10 autos

de la misma marca para estudiar el tiempo de arranque encontrándose los

siguientes resultados (en segundos): 2.84, 2.86, 3.06, 2.94, 2.94, 2.82, 3.02, 3.14

,3.42, 3.16. Probar si los automóviles cumplen con este parámetro de calidad.

Verificar Ho: μ = 3 frente a H1: μ < 3, utilizando α =0.05 ¿A qué conclusión llegaría

usted?

4. Según Roper Starch, el 62% de las Mujeres en el grupo de 40 a 49 años de edad

ahorra en una cuenta individual para el retiro. Si quisiéramos poner a prueba si este

porcentaje es igual para las mujeres de este grupo de edad que viven en Nueva

York y seleccionáramos una muestra aleatoria de 300 neoyorquinas con estas

condiciones y 195 de ellas ahorra en una cuenta individual, ¿Cuáles serían las

hipótesis nula y alternativa? ¿La prueba seria de z o t? ¿Por qué?

Page 175: ESTADISTICA,general

175

5. Se ha dicho que no más de 5% de las unidades que salen de una línea de montaje

están defectuosas, Formule una hipótesis nula y una alternativa para esta situación.

¿La prueba será de una o dos colas? ¿Por qué?. Si la prueba es de una cola,

¿Sera de cola izquierda o de cola derecha? ¿Por qué?

6. Una encuesta realizada por Bancomer a 35 clientes indicó que un poco más del 74

por ciento tenían un ingreso familiar de más de $200,000 al año. Si esto es cierto,

el banco desarrollará un paquete especial de servicios para este grupo. La

administración quiere determinar si el porcentaje verdadero es mayor del 60 por

ciento antes de desarrollar e introducir este nuevo paquete de servicios. Los

resultados mostraron que 74.29 por ciento de los clientes encuestados reportaron

ingresos de $200,000 o más al año.

7. Un muestreo aleatorio de 24 artículos en un supermercado presenta una diferencia

entre el valor marcado del artículo y el valor real de éste. La media y la desviación

estándar de las diferencias entre el precio marcado y el real en los 24 artículos son

$37.14 y $6.42 respectivamente. Con un nivel de significancia de 0.05 pruebe que

la diferencia media entre el valor marcado y el real por artículo en ese

supermercado no es mayor de $40.0.

8. Un fabricante de cereales afirma que el peso promedio de cada caja de cereal es

de 500 gramos. ¿Los datos que a continuación se le dan apoyan la afirmación del

fabricante? Pruebe con = .10.

506, 508, 499, 503, 504, 510, 497, 512,

514, 505, 493, 496, 506, 502, 509, 496

9. Para determinar el rendimiento anual de ciertos valores, un grupo de

inversionistas tomó una muestra de n =10 de esta clase de valores. La media y

desviación estándar resultaron: = 8.71% y S = 2.1%. ¿Existe evidencia para

decir que el verdadero rendimiento anual promedio es igual o mayor 8.5%? con

=0.10.

X

Page 176: ESTADISTICA,general

176

10. El presidente del PRI en 1988, basado en su experiencia, sostiene que un 95% de

los votos para las elecciones presidenciales han sido a favor de su partido. Los

partidos de oposición levantaron una muestra de 1100 electores y encontraron que

un 87% de ellos votaría por el PRI. El presidente del PRI quiere probar la hipótesis,

con un nivel de significación de 0.05, que el 95% de los votos son para su partido.

11. Se afirma que, de todas las familias que salen de Cumana por lo menos el 30 % se

mudan a Maracaibo. Si una muestra de 600 mudanzas tomada al azar de los

registros de la Alcaldía de Cumana revela que de los permisos de mudanza

autorizados 153 fueron para Maracaibo, pruebe la hipótesis nula p = 0.30 contra la

hipótesis alternativa p < 30 con un nivel de significancia del 1 %.

12. Un fabricante de semiconductores produce controladores que se emplean en el

sistema eléctrico de vehículos. El cliente requiere que la proporción de

controladores defectuosos no sea mayor de 0.05, y que el fabricante demuestre

estas características del proceso de fabricación con este nivel de calidad, con un

nivel de significancia del 5 %. El fabricante de semiconductores toma una muestra

aleatoria de 200 dispositivos y encuentra que 4 de ellos son defectuosos. ¿El

fabricante puede demostrar al cliente la calidad exigida? Saque sus conclusiones.

13. Se sabe que el 10 % de los fumadores prefieren la marca de cigarrillo Malboro.

Después de una campaña publicitaria del cigarrillo Malboro, se entrevistaron a 200

fumadores para determinar la eficiencia de la campaña publicitaria. El resultado de

la muestra realizada detecto un total de 26 personas que fumaban Malboro.

¿Pueden considerarse que esos datos presentan evidencia suficiente para indicar

que hubo un aumento en la aceptación del cigarrillo Malboro. Obtenga las

conclusiones del planteamiento desarrollando un contraste de hipótesis con un

nivel de significancia del 5 %.

14.

Page 177: ESTADISTICA,general

177

15. Probemos la hipótesis de que el porcentaje de microempresas cuyos patrones son

hombres captado por la ENAMIN es distinto de 88%.

16. La administración de las tiendas Oxxo cree, sobre la base de una investigación,

que el porcentaje de hombres que visitan sus tiendas 9 o más veces al mes

(clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo.

La información proporcionada es:

45Hn 71Mn

58.0HP 42.0MP

16.042.058.0 MH PP

17. Un fabricante está por decidir entre continuar con el método actual o usar un nuevo

método de montaje de un producto. Cambiará el método actual si, hay prueba que

evidencia que el nuevo método usa menos tiempo. A fin de tomar una decisión, se

seleccionó una muestra aleatoria de 10 operarios expertos y se registro el tiempo

de montajes, en minutos, que utilizó cada operario con ambos métodos. Los datos

se resumen en la siguientes tabla:

SEXO DEL PATRON

1634 83.9 83.9 83.9

314 16.1 16.1 100.0

1948 100.0 100.0

Hombre

Mujer

Total

Valid

Frequency Percent

Valid

Percent

Cumulative

Percent

Operador 1 2 3 4 5 6 7 8 9 10

M. Actual 7 8 10 12 13 13 14 14 15 16

M. Nuevo 6 9 7 11 10 11 15 12 13 12

Diferencia 1 -1 3 1 3 2 -1 2 2 4

Page 178: ESTADISTICA,general

178

¿Con los resultados de esta muestra y al 5% de significancia. ¿Cree usted que el

fabricante cambiará el método de montaje del producto??

18. El inversionista desea comparar los riesgos asociados con dos diferentes

mercados, A y B. El riesgo de un mercado dado se mide por la variación en los

cambios diarios de precios. El inversionista piensa que el riesgo asociado con el

mercado B es mayor que el del mercado A. Se obtienen muestras aleatorias de 31

cambios de precio diario de A y de 36 para el mercado B. Se obtienen los

siguientes resultados.

Medidas Estadísticas Mercado A Mercado B

Promedio muestral 0.3 0.4

Desviación muestral 0.25 0.45

a) Si se supone que las muestras provienen de dos poblaciones normales e

independientes a un nivel de significancia del 5% ¿encuentre apoyo la creencia del

inversionista?

b) Si la varianza de A es la dada ¿cuál es el máximo valor de la varianza muestral

de B con base en que no llevará el rechazo de la hipótesis nula del primer inciso?

19. Yahoo Internet Life patrocinó encuestas en varias áreas metropolitanas para

estimar la proporción de adultos que usan internet en el trabajo (USA Today, 7 de

Mayo 2007). En los resultados se encontró que 40% de los adultos de Washington,

utilizan internet en el trabajo, en tanto que el 32 % de los adultos de San Francisco

utilizan internet en el trabajo. Si las muestras son de 240 y 250, respectivamente,

¿los resultados muestrales indican que la proporción de adultos que usan internet

en el trabajo en Washington es mayor que la proporción de San Francisco? Con

α=0,05.

Page 179: ESTADISTICA,general

179

20. Un supervisor de calidad va a comparar las cantidades de artículos defectuosos

que procesan dos líneas de producción A y B. El escogió dos muestras aleatorias

independientes, una de 50 de A y la otra de 60 de B, observando 8 y 6 artículos

defectuosos respectivamente. ¿Existe alguna evidencia que indique que una de las

líneas produce una mayor proporción de artículos defectuosos?

En Ciencias de la Salud

1. El doctor Jeffrey M. Barrett de Lakeland, en el estado de Florida, Estados Unidos,

reportó los datos correspondientes a 8 casos de prolapso del cordón umbilical Las

edades de las madres eran de 25, 28, 17, 26, 27, 22, 25 y 30 años. Se pretende

saber si es posible concluir que la media de la población de la que se supone fue

extraída la muestra es mayor a 20 años. Sea α=01.

2. Se hizo un estudio de una muestra de 25 expedientes de enfermos crónicos

atendidos como pacientes externos. El número medio de consultas por paciente fue

de 4.8 y la desviación estándar de la muestra fue de 2. ¿Es posible concluir a partir

de estos datos que la media de la población es mayor que cuatro visitas por

paciente? Suponga que la probabilidad de cometer un error de tipo I es de .05.

¿Cuáles son los supuestos que se deben cumplir?

3. En una muestra de 49 adolescentes que se prestaron como sujetos para un estudio

inmunológico, una variable de interés fue la prueba del' diámetro de reacción de la

piel a un antígeno. La media de la muestra y la desviación estándar poblacional

fueron eritema de 21 y 11 mm, respectivamente. ¿Es posible concluir a partir de

estos datos que la media de la población es menor que 30? Sea α =0.05.

Page 180: ESTADISTICA,general

180

4. Nueve animales de laboratorio fueron infectados con cierta bacteria y luego

inmunosuprimidos. El número medio de organismos aislados posteriormente de los

tejidos de dichos animales fue de 6.5 (datos codificados) con una desviación

estándar de 0.6 ¿Es posible concluir a partir de estos datos que la media de la

población es mayor que 6? Sea α = 0.05. ¿Qué supuestos se deben cumplir?

5. Se desea saber si es posible concluir que el consumo medio diario de calorías de la

población rural de un país en desarrollo es de menos de 2000. Una muestra de 500

individuos produjo un consumo medio de 1985. Se sabe que la desviación

estándar poblacional es de 210. Sea α = 0.05.

6. Una encuesta de 100 hospitales de tamaño similar reveló un censo medio diario en

el servicio de pediatría de 27 con una desviación estándar de 6.5. ¿Proporcionan

estos datos suficiente evidencia para indicar que la media de la población es mayor

que 25? Sea α =0.05.

7. Una muestra aleatoria de 20 profesores universitarios aparentemente sanos

proporcionó los siguientes valores de capacidad respiratoria máxima. ¿Es posible

concluir que la media máxima de respiración no es de 110 litros por minuto?

132, 33, 91, 108, 67, 169, 54, 203, 190, 133, 96,30, 187, 21,63, 166,84, 110, 157,

138

Sea α = 0.01. ¿Qué supuestos se deben cumplir?

8. En un estudio diseñado para comparar un nuevo tratamiento para la migraña con el

tratamiento estándar, 78 de los 100 individuos que recibieron el tratamiento

estándar, respondieron favorablemente; de los 100 individuos que recibieron el

nuevo tratamiento, 90 de ellos respondieron satisfactoriamente. ¿Proporcionan

estos datos evidencia suficiente que indique que el nuevo tratamiento es más

efectivo que el estándar?

Page 181: ESTADISTICA,general

181

9. Para analizar la obesidad se obtuvieron los siguientes resultados a partir de una

muestra de hombres y otra de mujeres, entre las edades de 20 a 75 años:

SEXO N Personas con sobrepeso

MASCULINO 150 21

FEMENINO 200 48

¿Es posible concluir a partir de estos datos que en las poblaciones muestreadas

existe diferencia en las proporciones de individuos con sobrepeso?

10. Un investigador de enfermería desea saber si los graduados de los programas de

enfermería a nivel bachillerato y los graduados de programas asociados de

enfermería difieren en cuanto a las calificaciones medias obtenidas en un estudio

de personalidad. Una muestra de 50 graduados de programas asociados (grupo A)

y uña maestra de 60 graduados de bachillerato (grupo B) proporcionaron las

siguientes medias y desviaciones estándar:

Con base en estos datos, ¿qué puede concluir e! investigador? Sea α = .05.

11. Una prueba diseñada para medir las actitudes de las madres en cuánto al trabajo

de parto y el periodo de expulsión se aplicó a dos grupos de madres primerizas. La

muestra 1 (asistentes) acudieron a clases de instrucción prenatal impartidas en el

departamento de salud. La muestra 2 (ausentes) no asistieron a clases. El tamaño

de las muestras, medias y desviaciones estándar de las calificaciones para las

pruebas son las siguientes:

Muestra n Media s

1 15 4.75 1.0

2 22 3.00 1.5

Muestra Media S

A 52.5 10.5

B 49.6 11.2

Page 182: ESTADISTICA,general

182

¿Proporcionan estos datos la evidencia suficiente para indicar que las asistentes,

en promedio, tienen calificaciones más que las ausentes? Sea α= .05.

12. Varios investigadores desean saber si es posible concluir que dos poblaciones de

niños difieren respecto a la edad promedio en la cual pueden caminar por sí solos.

Los investigadores Obtuvieron los siguientes datos (edades en meses).

Muestra de la población A: 9.5, 10.5, 9.0,-9:75,10.0, 13.0, 10.0, 13.5, 10.0, 9.5,

10.0, 9.75

Muestra de la población B: 12.5, 9.5, 13.5, 13.75, 12.0, 13.75, 12.5, 9.5, 12.0,

13.5, 12.0, 12.0

13. Babaian y Camps afirman que el antígeno específico prostático (A£P), encontrado

en las células, ductales epiteliales de la próstata, es específico para el tejido

prostático y es detectable en el suero de hombres con próstata normal y en

hombres con enfermedades benignas ó malignas de esta glándula. Los

investigadores determinaron los valores de AEP en una muestra de 124 hombres

que se sometieron á una biopsia de la próstata. Sesenta y siete hombres tenían

concentraciones elevadas de AEP (>4 ng/ml); de estos, a 46 se les diagnosticó

cáncer. Diez de los 57 hombres con valores de AEP ≤ 4 ng/ml tenían cáncer. Con

base en estos datos, ¿es posible concluir que, en general, los hombres con valores

elevados de AEP tienen mayor probabilidad de tener cáncer de próstata? Sea α

=0.01.

14. La mayoría de las personas que dejan de filmar, se quejan de que al hacerlo

suben de peso. Hall y otros investigadores diseñaron una nueva técnica para

prevenir que la gente suba de peso, la cual compararon contra otras condiciones

que incluían una condición control de tratamiento estándar ideada para representar

la atención estándar del sobrepeso inducido por dejar de fumar. Una de las

hipótesis de los investigadores era que las tasas de abstinencia de tabaco serían

mayores con la nueva técnica que las registradas en las otras dos condiciones. De

53 individuos asignados a la nueva condición, 11 dejaron de fumar al final de 52

Page 183: ESTADISTICA,general

183

semanas; diecinueve de los 54 individuos asignados a la condición de control se

abstuvieron hasta el final del mismo periodo. ¿Ofrecen estos datos suficiente

evidencia para apoyar, con un nivel de significación de 0.05, la hipótesis de los

investigadores?

15. En un estudio para comparar los pesos promedios de niños y niñas de sexto grado

en una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25

niñas. Se sabe que tanto para niños como para niñas los pesos siguen

una distribución normal. El promedio de los pesos de todos los niños de sexto

grado de esa escuela es de 100 libras y su desviación estándar es de

14.142 libras, mientras que el promedio de los pesos de todas las niñas de

sexto grado de esa escuela es de 85 libras y su desviación estándar es de 12.247

libras. ¿El promedio de los pesos de los niños será más grande que el de las

niñas?

En Ingeniería

1. Se sabe que la duración en horas, de un foco de 75 watts tiene una distribución

aproximadamente normal, con una desviación estándar de 25 horas. Se toma una

muestra aleatoria de 20 focos, la cual resulta tener una duración promedio de =

1014 horas.

¿Se tiene evidencia estadística para decir que la duración promedio de todos los

focos de 75 watts es de 51 horas? Pruebe con un nivel de significancia de 0.05.

2. Un ingeniero civil analiza la resistencia a la comprensión del concreto. La

resistencia esta distribuida aproximadamente de manera normal, con una varianza

= 1000(psi)2. Al tomar una muestra aleatoria de 12 especímenes, se tiene que =

3250 psi.

Pruebe Ho

x

x

Page 184: ESTADISTICA,general

184

3. Después del mantenimiento y la calibración, una máquina para extrusión produce

tubos de aluminio con una media de diámetro exterior de 2.500 pulgadas y una

desviación estándar de 0.027 pulgadas. Cuando la máquina funciona durante un

gran número de tumos de trabajo. La desviación estándar no se altera, pero la

combinación de desechos acumulados y el desgaste mecánico provoca que la

media del diámetro "se aleje" de las 2.500 pulgadas deseadas. En una muestra

aleatoria reciente de 34 tubos, la media del diámetro fue de 2.509 pulgadas. Con

un nivel de significancia de 0.01, ¿La máquina parece requerir de mantenimiento y

calibración? Determine e interprete el valor de p para la prueba.

4. Un fabricante de equipos electrónicos encontró que media del tiempo que

necesitan los novatos para armar su nuevo probador de circuitos es de 3 horas, con

una desviación estándar de 0.20 horas. Un consultor desarrolló un nuevo

instructivo con el fin de reducir el tiempo que necesita un armador inexperto para

montar el dispositivo. En una prueba sobre la eficacia del nuevo instructivo, 15

novatos requirieron una media de 2.90 horas para completar el trabajo. Suponiendo

que la población de tiempos tiene una distribución normal, y utilizando un nivel de

significancia de 0.05. ¿debemos concluir que el nuevo folleto es eficaz? Determine

e interprete el valor de p para la prueba.

5. En un estudio hecho para determinar el tiempo medio necesario para el montaje de

cierta pieza de una maquina, 40 trabajadores hicieron un promedio de 42.5 minutos

con una desviación típica de 3.8 minutos:

¿Los datos arrojan evidencia para decir que el tiempo promedio de montaje de

cierta pieza es mayor de 44 minutos? Utilice = .02.

6. Se encuentra que la concentración promedio de zinc que se saca del agua a partir

de un muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por

mililitro. Suponga que la desviación estándar de la población es 0.3. ¿Existe

suficiente evidencia estadística para decir que la concentración promedio de zinc es

menor de 2.9 gramos por mililitro? Utilice = .05.

Page 185: ESTADISTICA,general

185

7. Se encuentra que la concentración promedio de zinc que se saca del agua a partir

de un muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por

mililitro. Suponga que la desviación estándar de la población es 0.3. ¿Existe

suficiente evidencia estadística para decir que la concentración promedio de zinc es

menor de 2.9 gramos por mililitro? Utilice = .02.

8. En un experimento de laboratorio 50 estudiantes de ingeniería midieron por

separado el calor especifico del aluminio, obteniendo una media de 0.2210

calorías por grados centígrado y por gramo y una desviación estándar de .0240

¿Los datos arrojan evidencia suficiente para decir Ho : = .2300? .Utilice un nivel

de significancia de 0.05.

9. Una muestra aleatoria simple de 50 artículos originó una media de muestra de 32 y

una desviación estándar muestral de 6. Con un nivel de significancia 0.10 Podemos

decir que la media de la población es 34?.

10. Una compañía controla su proceso de producción en tal forma, que se pone en

bolsitas un promedio de 20 grs. de un producto químico. El proceso se detendrá

cuando el promedio no es de 20 grs. Se tomó una -muestra; aleatoria de 16

observaciones y el promedio muestra! resultó ser 19 grs. ¿Debe pararse el proceso

y ajustarse? La desviación estándar poblacional es dé 2 grs. Y el nivel de

significancia escogido es de 5%.

11. Un fabricante requiere fibra de algodón con una resistencia, media a la tensión de

6,50 onzas y o = 0.25. Investigó un nuevo lote de fibras mediante una muestra de

16 piezas y encontró x = 6,65 onzas. Existe evidencia de que este lote es de

resistencia mayor a la requerida?

12. Las cajas de avena llenadas por un proceso automático deben -tener un contenido

de 160 gramos en promedio. Si no es así debe detenerse la producción para

regular la máquina. Para el control se obtuvo el peso en gramos Xi de 10 cajas

seleccionadas al azar de esa producción y resultaron las siguientes sumas: Ʃxi =

Page 186: ESTADISTICA,general

186

1580, Ʃxi2 = 249658; al nivel de significancia de 0.01 ¿es razonable detener la

producción?

13. Una compañía afirma que la resistencia a la rotura de sus maletas plásticas es de

un promedio mayor a las 300 lluras. Se toma una muestra aleatoria de 9 maletines

se encuentra que el promedio de resistencia a la-rotura es:

280, 290, 292, 300,305, 295, 290, 310, 305.

Verificar la afirmación de la compañía. Suponga que sus resistencias a la rotura

están normalmente distribuidas α=0.05

14. La empresa productora de cereales embasados para consumo directo " ENERGÍA"

a lanzado al mercado su nuevo producto "CRECIENDO FUERTE el cual tiene

como especificaciones un peso promedio neto de 1 kilogramo. Si un agente del

gobierno toma una muestra representativa de 8 unidades y los pesos netos fueron

los siguientes: 0.995, 0.974, 0.966, 0.9.35, 0.999, 1.06, 1.01 y 0.983 kilogramos.

Con una significación del 5% ¿Podría el agente ordenar se multe a la empresa

productora?

15. El productor de cierta marca de baterías para .cámara, fotográfica dice que su

producción tiene vida media de más de 750. minutos. Se- prueban 20 baterías

elegidas al azar y sé suministraron los siguientes resultados: 720, 759, 723, 740,

754, 725, 790, 719, 775, 700, 745, 750, 753, 730, 780, 710, 775, 728, 702, 752

Suponiendo normalidad, con estos datos podríamos contrastar lo que dice el

productor, con un nivel de confianza, del 99%?

16. Una muestra aleatoria de 100 propietarios de automóvil en la ciudad de Bogotá

indica que los automóviles recorren anualmente en promedio 25 000 kilómetros con

una desviación estándar de 4000 kilómetros. ¿Los datos arrojan evidencia

suficiente para decir que el verdadero recorrido promedio anual es mayor de 27000

Page 187: ESTADISTICA,general

187

kilómetros? ¿Existe suficiente evidencia estadística para decir que la concentración

promedio de zinc es menor de 2.9 gramos por mililitro?

17. Una máquina produce piezas metálicas de forma cilíndrica. Se toma una muestra

de piezas cuyos diámetros son 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01, 1.03

centímetros. Con un nivel de significancia de .01. ¿Pruebe la hipótesis de que el

diámetro promedio de piezas de esta máquina es de 1.009?

18. Una muestra aleatoria de 8 cigarrillos de una marca determinada tiene un contenido

promedio de nicotina de 2.6 miligramos y una desviación estándar de 0.9

miligramos. ¿Existe suficiente evidencia estadística para decir que el contenido

promedio real de nicotina de esta marca de cigarros en particular es de 2.4

miligramos? Con = .05.

19. Se toma una muestra aleatoria de 12 agujas de tejer en un estudio de la dureza

Rockwell de la cabeza de las agujas. Se realizan las mediciones de la dureza para

cada una de las 12 piezas, de lo que se obtiene un valor promedio 48.50 con una

desviación estándar de 1.5. Suponiendo que las mediciones están normalmente

distribuidas, pruebe la hipótesis de que la dureza Rockwell promedio es menor

48.705. Con = .05.

16. Un contratista ha construido un gran número de casas aproximadamente del

mismo tamaño y del mismo precio. El contratista afirma que el valor promedio de

estas casas no excede de $35,000 dólares. Un corredor de bienes raíces

selecciona aleatoriamente 5 de las casas construidas recientemente por el

contratista y averigua los precios que resultan ser: $34,500, $37,000, $36,000,

$35,000 y $35,500. ¿Contradicen estas cinco observaciones la afirmación del

contratista acerca del valor promedio de sus casas?. Use =0.05

20. Según los datos obtenidos en una encuesta del CIS sobre política internacional,

realizada en febrero de 2002, el 52% de los 1202 hombres entrevistados,

manifestaba prestar “bastante” atención a las noticias sobre cuestiones y

acontecimientos sucedidos en otros países, mientras que entre las 1285 mujeres

Page 188: ESTADISTICA,general

188

entrevistadas, ese porcentaje era del 50% . ¿Puede decirse, con un nivel de

confianza del 95% , que existen diferencias significativas entre las proporciones de

hombres y mujeres “bastante” atentos a ese tipo de noticias? ¿Y si contrastamos la

hipótesis aplicando un nivel de significación de 0,01?

21. Previo a una elección la senadora X contrata los servicios de la compañía Y para

fijar la contienda establecida con los electores. Ella percibe con respecto a

este punto que si tiene el 45% de los votos será nominada de cuerdo con su

estrategia de campaña. Suponiendo que la compañía contratada selecciona

una muestra aleatoria simple de 1600 electores registrados. ¿Cuál es la

probabilidad de que la muestra pueda produc ir una proporción de 45% más

dado que la verdadera proporción es del 40%?

22. Sea X1 la duración de un filamento de wolframio en espiral simple, y X2 la duración

usando espiral doble.Se toma una muestra de tamaño 200 de ambos tipos de

filamentos teniéndose unas duraciones medias de x1 = 1100 horas, y ¯ x2 = 1108

horas. Las varianzas de las duraciones de cada tipo de filamento son σ2(1) = (20

horas)2 y σ2(2) = (23 horas). ¿Hay diferencias significativas entre ambos tipos de

filamento?

23. Se quiere elegir entre dos tipos de material textil para construir sistemas de

amarre. Para ello se mide la tensión de rotura de varias cintas de prueba utilizando

dos tipos de material. Se toman 24 datos usando el material M1, obteniéndose ¯ x1

= 87 (kg/mm2) y ˆ s1 = 2. Se toman además 30 datos usando el material M2,

obteniéndose ¯ x2 = 75 y ˆ s2 = 2.3. Se sabe que las tensiones de rotura se

distribuyen como una Normal. Se supondrá, además, que las varianzas de ambas

poblaciones son iguales. Contrasta, con un nivel de significación del 1%, que el

material M1 tiene mayor resistencia media que el M2.

21. Un nuevo programa de cómputo que se ha desarrollado para ayudar a los

analistas de sistemas a reducir el tiempo requerido para diseñar, desarrollar e

implementar un sistema de información. Para evaluar las ventajas del nuevo

Page 189: ESTADISTICA,general

189

programa se selecciona una muestra aleatoria de 24 analistas de sistemas. A cada

analista se le proporcionan especificaciones para un sistema hipotético de

información, y a los 12 de ellos se les pide producir el sistema usando la tecnología

(los programas) actual. A los otros 12 se les capacita primero en el uso del nuevo

paquete y, a continuación, se les pide usarlo para producir el sistema de

información.

Tiempos de terminación y estadísticos del Estudio de Prueba del Programa. Resultados. Diciembre 2008.

Tecnología Actual Nuevo Programa de Cómputo

300 276

280 222

344 310

385 338

372 200

360 302

288 317

321 260

376 320

290 312

301 334

283 265

12 12

325 288

40 44

Fuente: Escuela de Informática de UNMSM.

En Ciencias Sociales

1. Una muestra aleatoria de 12 alumnas graduadas de una escuela secretarial

mecanografió un promedio de 79.3 palabras por minuto con una desviación

estándar de 7.8 palabras por minuto. ¿Se tiene evidencia estadística para decir

que el número promedio de palabras mecanografiadas por todas las graduadas de

esa escuela es menor de 80 con =0.01.

Page 190: ESTADISTICA,general

190

2. Los siguientes datos corresponden a los pesos en Kg de 15 hombres escogidos al

azar: 72, 68, 63, 75, 84, 91, 66, 75, 86, 90, 62, 87, 77, 70, 69. Pruebe la Ho

74 con un nivel de significancia de .05.

3. Se obtiene una muestra de 16 estudiantes con una y una varianza de

S2 = 9 en un examen de estadística. Hay evidencia suficiente que apoye que la

media poblacional de las calificaciones de estadística es mayor de 70 con =

0.02.

4. Un distribuidor de libros plantea la hipótesis de que las ventas por mes promedian

S/.12, 000. Diez meses seleccionados como muestra reportan una media de S/.

11,277 y una desviación estándar de S/. 3,772. Sí se utiliza un valor del 5%.

¿Qué puede concluir acerca de la impresión que tiene el distribuidor sobre las

condiciones del negocio? ¿Cuál es el supuesto que se debe cumplir?

5. Una encuesta a 64 empleados profesionales de una institución correccional reveló

que el tiempo promedio de empleo en el campo correccional era de 5 años: Se

sabe que la desviación estándar de la población es de 4 años. ¿Sirven estos datos

de soporte a la hipótesis de que el tiempo promedio de empleo de todos los

empleados de este tipo está por debajo de los 6 años? Usar α = 0.05

6. Se considera que el peso promedio de los profesores de un centro educativo se

distribuye normalmente con una media de 160 libras y la desviación estándar de 20

libras. En una muestra aleatoria de 55 profesores, la media resulto ser de 150

libras. Probar la hipótesis nula contra la hipótesis alternativa de que el peso

promedio de los profesores más recientes del centro educativo es diferente de 160

libras para α = 0.02.

7. La estatura media de 50 estudiantes de un colegio que tomaban parte en las

pruebas atléticas fue de 68.2 pulgadas con desviación estándar de 2.5 pulgadas,

mientras que 50 estudiantes que no mostraban interés en tal participación tenían

una estatura media de 67.5 pulgadas con desviación estándar de 2.8 pulgadas.

68X

Page 191: ESTADISTICA,general

191

Ensayar la hipótesis de que los estudiantes que participan en las pruebas atléticas

son más altos que los otros. Ensaye la hipótesis al 5%.

8. Se ha afirmado que por lo menos el 60 % de los alumnos de primero y segundo

semestre de un Tecnológico prefieren estudiar a partir de las dos de la madrugada.

Si 4 de una muestra de alumnos de primero y segundo semestre de n =14 tomadas

al azar, afirman estudiar a partir de las dos de la madrugada, pruebe con un nivel

de significancia del 5 % si se debe aceptar la hipótesis nula p≥0.60 contra la

hipótesis alternativa p<0.60.

9. Una muestra aleatoria de 10 estudiantes se someten a una prueba de cálculo, y

reciben las calificaciones (X). Después se efectúa una sesión de repaso de álgebra

y se repite el mismo examen (Y). A un nivel de significancia de 0.05 ¿las

calificaciones son mejores en el segundo examen?

Estudiantes Examen 1

Examen 2

(X) (Y)

1 80 84 2 50 56 3 78 81 4 90 92 5 75 76 6 70 75 7 62 72 8 90 87 9 95 93 10 68 72

Page 192: ESTADISTICA,general

192

10. Una muestra aleatoria de 8 estudiantes se someten a una prueba de estadística, y

reciben las calificaciones (X). Después se efectúa una sesión de repaso de

Estadística y se repite el mismo examen (Y). A un nivel de significancia de 0.01

¿las calificaciones son menores en el segundo examen?

Estudiantes (X) (Y)

1 90 82 2 85 95 3 75 79 4 78 81 5 95 88 6 95 91 7 60 50 8 83 81

11. Un epidemiólogo desea comparar dos vacunas. Las personas que previamente

había recibido dichas vacunas se dividieron en dos grupos. El grupo una recibió

una dosis de refuerzo de la vacuna tipo 2. Las respuestas de los anticuerpos se

registraron dos semanas después. Las medias, desviaciones estándar y tamaño de

las muestras para los dos grupos fueron los siguientes:

Grupo Muestra Media D. Estándar

1 30 4.5 2.5 2 49 2.5 2.0

Ho: µ1 = µ2

Ha: µ1 µ2

El nivel de significancia es de = 0.01

12. Elegimos aleatoriamente 23 alumnos de Psicología y 25 de Pedagogía de la

Universidad de Sevilla, con el fin de comparar el rendimiento alcanzado en la

asignatura Análisis de Datos. Las medias de ambos grupos son 74 y 79

Page 193: ESTADISTICA,general

193

respectivamente, y sabemos que las varianzas valen 2.9 para la población de

alumnos de Psicología y 4.2 para la población de alumnos de Pedagogía.

¿Podemos afirmar que existen diferencias entre las medias alcanzadas por ambos

grupos? Realiza el proceso completo de decisión estadística tomando un nivel de

significación igual a 0.05 (alfa).

13. Se aplica un examen a dos grupos de estudiantes de 144 niños cada uno. El grupo

A que está cerca de una fábrica tuvo una puntuación promedio de 88 con una

varianza de 27 puntos, el grupo B que está lejos de la fábrica tuvo una puntuación

de 90 con una varianza de 24 puntos ¿Hay diferencia significativa en el rendimiento

promedio de los dos grupos a un nivel de significancia del 5%?.

14. Como parte de un estudio para evaluar las diferencias en los niveles educativos en

2 centros de capacitación, se aplicó un examen común que personas que asisten a

cada centro. Las calificaciones del examen son uno de los factores principales para

evaluar diferencias de calidad entre los centros.

Resultados de las Calificaciones en el examen en los Centros de adiestramiento.

Marzo 2009.

Centro de Adiestramiento A Centro de Adiestramiento B

n1 = 30 n2 = 40

𝑋1 = 82,5 𝑋2

= 78

𝑆1 = 8 𝑆2 = 10

Fuente: Resumen Estadístico de los Centros de adiestramiento.

A la luz de estos resultados:

a) ¿Cuál de los centros de adiestramiento brinda un mejor nivel educativo? Use

un nivel de significancia del 1%.

Page 194: ESTADISTICA,general

194

b) Si los tamaños de muestra reales hubieran sido de 10 y 15 para los centros

de adiestramiento A y B, respectivamente, realice la prueba de hipótesis

adecuada.

c) ¿Los resultados obtenidos en la parte (b) son similares a los de la parte (a)?

REFERENCIAS BIBLIOGRÁFICAS

1. Daniel Wayne; 1987, Bioestadística – Base para el Análisis de las Ciencias de la

Salud, Edit Limusa S.A. – México; (Págs. 155 a 159).

2. Freund J. y Manning R.; 1989, Estadística 4ta edición, Edit. Prentice Hall

Hispamericana S.A. – México ;(Págs. 342 a 363).

3. Miller I. y Freund J.; 1992, Probabilidad y Estadística para Ingenieros, Edit. Prentice

– Hall Hispanoamericana S.A. – México (Págs. 220 a 232).

4. Mills Richard; 1990, Estadística para Economía y Administración, Edit. Mc Graw

Hill – Bogotá, Colombia (Págs. 221 a 247).

5. Mason, , Robert y col., 2000; Estadística para Administración y Economía,

Editorial Alfaomega – México (Págs. 358 a 359)

6. Moya R. y Saravia G.; 1983, Teoría de Probabilidades e Inferencia Estadística,

Edit. San Marcos – Lima – Perú; (Págs. 637 a 662 y 682 a 692).

7. Ostle Bernard; 1985, Estadística Aplicada, Edit. Limusa – Wiley S.A. – México,

(Págs. 131 a 138 y 140 a 142).

Page 195: ESTADISTICA,general

195

Sesión 14 Prueba de hipótesis sobre relación entre

variables cualitativas: Chi-Cuadrado

10. Aplicar la prueba Chi Cuadrada en los trabajos de aplicación de su especialidad

11. Realizar una prueba de hipótesis que compare un conjunto observado de frecuencias

versus una distribución esperada

12. Realizar una prueba de hipótesis para determinar si hay alguna relación de

dependencia o independencia entre dos criterios de clasificación

11. Valora el uso de la Chi cuadrada para probar independencia de criterios

12. Valora el uso de la Chi cuadrada como una prueba para ajustar un conjunto de datos a

una distribución estadística

ACTITUDES

CONTENIDO

CAPACIDADES

Page 196: ESTADISTICA,general

196

Uso de la Ji Cuadrado. Prueba de bondad de ajuste. Prueba de independencia.

INTRODUCCION

En numerosas ocasiones, se necesita analizar la relación de dependencia o

independencia entre dos variables de tipo cualitativo o categórico.

A estas variables también se les denomina factores, mientras que a las distintas

categorías de la variable se les suele denominar niveles.

Existen diferentes pruebas para medir la dependencia entre dos variables

cualitativas, entre ellas la prueba ji-cuadrado en sus diferentes versiones.

PRUEBA JI-CUADRADO (X2)

La prueba χ² de Pearson es considerada como una prueba no paramétrica que mide la

discrepancia entre una distribución observada y otra teórica (bondad de ajuste), indicando

en qué medida las diferencias existentes entre ambas se deben al azar en la prueba de

hipótesis. También se utiliza para probar la independencia de dos variables entre sí, en una

tabla de contingencia. La fórmula que da el estadístico es la siguiente:

Cuanto mayor sea el valor de χ2, menos verosímil es que la hipótesis sea correcta. De la

misma forma, cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están

ambas distribuciones.

Los grados de libertad gl vienen dados por :

Page 197: ESTADISTICA,general

197

gl= (r-1)(k-1). Donde r es el número de filas y k el de columnas.

La prueba ji-cuadrado de Pearson (X2) es una de las pruebas más utilizadas.

También podremos encontrarla bajo el nombre de “chi-cuadrado”, siendo su origen la

traducción al castellano del término inglés “chi-squared”.

Se aplica principalmente para estudiar la asociación entre dos variables categóricas o

cualitativas y para comparar proporciones o porcentajes.

Esta prueba no mide el grado o la fuerza de la asociación entre dos variables

categóricas, para ello ya existen medidas como la odds ratio o el riesgo relativo,

adecuadas para estos fines.

Su uso no está restringido únicamente para variables dicotómicas. Si alguna de las

dos variables es de naturaleza ordinal, se debe aplicar la prueba ji-cuadrado de

tendencia lineal como veremos más adelante.

La prueba X2 puede aplicarse con una sola variable para comparar valores

observados respecto a esperados, aunque su uso más frecuente es para comparar

dos proporciones.

Una de sus limitaciones es que requiere un tamaño muestral suficientemente grande

y aunque su cálculo es sencillo, no lo es tanto el entender su procedencia y su

interpretación.

Simplemente diremos que los valores que toma el estadístico ji-cuadrado con un

grado de libertad corresponden a los obtenidos a una distribución normal estandar

Page 198: ESTADISTICA,general

198

elevados al cuadrado, y que por tanto la prueba ji-cuadrado solo tiene una cola

tomando únicamente valores positivos.

Ejemplo

Supongamos que realizamos un estudio en 45 pacientes en el que deseamos estudiar la

relación entre el hábito tabáquico y EPOC diagnosticado mediante espirometría obteniendo

los resultados de la Tabla I. Podemos ver que 15 pacientes de 25 (60%) tenían EPOC dentro

del grupo de fumadores, mientras que tan solo 5 de 20 (25%) presentaron EPOC en el grupo

de no fumadores. Desde un punto de vista clínico las diferencias son importantes, pero ¿lo

serán desde un punto de vista estadístico?

Fumador

EPOC No Sí Total

No 15 (75%) 10 (40%) 25 (55,6%)

Sí 5 (25%) 15 (60%) 20 (44,4%)

Total 20 (100%) 25 (100%) 45 (100%)

Tabla I. Relación entre EPOC y hábito tabáquico. Frecuencias observadas y porcentajes de columna.

Hipótesis Nula (Ho): La proporción de pacientes con EPOC es la misma en el grupo de

fumadores que en el de no fumadores.

Hipótesis alternativa (Ha): Las proporciones son distintas.

Si la proporción es distinta, tenemos en cuenta las dos posibilidades que existen: que la

proporción de pacientes con EPOC sea más alta o más baja en los fumadores, por lo tanto la

prueba es bilateral o también denominada de “dos colas”.

Entonces tenemos: Ho : 𝑃𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠 = 𝑃𝑛𝑜 𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠

Page 199: ESTADISTICA,general

199

Ha: 𝑃𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠 ≠ 𝑃𝑛𝑜 𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠

Si al calcular el valor X2, que es la diferencia entre lo observado y lo esperado,

sobrepasamos cierto valor crítico, diremos que las diferencias encontradas son demasiado

grandes como para poder ser explicadas por el azar.

Si en nuestro estudio tenemos 20 pacientes con EPOC de 45 personas (44%), para que la

hipótesis nula fuese cierta, tendríamos que tener la misma proporción de pacientes con

EPOC en los fumadores y en los no fumadores. Es decir, de los 25 fumadores, esperamos

tener (25*20)/45, que serían 11 fumadores aproximadamente. De este modo obtendríamos

las frecuencias esperadas para el resto de las 3 celdas (Tabla II). Una vez conocidas las

frecuencias esperadas, sólo nos queda calcular el valor de la expresión X2 que es una

simple suma de unas diferencias al cuadrado:

Fumador

EPOC No Sí Total

No 11,1 (55,6%) 13,9 (55,6%) 25 (55,6%)

Sí 8,9 (44,4%) 11,1 (44,4%) 20 (44,4%)

Total 20 25 45

X2 = 5.51

Si miramos en las tablas de la distribución ji-cuadrado para un grado de libertad,

podemos ver que la significación estadística p<=0,05, se alcanza para aquellos valores

de X2 iguales o superiores a 3,84. Como el valor obtenido en nuestro estudio; 5,51 es

mayor al valor crítico de 3,84, podemos rechazar la hipótesis nula (H0) y afirmar que las

diferencias encontradas difícilmente pueden ser explicadas por el azar, siendo mayor la

proporción de pacientes con EPOC en los fumadores (p<0,05).

Page 200: ESTADISTICA,general

200

PRUEBA DE INDEPENDENCIA: JI-CUADRADA

EJERCICIOS

1. Estamos interesados en estudiar la relación entre cierta enfermedad y la adicción al

tabaco. Para tal fin, seleccionamos una muestra de 150 individuos, 100 individuos no

fumadores y 50 fumadores. La siguiente tabla muestra las frecuencias de enfermedad

en cada grupo:

Fumadores Padecen la

enfermedad

No padecen la

enfermedad Total

Sí 12 88

No 25 25

Total

Emplee un nivel de confianza del 95%.

2. Estamos interesados en estudiar la fiabilidad de cierto componente informático con

relación al distribuidor que nos lo suministra. Para realizar esto, tomamos una

muestra de 100 componentes de cada uno de los 3 distribuidores que nos sirven el

producto comprobando el número de defectuosos en cada lote. La siguiente tabla

muestra el número de defectuosos para cada uno de los distribuidores.

Distribuidor Componentes

defectuosos

Componentes

correctos Total

1 16 94

2 24 76

Page 201: ESTADISTICA,general

201

3 9 81

Total

Determine si existe relación entre la cantidad de componentes defectuosos y el

distribuidor que los suministra, con un α = 0,01.

3. Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se

seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes

resultados:

Deportista Sin depresión Con depresión Total

Sí 38 9

No 31 22

Total

Determinar si existe independencia entre la actividad del sujeto y su estado de ánimo.

Nivel de significación (5%).

4. Un estudio que se realizó con 81 personas referente a la relación entre la cantidad de

violencia vista en la televisión y la edad del televidente produjo los siguientes

resultados.

Nivel de

Violencia 16-34 35-55 56 a más Total

Alta 8 12 21

Baja 18 15 7

Total

¿Indican los datos que ver violencia en la televisión depende de la edad del

televidente, a un nivel de significación del 1%?

5. Supongamos que se quiere estudiar la posible asociación entre el hecho de que una

gestante fume durante el embarazo y que el niño presente bajo peso al nacer. Por lo

Page 202: ESTADISTICA,general

202

tanto, se trata de ver si la probabilidad de tener bajo peso es diferente en gestantes

que fuman comparado con aquellas que no lo hacen. Para responder a esta pregunta

se realiza un estudio de seguimiento en 2000 gestantes, a las que se interroga sobre

su hábito tabáquico durante la gestación y se determina además el peso del recién

nacido. Los resultados se muestran a continuación:

Gestante Bajo Peso en el Recién Nacido

Total Sí No

Fumadora 43 207

No Fumadora 105 1645

Total

Realice la prueba Ji-Cuadrada de independencia para determinar la existencia de

relación o no, use un α = 0,10.

6. En un estudio para determinar si existe relación entre el sexo y el propósito de elegir

una carrera técnica se entrevistaron a 120 aspirantes a la universidad. Los resultados

se observan en la siguiente tabla de contingencia:

Género Aspira a Carrera Técnica

Total Sí No

Masculino 40 30

Femenino 10 40

Total

¿Existe relación entre las 2 variables presentadas? α = 0,05.

7. En la frontera de una provincia del sur se revisaron cargamentos de frutas de distinta

procedencia para evaluar la posibilidad de introducción de mosca de las frutas

(Ceratitis Capitata), una plaga de los frutales, en áreas no infestadas. La información

de cargamentos con presencia de la plaga se resume en la siguiente tabla:

Presencia de

la Plaga

Región de Procedencia del Cargamento Total

Norte Centro Selva

Page 203: ESTADISTICA,general

203

Sí 22 32 33

No 67 5 10

Total

Con un nivel de significancia del 1%, ¿existe alguna dependencia entre la región de

procedencia y la presencia de la plaga?

8. Un grupo de investigadores, al estudiar la relación entre el tipo sanguíneo y la

severidad de una afección en la población, reunió los datos de 1500 personas, los

cuales se presentan en la tabla de contingencia adjunta. Los investigadores desean

saber si estos datos son compatibles con la hipótesis de que el grado de la afección y

el tipo sanguíneo son independientes.

Severidad de

la Condición

Tipo de Sangre Total

A B AB O

Ausente 543 211 90 476

Moderada 44 22 8 31

Severa 28 9 7 31

Total

Use los resultados adjuntos para entregar una conclusión a los investigadores con un

nivel de significación del 5%.

9. Los niños de una escuela primaria fueron clasificados en forma cruzada de acuerdo

con el grupo socioeconómico al que pertenecen y la presencia o ausencia de cierto

defecto en el lenguaje. Los resultados fueron los siguientes:

Defecto del

Lenguaje

Grupo Socioeconómico

Total Alto

Medio

Alto Medio Bajo Bajo

Presente 8 24 32 27

Ausente 42 121 138 108

Page 204: ESTADISTICA,general

204

Total

¿Son compatibles estos datos con la hipótesis de que el defecto en el lenguaje está

relacionado con el grupo socioeconómico? Nivel de significación del 2,5%.

10. Una muestra de 500 estudiantes ingresantes a una universidad participó en un

estudio diseñado para evaluar el grado de conocimientos en matemáticas. La

siguiente tabla muestra los estudiantes clasificados según su formación secundaria

(escuelas técnicas, bachiller y otras) y el nivel de conocimientos en matemáticas

(bueno=aprobó el examen; deficiente=no aprobó el examen):

Escuela Nivel de Conocimientos en

Matemáticas Total

Bueno Deficiente

Técnicas 20 60

Bachiller 15 150

Otras 25 230

Total

¿Confirman estos datos que la aptitud en matemáticas depende de la orientación de

los estudios secundarios? Nivel de significación del 1%.

11. Una medicación nueva para tratar cierta enfermedad de vacunos se comparó con la

medicación de mayor uso. Para esto se tomó al azar un grupo de 300 animales que

padecían la enfermedad; a la mitad de éstos, tomados al azar, se los trató con la

nueva medicación y a los otros 150, con la medicación tradicional. Luego de un

tiempo se analizaron nuevamente los animales con el siguiente resultado:

Tratamiento Resultado del Tratamiento

Total Empeoró Sin Efecto Mejoró

Nuevo 16 30 104

Page 205: ESTADISTICA,general

205

Tradicional 20 42 88

Total

¿Considera que estos medicamentos se comportan de manera similar? Nivel de

significación del 10%.

12. A un grupo de 350 adultos que participaron en una escuela de salud, se les preguntó

si llevaban o no una dieta. Las respuestas (por género) son las siguientes:

Género ¿Sigue una dieta?

Total Sí No

Masculino 14 159

Femenino 25 152

Total

¿Sugieren estos datos que el estar a dieta depende del sexo? Sea α=0,05