introducción - gc.scalahed.com

30
Introducción A lo largo de su existencia el ser humano ha llevado a cabo análisis de una gran cantidad de datos o información, referentes a los problemas o actividades de sus comunidades. Por ejemplo, desde comienzos de la civilización se hacían representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o cosas. Hacia el año 3000 a. C., los babilonios usaban pequeñas tablillas de arcilla para recopilar datos sobre la producción agrícola y los géneros vendidos o cambiados mediante el trueque. Mucho antes de construir las pirámides, los egipcios analizaban los datos de la población y la renta del país. Otro ejemplo de recopilación y análisis de datos es el del imperio romano, cuyo primer gobierno, al verse en la necesidad de mantener control sobre sus esclavos y riquezas, recopiló datos sobre la población, superficie y renta de todos los territorios bajo su control. Siguiendo con la historia de la recopilación de datos, a mediados del primer milenio, por el gran crecimiento de las poblaciones y para poder tener control sobre éstas, se comenzaron a efectuar censos poblacionales, como los de la Edad Media en Europa. Por ejemplo, los reyes caloringios 1 Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762, respectivamente. Conforme pasaba el tiempo, la recopilación y análisis de datos comenzaban a tener otro fin además de los censos y conocimiento de diferentes propiedades. Por ejemplo, en Inglaterra a principios del siglo XVI se realizó el registro de nacimientos y defunciones, con el cual en 1662 apareció el primer estudio de datos poblacionales, titulado Observations on the London Bills of Mortality (“Comentarios sobre las partidas de defunción en Londres”). Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de mortalidad. En el siglo XIX, con la generalización del método científico para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones verbales. 1.1 Estadística Como se explicó, el ser humano tuvo la necesidad de crear una ciencia que redujera la información a valores numéricos para la mejor interpretación de los fenómenos; se le llamó estadística. La estadística es una rama de las matemáticas aplicadas que proporciona métodos para reunir, organizar, analizar e interpretar información, y usarla para obtener diversas conclusiones que ayuden a tomar decisiones en la solución de problemas y en el diseño de experimentos. ¿Qué entendemos por estadística? Definición 1.1 1 Carolingia también llamada Carlovingia, fue una dinastía de reyes francos que gobernaron un vasto terri- torio de Europa Occidental desde el siglo VII hasta el siglo X d. C.; su nombre fue tomado de su más renombrado miembro, Carlomagno.

Upload: others

Post on 23-Jul-2022

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introducción - gc.scalahed.com

Introducción

Alolargodesuexistenciaelserhumanohallevadoacaboanálisisdeunagrancantidaddedatosoinformación,referentesalosproblemasoactividadesdesuscomunidades.Porejemplo,desdecomienzosdelacivilizaciónsehacíanrepresentacionesgráficasyotrossímbolosenpieles,rocas,palosdemaderayparedesdecuevasparacontarelnúmerodepersonas,animalesocosas.Haciaelaño3000a.C.,losbabiloniosusabanpequeñastablillas de arcilla para recopilar datos sobre la producción agrícola y los génerosvendidosocambiadosmedianteeltrueque.Muchoantesdeconstruirlaspirámides,losegipciosanalizabanlosdatosdelapoblaciónylarentadelpaís.

Otroejemplode recopilaciónyanálisisdedatoseseldel imperio romano,cuyoprimergobierno,alverseenlanecesidaddemantenercontrolsobresusesclavosyriquezas,recopilódatossobrelapoblación,superficieyrentadetodoslosterritoriosbajosucontrol.

Siguiendo con la historia de la recopilación de datos, a mediados del primermilenio,porelgrancrecimientodelaspoblacionesyparapodertenercontrolsobreéstas,secomenzaronaefectuarcensospoblacionales,comolosdelaEdadMediaenEuropa.Porejemplo,losreyescaloringios1Pipinoel BreveyCarlomagnoordenaronhacerestudiosminuciosos de las propiedades de la Iglesia en los años 758 y 762, respectivamente.

Conformepasabaeltiempo,larecopilaciónyanálisisdedatoscomenzabanatenerotrofinademásdeloscensosyconocimientodediferentespropiedades.Porejemplo,enInglaterraaprincipiosdelsigloxviserealizóelregistrodenacimientosydefunciones,conelcualen1662aparecióelprimerestudiodedatospoblacionales,tituladoObservations on the London Bills of Mortality(“ComentariossobrelaspartidasdedefunciónenLondres”).Unestudiosimilarsobre latasademortalidadenlaciudaddeBreslau,enAlemania,realizadoen1691,fueutilizadoporelastrónomoinglésEdmundHalleycomobaseparalaprimeratablademortalidad.Enelsigloxix,conlageneralizacióndelmétodo científicoparaestudiartodoslosfenómenosdelascienciasnaturalesysociales,losinvestigadoresaceptaron la necesidad de reducir la información a valores numéricos para evitar laambigüedaddelasdescripcionesverbales.

1.1 Estadística

Comoseexplicó,elserhumanotuvolanecesidaddecrearunacienciaqueredujeralainformaciónavaloresnuméricospara lamejor interpretaciónde los fenómenos; se lellamóestadística.

La estadística es una rama de las matemáticas aplicadas que proporciona métodos para reunir, organizar, analizar e interpretar información, y usarla para obtener diversas conclusiones que ayuden a tomar decisiones en la solución de problemas y en el diseño de experimentos.

¿Qué entendemos por estadística?

Definición 1.1

1CarolingiatambiénllamadaCarlovingia,fueunadinastíadereyesfrancosquegobernaronunvastoterri-toriodeEuropaOccidentaldesdeelsigloviihastaelsigloxd.C.;sunombrefuetomadodesumásrenombradomiembro,Carlomagno.

Page 2: Introducción - gc.scalahed.com

20 Estadística y probabilidad

Actualmentelaestadísticaesunmétodoefectivoparadescribir con precisión losvaloresdedatoseconómicos,políticos,sociales,psicológicos,biológicosofísicos,yunaherramientapararelacionaryanalizardichosdatos.Porestarazón,laestadísticasedivideendiferentesramas, entre las más aplicadas y que analizaremos están la estadística descriptiva y lainferencial.

Laprimeradeellasseabordaenlapresenteunidadyserádescritamásadelante,mientrasquelasegundaseráestudiadaenlasunidades9y10.Porahoraseverándosconceptosfundamentalesenelestudiodelaestadística.

1.2 Población y muestra

Lamateriaprimadelaestadísticasonlosconjuntosdenúmerosobtenidosalcontaromedirelementos.Portanto,alrecopilardatosestadísticossedebetenerespecialcuidadoparagarantizarquelainformaciónseacompletaycorrecta;deestemodo,elprimerpasoesdeterminarquéinformaciónyenquécantidadsehadereunir.Porejemplo,enuncensoes importanteobtenerelnúmerodehabitantesde formacompletayexacta;delamismamanera,cuandounfísicoquierecontarelnúmerodecolisionesporsegundoentrelasmoléculasdeungas,debeempezarpordeterminarconprecisiónlanaturalezade los objetos a contar. Dado que la naturaleza de los fenómenos en estudio es muyvariada,esnecesarioproporcionarunaseriededefinicionesreferentesalosconjuntosdedatosquesehandeestudiar.

La población es el conjunto que incluye el total de elementos o datos cuyo conocimiento es de interés particular.

Cadaunodeloselementosqueintervienenenladefinicióndepoblaciónesunindividuouobjeto; sedenominarondeestamanera, yaqueoriginalmenteel campodeactuacióndelaestadísticafueeldemográfico.

Dado que la información disponible consta frecuentemente de una porción osubconjuntodelapoblación,introducimosunsegundoconcepto,eldemuestradeunapoblación.

La muestra es cualquier subconjunto de la población.

1. Sielconjuntodedatosde interésestáconstituidoportodos lospromediosdeungrupode estudiantes de licenciatura de una universidad, cada uno de los estudiantes seráun individuo estadístico, mientras que el conjunto de todos estos estudiantes serálapoblaciónyunamuestrapodríaserelconjuntodetodoslosestudiantesdeltercercuatrimestredeingeniería.

2. Sielconjuntodedatosdeinterésestáconstituidoportodoslospromediosdelosgruposdelicenciatura,cadaunodelosgruposseráunindividuoestadístico,mientrasqueelconjuntodetodosestosgruposserálapoblaciónyunamuestrapodríaserelconjuntodetodoslosgruposdeltercercuatrimestredeingeniería.

¿Cuál es la función de la estadística?

¿Cómo se obtiene un conjunto de datos en estadística?

Definición 1.2

Definición 1.3

Ejemplo 1

Page 3: Introducción - gc.scalahed.com

21Unidad 1 • Estadística dEscriptiva

3.Si se está estudiando el resultado de ciertos experimentos químicos, cada uno deesosexperimentosseráunindividuoestadísticoyelconjuntodetodoslosposiblesexperimentosenesascondicionesserálapoblación,mientrasqueunamuestrapodríaserunconjuntoderesultadosexperimentalesposiblesenciertascondiciones.

Másadelanteseveráqueelproblemademuestreonoestansimple,porqueesteconceptotienemayorimportanciadentrodelaestadísticainferencial;seprofundizaráenélensumomento.

1.2.1 Caracteres y variables estadísticas

Cuando se definió el concepto población, se mencionaron sus elementos, tambiénllamadosindividuos;además,enelejemplo1seobservóqueéstospuedenserdescritosporunaovariasdesuspropiedadesocaracterísticas.

El caracter de un elemento, individuo u objeto es cualquier característica por medio de la cual se puede clasificar y estudiar.

1. Si los individuos son personas, el sexo, el estado  civil, el número  de  hermanos o suestatura soncaracteres.2. Sielindividuoesunareacciónquímica,eltiempo de reacción,lacantidad de producto  obtenidoosiésteesácidoobásico,soncaracteresquepuedenanalizarse.

Un caracter es cuantitativo si es posible medirlo numéricamente o cualitativo sinoadmitemedición.Porejemplo,elnúmerodehermanosylaestaturasoncaracterescuantitativos,mientrasqueelsexoyelestadocivilsoncaracterescualitativos.

Los distintos valores que puede tomar un caracter cuantitativo configuran unavariable estadística.Lasvariablesestadísticasseclasificanendiscretasycontinuas.

Una variable estadística es discreta sólo cuando permite valores aislados, como números enteros.

Porejemplo,lavariablenúmero de hermanostomalosvalores0,1,2,3,4y5.Estetipodevariablessecaracterizanporobtenersemedianteunproceso de conteo(versemejanzaconlasvariablesaleatoriasdiscretasenlaunidad5).

Una variable estadística es continua cuando admite todos los valores de un intervalo.

Por ejemplo, la variable estatura, en ciertapoblación estadística, toma cualquiervalorenelintervalo158-205cm.Otromáseslatemperatura deunapersona.Estetipo

Definición 1.4

Ejemplo 2

¿Qué es un caracter cuantitativo?

¿Qué es una variable estadística?

Definición 1.5

Definición 1.6

Page 4: Introducción - gc.scalahed.com

22 Estadística y probabilidad

de variables se caracteriza por obtenerse mediante mediciones (ver semejanzas con lasvariablesaleatoriascontinuasenlaunidad7).

Lasvariablecualitativaspuedensernominalessisetratadecategorias(sexo,raza,etc.)yordinalessiimplicanorden(clasesocial,gradodepreferencia).

1.2.2 Estadística descriptiva

Comoya sedijo, la estadística sedivideenvarias ramas,unadeellas es la estadística descriptiva.Despuésdehaberestudiadolosconceptosdepoblaciónymuestraesposibledefinirla.

La estadística descriptiva es la parte de la estadística que organiza, resume y analiza la totalidad de elementos de una población o muestra.

Sufinalidadesobtenerinformación,organizarla,resumirlayanalizarla,lonecesariopara que pueda ser interpretada fácil y rápidamente y, por tanto, pueda utilizarseeficazmente.

Elprocesoquesiguelaestadísticadescriptivaparaelestudiodeunaciertapoblaciónomuestraconstadelossiguientespasos:

1. Seleccióndecaracteresfactiblesdeserestudiados.2. Mediante encuestaomedición,obtencióndel valorde cada elemento en los

caracteresseleccionados.3. Obtención de números que sintetizan los aspectos más relevantes de una

distribución estadística (más adelante a dichos números los llamaremosparámetrosparaelcasodelapoblaciónyestadísticosenlasmuestras).

4. Elaboracióndetablasdefrecuencias,mediantelaadecuadaclasificacióndelosindividuos dentro de cada carácter (esto lo estudiaremos más adelante en eltema“Clasesdefrecuencias”).

5. Representacióngráficadelosresultados(elaboracióndegráficasestadísticas,alasquellamaremoshistogramas).

1.3 Tipos de muestreo

Losespecialistasenestadísticaseenfrentanauncomplejoproblemacuando,porejemplo,tomanunamuestraparaunsondeodeopiniónounaencuestaelectoral;seleccionarunamuestracapazderepresentarconexactitudlaspreferenciasdeltotaldelapoblaciónnoestareafácil,paratalefectoexistendiferentestiposdemuestreo,losmásconocidossemencionanenseguida.

Muestreo aleatorio simple

Estetipodemuestreosecaracterizaporquecualquierelementodelapoblaciónenestudiotienelamismaposibilidaddeserseleccionado.

Definición 1.7

¿Cuál es la finalidad de la estadística descriptiva?

Page 5: Introducción - gc.scalahed.com

23Unidad 1 • Estadística dEscriptiva

Porejemplo,delapoblaciónestudiantildeunauniversidadsepuedeseleccionarunamuestraaleatoriade50estudiantesparaaplicarunaencuestayobtenerciertotipodeinformación.Enestoscasos,existendistintosmétodospararespetarlaaleatoriedad,elmáscomúnesasignarleunnúmerodiferenteacadaestudianteyluego,conlaayudadeunatabladenúmerosaleatorios,elegirunbloquedetamaño50deéstayrealizarlasentrevistasalosalumnosseleccionados.

Muestreo estratificado

Enestetipodemuestreosedividelapoblaciónengruposquenosetraslapen–esdecir,quenotenganelementosencomún–yseprocedearealizarunmuestreoaleatoriosimpleencadaunodelosgrupos.

Porejemplo,lapoblaciónestudiantildeunauniversidadsepuededividirengruposformados por diferentes especialidades (ingeniería industrial, ingeniería en sistemas,administración,etc.)ydespuésdecadaunadeellasseprocedeaseleccionarunamuestraaleatoriaparallevaracabounaentrevistayobtenerlainformacióndeseada.

Ademásde losdos tiposdemuestreomencionados,existeelmuestreo  sistemáticoy el muestreo  por  conglomerados. El problema de muestreo es más complejo de lo queparece;paraunestudiomásdetalladodeltema,elestudiantepuedeconsultarellibroElementos de muestreo,deRichardL.ScheafferyWilliamMendenhall,deGrupoEditorialIberoamérica.

1.3.1 Uso de tablas de números aleatorios

Comosemencionó,lasmuestrasaleatoriassepuedenobtenerapartirdeunatabladenúmerosaleatorios.Sesuponequesetieneunapoblacióndemilindividuosysequierehacerunmuestreodediezdeellos.Enestecaso,primeroseasignaunnúmerodel000al999acadamiembrodelapoblaciónyluegoseeligedelatabladenúmerosaleatoriosunpuntodearranqueysehaceelrecorridohastaobtenereltamañodelamuestradediez.Debidoaqueeltamañodelapoblaciónesmil,delosnúmerosqueaparecenenlatablaseconsideransólosustresúltimascifras.Porejemplo,seanlossiguientesnúmerosaleatorioselegidosdeunatabla.

Alelegirsustresúltimascifrasseobtienenlosnúmerosqueformaránlamuestra:061,897,108,542,975,093,135,818,499y605.Despuésseprocedeaseleccionardelapoblaciónalosindividuosquelescorrespondenestosnúmeros.

Deformasimilarqueenelcasodelasmilpersonas,primeroseasignaunnúmeroacadaelementodelapoblacióndesde000hasta649yposteriormenteseeligeunbloquedenúmerosaleatoriosdondelastresprimerascifrasseanmenoresa649.

¿Cómo se lleva a cabo un muestreo aleatorio de diez personas

con población de 650 individuos?

9173061

0746897

7392108

0015542

4757975

0195093

8122135

7996818

1321499

0559605

Page 6: Introducción - gc.scalahed.com

24 Estadística y probabilidad

1.4 Parámetros y estadísticos

Losnúmerosquesintetizanlosaspectosmásrelevantesdeunadistribuciónestadísticapuedenobtenersetantodeunapoblacióncomodeunamuestrayporconsiguientedebenclasificarse:losprimeros,obtenidosdelapoblación,recibenelnombredeparámetrosylosobtenidosdeunamuestrasellamanestadísticosoestimadores.

Los parámetros y estadísticos más comunes de la estadística descriptiva que seestudiaránenestaunidadsedividen,asuvez,endostipos:

1. Medidas centrales:media,mediana,moda,mediageométrica,mediaarmónica,mediaponderada.

2. Medidas de dispersión: rango, varianza,desviaciónestándar, error estándar,coeficientedevariación,percentiles,rangointercuartil.

1.5 Medidas centrales

Sielconjuntodedatosnuméricosdeunamuestradetamañon(opoblacióndetamañoN)esdelaforma x1, x2,. . ., xn (oparalapoblaciónx1, x2,. . ., xN),nospodemospreguntarporlascaracterísticasdelconjuntodenúmerosquesondeinterés.Enestásecciónseestudiaránlosmétodosparadescribirsulocalizacióny,enparticular,elcentrodelosdatos.

1.5.1 La media

Cuando una persona tiene en sus manos un conjunto de datos para analizarlos,generalmentecalcula,enprimerainstancia,unpromediodeéstos.Porejemplo,dichapersonatienelascantidadesmensualesquehaganadoenlosúltimosseismeses(10800,9700,11100,8950,9750y10500)ydeseaconocerelvalorquerepresentasusalariopromedio.Enestecaso,obtendrásuingresopromedioalsumarlascantidadesydividirentreelnúmerodemesesquetrabajó

10800+9700+11100+8950+9750+10500

————————————————————————————————————=10133.33 6

Elsueldopromedioes$10133.33.

Comoelcasoanterior,existeunainfinidaddeproblemasocasosprácticosenlosquedeunconjuntodedatossequiereconocerunvalor centralquereflejelainfluenciaquetienecadaunodelosdatosenél.Lamedidacentralmáspropiciaparatalesfinessedefineacontinuación.

Dado el conjunto finito de datos muestrales x1, x2,..., xn, la media muestral (promedio aritmético) o estadístico media del conjunto es el estadístico que representa el promedio de los datos simbolizado por x (x barra), y se calcula

xx x x

n nxn

ii

n=

+ + +=

=∑1 2

1

1

¿Qué es un parámetroy qué es un estadístico

o estimador?

Definición 1.�

Page 7: Introducción - gc.scalahed.com

25Unidad 1 • Estadística dEscriptiva

Deformasimilarsedefineelparámetro mediaparalaspoblaciones finitas.

Dado el conjunto de datos poblacionales x1, x2,. . ., xN, se llama media poblacional o parámetro media del conjunto al parámetro representado por (miu o mu), y se calcula

µ =+ + +

==∑x x x

N NxN

ii

N1 2

1

1

Un fabricante de pistones toma una muestra aleatoria de 20 de éstos, para medir sudiámetro interno promedio. Con la información que el fabricante obtuvo dada encentímetros,secalculasudiámetromedio

Comosetratadeunamuestra,secalculasuestadístico

x =1

20[10.1+10.1+9.8+9.7+10.3+9.9+10+9.9+10.2+10.1+9.9+

9.9+10.1+10.3+9.8+9.7+9.9+10+10+9.8]=9.975

Lamediarepresentaelvalorpromediodetodaslasobservacionesyporconsiguientecadaunodelosdatosinfluyedeigualmaneraenelresultado;enocasiones,cuandosetienenpocosdatosquesealejanconsiderablementedelresto,elvalorpromedioencon-tradonoreflejalarealidaddelcaso.

Se quiere calcular el sueldo promedio de los trabajadores de una fábrica, eligiendoaleatoriamenteadiezdeellos,conlassiguientescantidades:

Secalculaelsueldopromedio,ysetiene

x =1

10[2000+2200+2500+2200+1800+25000+2400+2300+2800+2400]=4560

dondeelestadísticonoreflejalarealidaddelosdatos,puestoqueelsueldode25000esmuchomayoralosdemáseinfluyeconsiderablementeenelvalorpromedio.

1.5.2 La mediana

Porloexpuestoalfinaldelasubsecciónesnecesariopresentarotrotipodemedida centralenlaquevaloresmuyextremosos,conrespectoalresto,notenganunainfluenciatanmarcadacomoenlamedia.Adichamedidaseleconoce,debidoasunaturaleza,comomediana.

La mediana de un conjunto de datos es el valor medio de los datos cuando éstos se han ordenado en forma no decreciente en cuanto a su magnitud.

Definición 1.�

Ejemplo 3

10.1

9.9

10.1

9.8

10.0

9.9

9.9

10.0

10.2

10.09.8

10.1

10.1

9.9

9.7

10.3

10.3

9.8

9.9

9.7

Ejemplo 4

DatoSueldo 2 000 2 200 2 500 2 200 1 800 25 000 2 400 2 300 2 800 2 400

x10x1 x2 x3 x4 x5 x6 x7 x8 x9

Definición 1.10

Page 8: Introducción - gc.scalahed.com

26 Estadística y probabilidad

Cálculo de la mediana

Dadoelconjuntodedatosmuestralesx1, x2,. . ., xn,lamediana muestral o estadístico medianadelconjuntoserepresentapor x (xtilde)yseobtieneordenandoprimeroenformano decrecienteestosndatos,losqueserenombraránsegúnsuposiciónpormediodetildesdelasiguienteforma

x x xn1 2≤ ≤ … ≤

Posteriormenteselocalizaelpuntomediodelosdatosordenados,condoscasos:

1. Cuando la cantidad de observaciones es impar, el valor medio delordenamiento eseldatoqueseencuentreenlaposición(n+1)/2.

2. Cuando la cantidad de datos es par, de tal manera que resultan dos datosmedios localizadosenlasposicionesn/2yn/2+1,lamedianaseconsideraelpromediodeéstos.

Finalmente,sepuederesumirelcálculodelamedianaconlassiguientesfórmulas

x

x

x x

n

n n= +

+ ,cuandolacantidaddedatosesimpar1

2

2 2

,cuandolacantidaddedatosespar+

1

2

Deformasimilarsedefineelparámetromediana.Dado el conjunto de datos poblacionales x1,  x2,.  .  .,  xN, la mediana  poblacional o

parámetro medianadelconjuntoeselparámetrorepresentandopor µ ,ysecalcula

µ = +

+x

x x

N

N N

, cuandolacantidaddedatosesimpar1

2

2 2++

cuandolacantidaddedatosespar

1

2,

Dadoelconjuntomuestraldedatosdelejemploanterior,referentealsueldopromedio,secalculasumediana.

Lasiguientetablamuestraelconjuntodelosdiezdatos

Ordenandolossueldosdemenoramayoryrenombrándolosseobtiene

Dato

Sueldo 2 000 2 200 2 500 2 200 1 800 25 000 2 400 2 300 2 800 2 400

x10x1 x2 x3 x4 x5 x6 x7 x8 x9

2 300

Dato original

Datoordenado

Sueldo 1 800 2 000 2 200 2 200 2 400 2 400 2 500 2 800 25 000

x10x1 x2 x3x4x5 x6x7x8

x10x1~ ~~~~x2 x3 x4 x5 x6 x7 x8 x9

x9

~ ~ ~~ ~

Ejemplo 5

Page 9: Introducción - gc.scalahed.com

27Unidad 1 • Estadística dEscriptiva

Lacantidaddedatosesdiezyésteesunnúmeropar,porconsiguientela mediana muestralseencuentraconelpromediodelosdatosordenadosenlasposiciones n/2yn/2+1.Esdecir,enlasposiciones10/2=5y10/2+1=6

xx x

=+

=+

=5 6

2

2 300 2 400

22 350

En la  mediana se puede observar que el valor $25 000, el cual sobresalía conrespecto a todos losdemás, adiferenciade la media,no influye en el resultadode la mediana.Puestoquesienlugarde$25000seelige$5000o$100000,elsueldomediodelosdieztrabajadoresseguirásiendo$2350.Porlocualsedicequelamedianaesunamedida central insensibledelosdatos.

1.5.3 La moda

Paraalgunosestudiosesnecesarioencontrarelvalorcentraldeunconjuntodedatos,endondelamedidadeinterésestábasadaenlarepeticióndeéstos;portanto,ningunadelasdosmedidasanalizadasesconvenienteenestecaso.Debidoasunaturaleza,aestamedidaseledaelnombredemoda ysedefineacontinuación.

La moda de un conjunto de datos es el valor que se presenta en su distribución con mayor frecuencia.

LamodasesimbolizaporMoparalasmuestrasyparalaspoblaciones.

Enlasiguientelistasemuestranlascalificacionesde20exámenesde lingüística. Se calculadelingüística. Se calculaingüística.Secalculalacalificaciónquemásserepite,esdecir,lamodadeladistribucióndelascalificaciones.

Despuésdelconteodelosdatos,setiene

cincodatosconvalor5undatoconvalor6yotroconvalor7

tresdatosconvalor8 seisdatosconvalor9 cuatrodatosconvalor10

Portanto,lamodaesiguala9;yaqueeslacalificacióndemayorfrecuencia.

Alcalcularlamodaesposibleobservarqueesunamedidacompletamenteopuestaalamedianaencuantoasusensibilidad.Porejemplo,sienelcasodelascalificacionesunalumnoconcalificación9hubieseobtenido5,lamodacambiaríaa5(seríanseis5ycinco9).Asíqueconlasolaalteracióndeundatocambiacompletamentela moda,portanto,sedicequeéstaessumamentesensible.

Definición 1.11

Ejemplo 6

5 8 9 9 8 10 9 5 10 5

6 5 10 10 8 9 7 9 5 9

Page 10: Introducción - gc.scalahed.com

2� Estadística y probabilidad

Lamodatambiénpresentalossiguientesdosproblemas:

1. La moda puede no existir.Porejemplo,setienenlassiguientesseriesdedatos:

6,7,34,4,8 6,3,8,9,3,8,6y9

Enambasseriesdedatoslafrecuenciaeslamisma,esdecir,notienenmoda.Alosconjuntosdedatoscomolosanterioresselesllamaamodales osin moda.

2. La moda puede no ser única.Porejemplo,setienelasiguienteseriededatos

6,7,9,4,8,6,6,8,9,6,8,6,9,3,9y9

Enestaserieestánlosvalores6y9comolosdemayorfrecuencia,ambosserepitencincoveces.Alconjuntodedatosquetienemásdeunamodasele llamamultimodal;bimodalsisondosmodas,ytrimodalsisontres,etcétera.

1.5.4 Otros valores medios

Yasehananalizadolostresvalorescentralesmásconocidosyutilizadosenlaestadísticadescriptiva. El primero de ellos fue el definido en la sección 1.5.1 como una mediaaritmética,sinembargo,existendistribucionesdedatosparalascualesestamedidanoesmuypropicia,porloquesedefinenyutilizanotrotipodemedidascentrales,lamedianaylamoda.Acontinuaciónseveránotrostiposdepromediosquesondeutilidadenlaestadísticadescriptiva.

Valor geométrico o media geométrica

Lamediageométricadelosdatosx1, x2,. . ., xnsesimbolizaporMGyestádefinidacomolaraízn-ésimadelproductodelasnmediciones.

MG x x xnn= ⋅ ⋅1 2

Secalculalamediageométricade20calificacionesdeexámenespsicológicos

MG = =× × × × × × × × × × × × × × × × × × ×5 8 9 9 8 10 9 5 10 5 6 5 10 10 8 9 7 9 5 9 7 544686820 .

De ladefinicióndemediageométrica sededucequeéstanosepuedeaplicarcuandoalgún dato vale ceroolacantidaddedatosesparyexisteunacantidadimparnegativa.

¿Cuándo se considera a un conjunto de datos amodal?

¿Cuándo se consideraa un conjunto de datos multimodal?

5 8 9 9 8 10 9 5 10 5

6 5 10 10 8 9 7 9 5 9

Ejemplo 7

Observación

Page 11: Introducción - gc.scalahed.com

2�Unidad 1 • Estadística dEscriptiva

Valor medio armónico o media armónica

Lamedia armónicadelosdatosx1, x2,. . ., xnsesimbolizaporMA yestádefinidacomoelrecíprocodelamediaaritméticadelosrecíprocos.

MA

n x n x x x

n

x x xii

n

n n

= =+ + +

=+ + +

=∑

1

1 1

1

1 1 1 1 1 1 1

1 1 2 1 2

Laprincipalaplicacióndeéstaespromediarlasvariacionesrespectodeltiempo,esdecir,cuandolamisma distancia se recorre a diferentes tiempos.

Siseviajadeunaciudadaotrarecorriendolosprimeros100kma80kmph,lossiguientes100kma100kmphyfinalmenteotros100kma120kmph,secalculalavelocidadmediautilizandolamediaarmónicaysecomparaconlasmediasaritméticaygeométrica.

MA =

=+ +

1

1

3

1

80

1

100

1

120

97 2973.

x = [ ]= =+ +1

380 100 120

300

3100

MG = =× ×80 100 120 98 64853 .

Para tomar la decisión de qué media parece la más correcta, se calcula la velocidadpromedio

Velocidadpromediodistanciatotalrecorrida

tiempototal=

Ladistanciatotalrecorridaesiguala100+100+100=300km.

Eltiempototalderecorridoes100

80

100

100

100

1203 0833+ + = . h.

Ahorasecomparaconladistanciatotalrealrecorridalasdistanciasquerecorreríaelautomóvilconcadaunadelasvelocidadespromediocalculadas

Mediaaritmética:3.0833×100=308.33kmMediageométrica:3.0833×98.6485=304.166km

Mediaarmónica:3.0833×97.2973=300km

(Nótesequeelmejorresultadoseobtieneconlamedia armónica).

Ejemplo �

Observación

Page 12: Introducción - gc.scalahed.com

30 Estadística y probabilidad

Valor medio ponderado o media ponderada

Paraloscasosenquecadadatotieneunaimportancia relativaensudistribución–lacualse denomina peso–, la media correspondiente más apropiada se obtiene sumando losproductosdecadadatoporsupeso,llamandoadichamedidamedia ponderada.

En un conjunto de datos x1, x2,.  .  ., xn se llama pesos o ponderaciones respectivas de estos datos a las cantidades w1, w2,. . ., wn que cumplen

a) wi ∈ [ ]0,1 , para todo valor de ib) w1 + w2 + . . . + wn = 1

Lamedia ponderadadelconjuntodedatosx1, x2,. . ., xn,conpesosrespectivosw1, w2,. . ., wn,sesimbolizaporMPysecalculaconlasiguientefórmula:

MP w xi ii

n=

=∑ 1

Secalculalacalificaciónpromediodeunestudiante.Lacalificaciónestáponderadadelasiguienteforma:10%tareas,40%delprimerexamenbimestraly50%delexamenfinal.Lascalificacionesdelestudianteson8,9y4,respectivamente.

Lacalificaciónestáponderada,portanto

MP=0.1× 8+0.4× 9+0.5× 4=6.4

Enelcasodepoblaciones,losparámetroscorrespondientessecalculanconlasmismasformulascambiandonporN.

Alanalizarunconjuntodedatossurgeunaduda:¿tenerlasmedidascentralesessuficientepara conocer sudistribución?Despuésde estudiar la siguiente sección estoquedaráclaro.

Ejercicio 1

1. Calculalamedia,medianaymodadelsiguienteconjuntodedatos

2. Calculalamediaymedianadelostiemposdellegadadeseisavionesqueaterrizanenunaeropuerto.Lostiempos(enminutos)son

3.5 4.2 2.9 3.8 4.0 2.8

Definición 1.12

Ejemplo �

Nota

145 150 165 155 155 145 150

140 145 150 160 175 150 160

Page 13: Introducción - gc.scalahed.com

31Unidad 1 • Estadística dEscriptiva

3. Calculalamediageométricadelconjuntodedatosdelejercicioanterior. 4. Calculalamediaarmónicadelviajeredondoquerealizaunchoferdeunalíneade

camionescuyarutaesde520km,sideidalorecorrióporunaautopistaa101kmphyderegresoporotraavelocidadpromediode75kmph.

5. Enunamuestrade100pistonesseencontróque55teníanundiámetrointernode10.5cm,25de10.0yelrestantede10.75.Utilizalasfrecuenciasrelativasdelospistonesparacalcularlamediaponderadadesudiámetrointerno.

1.6 Medidas de dispersión

Paraunanálisismáscompletodeladistribucióndelosdatos,elestudiodesusmedidascentrales no es suficiente, puesto que en diferentes conjuntos de datos puede habermedidas centrales iguales, por tanto, no se tendría conocimiento de la forma de sudistribución.

Porejemplo,setienendosconjuntodedatos,unocontienelosvalores20,12,15,16,13y14,yelsegundo5,0,50,17,8y10;secalculasumedia.

Comosepuedeverificarenamboscasosseobtiene15.Perosiserepresentanlosvaloresenunarecta,esnotablequelasobservacionesdelsegundoconjuntotienenunadistribución(variación)muchomayor.

Por tanto, es necesario realizar un estudio de la distribución de los datos conrespectoasuvalorcentral,esdecir,senecesitaunvalorqueindiqueunamedidaparacompararlasdispersionesdedatosentrediferentesconjuntos;estasmedidassonvalores dedispersiónovariabilidaddelconjuntodedatos.

1.6.1 Rango

Eselprimervalorquenosmuestracómoestándistribuidos(dispersos)losdatos.ElrangodelasobservacionesestásimbolizadoporrparalamuestrayRparalapoblación.Elrangoesunamedidadevariacióndelosdatosqueloúnicoquemuestraeseltamañoolongituddelintervaloenelquelosdatosseencuentrandistribuidosyes:

El rango es igual a el valor mayor menos el valor menor de los datos.Definición 1.13

Page 14: Introducción - gc.scalahed.com

32 Estadística y probabilidad

Porejemplo,paralosdatosmuestralesdelosdosconjuntosdedatosanteriores

• enelprimerconjuntosurangovaler1=20–12=8,esdecir,losdatosdeesteconjuntoestándistribuidosalolargodeunintervalodelongitud8

• enelsegundoconjuntosurangovale,r2=50–0=50,esdecir,losdatosdeesteconjuntoestándistribuidosalolargodeunintervalodelongitud50

Loselementosdelsegundoconjuntotienenunaseparaciónmayorentreellos,peroelresultadonomuestraelcomportamientodelosdatosconrespectoasumedia.

1.6.2 Varianza y desviación estándar

Otramedidadedispersióndelosdatosqueestárelacionadadirectamenteconlamediadelconjuntoeslavarianza.

Se llama varianza de un conjunto de datos al promedio de los cuadrados de las desviaciones de cada uno de los datos con respecto a su valor medio.

Sisetienenndatosmuestrales,x1, x2,. . ., xnconvalormedioiguala x ,loscuadradosdelasdesviacionesdecadaunodelosdatosconrespectoasuvalormedioserán ( )x x1

2− ,( )x x2

2− ,etcétera.Aligualqueenlosvaloresmedios,lavarianzapuededefinirseconrespectoala

muestraoalapoblación.

Respecto a la muestra

La varianza muestral o estadístico varianza del conjunto de datos x1, x2,. . ., xn, se representa por s2, y se define como el valor medio de los cuadrados de las desviaciones de cada uno de los datos con respecto a x , y se calcula

s2 21

1

= −=∑n

x xii

n( )

Sobre la definición anterior podemos decir que denota la intención de una medidavariacionaldeunconjuntodedatos,sóloquemásadelante(unidades9y10)severáqueesconvenientedefinirelestadísticovarianzadividiendoentren–1enlugarden.Paradistinguirlas,selesasignannombresdiferentes,loscualessejustificaránhastalaunidad9,cuandoseanaliceeltema“Estimadorespuntuales”.Mientrastantosedefine

La varianza sesgada como sn

x xn ii

n2 21

1

= −=∑ ( )

Definición 1.14

Definición 1.15

Page 15: Introducción - gc.scalahed.com

33Unidad 1 • Estadística dEscriptiva

La varianza insesgada como sn

x xn ii

n

−=

=−

−∑11

2 21

1( )

Pero, ¿por qué dos definiciones diferentes en lugar de una? Porque la varianzasesgada refleja  perfectamente  el  significado  de una medida  de  dispersión ypor consiguientetieneunagranaplicaciónenelestudiodelasprobabilidades.Mientrasquelavarianzainsesgada,esmáspropiciaparaloscálculosestadísticosyseempleageneralmenteparalasmuestras.

Respecto a la población

Deformasimilarparapoblaciones finitassedefineelparámetrovarianza poblacional,elcualestárepresentadoporσ 2.

Dadoelconjuntodedatospoblacionalesx1, x2,. . ., xn,convalormedio,sedefinelavarianza poblacional

Varianza poblacional * σ µ2 21

1

= −=∑N

xii

N( )

Lavarianzasecalculaconloscuadradosdelasdesviacionesy,portanto,noestáenlasmismasunidadesquelosdatos.Porconsiguiente,seintroduceunanuevamedidadedispersióndelasiguienteforma:

Se llama desviación estándar de un conjunto de datos a la raíz cuadrada positiva de la varianza, es decir

σ σ= 2 o s s= 2

Secalculalavarianzainsesgadayladesviaciónestándardecadaunodelosdosconjuntosdelasección1.6:

Primerconjunto:20,12,15,16,13y14.Anteriormenteseencontróque x =15.

sn

x xn ii

n

−=

=−

− =

=−

− + − + −

∑11

2 2

2 2 2

1

1

1

6 120 15 12 15 15 15

( )

( ) ( ) ( ) ++ − + − + −

= + + + + +[ ]=

( ) ( ) ( )16 15 13 15 14 15

1

525 9 0 1 4 1 8

2 2 2

Ladesviaciónestándaressn–1=sn− = ≈1 8 2 8284. .

Definición 1.16

Ejemplo 10

*Enlasunidades5y7sepresentaunadefiniciónmásgeneral, lacualsepuedeaplicartantoapoblacionesfinitascomoinfinitas.

Page 16: Introducción - gc.scalahed.com

34 Estadística y probabilidad

Segundoconjunto:5,0,50,17,8y10.Anteriormenteseencontróque x =15.

sn

x xn ii

n

−=

=−

− =

=−

− + − + − +

∑11

2 2

2 2 2

1

1

1

6 15 15 0 15 50 15

( )

( ) ( ) ( ) (117 15 8 15 10 15

1

5100 225 1225 4 49 25 325

2 2 2− + − + −

= + + + + +[ ]=

) ( ) ( )

..6

Ladesviaciónestándaressn–1=sn− = ≈1 325 6 18 0444. . .

Cálculo de las varianzas

Paraloscálculosseacostumbraemplearotrarepresentaciónequivalentealadevarianza,determinadaporlassiguientesfórmulas:

Varianza sesgada sn

x xn ii

n2 2 21

1

= −=∑

Varianza insesgada sn

xn

nxn i

i

n

−=

=−

−−∑1

1

2 2 21

1 1

Secalculalavarianzainsesgadaparalosconjuntosdedatosdelejemplo10,empleandolasúltimasfórmulasparalavarianza,yseverificaquecoincidanlosresultados.

Primerconjunto:20,12,15,16,13y14.

sn

xn

nxn i

i

n

−=

=−

−−

=−

+ + + + +∑11

2 2 2 2 2 2 2 2 21

1 1

1

6 120 12 15 16 13 14

= + + + + +[ ]− × = − =

6

6 115

1

5400 144 225 256 169 196

6

5225 278 270

2( )

88

Segundoconjunto:5,0,50,17,8y10.

sn

xn

nxn i

i

n

−=

=−

−−

=−

+ + + + +

∑1

1

2 2 2 2 2 2 2 2 21

1 1

1

6 15 0 50 17 8 10 −−

= + + + + +[ ]− × = − =

6

6 115

1

525 0 2500 289 64 100

6

5225 595 6 270 325

2( )

. .66

Enloscálculosanterioresseobservaqueenamboscasoscoincidenlosresultadosconlosdelejemplo10.

Ejemplo 11

Page 17: Introducción - gc.scalahed.com

35Unidad 1 • Estadística dEscriptiva

Ejercicio 2

1. Calculaelrangoylavarianzainsesgadadelsiguienteconjuntodedatos:

2. Calcula la desviación estándar de los tiempos de llegada de ocho aviones queaterrizanenunaeropuerto.Lostiemposenminutosson3.5,4.2,2.9,3.8,4.0y2.8.

3. Enlosenvasesdeleche,lacantidaddelíquidonoessiempreunlitro,porloquesetomaunamuestradediezenvases,yseobtienenlossiguientesvalores:

0.95 1.01 0.97 0.95 1.0 0.97 0.95 1.01 0.95 0.98

Calculalavarianza.

1.7 Clases de frecuencia

Hastaahorasehatrabajadosóloconmuestrasopoblacionesmenoresde30elementos,cuyoscálculosnohansidotanlaboriosos;peroquépasacuandolacantidaddedatosesconsiderableoéstosprovienendemedicionesquehaganmáslaboriosoelcálculodesusmedidascentralesodevariación.Ademásdeloanterior,puedeserquesólonecesitemosunresumenmáscompactodelconjuntodedatosoinclusotenerunarepresentacióngráficadelcomportamientodesudistribución,porloquesiendounconjuntocongrancantidaddedatos(porejemplo,200)visualizarlostodos,parapoderestudiarsudistribución,noes factible, por consiguiente, es necesario emplear alguna otra estrategia de análisis.

Elproblemamencionadosepuederesolverfácilmentedistribuyendolosdatospormediodeintervalos,loquedaorigenalasiguientedefinición:

Dado un conjunto de datos, se llama intervalos de clase o clases de frecuencia o simplemente clases a los intervalos que por parejas son ajenos o disjuntos y contienen todos los datos del conjunto.

Una pareja de intervalos son disjuntos si no tienen elementos en común. Conrespectoalacantidaddeintervalosdeclase,sepidequenoseaunacantidadexcesivao insuficiente.Noexisteunaregladeterminanteparaobtener lacantidadde intervaloscuando se tienenn datos.Algunos especialistas en estadística emplean el enteromáscercanoalaraízden,otroselenteromáscercanoalog(n),obienla llamadaregladeSturges, en la cual se toma como el tamaño de la muestra el entero más cercano a3.3logn +1conncantidaddedatoscorrespondientesalasobservaciones.Paraefectosdeestelibro,seemplearáunacantidaddeintervalosque,dependiendodelvalorden,seencuentreentrecincoyveinte.

Conrespectoalosintervalosdeclase,noesunrequisitoqueseandeiguallongitud,sinembargo,aquíhabrárestricciónaclasesdeiguallongitud.

145 150 165 155 155 145 150

140 145 150 160 175 150 160

¿Qué es un intervalo de frecuencias y qué condiciones debe cumplir?

Definición 1.17

Nota

Page 18: Introducción - gc.scalahed.com

36 Estadística y probabilidad

1.7.1 Construcción de clases de frecuencia

Paralaconstruccióndelosintervalosdeclaseoclasesdefrecuenciaexistendiferentestécnicas, al igual que en la elección de la cantidad de clases no existe un métododeterminanteounafórmulageneral.Loúnicoquedeberespetarsees:

• unmismodatonodebedeperteneceradosintervalosdiferentes• todoslosdatosdebendeestardistribuidosenlosintervalosformados

Aquíseconstruiránlosintervalosdeclasedeunconjuntodedatos{x1, x2,. . ., xn},deacuerdoconlossiguientespuntos:

1. Secalculaelrangodelconjuntodedatos.2. Sedivideelrangoentrelacantidaddeclasesointervalosquequeremostenery

elvalorcalculadoserálalongituddecadaunadeéstasenlasquesedistribuiránlosdatos.

3. Paraformarlasclasesointervalos se considerancerradoslosextremosizquierdosdelosintervalosylosderechosseconsideranabiertos,tomandoalaúltimaclaseenambosextremoscerrada.

Dadounconjuntodedatosdondeelvalormáspequeñoes5yelmásgrande75.Construyediezintervalosdeclaseparadichoconjuntodedatos.

Elrangodelconjuntoes:r =75–5=70.Comoqueremostenerdiezintervalosdeclasedividimoselrango70entrediezyobtenemossiete.Estevalorserálalongituddecadaunadelasclases de frecuencia.Portanto,lasdiezclasesson

[5,12),[12,19),[19,26),[26,33),[33,40),[40,47),[47,54),[54,61),[61,68),[68,75]

Recuérdesequeunintervalodelaforma[26,33)indicaqueseconsiderantodoslosvaloresqueestánentre26y33,incluyendoel26yexcluyendoel33.

1.7.2 Frecuencias relativas

Empleamoslaconstruccióndelosintervalosdeclaseparaestudiardeformasimplificadala distribución de los datos, por tanto, después de construir los intervalos de clase,contamos la cantidad de datos que caen en cada uno. A dicha cantidad se le llamafrecuencia de la clase ofrecuencia de clase o frecuencia absolutaysesimbolizaporfi,dondeirepresentaelnúmerodelaclasey

f ii

nn=

=∑ 1

Se llama frecuencia relativa de una clase i al cociente de la cantidad de datos que se encuentran en ésta con respecto del total de datos en el conjunto y se simboliza por

ff

nri=

donde n representa la cantidad total de datos.

Ejemplo 12

Dado un conjunto de datos, ¿qué son las frecuencias de clase?

Definición 1.1�

Page 19: Introducción - gc.scalahed.com

37Unidad 1 • Estadística dEscriptiva

Seconsideranlascalificaciones(conescaladeceroa100)de80estudiantesenlamateriafísicaexperimental,sedistribuyenensieteclases de frecuenciasysecalculanlasfrecuencias relativasdelasclases:

Loprimeroesconstruir lassieteclasesdefrecuencia,encontrandoelvalormásgrande100yelmáspequeño30,portanto,elrangovaler=100–30=70.

Comosepidensieteclasesdefrecuencias,sedivide70entresieteyelresultadoesdiez.Esdecir,lalongituddelasclasesdefrecuenciaserádediezunidades.

Elprimerintervaloes[30,40),esdecir,todoslosdatosqueseanmayoresoigualesa30peromenoresa40;losdatosson30,38,30,30,30,35,36y30,ochoentotal.

Esteprocesodeconteosecontinúahastallegaralaúltimaclase.Alrealizarelconteodeelementosporclaseserecomiendaquelosdatoscontados

semarquenparaevitarunaequivocación.Porejemplo,despuésdelprimerconteolatablaquedadelasiguienteforma

Finalmente,secalculanlasfrecuenciasrelativasporclase,dividiendolasfrecuenciasentrelacantidadtotaldedatos,enestecaso80,yseobtiene

Ejemplo 13

Tabla 1.1

30 88 96 100 45 38 78 89 68 8868 100 100 68 69 79 98 94 30 4630 86 85 89 94 99 100 45 30 3536 76 78 81 80 40 67 58 89 5898 90 100 100 68 70 83 85 68 5630 67 78 98 100 86 69 79 52 4589 78 65 60 69 76 78 77 89 9899 91 100 48 68 84 67 69 46 79

30 88 96 100 45 38 78 89 68 8868 100 100 68 69 79 98 94 30 4630 86 85 89 94 99 100 45 30 3536 76 78 81 80 40 67 58 89 5898 90 100 100 68 70 83 85 68 5630 67 78 98 100 86 69 79 52 4589 78 65 60 69 76 78 77 89 9899 91 100 48 68 84 67 69 46 79

Page 20: Introducción - gc.scalahed.com

3� Estadística y probabilidad

Tantoenestadísticacomoenprobabilidadtieneuninterésparticularlaacumulaciónde frecuencias,por loque sedefinendosnuevasmedidasen lasclasesde frecuencia:frecuencia acumulada ylafrecuencia relativa acumulada.

Se llama frecuencia acumulada a la función que representa la suma de las frecuencias por clase, y se simboliza por Fi .

Se llama frecuencia relativa acumulada a la función que representa la suma de las frecuencias relativas por clase y se simboliza por Fr .

Cálculo de las frecuencias acumuladas

Dadounconjuntoconndatos,sedivideenmintervalosdeclaseconfrecuenciasf1,f2,...,fm,talesquef1+f2+...+fm=n(cantidadtotaldedatos).

Bajoestascondicioneslafrecuenciaacumuladaestádadapor

F x fii

x xi

( ) ==

∑ 1

Mientras que para el caso de la frecuencia relativa acumulada, las frecuenciasrelativasporclaseson

f

n

f

n

f

nm1 2, ,..., ;

secumplef

n

f

n

f

nm1 2 1+ + + =

y,portanto,setiene

Frecuencia relativa acumulada de una clase i es el cociente de la frecuencia acumulada de clase i entre la cantidad total de datos n, es decir

FF

nri=

Debidoaqueenlasfrecuenciasporclasenoesdeinteréselvalordecadaelementosinosólo la cantidaddeestosenlaclase,seacostumbrarealizarelconteopormediodelasbarrascomoantiguamentesellevabaacabo;esdecir,seponeunabarraverticalporelementocontadoycadavezquesellegaacuatrobarraslaquintasecolocaendiagonal.Porejemplo,paracontarochoelementos:

Definición 1.1�

Definición 1.20

Page 21: Introducción - gc.scalahed.com

3�Unidad 1 • Estadística dEscriptiva

Conestaformadeconteosepuedeconstruir,apartirdelatabla1.1,unatablasimilarquecontengalasfrecuenciasacumuladas

1.7.3 Media, mediana y moda en clases de frecuencia

Al igualque se realizó conunconjuntodedatosdel cual seobtuvieron susmedidascentralesydedesviación,éstassepuedenobtenerparalasclasesdefrecuenciaempleandolospuntosmediosdelasclasesysusfrecuenciasdeclase.

Sea k el número de clases, xi el punto medio de la i-ésima clase y fi la frecuencia de la i-ésima clase, entonces el valor de la media aritmética se calcula con la fórmula

xf x

ni i

i

k=

=∑ 1

Otrovalorpromedioimportanteeslamediana(Md ),quedivideladistribuciónendosáreasiguales;numéricamentesecomparaconlamediaaritmética x .

Sepuedeobtenerelcálculodelamedianaconlasiguientefórmula:

donde

L = límite inferior de clase mediana l = longitud del intervalo de clase medianaM L l

nC

fd = +−

2

n

2 = mitad de las observaciones

C = frecuencia acumulada anterior a la clase mediana f = frecuencia del intervalo de clase mediana

Tabla 1.2

Definición 1.21

Page 22: Introducción - gc.scalahed.com

40 Estadística y probabilidad

Laclasemedianaeselintervaloqueincluyelamitaddelasobservaciones;esposibledefinirlaalcalcularlafrecuenciaacumuladaF.

Conlosdatosdelejemplo13,secalculalamedianaMd.

Elintervalodeclasemedianaes[70,80),yaqueF5=46incluyealamitaddelasobser-vacionesn/2=80/2=40;l=80–70=10.

M L l

nC

fd = +−

= +

= +

=2 70 10

40 34

1270 10

6

12770 5 75+ =

Elvalorpromediomoda(Mo ),quesecompararáconlosvaloresnuméricosdelamediaaritmética xylamedianaMd,secalculaconlafórmula:

donde

L = límite inferior de la clase modal l  = longitud del intervalo de clase modalM L l

d

d do = +

+

1

1 2

d1= diferencia en frecuencia del intervalo de clase modal con el anterior d2= diferencia en frecuencia del intervalo de clase modal con el posterior

Laclasemodaleselintervaloquetieneensufrecuenciaelnúmeromayor.

Conlosdatosdelejemplo13,secalculaelvalorpromediomoda (Mo ).

Elintervalodeclasemodales[90,100]yaquelamayorfrecuenciaestáenF7=19conL=90,l =10,d1=19–15=4yd2=19–0=19.

M L ld

d do = ++

= +

+

= +

= +1

1 290 10

4

19 490 10

4

2390 10(.. ) .

.

1739 90 1 739

91 74 92

= +

= ≈

1.7.4 Varianza en clases de frecuencia

Deformasimilaralamediadeclasesdefrecuenciasepuedendefinirlasvarianzassesgadaeinsesgadadelasclasesdefrecuencia.

Si fi y xi son la frecuencia y el punto medio de la i-ésima clase, respectivamente, y n es la suma de las frecuencias, entonces la varianza sesgada s2 se calcula con la fórmula

sn

f x xi ii

k2 21

1

= −=∑ ( )

Ejemplo 14

Ejemplo 15

Solución

Definición 1.22

Solución

Page 23: Introducción - gc.scalahed.com

41Unidad 1 • Estadística dEscriptiva

La varianza insesgada s2 se calcula con la fórmula

sn

f x xi ii

k2 2

1

1

1=

−−

=∑ ( )

La desviación estándar por clases de frecuenciaseguirásiendolaraízcuadradapositivadelavarianzacorrespondiente.

Lamediayvarianzaporclasesdefrecuenciageneralmenteseempleanparaobservarladistribucióndedatosmuestrales,peroencasodequererdefinirestasmedidasparadatospoblacionalesserealizadeformasimilar,sustituyendolanporN, x porysporσ,comosehizoenlassecciones1.5y1.6.

Secalculalavarianzasesgadadelasclasesdefrecuenciaconlosdatosdelejemplo13.Para realizar loscálculosmás fácilmente seutilizará la tabla 1.2, tan sólo intro-a tabla1.2, tan sólo intro-tan sólo intro-

duciendoalgunascolumnas:

Lasumadelaquintacolumnadivididaentre80correspondealvalorpromediodelamediaaritmética.

x = = ≈5 770

8072 125 72

.

Porladefinicióndevarianzasesgadasetiene

s2 1

8030 640 382 984 383= = ≈( ) .

Mientrasqueladesviaciónestándarcorrespondientees

s s= = ≈2 383 19 57.

Definición 1.23

Nota

Ejemplo 16

Tabla 1.3

Page 24: Introducción - gc.scalahed.com

42 Estadística y probabilidad

Ejercicio 3

1. Enlasiguientetablasedanlostiemposdellegadaenminutosde60avionesaunaeropuerto.

       a) distribuyelosdatosencincoclasesdefrecuencia    b) calculasumediayvarianzasesgadapormediodelasclasesanteriores

2. Unamáquinadespachadoraderefrescosdeuncentrocomercialpareceestarfallando,puestoqueelencargadoharecibidovariasquejasenlaúltimasemana;éldecideregistrarlacantidaddecontenidoen40vasosdespachadospordicha máquinaydividirlosentresclasesdeiguallongitud,si70%omásdelosrefrescosdespachadosseencuentraenlaclasemedia,elencargadoseguirátrabajandoconlamáquina,encasocontrariolamandaráreparar.Losvalores(enmililitros)medidosson:

    a) dividelosvaloresentresclasesdefrecuenciadeiguallongitud,calculasus frecuenciasrelativaseindicasielencargadotendráquerepararlamáquinaono    b) calculalacantidaddelíquidopromedioquedespachalamáquina,empleando lasclasesdefrecuenciadelincisoanterior

3. Sienelejercicioanterior,ademásdelaconsideracióndelporcentaje,setomaencuentaladesviaciónestándardelasclasesdefrecuencia,pormediodelcriterio “lamáquinaserepararáencasodequeladesviaciónestándarseamayoraseis”, determinasielfabricante,segúnlosdatosobservados,tendráquerepararla máquina. 4. Seestudióeltiempodevidade90personasconsidayseanotósuduraciónenmeses,yseobtuvo

Ordenaendiezclasesdefrecuenciaycalculalamediayvarianzadelosdatos.

2.6 3.9 4.5 4.0 3.7 3.2 5.7 4.3 3.8 3.6

4.7 6.1 6.0 5.0 4.5 6.2 3.4 2.9 3.6 4.1

2.5 2.8 3.2 3.1 4.6 5.2 6.1 4.5 4.1 3.8

7.2 3.4 7.9 3.6 3.6 4.8 5.2 6.3 8.2 5.3

3.9 4.6 4.5 5.7 4.8 6.9 6.3 2.6 2.5 6.8

8.0 5.6 3.9 4.6 4.8 5.9 6.2 3.2 4.5 5.0

34.0 28.5 18.0 34.9 25.8 16.9 15.8 19.0 11.5 25.9 38.9 34.0 16.8 27.8 26.5

24.6 22.8 16.8 39.0 42.0 48.0 34.8 33.0 23.9 27.5 35.8 36.9 26.7 26.8 34.7

35.9 25.8 24.8 45.8 18.9 35.8 35.8 46.9 36.8 35.9 52.0 33.6 24.8 25.9 26.8

26.8 29.4 37.8 35.9 10.8 25.8 35.8 26.8 25.7 26.9 27.9 38.5 35.8 30.2 28.6

33.1 34.7 45.9 56.8 45.8 25.8 50.2 42.9 46.8 48.9 47.5 48.2 42.5 40.8 27.9

24.8 46.8 40.7 18.9 22.0 29.5 31.9 48.2 34.8 47.2 27.0 39.8 45.8 40.4 38.2

245.6 236.9 240.7 235.9 247.8 246.5 230.8 250.6 248.0 247.4

238.6 240.0 246.9 258.9 245.6 248.5 246.8 245.6 247.8 256.0

243.0 243.3 240.6 250.2 249.6 243.8 246.9 247.8 243.0 246.4

230.5 228.9 235.7 248.9 248.9 245.7 240.8 246.8 246.2 250.0

Page 25: Introducción - gc.scalahed.com

43Unidad 1 • Estadística dEscriptiva

1.� Gráficas

Las gráficas a las que se hace referencia en estadística descriptiva deben mostrar ladistribucióndelasfrecuenciasofrecuenciasacumuladasdelconjuntodedatos,conlocualsepodráentendereinterpretarfácilmentesucomportamiento.

Portanto,esnecesariointroducirunnuevométodográficoparalainterpretacióndedatos,entrelosgráficosmáscomunesestán

• diagramadebarras• polígonodefrecuencias• diagramacircularodepastel

1.�.1 Diagrama de barras

Unode los gráficosquemás se empleanpara representarunconjuntodedatos es eldiagrama  de  barras, donde se grafican una serie de rectángulos sobre un sistema dereferencia.Cuandoseconstruyenlosrectángulosconsusbasessobrecadaunodelosintervalosdeclaseyconsusalturaslasfrecuenciascorrespondientesdeclase,elgráficosellamahistograma.

Un histograma es un gráfico de barras utilizado para representar la forma en que están distribuidas las frecuencias; permite identificar el centro y la variabilidad de los datos.

Laconstruccióndehistogramascomienzaprácticamenteigualqueenlasclasesdefrecuencia:

1. Seconstruyenlosintervalosdeclase.2. Seencuentraelpuntomediodecadaintervalodeclase.3. Enelplanocartesiano,enelejedelasabscisas,sedistribuiránlospuntos

mediosdelasclasesdefrecuencia,mientrasqueenelejedelasordenadasse distribuirán las frecuencias de los datos. Finalmente, se construye elhistogramagraficandounabarraporcadaclase,ycuyocentroseráelpuntomediodeésta,detalmaneraquelaalturadelabarraeslafrecuenciaofre-cuenciarelativaylabasedelosrectángulosestádefinidaporloslímitesdecadaclase.

Para facilitar la construcción de un histograma es recomendable emplear sólointervalosdeclasedeiguallongitud,yaqueendadocasolasfrecuenciasdelasclasessegraficandemaneraproporcionalalasalturasdelosrectángulosyademásesmuchomásfácilcompararlasdiferenciasentrefrecuenciascuandolosrectángulostienenlamismabase.

Seconstruyeunhistogramaparalasclasesdefrecuenciaylafrecuenciaacumuladadelejemplo13.

Definición 1.24

Ejemplo 17

Page 26: Introducción - gc.scalahed.com

44 Estadística y probabilidad

Empleandolatabla1.2:

Segraficanlospuntosmediosdelosintervalos(terceracolumna)ysetrazanlosrectángulosconsusbases igualesa la longituddelaclaseyconlasalturascorrespon-dientesasufrecuencia,comosemuestraenlassiguientesfiguras:

Paralasfrecuenciasrelativaselhistogramaeselmismo,sólosedividecadafrecuenciaentreeltotaldedatos.

Modelos de distribución de datos

Loshistogramasnosólonosayudanaubicarelcentroyvisualizarlavariabilidaddelosdatos,sinotambiénlaformaenquesedistribuyen;portanto,lospodemosclasificaren

• simétricos• sesgadoshacialaizquierdaoladerecha• multimodales

Tabla 1.4

Figura 1.1 a) histogramas para las clases

de frecuencia y b) histogramas para las frecuencias acumuladas.

0

4

87

12

19

15

25 35 45 55 65 75 85 95 105

158

34

19

46

80

61

f

a)

025 35 45 55 65 75 85 95 105

F (x)

b)

Nota

Page 27: Introducción - gc.scalahed.com

45Unidad 1 • Estadística dEscriptiva

Histogramas simétricos

Presentanladistribuciónenformadecampana,esdecir,lamitadizquierdaesunaimagenreflejadadelamitadderecha.Comomuestralafigura1.2a,secumple x = Md=Mo.

Histogramas sesgados

Presentanunadistribuciónenlaquealgunadelascolasestámásalargadaencomparaciónconlaotra.Sellamansesgados a la derechaopositivamente sesgadossilacoladerechaeslaqueestámásalargada.Comolomuestralafigura1.2b,secumpleMo<Md< x .Selesllamasesgados a la izquierdaonegativamentecuandolacolaizquierdaeslamásalargada.Comolomuestralafigura1.2c,secumple x<Md<Mo.

Histogramas multimodales

Tienenensudistribuciónmásdeunpico(verfigura1.2d).Encasodedospicosbimodal,encasodetres,trimodaletcétera.

Retomandolosdatosdelejemplo13ycomparandolosvalorespromediocalculados x =72,Md=75,Mo=92,elmodeloasociadoconlas80calificacionesdefísicaexperimentalessesgadoalaizquierda.

¿En una distribución de datosqué significa sesgo? ¿Qué forma tienen

los histogramas sesgados?

Figura 1.2Histogramas para las clases de frecuencia

a) simétrico; b) sesgado a la derecha; c) sesgado a la izquierda, y d) multimodal (bimodal).

a) b)

c) d)

Ejemplo 1�

Page 28: Introducción - gc.scalahed.com

46 Estadística y probabilidad

1.�.2 Polígono de frecuencias

Enciertasáreasdeestudioserequierequelasrepresentacionesgráficasdeladistribuciónde las frecuenciasdedatos seanhechaspor líneasen lugardebarras.Porejemplo,alrealizarunestudiosobrelospronósticosdealgúneventosevisualizamejorladistribucióndesusfrecuenciasysustendenciassiseunensuspuntosmediosconsegmentosrectilíneosenlugardetrazarbarras.

Un polígono de frecuencias es un gráfico de línea que representa las frecuencias de los datos, uniendo por líneas los puntos medios de cada intervalo, donde xi es el punto medio de clase i y fi su frecuencia. Debido a su forma también se le suele llamar gráfico poligonal.

Construcción de un gráfico poligonal

1. Secreanlosintervalosdeclase.2. Seencuentraelpuntomediodecadaintervalodeclase.3. En el plano cartesiano, en el eje de las abscisas, se distribuirán los puntos

mediosdelasclasesdefrecuencia,mientrasqueenelejedelasordenadassedistribuirán las frecuencias de los datos. Finalmente, se construye el gráficopoligonaluniendolospuntosobtenidos.

Seconstruyeunpolígonodefrecuenciasparalasclasesdelejemplo13.Pormediodelatabla1.4,sisegraficanlospuntosobtenidosdelaterceraylacuartacolumnas:

Lospolígonosdefrecuenciaseempleanfrecuentementeenelestudiode las series de  tiempo, pues es común querer conocer la tendencia de la distribución de los datosconrespectoaltiempo.Además,enciertassituaciones,cuandosequierencompararlasdistribucionesdedosomásconjuntosdedatos,esmejorhacerlopormediodelospolígonosdefrecuenciasquemediantelasbarras,puestoquelosprimerossepuedensobreponeryrealizarunaobservaciónmuchomejor,loquenoesaplicableconloshistogramas.

Definición 1.25

Ejemplo 1�

Figura 1.3 Polígono de frecuencias.

f

12

478

0

19

15

35 45 55 65 75 85 95

Page 29: Introducción - gc.scalahed.com

47Unidad 1 • Estadística dEscriptiva

A los polígonos de frecuencia que se elaboran con las frecuencias acumuladas o las frecuencias relativas acumuladas se les llama ojivas.

Seconstruyelaojivaparalasfrecuenciasrelativasacumuladasdelejemplo13.

1.�.3 Diagrama circular o de pastel

Otrotipoderepresentacióngráficadeladistribucióndedatosmuyempleado,cuandosequierenilustrarlasproporcionesdelosdatosdetalformaquellamenlaatención,sonlosdiagramas circulares.

Un diagrama circular es un gráfico que divide en sectores un círculo, los cuales representan las frecuencias relativas del conjunto de datos. Por su forma también se le suele llamar diagrama de pastel.

Construcción de un diagrama circular

1. Secreanlosintervalosdeclase.2. Secalculanlasfrecuenciasrelativasporclase.3. Apartirdelcentrodeuncírculosetrazansectoresproporcionalesaláreaque

representenlafrecuenciarelativaporclase.

Seconstruyeundiagramacircularquerepresenteladistribuciónporclasesdefrecuenciasrelativasparalasestaturas(encentímetros)delasiguientemuestrade50personas.

Definición 1.26

0.4250

0.1875

1

0

0.2375

0.10

0.7625

0.5750

1 2 3 4 5 6 7

Figura 1.4 Ojiva de frecuencias relativas acumuladas.

¿En qué casos graficamos datos con los diagramas circulares?

Definición 1.2�

Ejemplo 21

Ejemplo 20

Page 30: Introducción - gc.scalahed.com

4� Estadística y probabilidad

Comoson50datosysevanadistribuirensieteclases,primerosecalculaelrangodelconjuntor=186.4–158.4=28

Sequierenobtenersieteclases,portanto,sedivideelrango28entresieteyelresultadoescuatro.Estevalorserálalongituddecadaunadelasclases de frecuencia.Esdecir

[158.4,162.4),[162.4,166.4),[166.4,170.4),[170.4,174.4),[174.4,178.4),[178.4,182.4),[182.4,186.4)

Paraobtenereláreaquerepresentalafrecuenciarelativaeneldigramacircular,semultiplicalafrecuenciarelativapor360°.

Con el avance de la informática y la creación de software, han aumentado lasrepresentacionesgráficasparalasdistribucionesdelosdatos;enestaunidadsólosehanilustradoalgunasdeellas.Acontinuaciónsemencionanotrostiposdediagramas:

• anillos• superficies• cotizaciones• cilíndricas• cónicas• piramidales

Todaséstassepuedenencontrarensoftwareestadísticoparacomputadora.

Tabla 1.5

1224%

918%

24%

24%

510%

816%

1224%

a)

24%

18%4%4%10%

16%

24%

b)

Figura 1.5a) diagrama circular o de pastel

del ejemplo 21 en su forma plana; b) representación tridimensional.

Intervalo i

Clasei

Conteo Frecuenciarelativa

Frecuenciaf i

1 [158.4, 162.4)

[162.4, 166.4)

[166.4, 170.4)

[170.4, 174.4)

[174.4, 178.4)

[178.4, 182.4)

[182.4, 186.4]

2

2

3

4

5

6

7

0.04

0.10

0.16

0.24

0.24

0.18

0.042

9

12

12

8

5