Analisis Cuantitativo Clase 1 2015

ANALISIS CUANTITATIVO Y CUALITATIVO.

Profesor: Esteban Montero A. Profesor: Jaime Opazo C.

UNIDAD 1: ESTADÍSTICA DESCRIPTIVA

•  estebanmonteroalvarez@gmail.com

DEFINICIÓN

La Bioestadística es el conjunto de métodos necesarios para recoger, clasificar, representar y resumir datos, deducir las leyes que rigen esos fenómenos, así como para hacer inferencias (extraer consecuencias) científicas a partir de ellos.

La Bioestadística es la Ciencia de la

Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de

deducir las leyes que rigen esos fenómenos,

y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.

DESCRIPTIVA

PROBABILIDAD

INFERENCIA

Tipos de muestreo

PROBABILÍSTICO

NO PROBABILÍSTICO

Simple

Sistemática

Estratificada

Por conglomerados

Sujetos voluntarios

Muestra aleatoria

Muestra intencional

Sujetos expertos

Bola de nieve

Por cuotas

Imagen disponible en: http://www.shsu.edu/mgt_ves/mgt481/lesson9/sld014.htm

Selección aleatoria sistemática de una

muestra de tamaño 6

El 1º seleccionado al azar

El 2º seleccionado estará a 30/6 = 5 lugares del 1º

1

2

3

4 6

5

7

8 9

10

11

El 3º seleccionado estará a 5 lugares del 2º etc…

12 13

14 1 5

17 16

Seleccionar cada K , donde K= Tamaño población/tamaño de muestra

8

Muestra aleatoria estratificada

Estrato 1

Estrato 2

Total de submuestras aleatorias simples = Muestra

Muestras por Estratificación

Supone que el universo o población puede desagregarse en sub – poblaciones menores, homogéneos internamente pero heterogéneos entre sí (Estratos).

Cada uno de estos estratos se toma como un universo particular, y sobre cada uno de ellos se selecciona una m.a.

Ejemplo

Interesa estudiar las actitudes políticas de los estudiantes de una universidad.

siguen: Ingeniería, Letras, Medicina u otras carreras.

Se podría subdividir en estratos de acuerdo con el tipo de estudios que cursen, suponiendo que estas actitudes van a ser diferentes entre quienes

Muestra aleatoria por conglomerados

Imagen disponible en: http://www.universoformulas.com/estadistica/inferencia/muestreo-conglomerados/

Muestras por conglomerados

Es adecuada cuando el universo o la población que se requiere estudiar se encuentra subdividido en universos o poblaciones menores de características similares al del universo o población total.

El conglomerado más uLlizado en la invesLgación es un conglomerado geográfico. Por ejemplo, un invesLgador desea estudiar el rendimiento académico de los estudiantes de enseñanza media en SanLago. Puede dividir a toda la población (población de SanLago en diferentes conglomerados (Ciudades). Luego, el invesLgador selecciona una serie de conglomerados en función de su invesLgación, a través de un muestreo aleatorio simple o sistemáLco. Luego, de los conglomerados seleccionados (ciudades seleccionadas al azar) el invesLgador puede incluir a todos los estudiantes de enseñanza media como sujetos o seleccionar un número de sujetos de cada conglomerado a través de un muestreo aleatorio simple o sistemáLco. Lo más importante sobre esta técnica de muestreo es dar a todos los conglomerados iguales posibilidades de ser seleccionados.

Muestra de Sujetos Voluntarios

•  Se uLliza muy frecuente en Ciencias Sociales y Ciencias de la Conducta.

•  En estudios en laboratorio se procura que los sujetos sean

homogéneos en variables como: edad, sexo, inteligencia, para que los efectos o resultados obedezcan a condiciones que fueron someLdos y no a las diferencias individuales.

Muestreo por cuotas

Muestreo por cuotas •  En este Lpo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen determinadas caracterísLcas, por ejemplo: 30 mujeres de entre 25 a 40 años y residentes en SanLago.

•  Una vez determinada la cuota, se eligen los primeros que se encuentren que cumplan esas caracterísLcas.

•  Este método se utiliza mucho en las encuestas de opinión.

Muestreo bola de nieve

Muestreo bola de nieve •  Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente.

•  Este Lpo de muestra se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales“ (sectas, determinados Lpos de enfermos, etc..)

Muestra de Sujetos Expertos

Muestra de Sujetos Expertos •  Interesa mucho la opinión de sujetos

expertos •  en un tema.

•  Son frecuentes en estudios cualitativos y •  exploratorios.

Tamaño de Muestra •  La determinación del tamaño de muestra en una invesLgación depende del objeLvo de ella.

•  En el caso que se requiera estimar un parámetro será necesario definir el máximo error estándar dispuesto a cometer y la confianza del intervalo.

•  En el caso de realizar inferencia a través de pruebas de hipótesis es necesario definir la potencia de la prueba , el nivel de significación , la diferencia máxima entre el valor esLmado y el verdadero valor del parámetro.

Determinación de tamaños de muestra para disLntos d cuando p=0.5.

p d n 0.5 0.02 2401 0.5 0.03 1067 0.5 0.04 600 0.5 0.05 384 0.5 0.07 196 0.5 0.1 96 0.5 0.2 24

Población, muestra, variables,

presentación ordenada de datos

Disponible en: http://www.universoformulas.com/estadistica/inferencia/muestreo-discrecional/

Disponible en: http://estadisticaparaadministracion.blogspot.com/2011/10/poblacion-y-muestra-parametro-y.html

Población y muestra

•  Población (‘population’) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). –  Normalmente es demasiado grande para poder abarcarlo.

•  Muestra (‘sample’) es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) –  Debería ser “representativo”

Variables •  Una variable es una característica observable que varía entre los diferentes

individuos de una población. •  Individuos o elementos: personas u objetos que contienen cierta

información que se desea estudiar.

•  Por ejemplo, en los individuos de nuestra población, es variable:

–  El grupo sanguíneo •  {A, B, AB, O} ß Var. Cualitativa

–  Su nivel de felicidad “declarado” •  {Deprimido, Normal, Muy Feliz} ß Var. Ordinal

–  El número de hijos •  {0,1,2,3,...} ß Var. Numérica discreta

–  La altura •  {1’62 ; 1’74; ...} ß Var. Numérica continua

•  Cualitativas Evita la cuantificación y se centra en la cualidad que se revela

–  Nominales: Si sus valores no se pueden ordenar •  Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)

–  Ordinales: Si sus valores se pueden ordenar •  Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor

•  Cuantitativas o Numéricas Se reduce a medir variables en función de una magnitud o cantidad determinada.

–  Discretas: Si toma valores enteros

•  Número de hijos, Número de cigarrillos, Num. de “cumpleaños”

–  Continuas: Si entre dos valores, son posibles infinitos valores intermedios. •  Altura, Presión intraocular, Dosis de medicamento administrado, edad

Tipos de variables

Relación entre Escalas

Variables Cuantitativas

Variables Cualitativas

Presentación ordenada de datos

0

1

2

3

4

5

6

7

Hombre Mujer

•  Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra.

Género Frec.

Hombre 4

Mujer 6

TABLAS

N i v e l E d u c a c i o n a l | F r e q . P e r c e n t C u m . !

- - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - !

B A J O ( < 8 a ñ o s ) | 2 0 4 2 3 . 5 3 2 3 . 5 3 !

M E D I O ( 8 - 1 2 a ñ o s ) | 4 9 0 5 6 . 5 2 8 0 . 0 5 !

A L T O ( > 1 2 a ñ o s ) | 1 7 3 1 9 . 9 5 1 0 0 . 0 0 !

- - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - !

T o t a l | 8 6 7 1 0 0 . 0 0 !

Frecuencias Absolutas

Frecuencias relativas

Frecuencias acumuladas

Tablas de doble entradas

t a b u l a t i o n o f n e d u b y s e x o

S e x o

N i v e l E d u c a c i o n a l | m a s c u l i n o f e m e n i n o | T o t a l

- - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - + - - - - - - - - - -

B A J O ( < 8 a ñ o s ) | 7 6 1 2 8 | 2 0 4

M E D I O ( 8 - 1 2 a ñ o s ) | 2 1 6 2 7 4 | 4 9 0

A L T O ( > 1 2 a ñ o s ) | 6 4 1 0 9 | 1 7 3

- - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - + - - - - - - - - - -

T o t a l | 3 5 6 5 1 1 | 8 6 7

Tablas de frecuencia

•  Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca).

–  Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad

–  Frecuencias relativas (porcentajes): Ídem, pero dividido por el total

–  Frecuencias acumuladas: Esta frecuencia se expresa como proporción o porcentaje del total.

* Frecuencias acumuladas absolutas y

* Frecuencias acumuladas relativas.

SEXO DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO, AÑO ZZ

Sexo FrecuenciaAbsoluta

FrecuenciaRelativa

Frecuencia Acumulada Absoluta

Frecuencia Acumulada

Relativa

Hombre 636 41.9 636 41.9

Mujer 881 58.1 1517 100.0

Total 1517 100.0 ---------------- ----------------

NIVEL DE FELICIDAD DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO, AÑO ZZ

Nivel de Felicidad FrecuenciaAbsoluta

FrecuenciaRelativa

Frecuencia Acumulada Absoluta

Frecuencia Acumulada

Relativa

Muy Feliz 467 30.78 467 30.78

Bastante Feliz 872 57.48 1339 88.26

Poco Feliz 165 10.88 1504 99.14

No contesta 13 0.86 1517 100.00

Total 1517 100.00 ---------------- ----------------

Nº de hijos FrecuenciaAbsoluta

FrecuenciaRelativa

Frecuencia Acumulada Absoluta

Frecuencia Acumulada

Relativa

0 419 27.62 419 27.62

1 255 16.81 674 44.43

2 375 24.72 1049 69.15

3 215 14.17 1264 83.32

4 127 8.37 1391 91.69

5 54 3.60 1445 95.29

6 24 1.58 1469 96.87

7 23 1.52 1492 98.39

8 ó más 17 1.12 1509 99.51

No contesta 8 0.53 1517 100.04

Total 1517 100.04 ---------------- ----------------

NÚMERO DE HIJOS QUE PRESENTABAN LAS PERSONAS DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO,

AÑO ZZ

Número de hijos

419 27,8 27,8255 16,9 44,7375 24,9 69,5215 14,2 83,8127 8,4 92,254 3,6 95,824 1,6 97,323 1,5 98,917 1,1 100,0

1509 100,0

01234567Ocho+Total

Frec.Porcent.(válido)

Porcent.acum.

Ejemplo

•  ¿Cuántos individuos tienen menos de 2 hijos? –  frec. indiv. sin hijos

+ frec. indiv. con 1 hijo = 419 + 255 = 674 individuos

•  ¿Qué porcentaje de individuos tiene 6 hijos o menos? –  97,3%

Gráficos

•  Diagramas de barras –  Alturas proporcionales a las frecuencias (abs. o rel.) –  Se pueden aplicar también a variables discretas

•  Diagramas de sectores (tortas) –  No usarlo con variables ordinales. –  El área de cada sector es proporcional a su frecuencia

(abs. o rel.)

•  Pictogramas –  Fáciles de entender. –  El área de cada modalidad debe ser proporcional a la

frecuencia. ¿De los dos, cuál es incorrecto?.

Gráficos para v. cualitativas

Gráficos diferenciales para variables numéricas

•  Son diferentes en función de que las variables sean discretas o continuas. Son válidos para frec. absolutas o relativas. –  Diagramas barras para v. discretas

•  Se deja un hueco entre barras para indicar los valores que no son posibles

–  Histogramas para v. continuas •  El área que hay bajo el histograma entre dos

puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.

0 1 2 3 4 5 6 7 Ocho o más

Número de hijos

100

200

300

400

Rec

uent

o

419

255

375

215

127

54

24 23 17

20 40 60 80

Edad del encuestado

50

100

150

200

250

Rec

uent

o

Diagrama de caja o Box plot

2040

6080

100

EDAD

Atípico

Ls= Q3 + RIC x 1,5

Li= Q1 – RIC x 1,5

Q3= 75%

Q1= 25%

Mediana= 50% RIC= 50% datos

Diagramas integrales •  Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se

realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo.

Polígono (frecuencia)

Ojivas

Gráficos Diagrama de sectores o tortas Diagramas de barras

Variables cualitativas

Histograma Diagrama de caja o box plot

Variables cuantitativas

ESTADIGRAFOS

Parámetros y estadísticos •  Parámetro: Es una cantidad numérica calculada sobre

una población

–  La altura media de los individuos de un país

•  Estadístico: Ídem (cambiar población por muestra)

–  La altura media de los que estamos en esta sala

–  Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador.

Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a *TODA* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean próximos.

Resumen sobre estadísticos

•  Posición –  Dividen un conjunto ordenado de datos en grupos con la

misma cantidad de individuos. •  Cuantiles, percentiles, cuartiles, deciles,...

•  Centralización –  Indican valores con respecto a los que los datos parecen

agruparse. •  Media, mediana y moda

•  Dispersión –  Indican la mayor o menor concentración de los datos con

respecto a las medidas de centralización. •  Desviación típica, coeficiente de variación, rango, varianza

•  Forma –  Asimetría –  Apuntamiento o curtosis

Estadísticos de posición

•  Se define el cuantil de orden α como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada α.

•  Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Estadísticos de posición

•  Percentil divide a la muestra en 100 grupos con frecuencias similares. –  La mediana es el percentil 50 –  El percentil de orden 15 deja por debajo al 15% de las

observaciones. Por encima queda el 85%

•  Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. –  Primer cuartil = Percentil 25 = Cuantil 0,25 –  Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana –  Tercer cuartil = Percentil 75 = cuantil 0,75

•  Ejemplos –  El 5% de los recién nacidos tiene un peso demasiado bajo.

¿Qué peso se considera “demasiado bajo”? •  Percentil 5 o cuantil 0,05

–  ¿Qué peso es superado sólo por el 25% de los individuos? •  Percentil 75

–  El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales ¿Entre qué valores se encuentran los individuos normales?

•  Entre el percentil 5 y el 95 –  ¿Entre qué valores se encuentran la mitad de los individuos

“más normales” de una población? •  Entre el cuartil 1º y 3º

•  ¿Qué peso no llega a alcanzar el 25% de los individuos? –  Primer cuartil = percentil 25 = 60 Kg.

•  ¿Qué peso es superado por el 25% de los individuos? –  Tercer cuartil= percentil 75= 80 kg.

•  ¿Entre qué valores se encuentra el 50% de los individuos con un peso “más normal”? –  Entre el primer y tercer cuartil = entre 60

y 80 kg.

Ejemplo

Estadísticos

PESO60,0070,0080,00

255075

Percentiles

50%

Ejemplo Número de años de escolarización

5 ,3 ,35 ,3 ,76 ,4 1,112 ,8 1,925 1,7 3,568 4,5 8,056 3,7 11,773 4,8 16,685 5,6 22,2461 30,6 52,8130 8,6 61,4175 11,6 73,073 4,8 77,9194 12,9 90,743 2,9 93,645 3,0 96,622 1,5 98,030 2,0 100,0

1508 100,0

34567891011121314151617181920Total

Frecuencia PorcentajePorcentajeacumulado

Estadísticos

Número de años de escolarización1508

012,9012,00

129,00

11,0012,0012,0012,0012,0013,0014,0015,0016,0016,00

VálidosPerdidos

N

MediaMedianaModa

1020253040506070758090

Percentiles

≥20%?

≥ 90%?

Centralización Son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse.

•  Media: Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral. –  Media de 2,2,3,7 es (2+2+3+7)/4=3,5 –  Conveniente cuando los datos se concentran simétricamente con

respecto a ese valor. Muy sensible a valores extremos. –  Centro de gravedad de los datos

•  Mediana: Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales. –  Mediana de 1,2,4,5,6,6,8 es 5 –  Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5 –  Es conveniente cuando los datos son asimétricos. No es sensible

a valores extremos. •  Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!

•  Moda: Es el/los valor/es donde la distribución de frecuencia alcanza un máximo.

Altura mediana

Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa.

•  Amplitud o Rango:

La diferencia entre las observaciónes extremas. –  2,1,4,3,8,4. El rango es 8-1=7 –  Es muy sensible a los valores extremos.

•  Rango intercuartílico: –  Es la distancia entre el primer y tercer cuartil.

•  Rango intercuartílico = P75 - P25 –  Parecida al rango, pero eliminando las observaciones más extremas

inferiores y superiores.

–  No es tan sensible a valores extremos.

Medidas de dispersión

•  Varianza S2: Mide el promedio de las desviaciones al cuadrado de las observaciones con respecto a la media.

–  Es sensible a valores extremos (alejados de la media).

–  Sus unidades son el cuadrado de las de la variable.

∑ −=i

i xxn

S 22 )(1

Desviación típica Es la raíz cuadrada de la varianza

•  Tiene las misma dimensionalidad (unidades) que la variable.

–  A una distancia de una desv. típica de

la media tendremos 68% observaciones.

–  A una distancia de dos desv. típica de la media tendremos 95% observaciones.

2SS =

Peso recién nacidos en partos gemelares

3.3002.900

2.5002.100

1.7001.300

900500

50

40

30

20

10

0

Desv. típ. = 568,43

Media = 2023

N = 407,00

Coeficiente de variación Es la razón entre la desviación típica y la media.

–  Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”

–  También se la denomina variabilidad relativa.

–  Es frecuente mostrarla en porcentajes •  Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25%

(variabilidad relativa)

•  Es Interesante para comparar la variabilidad de diferentes variables. –  Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan

más dispersión en peso que en altura.

•  No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente –  Por ejemplo 0ºC ≠ 0ºF

xS

CV =

Asimetría o Sesgo

•  Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.

•  En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide

•  La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.

•  La media tiende a desplazarse hacia las valores extremos (colas).

•  Las discrepancias entre las medidas de centralización son indicación de asimetría.

Estadísticos para detectar asimetría •  Hay diferentes estadísticos que

sirven para detectar asimetría.

–  Basado en diferencia entre estadísticos de tendencia central.

–  Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.

–  Basados en desviaciones con signo respecto a la media.

•  Distribución simétrica è

asimetría nula.

Leptocúrtica

138108

10297

9287

8277

7267

6257

5247

4237

3227

163

Frecuencia

400

300

200

100

0

Platicúrtica

8481787572696663605754514845

Frecuencia

160

140

120

100

80

60

40

Mesocúrtica

9993

8985

8177

7369

6561

5753

4945

4137

3227

Frecuencia

300

200

100

0

Los gráficos que observamos poseen la misma media y desviación típica, pero con diferente grado de apuntamiento.

La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana.

Platicúrtica: curtosis < 0 Mesocúrtica: curtosis = 0 Leptocúrtica: curtosis > 0

Apuntamiento o curtosis

PRESENTACIÓN ORDENADA DE DATOS

PRESENTACIÓN DE DATOS Los datos o información en estadística se presentan mediante tablas y gráficos.

Los datos deben estar bien presentados y ordenados y debe existir coherencia en la información.

Para los gráficos se sugiere:

- sencillos

- No requieren información adicional (autoexplicativos)

- Indicar significado de los ejes.

También las tablas y gráficos deben llevar un título claro donde en general se especifica:

- Que se presenta en la tabla (edad, PA, etc)

- Como se clasifica la información

- Donde y cuando obtuvo la información (hospital Y, año X)

- A veces se indica la fuente o procedencia de los datos

PRESENTACIÓN DE DATOS

Respecto de los gráficos: Existe un criterio o guía denominado regla de los ¾ de altura

75%

100%

De lo contrario se maximizan o minimizan los datos (se sobreestiman o se subestiman)

Caso de variables cualitativas o categóricas (atributos)

Para construirlas se requiere identificar las distintas categorías o atributos y luego registrar el número de veces (la frecuencia) que cada categoría ocurre.

La representación gráfica para las variables cualitativas se realiza preferentemente mediante el diagrama de barras (simples) y el diagrama de sectores (gráfico circular o de torta)

* Barras = valores absolutos o %

* Sectores= %

Tablas de distribución de frecuencias

Estado de salud de un grupo de pacientes clínica Alemana, año 2004.

Esquema:

Nº de pacientes o el % de pacientes

Estado de salud Bueno Regular Malo *

* Al menos la mitad de la barra

%

Regular

Bueno

Malo

100% = 360ª

X% = Yª %

Estado de salud de un grupo de pacientes clínica Alemana, año 2004.

A veces para apreciar el espacio Eje truncado

Diagrama de Pareto = jerarquizado (barras)

Caso de variables cuantitativas o numéricas

Se recomienda diferenciar entre variables cuantitativas discretas y continuas

Número de médicos que trabajan en 30 clínicas de santiago, año 2002.

Nº de médicos

Frecuencia Nº de clínicas

%

1 3 10,0

2 6 20,0 3 12 40,0 4 7 23,3 5 2 6,7

Total 30 100,0

Ejemplo para una variable cuantitativa discreta:

Debe notarse que en este tipo de tablas no existe perdida de información. Es posible reproducir los datos originales:

1,1,1,2,2,2,2,2,2,………,5,5

Datos originales

Cuando hay intervalos hay perdida de información.

Número de médicos que trabajan en 30 clínicas de santiago, año 2002.

Frecuencias

Nº de clínicas o % de clínicas

Nº de médicos 0 1 32 54

3

6

9

12

Variable cuantitativa continua

En este caso es posible que la variable asuma una gran cantidad de valores diferentes. Es mejor agruparla en clases o intervalos.

¿Cómo se construye 1 tabla con clases e intervalos?

1.- Determinar el rango o campo de variación de los datos: diferencia entre el dato mayor y el menor

2.- determinar el número de clases o intervalos: Este número es flexible; se sugiere de 5 a 15 y depende de factores tales como la cantidad de datos y de su dispersión o variabilidad.

Para el número de clases:

- Se puede obtener X ensayo.

-  Puede estar indicado.

- - Aplicar regla de Sturgers para en Nº mínimo de clases (se puede adecuar)

Nº de clases= 1 + 3,322 log Nº de datos que se requiere agrupar

n

3.- Determinar la amplitud o tamaño de clase. En general consideramos amplitud común dentro de una tabla y en tal caso:

Amplitud= Rango / nº de clases

4.- Hacer la tabla propiamente tal, anotando las clases de manera adecuada y luego registrando el nº de datos (mediante recuento, conteo o tarjas) pertenecientes a cada clase con lo que se determina las frecuencias absolutas o simplemente frecuencias de cada clase.

Ejemplo: Los siguientes datos corresponden a la estatura en centímetros (aproximada al entero mas cercano) de 55 alumnos del curso H, registrada en abril de 2003.

162 – 153 – 167 – 172 – 181 – 197 – 177 – 176 – 159 – 184 – 163 - 179 – 165 – 185 – 152 – 166 – 173 – 172 – 178 – 173 – 165 – 183 - 154 – 164 – 166 – 178 – 178 – 143 – 174 – 185 – 163 – 165 – 186 - 155 – 171 – 175 – 152 – 161 – 158 – 172 – 167 – 173 – 189 – 174 - 179 – 172 – 164 – 190 – 135 – 145 – 170 – 167 – 159 – 191 - 178

1.- Determinar el rango 197 – 135 = 62

2.- nº de clases o intervalos

nº de clases= 1 + 3,322 log n

1 + 3,322 Log 55

6,781484854 ≈ 6,8

6 o 7 clases

3.- Amplitud o tamaño

Con 7 clases

A= Rango/nº de clases

62/7

8,8571 ≈ 8,9 ≈ 9

Con 6 clases

A= Rango/nº de clases

62/6

10,3 ≈ 10

Tenemos 6 clases de amplitud común 10 135 – 144

145 – 154

155 – 164

165 – 174

175 – 184

185 - 194

No alcanzó. Considerar 7 clases (volver a paso 3)

Con 7 clases y una amplitud de 9

Clase (Estatura alumnos) Recuento Frecuencias

135 – 143 II 2

144 – 152 III 3

153 – 161 IIIIIII 7

162 – 170 IIIIIIIIIIIIII 14

171 – 179 IIIIIIIIIIIIIIIIIII 19

180 – 188 IIIIII 6

189 – 197 IIII 4

TOTAL 55

Algunos comentarios:

1.- Se gana en presentación

2.- Se pierde información. No es posible reproducir los datos originales.

MODA

Para datos originales o series simples

ü  Variable que tiene mayor frecuencia ü  Puede ocurrir que no exista, o si existe, no ser única

a.- 47, 54, 68, 52, 59: No existe moda b.- 38, 43, 49, 43, 57, 49, 50, 43: moda=43 c.- 83, 88, 81, 76, 81, 94, 97, 90, 93, 90: Moda= 81 y 90

MODA

Para datos agrupados en clases o intervalos

La moda está ubicada en la clase modal, que es aquella clase que tiene mayor frecuencia. Luego se aplica la fórmula:

Moda= Li + d1 C

Li= Límite real inferior (de la clase modal) d1= Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase premodal d2= Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase post modal C= Amplitud de clase

d1+d2

MEDIANA

Para datos originales o series simples

Es un valor único que divide a un conjunto de datos en 2 partes iguales de tal manera que el número de datos menores o iguales que la mediana es igual al número de datos menores que ella. Corresponde al valor central cuando el número de datos es impar, y al promedio aritmético de los 2 valores centrales cuando el número de datos es par. Equivalentemente la ubicación o posición de los 2 valores centrales correspondiente a la mediana se determina por la fórmula de posicionamiento:

Posicionamiento= n + 1 2

MEDIANA

Ejemplo: Determinar la mediana para: a.- 48, 45, 40, 57, 59 = 40, 45, 48, 57, 59 (n=5)

Posicionamiento= (n+1)/2 = (5 + 1)/2 = 3 Mediana= 48 b.- La edad de 8 personas es: 13, 18, 14, 16, 10, 23, 21, 11 = 10, 11, 13, 14, 16, 18, 21, 23 (n=8) Posicionamiento= (8 + 1)/ 2 = 4,5 (14 + 16)/2 Mediana= 15

MEDIANA

Para datos agrupados en clases o intervalos

La mediana se ubica en la clase mediana. Es aquella clase cuya frecuencia absoluta acumulada iguala o supera a n/2 o 50% (mitad de los datos). Luego se aplica la fórmula:

Mediana= n/2 – Fi-1 fi

Li + C

Li= Límite real inferior de la clase mediana (se saca con las frecuencias acumuladas, la que iguale o supere a n/2 o 50%. Fi-1= Frecuencia acumulada absoluta de la clase anterior a la clase mediana fi= Frecuencia de la clase mediana C= Amplitud

CUARTILES, DECILES, PERCENTILES

Para datos originales o series simples

Son medidas análogas a la mediana que dividen a un conjunto ordenado de datos en 4, 10 o 100 partes iguales, respectivamente. Nótese que habrá 3 cuartiles, 9 deciles, 99 percentiles.

0 1 Q1 Q2 Q3

25% 25% 25% 25% Med

D5 P50

P25 P75

CUARTILES, DECILES, PERCENTILES

Posicionamiento Cuantil = (n + 1) k 100

Posicionamiento Q1=P25= (n + 1) 25

100 = (n + 1)

4

Posicionamiento Q3=P75= (n + 1) 75

100 = 3 (n + 1)

4

P = Valor entero de la posición + valor fracción posición (diferencia (P+1)-P)

CUARTILES, DECILES, PERCENTILES

Para datos agrupados en clases o intervalos

Cuantil = kn/100 – Fi-1

fi C Li +

k= Percentil k Li= Límite real inferior de la clase percentil k (se saca con las frecuencias acumuladas, la que iguale o supere a k%. Fi-1= Frecuencia acumulada absoluta de la clase anterior a la clase percentil fi= Frecuencia de la clase percentil C= Amplitud

MEDIA

Para datos originales o series simples

Punto en donde se encuentra el centro de gravedad de los datos o equilibrio

Media = ∑ Xi

n

Ejemplo: La presión sistólica de 10 personas es: 120, 130, 141, 126, 134, 128, 136, 132, 140, 143 mmHg Entonces, la presión media o promedio es: X= 1330/10 X= 133 mmHg

Para datos agrupados en clases o intervalos

MEDIA

En este caso, se supone que los datos incluidos quedan representados por las marcas de clase. En estas condiciones, la media o promedio para la muestra queda definida:

Media = ∑ Xifi

n

Xi= Marca de clase o distintos valores de la variable fi= Respectivas frecuencias

RANGO

Para datos originales o series simples

Diferencia entre el valor máximo y el valor mínimo

Para datos agrupados en clases o intervalos

Diferencia entre el límite real superior de la clase mayor y el límite real inferior de la clase mas baja.

VARIANZA

Varianza = ∑ Xi ² -

n - 1

(∑ Xi)² n

∑ Xi² = Sumatoria de las variables al cuadrado ∑ Xi = Sumatoria de las variables n = nº de datos

VARIANZA

Varianza = ∑ (Xi – X)²

n - 1

Xi= frecuencia absoluta o marca de clase X= Media o promedio

Desviación Estandar = ∑ Xi ² -

n - 1

(∑ Xi)² n

DESVIACIÓN ESTANDAR

Desviación Estandar = ∑ (Xi – X)²

n - 1

Desviación Estandar = Varianza

ASIMETRÍA O SESGO

Sesgo = X - Mo

S

X= Promedio Mo= Moda S= Desviación Estandar

APUNTAMIENTO O CURTOSIS

Curtosis = P75 – P25 2(P90 – P10)

Platicúrtica: curtosis < 0 Mesocúrtica: curtosis = 0 Leptocúrtica: curtosis > 0

Consultas.....

analisis cuantitativo clase 1 2015

Documents

analisis cuantitativo del cultivo intensivo del bagre blanco

ayres analisis químico cuantitativo

analisis cuantitativo de riesgos constructivos en

analisis cuantitativo financiero modulo 1

analisis de riesgos metodo mosler y cuantitativo terminado

introduccion al analisis cuantitativo cap 1

analisis químico cuantitativo-ayres

analisis mineralogico cuantitativo

laboratorio nº6 de analisis quimico cuantitativo

analisis cuantitativo y purificacion de muestras

a7-6 analisis cuantitativo de aguas

bioquimica 1. analisis cuantitativo de enzimas

analisis cuantitativo volumetrico

analisis cuantitativo del ruido sismico

analisis cuantitativo

analisis cuantitativo (alexeiev 1976)

analisis cuantitativo y cualitativo enlace e

analisis químico cuantitativo

analisis cuantitativo[1]

5.0 analisis cuantitativo de la obra