analisis cuantitativo clase 1 2015
Post on 14-Apr-2016
42 Views
Preview:
DESCRIPTION
TRANSCRIPT
ANALISIS CUANTITATIVO Y CUALITATIVO.
Profesor: Esteban Montero A. Profesor: Jaime Opazo C.
UNIDAD 1: ESTADÍSTICA DESCRIPTIVA
• estebanmonteroalvarez@gmail.com
DEFINICIÓN
La Bioestadística es el conjunto de métodos necesarios para recoger, clasificar, representar y resumir datos, deducir las leyes que rigen esos fenómenos, así como para hacer inferencias (extraer consecuencias) científicas a partir de ellos.
La Bioestadística es la Ciencia de la
Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de
deducir las leyes que rigen esos fenómenos,
y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.
DESCRIPTIVA
PROBABILIDAD
INFERENCIA
Tipos de muestreo
PROBABILÍSTICO
NO PROBABILÍSTICO
Simple
Sistemática
Estratificada
Por conglomerados
Sujetos voluntarios
Muestra aleatoria
Muestra intencional
Sujetos expertos
Bola de nieve
Por cuotas
Imagen disponible en: http://www.shsu.edu/mgt_ves/mgt481/lesson9/sld014.htm
Selección aleatoria sistemática de una
muestra de tamaño 6
El 1º seleccionado al azar
El 2º seleccionado estará a 30/6 = 5 lugares del 1º
1
2
3
4 6
5
7
8 9
10
11
El 3º seleccionado estará a 5 lugares del 2º etc…
12 13
14 1 5
17 16
Seleccionar cada K , donde K= Tamaño población/tamaño de muestra
8
Muestra aleatoria estratificada
Estrato 1
Estrato 2
Total de submuestras aleatorias simples = Muestra
Muestras por Estratificación
Supone que el universo o población puede desagregarse en sub – poblaciones menores, homogéneos internamente pero heterogéneos entre sí (Estratos).
Cada uno de estos estratos se toma como un universo particular, y sobre cada uno de ellos se selecciona una m.a.
Ejemplo
Interesa estudiar las actitudes políticas de los estudiantes de una universidad.
siguen: Ingeniería, Letras, Medicina u otras carreras.
Se podría subdividir en estratos de acuerdo con el tipo de estudios que cursen, suponiendo que estas actitudes van a ser diferentes entre quienes
Muestra aleatoria por conglomerados
Imagen disponible en: http://www.universoformulas.com/estadistica/inferencia/muestreo-conglomerados/
Muestras por conglomerados
Es adecuada cuando el universo o la población que se requiere estudiar se encuentra subdividido en universos o poblaciones menores de características similares al del universo o población total.
El conglomerado más uLlizado en la invesLgación es un conglomerado geográfico. Por ejemplo, un invesLgador desea estudiar el rendimiento académico de los estudiantes de enseñanza media en SanLago. Puede dividir a toda la población (población de SanLago en diferentes conglomerados (Ciudades). Luego, el invesLgador selecciona una serie de conglomerados en función de su invesLgación, a través de un muestreo aleatorio simple o sistemáLco. Luego, de los conglomerados seleccionados (ciudades seleccionadas al azar) el invesLgador puede incluir a todos los estudiantes de enseñanza media como sujetos o seleccionar un número de sujetos de cada conglomerado a través de un muestreo aleatorio simple o sistemáLco. Lo más importante sobre esta técnica de muestreo es dar a todos los conglomerados iguales posibilidades de ser seleccionados.
Muestra de Sujetos Voluntarios
• Se uLliza muy frecuente en Ciencias Sociales y Ciencias de la Conducta.
• En estudios en laboratorio se procura que los sujetos sean
homogéneos en variables como: edad, sexo, inteligencia, para que los efectos o resultados obedezcan a condiciones que fueron someLdos y no a las diferencias individuales.
Muestreo por cuotas
Muestreo por cuotas • En este Lpo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen determinadas caracterísLcas, por ejemplo: 30 mujeres de entre 25 a 40 años y residentes en SanLago.
• Una vez determinada la cuota, se eligen los primeros que se encuentren que cumplan esas caracterísLcas.
• Este método se utiliza mucho en las encuestas de opinión.
Muestreo bola de nieve
Muestreo bola de nieve • Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente.
• Este Lpo de muestra se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales“ (sectas, determinados Lpos de enfermos, etc..)
Muestra de Sujetos Expertos
Muestra de Sujetos Expertos • Interesa mucho la opinión de sujetos
expertos • en un tema.
• Son frecuentes en estudios cualitativos y • exploratorios.
Tamaño de Muestra • La determinación del tamaño de muestra en una invesLgación depende del objeLvo de ella.
• En el caso que se requiera estimar un parámetro será necesario definir el máximo error estándar dispuesto a cometer y la confianza del intervalo.
• En el caso de realizar inferencia a través de pruebas de hipótesis es necesario definir la potencia de la prueba , el nivel de significación , la diferencia máxima entre el valor esLmado y el verdadero valor del parámetro.
Determinación de tamaños de muestra para disLntos d cuando p=0.5.
p d n 0.5 0.02 2401 0.5 0.03 1067 0.5 0.04 600 0.5 0.05 384 0.5 0.07 196 0.5 0.1 96 0.5 0.2 24
Población, muestra, variables,
presentación ordenada de datos
Disponible en: http://www.universoformulas.com/estadistica/inferencia/muestreo-discrecional/
Disponible en: http://estadisticaparaadministracion.blogspot.com/2011/10/poblacion-y-muestra-parametro-y.html
Población y muestra
• Población (‘population’) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). – Normalmente es demasiado grande para poder abarcarlo.
• Muestra (‘sample’) es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) – Debería ser “representativo”
Variables • Una variable es una característica observable que varía entre los diferentes
individuos de una población. • Individuos o elementos: personas u objetos que contienen cierta
información que se desea estudiar.
• Por ejemplo, en los individuos de nuestra población, es variable:
– El grupo sanguíneo • {A, B, AB, O} ß Var. Cualitativa
– Su nivel de felicidad “declarado” • {Deprimido, Normal, Muy Feliz} ß Var. Ordinal
– El número de hijos • {0,1,2,3,...} ß Var. Numérica discreta
– La altura • {1’62 ; 1’74; ...} ß Var. Numérica continua
• Cualitativas Evita la cuantificación y se centra en la cualidad que se revela
– Nominales: Si sus valores no se pueden ordenar • Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)
– Ordinales: Si sus valores se pueden ordenar • Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor
• Cuantitativas o Numéricas Se reduce a medir variables en función de una magnitud o cantidad determinada.
– Discretas: Si toma valores enteros
• Número de hijos, Número de cigarrillos, Num. de “cumpleaños”
– Continuas: Si entre dos valores, son posibles infinitos valores intermedios. • Altura, Presión intraocular, Dosis de medicamento administrado, edad
Tipos de variables
Relación entre Escalas
Variables Cuantitativas
Variables Cualitativas
Presentación ordenada de datos
0
1
2
3
4
5
6
7
Hombre Mujer
• Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra.
Género Frec.
Hombre 4
Mujer 6
TABLAS
N i v e l E d u c a c i o n a l | F r e q . P e r c e n t C u m . !
- - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - !
B A J O ( < 8 a ñ o s ) | 2 0 4 2 3 . 5 3 2 3 . 5 3 !
M E D I O ( 8 - 1 2 a ñ o s ) | 4 9 0 5 6 . 5 2 8 0 . 0 5 !
A L T O ( > 1 2 a ñ o s ) | 1 7 3 1 9 . 9 5 1 0 0 . 0 0 !
- - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - !
T o t a l | 8 6 7 1 0 0 . 0 0 !
Frecuencias Absolutas
Frecuencias relativas
Frecuencias acumuladas
Tablas de doble entradas
t a b u l a t i o n o f n e d u b y s e x o
S e x o
N i v e l E d u c a c i o n a l | m a s c u l i n o f e m e n i n o | T o t a l
- - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - + - - - - - - - - - -
B A J O ( < 8 a ñ o s ) | 7 6 1 2 8 | 2 0 4
M E D I O ( 8 - 1 2 a ñ o s ) | 2 1 6 2 7 4 | 4 9 0
A L T O ( > 1 2 a ñ o s ) | 6 4 1 0 9 | 1 7 3
- - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - + - - - - - - - - - -
T o t a l | 3 5 6 5 1 1 | 8 6 7
Tablas de frecuencia
• Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca).
– Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad
– Frecuencias relativas (porcentajes): Ídem, pero dividido por el total
– Frecuencias acumuladas: Esta frecuencia se expresa como proporción o porcentaje del total.
* Frecuencias acumuladas absolutas y
* Frecuencias acumuladas relativas.
SEXO DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO, AÑO ZZ
Sexo FrecuenciaAbsoluta
FrecuenciaRelativa
Frecuencia Acumulada Absoluta
Frecuencia Acumulada
Relativa
Hombre 636 41.9 636 41.9
Mujer 881 58.1 1517 100.0
Total 1517 100.0 ---------------- ----------------
NIVEL DE FELICIDAD DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO, AÑO ZZ
Nivel de Felicidad FrecuenciaAbsoluta
FrecuenciaRelativa
Frecuencia Acumulada Absoluta
Frecuencia Acumulada
Relativa
Muy Feliz 467 30.78 467 30.78
Bastante Feliz 872 57.48 1339 88.26
Poco Feliz 165 10.88 1504 99.14
No contesta 13 0.86 1517 100.00
Total 1517 100.00 ---------------- ----------------
Nº de hijos FrecuenciaAbsoluta
FrecuenciaRelativa
Frecuencia Acumulada Absoluta
Frecuencia Acumulada
Relativa
0 419 27.62 419 27.62
1 255 16.81 674 44.43
2 375 24.72 1049 69.15
3 215 14.17 1264 83.32
4 127 8.37 1391 91.69
5 54 3.60 1445 95.29
6 24 1.58 1469 96.87
7 23 1.52 1492 98.39
8 ó más 17 1.12 1509 99.51
No contesta 8 0.53 1517 100.04
Total 1517 100.04 ---------------- ----------------
NÚMERO DE HIJOS QUE PRESENTABAN LAS PERSONAS DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO,
AÑO ZZ
Número de hijos
419 27,8 27,8255 16,9 44,7375 24,9 69,5215 14,2 83,8127 8,4 92,254 3,6 95,824 1,6 97,323 1,5 98,917 1,1 100,0
1509 100,0
01234567Ocho+Total
Frec.Porcent.(válido)
Porcent.acum.
Ejemplo
• ¿Cuántos individuos tienen menos de 2 hijos? – frec. indiv. sin hijos
+ frec. indiv. con 1 hijo = 419 + 255 = 674 individuos
• ¿Qué porcentaje de individuos tiene 6 hijos o menos? – 97,3%
Gráficos
• Diagramas de barras – Alturas proporcionales a las frecuencias (abs. o rel.) – Se pueden aplicar también a variables discretas
• Diagramas de sectores (tortas) – No usarlo con variables ordinales. – El área de cada sector es proporcional a su frecuencia
(abs. o rel.)
• Pictogramas – Fáciles de entender. – El área de cada modalidad debe ser proporcional a la
frecuencia. ¿De los dos, cuál es incorrecto?.
Gráficos para v. cualitativas
Gráficos diferenciales para variables numéricas
• Son diferentes en función de que las variables sean discretas o continuas. Son válidos para frec. absolutas o relativas. – Diagramas barras para v. discretas
• Se deja un hueco entre barras para indicar los valores que no son posibles
– Histogramas para v. continuas • El área que hay bajo el histograma entre dos
puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
0 1 2 3 4 5 6 7 Ocho o más
Número de hijos
100
200
300
400
Rec
uent
o
419
255
375
215
127
54
24 23 17
20 40 60 80
Edad del encuestado
50
100
150
200
250
Rec
uent
o
Diagrama de caja o Box plot
2040
6080
100
EDAD
Atípico
Ls= Q3 + RIC x 1,5
Li= Q1 – RIC x 1,5
Q3= 75%
Q1= 25%
Mediana= 50% RIC= 50% datos
Diagramas integrales • Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se
realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo.
Polígono (frecuencia)
Ojivas
Gráficos Diagrama de sectores o tortas Diagramas de barras
Variables cualitativas
Histograma Diagrama de caja o box plot
Variables cuantitativas
ESTADIGRAFOS
Parámetros y estadísticos • Parámetro: Es una cantidad numérica calculada sobre
una población
– La altura media de los individuos de un país
• Estadístico: Ídem (cambiar población por muestra)
– La altura media de los que estamos en esta sala
– Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador.
Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a *TODA* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean próximos.
Resumen sobre estadísticos
• Posición – Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos. • Cuantiles, percentiles, cuartiles, deciles,...
• Centralización – Indican valores con respecto a los que los datos parecen
agruparse. • Media, mediana y moda
• Dispersión – Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización. • Desviación típica, coeficiente de variación, rango, varianza
• Forma – Asimetría – Apuntamiento o curtosis
Estadísticos de posición
• Se define el cuantil de orden α como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada α.
• Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
Estadísticos de posición
• Percentil divide a la muestra en 100 grupos con frecuencias similares. – La mediana es el percentil 50 – El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%
• Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. – Primer cuartil = Percentil 25 = Cuantil 0,25 – Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana – Tercer cuartil = Percentil 75 = cuantil 0,75
• Ejemplos – El 5% de los recién nacidos tiene un peso demasiado bajo.
¿Qué peso se considera “demasiado bajo”? • Percentil 5 o cuantil 0,05
– ¿Qué peso es superado sólo por el 25% de los individuos? • Percentil 75
– El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales ¿Entre qué valores se encuentran los individuos normales?
• Entre el percentil 5 y el 95 – ¿Entre qué valores se encuentran la mitad de los individuos
“más normales” de una población? • Entre el cuartil 1º y 3º
• ¿Qué peso no llega a alcanzar el 25% de los individuos? – Primer cuartil = percentil 25 = 60 Kg.
• ¿Qué peso es superado por el 25% de los individuos? – Tercer cuartil= percentil 75= 80 kg.
• ¿Entre qué valores se encuentra el 50% de los individuos con un peso “más normal”? – Entre el primer y tercer cuartil = entre 60
y 80 kg.
Ejemplo
Estadísticos
PESO60,0070,0080,00
255075
Percentiles
50%
Ejemplo Número de años de escolarización
5 ,3 ,35 ,3 ,76 ,4 1,112 ,8 1,925 1,7 3,568 4,5 8,056 3,7 11,773 4,8 16,685 5,6 22,2461 30,6 52,8130 8,6 61,4175 11,6 73,073 4,8 77,9194 12,9 90,743 2,9 93,645 3,0 96,622 1,5 98,030 2,0 100,0
1508 100,0
34567891011121314151617181920Total
Frecuencia PorcentajePorcentajeacumulado
Estadísticos
Número de años de escolarización1508
012,9012,00
129,00
11,0012,0012,0012,0012,0013,0014,0015,0016,0016,00
VálidosPerdidos
N
MediaMedianaModa
1020253040506070758090
Percentiles
≥20%?
≥ 90%?
Centralización Son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse.
• Media: Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral. – Media de 2,2,3,7 es (2+2+3+7)/4=3,5 – Conveniente cuando los datos se concentran simétricamente con
respecto a ese valor. Muy sensible a valores extremos. – Centro de gravedad de los datos
• Mediana: Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales. – Mediana de 1,2,4,5,6,6,8 es 5 – Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5 – Es conveniente cuando los datos son asimétricos. No es sensible
a valores extremos. • Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!
• Moda: Es el/los valor/es donde la distribución de frecuencia alcanza un máximo.
Altura mediana
Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa.
• Amplitud o Rango:
La diferencia entre las observaciónes extremas. – 2,1,4,3,8,4. El rango es 8-1=7 – Es muy sensible a los valores extremos.
• Rango intercuartílico: – Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P75 - P25 – Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores.
– No es tan sensible a valores extremos.
Medidas de dispersión
• Varianza S2: Mide el promedio de las desviaciones al cuadrado de las observaciones con respecto a la media.
– Es sensible a valores extremos (alejados de la media).
– Sus unidades son el cuadrado de las de la variable.
∑ −=i
i xxn
S 22 )(1
Desviación típica Es la raíz cuadrada de la varianza
• Tiene las misma dimensionalidad (unidades) que la variable.
– A una distancia de una desv. típica de
la media tendremos 68% observaciones.
– A una distancia de dos desv. típica de la media tendremos 95% observaciones.
2SS =
Peso recién nacidos en partos gemelares
3.3002.900
2.5002.100
1.7001.300
900500
50
40
30
20
10
0
Desv. típ. = 568,43
Media = 2023
N = 407,00
Coeficiente de variación Es la razón entre la desviación típica y la media.
– Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”
– También se la denomina variabilidad relativa.
– Es frecuente mostrarla en porcentajes • Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25%
(variabilidad relativa)
• Es Interesante para comparar la variabilidad de diferentes variables. – Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan
más dispersión en peso que en altura.
• No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente – Por ejemplo 0ºC ≠ 0ºF
xS
CV =
Asimetría o Sesgo
• Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.
• En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide
• La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.
• La media tiende a desplazarse hacia las valores extremos (colas).
• Las discrepancias entre las medidas de centralización son indicación de asimetría.
Estadísticos para detectar asimetría • Hay diferentes estadísticos que
sirven para detectar asimetría.
– Basado en diferencia entre estadísticos de tendencia central.
– Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.
– Basados en desviaciones con signo respecto a la media.
• Distribución simétrica è
asimetría nula.
Leptocúrtica
138108
10297
9287
8277
7267
6257
5247
4237
3227
163
Frecuencia
400
300
200
100
0
Platicúrtica
8481787572696663605754514845
Frecuencia
160
140
120
100
80
60
40
Mesocúrtica
9993
8985
8177
7369
6561
5753
4945
4137
3227
Frecuencia
300
200
100
0
Los gráficos que observamos poseen la misma media y desviación típica, pero con diferente grado de apuntamiento.
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana.
Platicúrtica: curtosis < 0 Mesocúrtica: curtosis = 0 Leptocúrtica: curtosis > 0
Apuntamiento o curtosis
PRESENTACIÓN ORDENADA DE DATOS
PRESENTACIÓN DE DATOS Los datos o información en estadística se presentan mediante tablas y gráficos.
Los datos deben estar bien presentados y ordenados y debe existir coherencia en la información.
Para los gráficos se sugiere:
- sencillos
- No requieren información adicional (autoexplicativos)
- Indicar significado de los ejes.
También las tablas y gráficos deben llevar un título claro donde en general se especifica:
- Que se presenta en la tabla (edad, PA, etc)
- Como se clasifica la información
- Donde y cuando obtuvo la información (hospital Y, año X)
- A veces se indica la fuente o procedencia de los datos
PRESENTACIÓN DE DATOS
Respecto de los gráficos: Existe un criterio o guía denominado regla de los ¾ de altura
75%
100%
De lo contrario se maximizan o minimizan los datos (se sobreestiman o se subestiman)
Caso de variables cualitativas o categóricas (atributos)
Para construirlas se requiere identificar las distintas categorías o atributos y luego registrar el número de veces (la frecuencia) que cada categoría ocurre.
La representación gráfica para las variables cualitativas se realiza preferentemente mediante el diagrama de barras (simples) y el diagrama de sectores (gráfico circular o de torta)
* Barras = valores absolutos o %
* Sectores= %
Tablas de distribución de frecuencias
Estado de salud de un grupo de pacientes clínica Alemana, año 2004.
Esquema:
Nº de pacientes o el % de pacientes
Estado de salud Bueno Regular Malo *
* Al menos la mitad de la barra
%
%
Regular
Bueno
Malo
100% = 360ª
X% = Yª %
Estado de salud de un grupo de pacientes clínica Alemana, año 2004.
A veces para apreciar el espacio Eje truncado
Diagrama de Pareto = jerarquizado (barras)
Caso de variables cuantitativas o numéricas
Se recomienda diferenciar entre variables cuantitativas discretas y continuas
Número de médicos que trabajan en 30 clínicas de santiago, año 2002.
Nº de médicos
Frecuencia Nº de clínicas
%
1 3 10,0
2 6 20,0 3 12 40,0 4 7 23,3 5 2 6,7
Total 30 100,0
Ejemplo para una variable cuantitativa discreta:
Debe notarse que en este tipo de tablas no existe perdida de información. Es posible reproducir los datos originales:
1,1,1,2,2,2,2,2,2,………,5,5
Datos originales
Cuando hay intervalos hay perdida de información.
Número de médicos que trabajan en 30 clínicas de santiago, año 2002.
Frecuencias
Nº de clínicas o % de clínicas
Nº de médicos 0 1 32 54
3
6
9
12
Variable cuantitativa continua
En este caso es posible que la variable asuma una gran cantidad de valores diferentes. Es mejor agruparla en clases o intervalos.
¿Cómo se construye 1 tabla con clases e intervalos?
1.- Determinar el rango o campo de variación de los datos: diferencia entre el dato mayor y el menor
2.- determinar el número de clases o intervalos: Este número es flexible; se sugiere de 5 a 15 y depende de factores tales como la cantidad de datos y de su dispersión o variabilidad.
Para el número de clases:
- Se puede obtener X ensayo.
- Puede estar indicado.
- - Aplicar regla de Sturgers para en Nº mínimo de clases (se puede adecuar)
Nº de clases= 1 + 3,322 log Nº de datos que se requiere agrupar
n
3.- Determinar la amplitud o tamaño de clase. En general consideramos amplitud común dentro de una tabla y en tal caso:
Amplitud= Rango / nº de clases
4.- Hacer la tabla propiamente tal, anotando las clases de manera adecuada y luego registrando el nº de datos (mediante recuento, conteo o tarjas) pertenecientes a cada clase con lo que se determina las frecuencias absolutas o simplemente frecuencias de cada clase.
Ejemplo: Los siguientes datos corresponden a la estatura en centímetros (aproximada al entero mas cercano) de 55 alumnos del curso H, registrada en abril de 2003.
162 – 153 – 167 – 172 – 181 – 197 – 177 – 176 – 159 – 184 – 163 - 179 – 165 – 185 – 152 – 166 – 173 – 172 – 178 – 173 – 165 – 183 - 154 – 164 – 166 – 178 – 178 – 143 – 174 – 185 – 163 – 165 – 186 - 155 – 171 – 175 – 152 – 161 – 158 – 172 – 167 – 173 – 189 – 174 - 179 – 172 – 164 – 190 – 135 – 145 – 170 – 167 – 159 – 191 - 178
1.- Determinar el rango 197 – 135 = 62
2.- nº de clases o intervalos
nº de clases= 1 + 3,322 log n
1 + 3,322 Log 55
6,781484854 ≈ 6,8
6 o 7 clases
3.- Amplitud o tamaño
Con 7 clases
A= Rango/nº de clases
62/7
8,8571 ≈ 8,9 ≈ 9
Con 6 clases
A= Rango/nº de clases
62/6
10,3 ≈ 10
Tenemos 6 clases de amplitud común 10 135 – 144
145 – 154
155 – 164
165 – 174
175 – 184
185 - 194
No alcanzó. Considerar 7 clases (volver a paso 3)
Con 7 clases y una amplitud de 9
Clase (Estatura alumnos) Recuento Frecuencias
135 – 143 II 2
144 – 152 III 3
153 – 161 IIIIIII 7
162 – 170 IIIIIIIIIIIIII 14
171 – 179 IIIIIIIIIIIIIIIIIII 19
180 – 188 IIIIII 6
189 – 197 IIII 4
TOTAL 55
Algunos comentarios:
1.- Se gana en presentación
2.- Se pierde información. No es posible reproducir los datos originales.
MODA
Para datos originales o series simples
ü Variable que tiene mayor frecuencia ü Puede ocurrir que no exista, o si existe, no ser única
a.- 47, 54, 68, 52, 59: No existe moda b.- 38, 43, 49, 43, 57, 49, 50, 43: moda=43 c.- 83, 88, 81, 76, 81, 94, 97, 90, 93, 90: Moda= 81 y 90
MODA
Para datos agrupados en clases o intervalos
La moda está ubicada en la clase modal, que es aquella clase que tiene mayor frecuencia. Luego se aplica la fórmula:
Moda= Li + d1 C
Li= Límite real inferior (de la clase modal) d1= Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase premodal d2= Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase post modal C= Amplitud de clase
d1+d2
MEDIANA
Para datos originales o series simples
Es un valor único que divide a un conjunto de datos en 2 partes iguales de tal manera que el número de datos menores o iguales que la mediana es igual al número de datos menores que ella. Corresponde al valor central cuando el número de datos es impar, y al promedio aritmético de los 2 valores centrales cuando el número de datos es par. Equivalentemente la ubicación o posición de los 2 valores centrales correspondiente a la mediana se determina por la fórmula de posicionamiento:
Posicionamiento= n + 1 2
MEDIANA
Ejemplo: Determinar la mediana para: a.- 48, 45, 40, 57, 59 = 40, 45, 48, 57, 59 (n=5)
Posicionamiento= (n+1)/2 = (5 + 1)/2 = 3 Mediana= 48 b.- La edad de 8 personas es: 13, 18, 14, 16, 10, 23, 21, 11 = 10, 11, 13, 14, 16, 18, 21, 23 (n=8) Posicionamiento= (8 + 1)/ 2 = 4,5 (14 + 16)/2 Mediana= 15
MEDIANA
Para datos agrupados en clases o intervalos
La mediana se ubica en la clase mediana. Es aquella clase cuya frecuencia absoluta acumulada iguala o supera a n/2 o 50% (mitad de los datos). Luego se aplica la fórmula:
Mediana= n/2 – Fi-1 fi
Li + C
Li= Límite real inferior de la clase mediana (se saca con las frecuencias acumuladas, la que iguale o supere a n/2 o 50%. Fi-1= Frecuencia acumulada absoluta de la clase anterior a la clase mediana fi= Frecuencia de la clase mediana C= Amplitud
CUARTILES, DECILES, PERCENTILES
Para datos originales o series simples
Son medidas análogas a la mediana que dividen a un conjunto ordenado de datos en 4, 10 o 100 partes iguales, respectivamente. Nótese que habrá 3 cuartiles, 9 deciles, 99 percentiles.
0 1 Q1 Q2 Q3
25% 25% 25% 25% Med
D5 P50
P25 P75
CUARTILES, DECILES, PERCENTILES
Posicionamiento Cuantil = (n + 1) k 100
Posicionamiento Q1=P25= (n + 1) 25
100 = (n + 1)
4
Posicionamiento Q3=P75= (n + 1) 75
100 = 3 (n + 1)
4
P = Valor entero de la posición + valor fracción posición (diferencia (P+1)-P)
CUARTILES, DECILES, PERCENTILES
Para datos agrupados en clases o intervalos
Cuantil = kn/100 – Fi-1
fi C Li +
k= Percentil k Li= Límite real inferior de la clase percentil k (se saca con las frecuencias acumuladas, la que iguale o supere a k%. Fi-1= Frecuencia acumulada absoluta de la clase anterior a la clase percentil fi= Frecuencia de la clase percentil C= Amplitud
MEDIA
Para datos originales o series simples
Punto en donde se encuentra el centro de gravedad de los datos o equilibrio
Media = ∑ Xi
n
Ejemplo: La presión sistólica de 10 personas es: 120, 130, 141, 126, 134, 128, 136, 132, 140, 143 mmHg Entonces, la presión media o promedio es: X= 1330/10 X= 133 mmHg
Para datos agrupados en clases o intervalos
MEDIA
En este caso, se supone que los datos incluidos quedan representados por las marcas de clase. En estas condiciones, la media o promedio para la muestra queda definida:
Media = ∑ Xifi
n
Xi= Marca de clase o distintos valores de la variable fi= Respectivas frecuencias
RANGO
Para datos originales o series simples
Diferencia entre el valor máximo y el valor mínimo
Para datos agrupados en clases o intervalos
Diferencia entre el límite real superior de la clase mayor y el límite real inferior de la clase mas baja.
VARIANZA
Varianza = ∑ Xi ² -
n - 1
(∑ Xi)² n
∑ Xi² = Sumatoria de las variables al cuadrado ∑ Xi = Sumatoria de las variables n = nº de datos
VARIANZA
Varianza = ∑ (Xi – X)²
n - 1
Xi= frecuencia absoluta o marca de clase X= Media o promedio
Desviación Estandar = ∑ Xi ² -
n - 1
(∑ Xi)² n
DESVIACIÓN ESTANDAR
Desviación Estandar = ∑ (Xi – X)²
n - 1
Desviación Estandar = Varianza
ASIMETRÍA O SESGO
Sesgo = X - Mo
S
X= Promedio Mo= Moda S= Desviación Estandar
APUNTAMIENTO O CURTOSIS
Curtosis = P75 – P25 2(P90 – P10)
Platicúrtica: curtosis < 0 Mesocúrtica: curtosis = 0 Leptocúrtica: curtosis > 0
Consultas.....
top related