Espacio para imagenMaría Cuenca Torres
BIOESTADISTICA
ANÁLISIS DESCRIPTIVO UNIVARIANTE
INFERENCIA ESTADISTICA
ANÁLISIS BIVARIANTE
VARIABLES
-Código de identificación-Bajo peso al nacer : 0: no
1: sí-Edad de la madre en años-Peso en libras de la madre-Raza de la madre: 1: blanca
2: negra3: otras
- tabaquismo durante el embarazo: 0: no 1: sí
-parto prematuro: 0: no 1: sí
-Historia de hipertensión: 0: no 1: sí
-Presencia de irritabilidaduterina: 0: no
1: sí-Nº de visitas al médico-Peso al nacer en gramos
Nº Registros: 189
ANÁLISIS DESCRIPTIVO UNIVARIANTE
TIPOS DE VARIABLES
1) VARIABLES CUALITATIVAS
A.TABLASB. GRÁFICOS
2)VARIABLES CUANTITATIVAS
A.TABLAS
B. GRÁFICOS
TIPOS DE VARIABLES
1) VARIABLES CUALITATIVAS
1.1)Dicotómica o binaria: solo puede tomar dos valores (ej: fumadora, no fumadora )
Sus posibles valores no son numéricos
1.2)Policotómicas: sus posibles valores son más de dos. (ej:raza blanca, negra, otras
1.3)Ordinales: más de dos valores posibles en los que hay implicito un orden (ej:estadio del cancer (I,II,III...)
TIPOS DE VARIABLES
2)VARIABLES CUANTITATIVAS
Sus posibles valores son numéricos
2.1)Discretas: sus posibles valores son números aislados.(ej: nºde visitas al
médico)
2.2)Continuas: pueden valer cualquier numero dentro de un intervalo Determinado(ej:peso del recién nacido)
ANÁLISIS DESCRIPTIVO UNIVARIANTE
1.1 VARIABLES CUALITATIVAS
A.TABLAS
B. GRÁFICOS
Diagrama de barras
Diagrama de sectores
Tablas de frecuencias
1.ANÁLISIS DESCRIPTIVO UNIVARIANTE
A.TABLAS DE FRECUENCIA
1.1 VARIABLES CUALITATIVAS
-una columna con las variables en cuestión.
-una columna con el numero de veces que se repite cadavariable = FRECUENCIA ABSOLUTA (Fa)
FRECUENCIA RELATIVA (Fr):Fa
NºTotal individuos
EJEMPLO: Distribución del grado de malignidad del tumoren 74 individuos con cáncer de próstata.
GLEASON Fa FrGrado 4 12 0.1622Grado 5 18 0.2432Grado 6 21 0.2838Grado 7 14 0.1892Grado 8 o 9 0.1216
masTOTAL 74 1.0000
TABLAS DE FRECUENCIA
Estadísticos
Bajo peso al nacer189
0VálidosPerdidos
N
Bajo peso al nacer
130 68,8 68,8 68,859 31,2 31,2 100,0
189 100,0 100,0
NoSíTotal
VálidosFrecuencia Porcentaje
Porcentajeválido
Porcentajeacumulado
B. GRÁFICOS: deben representar las conclusiones másimportantes que derivan del estudio.
-Diagrama de barras: la altura es proporcional a la frecuencia absoluta o relativa.
0
5
10
15
20
25
frecuencia
4 5 6 7 8 o más
Grado de malignidad
frec
-Diagrama de sectores (quesito)
Blanca Negra Otras
Raza de la madre
0
20
40
60
80
100
Frec
uenc
ia
Raza de la madre
Diagrama de barras
96
26
67
NoSí
Bajo peso al nacer
Diagrama de sectores
ANÁLISIS DESCRIPTIVO UNIVARIANTE
1.1 VARIABLES CUANTITATIVAS
A.TABLAS
B. GRÁFICOS
Tablas: Resúmenes numéricos
-Diagrama de tallo y hojas
-Histogramas
-Cajas
TIPOS DE VARIABLES
2)VARIABLES CUANTITATIVAS
Sus posibles valores son numéricos
2.1)Discretas: sus posibles valores son números aislados.(ej: nºde visitas al
médico)
2.2)Continuas: pueden valer cualquier numero dentro de un intervalo determinado (ej:peso del recién nacido)
1.ANÁLISIS DESCRIPTIVO UNIVARIANTE
A.DESCRIPCIÓN EN TABLAS: Resúmenes numéricos:
1.1 VARIABLES CUANTITATIVAS
-mínimo.
-máximo.
-media.
-desviación típica, etc
RESUMEN NUMÉRICO DE UNA SERIE ESTADÍSTICA
Los hay de dos tipos:
1.- Medidas de posición o tendencia central: dan una idea de la magnitud o tamaño de los datos.
2.- Medidas de dispersión o variabilidad: nos proporcionan información acerca de la heterogeneidad de nuestras observaciones.
1.- Medidas de posición o tendencia central:
- Media: se calcula como la suma de todas las observaciones dividida por el numero de ellas.
coste por receta en pesetas, en el segundo semestre de1992, en Andalucía.
MES Julio Agosto Septiembre
Octubre Noviembre
Diciembre
Coste/ receta
1170 1174 1188 1212 1199 1189
Coste medio por receta en ese periodo: sumar los costes y dividir la suma por 6, el nº de meses, que es el nº de observaciones realizadas:
Coste medio por receta = 1170 + ......... + 11896 = 7132
61188.67=
Ejemplo:
- Mediana: valor que ordenadas las observaciones en forma creciente, ocupa la posición central.
• en el caso de que tengamos un nº n impar de observaciones, la mediana ocuparía el lugar (n +1)/2.
• en el caso de un nº n par de observaciones, la mediana sería la media de las observaciones que ocupan las posiciones centrales.
Para el ejemplo anterior,
1170, 1174, 1188, 1189, 1199, 1212.
Como hay un nº par de observaciones, los dos valores centrales son 1188 y 1189 y por tanto la mediana sería el valor:
1188 + 11892
= 1188.5
los valores ordenados son:
MES Julio Agosto Septiembre
Octubre Noviembre
Diciembre
Coste/ receta
1170 1174 1188 1212 1199 1189
- percentiles: se pueden entender como generalizaciones de la mediana.
Así, el percentil i, es aquel que ordenadas las observaciones en forma creciente:
• el i% de ellas son menores que él y
• el (100-i %) restantes son mayores.
Ejemplo:
Que la duración del tratamiento aplicado a un paciente está en el percentil 80 del tiempo empleado en el tratamiento de otros pacientes significa:
• Que el 80% de los individuos han sido tratados durante un periodo de tiempo menor que el suyo.
• Que el 20% restante tuvieron un tiempo de tratamiento más prolongado.
A los percentiles 25, 50 y 75 se les denomina primer, segundo y tercer
cuartil respectivamente.
Así el segundo cuartil coincide con la mediana.
nos proporcionan información acerca de la heterogeneidad de nuestras observaciones. Son:
- Rango
- Desviación media
- Desviación típica
- Varianza
- Recorrido intercuartílico
- Coeficiente de variación.
2.- Medidas de dispersión o variabilidad:
Rango: Diferencia entre el valor más grande y más pequeño de la serie.
tenemos dos conjuntos de observaciones
18,19,20,21,22 9,14,20,27,30
La media y la mediana de estas series son la misma, mientras que:
El rango de la primera serie es 4 y el de la segunda 21.
Ejemplo:
Desviación media: es la diferencia desde cada observación a un valor central.
Para la primera serie sería: (1/5)((18-20) + (19-20) + (20-20) + (22-20)) = 6/5 = 1.2
Para la segunda serie es: (1/5) ((19-20) + (14-20) + (20-20) + (27-20) + (30-20) = 34/5 = 6.8.
-La desviación típica es definida como la raíz cuadrada de la
varianza.La fórmula de la varianza:
Por tanto, necesitamos conocer la suma de los cuadrados de las observaciones, y el cuadrado de la suma de las observaciones.
Para la primera serie:
- la suma de los cuadrados: 182 + 192 + 202 + 212 + 222 = 2010
- el cuadrado de la suma: (18 + 19 + 20 + 21 + 22)2=10000
- la varianza es s2 = (2010 – (1/5) 10000)
4= 2.5
- y su desviación típica es la raíz cuadrada de 2.5 = 1.8
Para la segunda serie:- la varianza es s2 =
- y su desviación típica es la raíz cuadrada de 76.5 = 8.75
76.5
- Recorrido intercuartílico: es la diferencia entre el tercer y primer cuartil.
- Coeficiente de variación: cociente entre la desviación típica y la media de cada serie, medida que es adimensional y se puede expresar en tanto por uno o en porcentaje.
C.V. = sx
Estadísticos
Peso al nacer en gramos189
02944,662977,00
2495a
729,022531473,7
7094990
2412,002977,003481,00
VálidosPerdidos
N
MediaMedianaModaDesv. típ.VarianzaMínimoMáximo
255075
Percentiles
Existen varias modas. Semostrará el menor de los valores.
a.
RESUMEN NUMÉRICO VARIABLES CUANTITATIVAS
B. GRÁFICOS: deben representar las conclusiones másimportantes que derivan del estudio.
1.1 VARIABLES CUANTITATIVAS
A.DESCRIPCIÓN EN TABLAS: Resumenes numéricos
-Diagrama de tallo y hojas
-Histogramas
-Cajas
HISTOGRAMAS
En el eje horizontal se toman segmentos que sean proporcionales a las amplitudes de los intervalos, y con esas bases, se trazan rectángulos tales que su área sea proporcional a la frecuencia correspondiente del intervalo.
Ya que el área de un rectángulo es el producto de su base por su altura, eligiendo intervalos de igual amplitud, el área dependerá sólo de la altura lo que facilitará la comprensión de la representación; de ahí que siempre que sea posible, se deben elegir intervalos de valores de igual amplitud.
HISTOGRAMAS
0 2 4 6
Numero de visitas a l medico
0
20
40
60
80
100
120
Frec
uenc
ia
Mean = 0,78Std. Dev . = 1,059N = 189
Histogram a
Tronco y hoja
- Híbrido entre una tabla y un histograma.
- Ventaja: aparte de representar la forma de la distribución, también muestra los valores de la variable.
- Se divide cada dato en dos partes: una que es el tronco y la otra la hoja.
Ejemplo: presiones sistólicas de un grupo de 80 adultos:
tronco hoja
Esta representado con tronco 10 y hoja 5
El tronco 10 tendrá tantas hojas como presiones haya comprendidas entre 100 y 109 mm.
Tronco y hoja
Peso en libras de la madre Stem-and-Leaf Plot
Frequency Stem & Leaf
4,00 8 . 0559
15,00 9 . 000124555555678
23,00 10 . 00000122333555555577899
33,00 11 . 000000000002222333555555567788999
35,00 12 . 00000000000000000111122333445557889
29,00 13 . 00000000000001222334445555788
9,00 14 . 000122778
13,00 15 . 0000034455588
7,00 16 . 0057899
5,00 17 . 00005
2,00 18 . 24
14,00 Extremes (>=185)
Tronco y hoja
Cajas
2º) segmento en el pto correspondiente a la mediana
1º) construir un rectángulo de anchura cualquiera y de altura igual al recorrido intercuartílico
3º) valor adyacente inferior:Q1 – 1.5 (Q3 –Q1) = O
4º) valor adyacente superior:Q3 + 1.5 (Q3 –Q1) = O2
Los valores menores que el valor adyacente inferior o mayor que el valor adyacente superior
outliers
1
Cajas
Edad de la madre en a¤os
10
20
30
40
130
Hemos visto herramientas que describen los datos recogidos en una serie concreta de pacientes permitiendo cuantificar su magnitud y su variabilidad.
En investigación clínica es deseable disponer de herramientas que nos permitan generalizar estos resultados a un grupo de pacientes más numeroso (población).
2.INFERENCIA ESTADISTICA
INFERENCIA ESTADISTICA
A este conjunto de procedimientos estadísticos que permiten pasar de lo particular(muestra) a lo general (población) es INFERENCIA ESTADÍSTICA.
Dispone de dos herramientas:
- INTERVALOS DE CONFIANZA.
- TEST O CONTRASTE DE HIPOTESIS
ERROR ALEATORIO.
Estudiar un problema en base a una muestra elegida al azar tiene asociado un error: ERROR ALEATORIO.
Disminuye al aumentar el tamaño de la muestra. Es 0 al trabajar con la población
CONTROL DEL ERROR ALEATORIO: INTERVALO DE CONFIANZA.
INTERVALO DE CONFIANZA.
Da un rango de valores posibles para nuestro parámetro poblacional, midiendo el grado de error implícito que tiene que ver con el azar.
Un I.C. para un parámetro de una población, no es más que una pareja de números A, B, tales que, con un nivel de confianza determinado, podemos asegurar que el valor del parámetro es mayor que A y menor que B
Nivel de confianza: 90%, 95%, 99%
¿QUÉ SIGNIFICA UN INTERVALO DE CONFIANZA DEL 95%?
Significa que si cogiéramos 100 muestras y calculáramos los 100 I.C., 95 de ellos contendrían en su interior el valor del parámetro que estamos observando en la población.
A nivel de confianza-error más pequeño-intervalo más amplio-menor precisión
CONTRASTES DE HIPÓTESIS
Se trata de establecer a priori una hipótesis acerca del valor de un parámetro, realizar un estudio y analizar la coherencia entre la hipótesis previamente establecida y los hallazgos encontrados en el estudio.
Si como resultado del contraste resultara que existe incompatibilidad entre la hipótesis previa y los datos de estudio, la decisión más razonable sería rechazar lo que se estableció previamente; en caso contrario, no debe haber inconveniente en aceptarla.
Generalmente como hipótesis nula (H0) se establece la igualdad, por ejemplo la igualdad entre dos tratamientos.
Dos tipos de errores:Error alpha: máximo error que se quiere cometer al rechazar la hipótesis nula (prefijado por el investigador)Valor P(Pearson): error cometido al rechazar la hipótesis nula cuando es cierta.Rechazo H0 si Valor P menor o igual a Error alfaNo rechazo H0 si Valor P mayor error alfa.
TEST O CONTRASTE DE HIPOTESIS
CHI-CUADRADO
T-STUDENT
- Comparación de variables cualitativas
- Comparación de medias
CHI-CUADRADO:
- Comparación de variables cualitativas
- Variable resultado dicotómica
- Variable predictora dicotómica
- Nº de sujetos en el estudio al menos 40 ó
- si es menor que 40, pero mayor que 20, ningún valor esperado debe ser menor que 5
CHI-CUADRADO:
Estudio sobre el efecto de Flurbiprofen frente a la combinación de Dipiridona e Hioscina para el tratamiento del dolor en el cólico nefrítico en 52 pacientes.
11 15
16 10
Positiva NegativaRespuesta al dolor
Total
Total
Dipiridona+Hioscina
Flurbiprofen
27 25
26
26
52
Establecemos una hipótesis nula (H0): Igualdad en la efectividad de los dos tratamientos.
13.5 12.5
13.5 12.5
Respuesta al dolor
Positiva Negativa Total
Dipiridona+Hioscina
Flurbiprofen
Total
26
26
27 25 52
¿Cómo medir la compatibilidad entre estas dos tablas?
Pearson:
(11-13.5) (15-12.5) (16-13.5) (10-12.5)2 22 2
+ ++13.5 13.5 13.5 13.5
= 1.93
P < 0.05; rechazo hipótesis nula= el test es significativoP > 0.05; acepto hipótesis nula ( el error que
cometemos al rechazarla es muy grande, portanto no la rechazamos).
= P
- Comparación de medias
- Variable resultado continua
- Variable predictora dicotómica
T-STUDENT
T-STUDENTOtra forma de evaluar la diferencia entre dos dos tratamientos, podría ser diseñando un estudio en el que la variable resultado sea el tiempo transcurrido desde la administración del tratamiento hasta la desaparición del dolor.
24, 19, 30, 24, 29, 21, 26, 31, 18, 22, 31, 26, 16, 33, 21, 25, 30, 20, 19, 22, 30, 9, 17, 28, 35, 26, 23, 17, 20, 27, 18, 37
32, 54, 36, 28, 19, 43, 28, 34, 32, 34, 29, 19, 22, 23, 33, 28, 33, 32, 49, 27, 37, 20, 28, 36, 31, 24, 20, 30, 29, 17, 18
Dipiridona+ Hioscina
Flurbiprofen
32 pacientest. medio: 24.19Desviación típica: 6.240
31 pacientest. medio: 30.16Desviación típica: 8.327
¿la diferencia 24.19-30.16 = 5.97 minutos se puede achacar al azar?
¿ están de acuerdo los resultados del estudio con la hipótesis de que ambos tratamientos tardan el mismo tiempo en hacer desaparecer el dolor?
Para esta nueva situación el estadístico de contraste es t exp
t exp =x1 –x2
S 1/n + 1/n1 2
= 3.22
t exp< 0.002; rechazo hipótesis de igualdad
t exp> 0.002; acepto hipótesis de igualdad (el error que cometemos al rechazarla es muy grande, por tanto no la rechazamos).
COMPARAR MEDIAS Muestras con elevado tamaño (mayor de 50): prueba de T para muestras independientes (equivale a una T de student)
Muestras con poco tamaño: pueden ser a) muestras independientes o muestras relacionadas
Muestras con elevado tamaño (mayor de 50): prueba de T para muestras independientes (equivale a una T de student)
Prueba de Levene para la igualdad
de varianzas
Prueba T para la igualdad de medias
FSig
. t gl
Sig. (bilatera
l)
Diferencia de
medias
Error típ. de la
diferencia
95% Intervalo de confianza para la diferencia
InferiorSuperio
r
Homocisteine Se han asumido varianzas iguales
.040
.842
.035
104 .972 .088 2.468 -4.806
4.981
No se han asumido varianzas iguales
.035
69.079
.972 .088 2.525 -4.950 5.125
Muestras con poco tamaño: pueden ser a) muestras independientes o muestras relacionadas
a) muestras independientes(1º Comparamos las medias)
Casos
Incluidos ExcluidosTotal
N Porcentaje N
Porcentaje N Porcentaje
DD * RESULTADO
62 100.0% 0 .0% 62 100.0%RESULTAD
O Media N Desv. típ.
NEGATIVO .533 27 1.0153
POSITIVO 4.171 35 2.9532
Total 2.587 62 2.9339
Para calcular la significación
DD
U de Mann-Whitney 56.500
W de Wilcoxon 434.500
Z -5.950
Sig. asintót. (bilateral) .000
La significación es menor de 0.05, luego la diferencia entre las medias es significativa
Error prefijado por el investigador
Para pruebas con muestras relacionadas
Cuando se ha hecho la determinación en los mismos pacientes p.ej en dos periodos de tiempo distintos
Cuando se ha hecho la determinación en pacientes distintos con resultados distintos (p.ej 2 grupos de resultados
ANÁLISIS BIVARIANTEEstablece relación entre dos variables:
- VARIABLE DEPENDIENTE, RESULTADO O RESPUESTA- VARIABLE INDEPENDIENTE
VARIABLE DEPENDIENTE: -Es el objeto de nuestro estudio, queremos estudiar porque tiene esos resultados,-Sus resultados dependen de otras variables,-Puede ser cualitativa o cuantitativa.-Ej: Bajo peso al nacer, ¿por qué los niños nacen con bajo peso.
VARIABLE INDEPENDIENTE: -Variable explicativa, predictora, da o intenta dar una explicación a nuestra pregunta-Puede ser cualitativa o cuantitativa-Ej: ¿el hábito tabaquico de la madre está relacionado con el bajo peso al nacer?
Tipos de estudios epidemiológicosOBSERVACIONALES
Incidencia
Descriptivos
CuasiexperimentalesE. intervención comunitaria
EXPERIMENTALES
AnalíticosEnsayos clínicos
controlados
Caso o serie de casos
Prevalencia(transversales)
Caso control
Seguimiento
Ecológicos(población)
Seguimiento o de cohortes•Los sujetos del estudio se seleccionan a partir de la exposición, teniendo:
- un grupo de sujetos expuestos: cohorte expuesta y
- un grupo de sujetos no expuestos: cohorte no expuesta.
La medida que se utiliza para relacionar exposición con enfermedad es el RIESGO RELATIVO ESTUDIOS OBSERVACIONALES ANALÍTICOS DE SEGUIMIENTO
SON GENERADORES DE HIPÓTESIS
RIESGO RELATIVOIndica la magnitud ( F de asociación entre la enfermedad y la exposición
ESTADO DE SALUD
NIVEL DE EXPOSICIÓN Enfermo No enfermo
Expuesto
No Expuesto
1813
952
8157
9048
TOTAL
10000
10000
- Probabilidad de enfermar de los expuestos: 1813/10.000 = 0,18
- Probabilidad de enfermar de los no expuestos: 952/10.000 = 0,09
R.R = 0,18/0,09 =1.9
R.R = 1.9Es 1.9 veces más probable enfermar si has estado expuesto que si no lo has estado
R.R > 1 Factor de riesgo, más riesgo, más probable.
R.R < 1 Factor protector, menos riesgo, menos probable. El factor de exposición protege frente a la enfermedad
R.R = 1 El riesgo de enfermar es el mismo si está expuesto que si no, luego no hay relación, factor no asociado con la enfermedad.
Filas: factor asociado
Columnas: la enfermedad
Tabla de contingencia Tabaquismo durante el embarazo * Bajo peso al nacer
86 29 115
74.8% 25.2% 100.0%
44 30 74
59.5% 40.5% 100.0%
130 59 189
68.8% 31.2% 100.0%
Recuento% de Tabaquismodurante el embarazoRecuento% de Tabaquismodurante el embarazoRecuento% de Tabaquismodurante el embarazo
No Fuma
Fuma
Tabaquismo duranteel embarazo
Total
No SíBajo peso al nacer
Total
SPSS no calcula el R.R
ESTUDIOS CASOS-CONTROL•La selección de la población a estudiar se hace en función de la enfermedad, eligiéndose:
- un grupo de individuos que tienen la enfermedad: casos- y otro sin enfermedad: controles.
•Ambos grupos se comparan respecto a una exposición que se sospecha está relacionada con la enfermedad.
•La enfermedad y exposición ya se han producido cuando los sujetos entran en el estudio.
ESTUDIOS OBSERVACIONALES ANALÍTICOS CASO-CONTROLESTUDIAN HIPÓTESIS
Investigador
CASOS
CONTROLES
Expuestos
No expuestos
Expuestos
No expuestos
ESTUDIOS OBSERVACIONALES ANALÍTICOS CASO-CONTROL
ESTUDIOS CASOS-CONTROL
La medida de asociación es la ODDS RATIO (OR)
INFARTO DE MIOCARDIO
I.M SÍ I.M NO
Café sí 1394 755
Café no 147 200
TOTAL 1541 955
O.R = 1394/147755/200 = 2.51=
1394 x 200755 x 147
Es 2.51 veces más probable sufrir infarto si tomas café que si no lo tomas
Estimación de riesgo
2.022 1.081 3.783
1.258 1.013 1.561
.622 .409 .945
189
Razón de las ventajaspara Tabaquismodurante el embarazo(No Fuma / Fuma)Para la cohorte Bajopeso al nacer = NoPara la cohorte Bajopeso al nacer = SíN de casos válidos
Valor Inferior Superior
Intervalo de confianzaal 95%
Es 2.022 ves más probable tener un rnbp si fumas que si no fumas.
ANÁLISIS MULTIVARIANTE
VARIABLE DEPENDIENTE CUANTITATIVA:
REGRESIÓN LOGÍSTICA
Simple: una variable independienteMultivariante: varias variables independientes.
VARIABLE DEPENDIENTE DICOTÓMICA:
REGRESIÓN LINEALSimple: una variable independiente
Multivariante: varias variables independientes.
ANÁLISIS MULTIVARIANTEVARIABLE DEPENDIENTE DICOTÓMICA:
REGRESIÓN LOGÍSTICA
CONDICIONES DE APLICACIÓN:
A).- Variable dependiente dicotómica (sí/no)
B).- Códigos de la variable dependiente:1: característica de interés0: no característica de interés.
REGRESIÓN LINEAL MULTIVARIANTECONDICIONES DE APLICACIÓN:
b).- variable independiente continua o discontinua: peso, sexo, etc
a).- variable de dependiente continua: tasa de filtración glomerular
c).- relación lineal entre la variable dependiente e independiente (puntos alrededor de una recta)d).- homocedasticidad: la variabilidad de los puntos tiene que ser la misma al ppio, final, etc, de la recta.
ANÁLISIS DE REGRESIÓN LOGÍSTICA SIMPLE:(una sola variable dependiente)
a).- variables independientes dicotómicas: (madre fuma/no fuma): obtenemos el O.R.
b).- variable independiente contínua: (edad): en cuanto aumenta el riesgo de rnbp por incremento de peso.
c).- variable independiente categórica: raza de la madre blanca, negra, otra raza: elegimos una categoría de referencia y obtenemos el riesgo que compararemos con las otras categorias. (recategorizar)