@FSalutia@GobernacionRisaralda
@FSalutia@Gob_Risaralda
de los territorios
Forta
lec
iendo las capacidades de
Gobierno del
Sistema de salud
l d
ed
ss
a
en el territorio
Forta
lec
iendo las capacidades de
Gobierno del
Sistema de salud
t
aala
Gobierno del
o
dddd
edddd
Sistema de saludGobierno del
cscscsccca
Gobierno del
rri
Gobierno del
aaaaa
ee iir oSistema de saludGobierno del
Sistema de saludSistema de saludSistema de salud
d
Sistema de salud
Metodología de limpieza y validación de los datos del Sistema de Referencia de Precios de Procedimientos en Salud (SRPPS)
Como resultado de la exploración de fuentes de información posibles que constituyan el insumo esencial del Sistema de Referencia de Precios de Procedimientos para mecanismo de Pago por Servicio (SRPPS-PxS), se decidió utilizar el Registro Individual de Prestación de Servicios de Salud (RIPS). Si bien esta fuente es criticada por el problema de calidad de los datos reportados, se eligió por tres razones:
(i) de los sistemas de información oficiales, RIPS es una de las fuentes con mayor historia y contiene las variables necesarias para construir los precios de los procedimientos realizados por pago por servicio; (ii) a pesar del problema de calidad de los reportes de algunos actores, un porcentaje significativo reporta valores que convergen a precios que caben dentro de un intervalo de desviación razonable; (iii) los avances de los últimos años en técnicas de minería de datos, paquetes de software y lenguajes de programación relacionados, facilitan la identificación y aislamiento de los datos anómalos y atípicos, que viabilizan la selección del extracto de datos válidos para la construcción del SRPPS-PxS.
Para atenuar el problema de calidad de los datos, se construyó una metodología que valida y limpia en tres etapas, implementadas en el lenguaje Python:
1. Validación de estructura. 2. Algoritmo de limpieza para detección de registros anómalos. 3. Identificación de intervalos de desviación razonables.
1. Validación de estructura.
Esta primera etapa consta de dos partes (i) se detectan y controlan los registros cuyos valores de variables sean incoherentes con la estructura admisible, según el anexo técnico de RIPS, (ii) identificación y exclusión de los procedimientos que no son negociados bajo el mecanismo de pago por servicio.
2. Algoritmo de limpieza para detección de registros anómalos.
En la fuente RIPS algunos actores reportan registros con valores inusualmente altos (bajos), con gastos extremadamente altos (bajos) y atenciones extremadamente bajas (altas). Las figuras 2 y 3, que se explican a continuación, ejemplifican estos problemas para dos procedimientos (códigos CUPS) en particular.
Para identificar y controlar este problema de calidad, se implementó un algoritmo de limpieza por iteraciones y umbral de Coeficiente de Correlación de Pearson (CCP) sobre las variables de gasto (g) y número de atenciones (q), debido a que en los registros se observaba que muchos códigos CUPS presentaban asociaciones nulas o negativas en las variables evaluadas.
Sea i cada registro de un CUPS determinado, el coeficiente de correlación de Pearson entre el gasto y la cantidad ( ) de todos los registros del CUPS i está dado por:
= =∑ ( − ̅ )( − ̅)
√∑ ( − ̅ )2 √∑ ( − ̅)2
Definido esto, el procedimiento sobre cada CUPS es el siguiente:
a) Para todos los registros en el data set original del CUPS , se calcula el coeficiente de correlación de Pearson entre el gasto y la cantidad ( ). Si ≤ 0.25 se aplica el siguiente proceso (de lo contrario no se aplica):
@FSalutia@GobernacionRisaralda
@FSalutia@Gob_Risaralda
de los territorios
Forta
lec
iendo las capacidades de
Gobierno del
Sistema de salud
l d
ed
ss
a
en el territorio
Forta
lec
iendo las capacidades de
Gobierno del
Sistema de salud
t
aala
Gobierno del
o
dddd
edddd
Sistema de saludGobierno del
cscscsccca
Gobierno del
rri
Gobierno del
aaaaa
ee iir oSistema de saludGobierno del
Sistema de saludSistema de saludSistema de salud
d
Sistema de salud
En la fuente RIPS algunos actores reportan registros con valores inusualmente altos (bajos), con gastos extremadamente altos (bajos) y atenciones extremadamente bajas (altas). Las figuras 2 y 3, que se explican a continuación, ejemplifican estos problemas para dos procedimientos (códigos CUPS) en particular.
Para identificar y controlar este problema de calidad, se implementó un algoritmo de limpieza por iteraciones y umbral de Coeficiente de Correlación de Pearson (CCP) sobre las variables de gasto (g) y número de atenciones (q), debido a que en los registros se observaba que muchos códigos CUPS presentaban asociaciones nulas o negativas en las variables evaluadas.
Sea i cada registro de un CUPS determinado, el coeficiente de correlación de Pearson entre el gasto y la cantidad ( ) de todos los registros del CUPS i está dado por:
= =∑ ( − ̅ )( − ̅)
√∑ ( − ̅ )2 √∑ ( − ̅)2
Definido esto, el procedimiento sobre cada CUPS es el siguiente:
a) Para todos los registros en el data set original del CUPS , se calcula el coeficiente de correlación de Pearson entre el gasto y la cantidad ( ). Si ≤ 0.25 se aplica el siguiente proceso (de lo contrario no se aplica):
b) Se crea una variable categórica donde cada registro del CUPS puede tomar los siguientes valores nominales:
Iteración (primera aplicación del proceso = 0)
1 si el gasto ( ) es inferior al percentil 1 + del gasto y la cantidad ( ) es superior al percentil 99 − . 2 si el gasto ( ) es superior al percentil 99 − del gasto y la cantidad ( ) es inferior al percentil 1 + . 3 en caso contrario.
c) Se vuelve a calcular el coeficiente ( ), solo para los registros del CUPS cuyo valor en la variable
categórica = 3. Si el coeficiente continúa siendo menor o igual a 0.25 ( ′ ≤ 0.25), se inicia un ciclo de iteraciones con pasos de = + 1, repitiendo una y otra vez el punto (ii) hasta obtener un > 0.25.
La figura 1 ilustra este proceso de iteración (It):
Figura 1. Proceso de limpieza por iteraciones.
Fuente: elaboración propia
Las figuras 2 y 3 muestran los resultados obtenidos luego de esta limpieza de registros anómalos.
Figura 2. Diagramas de dispersión de un CUPS, antes y después del algoritmo de limpieza de registros anómalos.
@FSalutia@GobernacionRisaralda
@FSalutia@Gob_Risaralda
de los territorios
Forta
lec
iendo las capacidades de
Gobierno del
Sistema de salud
l d
ed
ss
a
en el territorio
Forta
lec
iendo las capacidades de
Gobierno del
Sistema de salud
t
aala
Gobierno del
o
dddd
edddd
Sistema de saludGobierno del
cscscsccca
Gobierno del
rri
Gobierno del
aaaaa
ee iir oSistema de saludGobierno del
Sistema de saludSistema de saludSistema de salud
d
Sistema de salud
Fuente: elaboración propia
Las figuras 2 y 3 muestran los resultados obtenidos luego de esta limpieza de registros anómalos.
Figura 2. Diagramas de dispersión de un CUPS, antes y después del algoritmo de limpieza de registros anómalos.
Fuente: elaboración propia
Figura 3. Diagramas de dispersión de un CUPS, antes y después del algoritmo de limpieza de registros anómalos.
Fuente: elaboración propia
3. Identificación de intervalos de desviación razonables.
Luego de controlar los registros anómalos, se definieron los intervalos de desviación razonables para los precios de cada CUPS, con base en tres argumentos (i) la validación cruzada con la base de datos utilizada para el cálculo de la suficiencia de la UPC, anonimizada y agregada a un nivel intermedio, (ii) los homólogos de los tarifarios ISS y SOAT para cada CUPS y (iii) el primer y último percentil de los datos de RIPS, obtenidos luego de controlar los registros anómalos. Lo anterior, se resume así:
í = { ; ∗ 0.4; 1}
í = í { ; ∗ 1.6; 99}
@FSalutia@GobernacionRisaralda
@FSalutia@Gob_Risaralda
de los territorios
Forta
lec
iendo las capacidades de
Gobierno del
Sistema de salud
l d
ed
ss
a
en el territorio
Forta
lec
iendo las capacidades de
Gobierno del
Sistema de salud
t
aala
Gobierno del
o
dddd
edddd
Sistema de saludGobierno del
cscscsccca
Gobierno del
rri
Gobierno del
aaaaa
ee iir oSistema de saludGobierno del
Sistema de saludSistema de saludSistema de salud
d
Sistema de salud
Fuente: elaboración propia
3. Identificación de intervalos de desviación razonables.
Luego de controlar los registros anómalos, se definieron los intervalos de desviación razonables para los precios de cada CUPS, con base en tres argumentos (i) la validación cruzada con la base de datos utilizada para el cálculo de la suficiencia de la UPC, anonimizada y agregada a un nivel intermedio, (ii) los homólogos de los tarifarios ISS y SOAT para cada CUPS y (iii) el primer y último percentil de los datos de RIPS, obtenidos luego de controlar los registros anómalos. Lo anterior, se resume así:
í = { ; ∗ 0.4; 1}
í = í { ; ∗ 1.6; 99}
***
Jorge Iván Rodríguez Bernate Michael Steven Rojas Beltrán Diego Miguel Piñeros Pulido
Carlos Humberto Arango Bautista
NOTA: Esta metodología de validación y limpieza no garantiza la corrección total de los problemas de calidad de RIPS. Esta los atenúa y minimiza, tanto como es posible técnicamente con minería de datos, para el propósito de esta investigación. Agradecimientos al Ministerio de Salud y Protección Social por la disposición de la información y las consultas formales, que contribuyeron a la implementación de esta metodología.