Download - Metodología de limpieza y validación de los datos del ...simudatsalud-risaralda.co/normatividad/mecanismos/Metodología_(SRPPS).pdfMetodología de limpieza y validación de los datos

@FSalutia@GobernacionRisaralda

@FSalutia@Gob_Risaralda

de los territorios

Forta

lec

iendo las capacidades de

Gobierno del

Sistema de salud

l d

ed

ss

a

en el territorio

Forta

lec


Gobierno del

Sistema de salud

t

aala

Gobierno del

o

dddd

edddd

Sistema de saludGobierno del

cscscsccca

Gobierno del

rri

Gobierno del

aaaaa

ee iir oSistema de saludGobierno del

Sistema de saludSistema de saludSistema de salud

d

Sistema de salud

Metodología de limpieza y validación de los datos del Sistema de Referencia de Precios de Procedimientos en Salud (SRPPS)

Como resultado de la exploración de fuentes de información posibles que constituyan el insumo esencial del Sistema de Referencia de Precios de Procedimientos para mecanismo de Pago por Servicio (SRPPS-PxS), se decidió utilizar el Registro Individual de Prestación de Servicios de Salud (RIPS). Si bien esta fuente es criticada por el problema de calidad de los datos reportados, se eligió por tres razones:

(i) de los sistemas de información oficiales, RIPS es una de las fuentes con mayor historia y contiene las variables necesarias para construir los precios de los procedimientos realizados por pago por servicio; (ii) a pesar del problema de calidad de los reportes de algunos actores, un porcentaje significativo reporta valores que convergen a precios que caben dentro de un intervalo de desviación razonable; (iii) los avances de los últimos años en técnicas de minería de datos, paquetes de software y lenguajes de programación relacionados, facilitan la identificación y aislamiento de los datos anómalos y atípicos, que viabilizan la selección del extracto de datos válidos para la construcción del SRPPS-PxS.

Para atenuar el problema de calidad de los datos, se construyó una metodología que valida y limpia en tres etapas, implementadas en el lenguaje Python:

1. Validación de estructura. 2. Algoritmo de limpieza para detección de registros anómalos. 3. Identificación de intervalos de desviación razonables.

1. Validación de estructura.

Esta primera etapa consta de dos partes (i) se detectan y controlan los registros cuyos valores de variables sean incoherentes con la estructura admisible, según el anexo técnico de RIPS, (ii) identificación y exclusión de los procedimientos que no son negociados bajo el mecanismo de pago por servicio.

2. Algoritmo de limpieza para detección de registros anómalos.

En la fuente RIPS algunos actores reportan registros con valores inusualmente altos (bajos), con gastos extremadamente altos (bajos) y atenciones extremadamente bajas (altas). Las figuras 2 y 3, que se explican a continuación, ejemplifican estos problemas para dos procedimientos (códigos CUPS) en particular.

Para identificar y controlar este problema de calidad, se implementó un algoritmo de limpieza por iteraciones y umbral de Coeficiente de Correlación de Pearson (CCP) sobre las variables de gasto (g) y número de atenciones (q), debido a que en los registros se observaba que muchos códigos CUPS presentaban asociaciones nulas o negativas en las variables evaluadas.

Sea i cada registro de un CUPS determinado, el coeficiente de correlación de Pearson entre el gasto y la cantidad ( ) de todos los registros del CUPS i está dado por:

= =∑ ( − ̅ )( − ̅)

√∑ ( − ̅ )2 √∑ ( − ̅)2

Definido esto, el procedimiento sobre cada CUPS es el siguiente:

a) Para todos los registros en el data set original del CUPS , se calcula el coeficiente de correlación de Pearson entre el gasto y la cantidad ( ). Si ≤ 0.25 se aplica el siguiente proceso (de lo contrario no se aplica):



de los territorios

Forta

lec


Gobierno del

Sistema de salud

l d

ed

ss

a

en el territorio

Forta

lec


Gobierno del

Sistema de salud

t

aala

Gobierno del

o

dddd

edddd


cscscsccca

Gobierno del

rri

Gobierno del

aaaaa



d

Sistema de salud

En la fuente RIPS algunos actores reportan registros con valores inusualmente altos (bajos), con gastos extremadamente altos (bajos) y atenciones extremadamente bajas (altas). Las figuras 2 y 3, que se explican a continuación, ejemplifican estos problemas para dos procedimientos (códigos CUPS) en particular.

Para identificar y controlar este problema de calidad, se implementó un algoritmo de limpieza por iteraciones y umbral de Coeficiente de Correlación de Pearson (CCP) sobre las variables de gasto (g) y número de atenciones (q), debido a que en los registros se observaba que muchos códigos CUPS presentaban asociaciones nulas o negativas en las variables evaluadas.

Sea i cada registro de un CUPS determinado, el coeficiente de correlación de Pearson entre el gasto y la cantidad ( ) de todos los registros del CUPS i está dado por:

= =∑ ( − ̅ )( − ̅)

√∑ ( − ̅ )2 √∑ ( − ̅)2

Definido esto, el procedimiento sobre cada CUPS es el siguiente:

a) Para todos los registros en el data set original del CUPS , se calcula el coeficiente de correlación de Pearson entre el gasto y la cantidad ( ). Si ≤ 0.25 se aplica el siguiente proceso (de lo contrario no se aplica):

b) Se crea una variable categórica donde cada registro del CUPS puede tomar los siguientes valores nominales:

Iteración (primera aplicación del proceso = 0)

1 si el gasto ( ) es inferior al percentil 1 + del gasto y la cantidad ( ) es superior al percentil 99 − . 2 si el gasto ( ) es superior al percentil 99 − del gasto y la cantidad ( ) es inferior al percentil 1 + . 3 en caso contrario.

c) Se vuelve a calcular el coeficiente ( ), solo para los registros del CUPS cuyo valor en la variable

categórica = 3. Si el coeficiente continúa siendo menor o igual a 0.25 ( ′ ≤ 0.25), se inicia un ciclo de iteraciones con pasos de = + 1, repitiendo una y otra vez el punto (ii) hasta obtener un > 0.25.

La figura 1 ilustra este proceso de iteración (It):

Figura 1. Proceso de limpieza por iteraciones.

Fuente: elaboración propia

Las figuras 2 y 3 muestran los resultados obtenidos luego de esta limpieza de registros anómalos.

Figura 2. Diagramas de dispersión de un CUPS, antes y después del algoritmo de limpieza de registros anómalos.



de los territorios

Forta

lec


Gobierno del

Sistema de salud

l d

ed

ss

a

en el territorio

Forta

lec


Gobierno del

Sistema de salud

t

aala

Gobierno del

o

dddd

edddd


cscscsccca

Gobierno del

rri

Gobierno del

aaaaa



d

Sistema de salud


Las figuras 2 y 3 muestran los resultados obtenidos luego de esta limpieza de registros anómalos.





3. Identificación de intervalos de desviación razonables.

Luego de controlar los registros anómalos, se definieron los intervalos de desviación razonables para los precios de cada CUPS, con base en tres argumentos (i) la validación cruzada con la base de datos utilizada para el cálculo de la suficiencia de la UPC, anonimizada y agregada a un nivel intermedio, (ii) los homólogos de los tarifarios ISS y SOAT para cada CUPS y (iii) el primer y último percentil de los datos de RIPS, obtenidos luego de controlar los registros anómalos. Lo anterior, se resume así:

í = { ; ∗ 0.4; 1}

í = í { ; ∗ 1.6; 99}



de los territorios

Forta

lec


Gobierno del

Sistema de salud

l d

ed

ss

a

en el territorio

Forta

lec


Gobierno del

Sistema de salud

t

aala

Gobierno del

o

dddd

edddd


cscscsccca

Gobierno del

rri

Gobierno del

aaaaa



d

Sistema de salud


3. Identificación de intervalos de desviación razonables.

Luego de controlar los registros anómalos, se definieron los intervalos de desviación razonables para los precios de cada CUPS, con base en tres argumentos (i) la validación cruzada con la base de datos utilizada para el cálculo de la suficiencia de la UPC, anonimizada y agregada a un nivel intermedio, (ii) los homólogos de los tarifarios ISS y SOAT para cada CUPS y (iii) el primer y último percentil de los datos de RIPS, obtenidos luego de controlar los registros anómalos. Lo anterior, se resume así:

í = { ; ∗ 0.4; 1}

í = í { ; ∗ 1.6; 99}

***

Jorge Iván Rodríguez Bernate Michael Steven Rojas Beltrán Diego Miguel Piñeros Pulido

Carlos Humberto Arango Bautista

NOTA: Esta metodología de validación y limpieza no garantiza la corrección total de los problemas de calidad de RIPS. Esta los atenúa y minimiza, tanto como es posible técnicamente con minería de datos, para el propósito de esta investigación. Agradecimientos al Ministerio de Salud y Protección Social por la disposición de la información y las consultas formales, que contribuyeron a la implementación de esta metodología.

Download - Metodología de limpieza y validación de los datos del ...simudatsalud-risaralda.co/normatividad/mecanismos/Metodología_(SRPPS).pdfMetodología de limpieza y validación de los datos

Top Related