o emprego de r na detección das características máis ......o emprego de r na detecci on das...

24
O emprego de R na detecci´on das caracter´ ısticas m´ ais influentes na clasificaci´ on de pacientes infectados por COVID-19 en Galicia VII Xornada de Usuarios de R en Galicia Laura Davila Pena , Balbina Casas M´ endez, Ignacio Garc´ ıa Jurado 15 de outubro de 2020 Laura Davila Pena R na clasificaci´on de pacientes de COVID-19 en Galicia 15 de outubro de 2020 1 / 1

Upload: others

Post on 01-Nov-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

O emprego de R na deteccion das caracterısticas maisinfluentes na clasificacion de pacientes infectados por

COVID-19 en GaliciaVII Xornada de Usuarios de R en Galicia

Laura Davila Pena, Balbina Casas Mendez, Ignacio Garcıa Jurado

15 de outubro de 2020

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 1/19 15 de outubro de 2020

Page 2: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Problemas de clasificacionIntroducion

Problema de clasificacionUn problema de clasificacion consiste en predicir o valor dunha variable respostacualitativa para un ou mais individuos, facendo uso dos valores que xa conecemosde certas variables categoricas (ou atributos) de tales individuos.

Predicions −→ Conecemento obtido a traves dunha mostra de individuos convalores conecidos dos atributos e resposta.

⇓Machine learning

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 2/19 15 de outubro de 2020

Page 3: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Problemas de clasificacionIntroducion

Problema de clasificacionUn problema de clasificacion consiste en predicir o valor dunha variable respostacualitativa para un ou mais individuos, facendo uso dos valores que xa conecemosde certas variables categoricas (ou atributos) de tales individuos.

Predicions −→ Conecemento obtido a traves dunha mostra de individuos convalores conecidos dos atributos e resposta.

⇓Machine learning

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 2/19 15 de outubro de 2020

Page 4: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Problemas de clasificacionIntroducion

Problema de clasificacionUn problema de clasificacion consiste en predicir o valor dunha variable respostacualitativa para un ou mais individuos, facendo uso dos valores que xa conecemosde certas variables categoricas (ou atributos) de tales individuos.

Predicions −→ Conecemento obtido a traves dunha mostra de individuos convalores conecidos dos atributos e resposta.

⇓Machine learning

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 2/19 15 de outubro de 2020

Page 5: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Problemas de clasificacionClasificadores

Moitos clasificadores, ademais de clasificar, permiten avaliar a importanciaque os diversos atributos tiveron na clasificacion dun individuo concreto.

En Strumbelj & Kononenko (2010) introducese un procedemento xeral paraavaliar dita importancia.

Este procedemento basease no valor de Shapley para xogos cooperativos.

Strumbelj, E. & Kononenko, I. (2010) An efficient explanation of individualclassifications using game theory. Journal of Machine Learning Research, 11, 1–18.

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 3/19 15 de outubro de 2020

Page 6: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Importancia de atributos na clasificacionStrumbelj & Kononenko (2010)

1 Consideramos un individuo x = (x1, . . . , xn) onde xi e o valor do atributo i .

2 Dado un subconxunto de atributos, S , calculase a diferencia entre a predicioncando so conecemos eses valores do individuo, cuxos atributos pertencen adito subconxunto, e a predicion cando non se conece ningun atributo.

∆(S) =1

|AN\S |∑

y∈AN\S

fc(τ(x , y ,S))− 1

|AN |∑y∈AN

fc(y)

τ(x , y ,S) = (z1, . . . , zn) con zi =

zi = xi se i ∈ S

zi = yi se i /∈ S

3 Calculamos o valor de Shapley do xogo anterior: cada coordenada representaa influencia dese atributo na clasificacion.

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 4/19 15 de outubro de 2020

Page 7: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Exemplo sinxelo: con WekaTitanic

x = (primera,mujer, 30, 50)

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 5/19 15 de outubro de 2020

Page 8: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Exemplo sinxelo: con WekaTitanic

x = (primera,mujer, 30, 50)

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 5/19 15 de outubro de 2020

Page 9: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Exemplo sinxelo: con WekaTitanic

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 6/19 15 de outubro de 2020

Page 10: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Exemplo sinxelo: con WekaTitanic

S ∈ {{1}, {2}, {3}, {4}, {1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {3, 4},{1, 2, 3}, {1, 2, 4}, {1, 3, 4}, {2, 3, 4}, {1, 2, 3, 4}}

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 7/19 15 de outubro de 2020

Page 11: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Exemplo sinxelo: con WekaTitanic

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 8/19 15 de outubro de 2020

Page 12: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Exemplo sinxelo: con WekaTitanic

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 9/19 15 de outubro de 2020

Page 13: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Exemplo sinxelo: con WekaTitanic

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 10/19 15 de outubro de 2020

Page 14: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Exemplo sinxelo: con WekaTitanic

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 11/19 15 de outubro de 2020

Page 15: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

Exemplo sinxelo: con RTitanic

∆(S) =1

|AN\S |∑

y∈AN\S

fc (τ(x , y , S))−1

|AN |∑

y∈AN

fc (y)

> library(Rweka)

> RF <- make Weka classifier("weka/classifiers/trees/RandomForest")

> modelo rf <- RF(muestra weka$Supervivencia ∼ ., data = muestra weka)

> library(ggm)

> S <- powerset(1:dim(X)[2], nonempty=T, sort=T)

> predict(modelo rf, newdata=<X S[[i]]>, type = c("class"))

> v[[i]] <- sum(pred[[i]][,5])==classlabel)/dim(pred[[i]])[1] - factor fixo

> library(GameTheoryAllocation)

> Shapley <- Shapley value(unlist(v), game = "profit")

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 12/19 15 de outubro de 2020

Page 16: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

COVID-19Base de datos

Temos un conxunto de 10454 pacientes de Galicia infectados con COVID-19dende o 6 de marzo de 2020 ata o 7 de maio de 2020.

O obxectivo e estudar a infuencia de varias caracterısticas/atributos dospacientes en tres variables resposta binarias de especial interese:

Necesidade de hospitalizacion.Necesidade de ingreso en UCI.Falecemento.

Os atributos considerados son:

Idade: 0 (0-49 anos); 1 (50-64 anos); 2 (65-79 anos); 3 (80 anos en adiante).Sexo: 0 (muller); 1 (home).Patoloxıas cardıacas: 0, 1, 2.Patoloxıas respiratorias: 0, 1, 2.Patoloxıas metabolicas: 0, 1, 2.Patoloxıas urinarias: 0, 1.

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 13/19 15 de outubro de 2020

Page 17: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

COVID-19Metodoloxıa empregada na analise

Consideramos o seguinte xogo:

vx (S) =1

|AN\S |∑

y∈AN\S

f pc (τ(x , y , S))

> predict(modelo rf, newdata=<X S[[i]]>, type = c("probability"))

1 Para cada un dos atributos, j , e o seu valor, aj , fixamos a submostra Maj cos individuosque tenen esas caracterısticas.

2 Calculamos o xogo vx para cada individuo x de Maj .

3 Calculamos o valor de Shapley do xogo vx , φ(vx ).

4 Promediamos os valores de Shapley, obtendo a nosa medida de influenciaIΦj = 1

|Maj|∑

X i∈Majφ(vX i ).

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 14/19 15 de outubro de 2020

Page 18: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

COVID-19Metodoloxıa empregada na analise

Consideramos o seguinte xogo:

vx (S) =1

|AN\S |∑

y∈AN\S

f pc (τ(x , y , S))

> predict(modelo rf, newdata=<X S[[i]]>, type = c("probability"))

1 Para cada un dos atributos, j , e o seu valor, aj , fixamos a submostra Maj cos individuosque tenen esas caracterısticas.

2 Calculamos o xogo vx para cada individuo x de Maj .

3 Calculamos o valor de Shapley do xogo vx , φ(vx ).

4 Promediamos os valores de Shapley, obtendo a nosa medida de influenciaIΦj = 1

|Maj|∑

X i∈Majφ(vX i ).

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 14/19 15 de outubro de 2020

Page 19: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

COVID-19Metodoloxıa empregada na analise

Consideramos o seguinte xogo:

vx (S) =1

|AN\S |∑

y∈AN\S

f pc (τ(x , y , S))

> predict(modelo rf, newdata=<X S[[i]]>, type = c("probability"))

1 Para cada un dos atributos, j , e o seu valor, aj , fixamos a submostra Maj cos individuosque tenen esas caracterısticas.

2 Calculamos o xogo vx para cada individuo x de Maj .

3 Calculamos o valor de Shapley do xogo vx , φ(vx ).

4 Promediamos os valores de Shapley, obtendo a nosa medida de influenciaIΦj = 1

|Maj|∑

X i∈Majφ(vX i ).

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 14/19 15 de outubro de 2020

Page 20: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

COVID-19Metodoloxıa empregada na analise

TΦ :=∑k∈N

IΦk .

A cantidade TΦ pertence a [0, 1] e podese interpretar como unha estimacion da probabilidade deque a correspondente resposta dun individuo con atributo j igual a aj sexa positiva.

ObservacionNotese que IΦ

j e a parte correspondente ao atributo j cando repartimos a cantidade TΦ entretodos os atributos.

Deste xeito, a evolucion dos numeros {IΦj } e {TΦ} e moi ilustrativa da influencia que os

distintos valores de j tenen na resposta.

Por exemplo, se para un determinado valor observamos que ambos valores son proximos, e a vezque TΦ e cercano a 1, podemos concluir que os individuos co atributo j igual a aj tenen unhaalta probabilidade de ser clasificados como positivos, e que iso debese principalmente aoatributo j .

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 15/19 15 de outubro de 2020

Page 21: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

COVID-19Idade - falecemento

●●

−0.1

0.0

0.1

0.2

0.3

0 1 2 3Niveis para a idade

Val

ores

tipo

Clasificación

Influencia

Problema de clasificación do EXITUS Atributo Idade

> library(ggplot2)

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 16/19 15 de outubro de 2020

Page 22: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

COVID-19Idade - necesidade de ingreso en UCI

0.00

0.05

0.10

0 1 2 3Niveis para a idade

Val

ores

tipo

Clasificación

Influencia

Problema de clasificación de UCI Atributo Idade

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 17/19 15 de outubro de 2020

Page 23: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

COVID-19Idade - necesidade de hospitalizacion

●●

0.0

0.2

0.4

0 1 2 3Niveis para a idade

Val

ores

tipo

Clasificación

Influencia

Problema de clasificación de hospitalización Atributo Idade

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 18/19 15 de outubro de 2020

Page 24: O emprego de R na detección das características máis ......O emprego de R na detecci on das caracter sticas m ais in uentes na clasi caci on de pacientes infectados por COVID-19

O emprego de R na deteccion das caracterısticas maisinfluentes na clasificacion de pacientes infectados por

COVID-19 en GaliciaVII Xornada de Usuarios de R en Galicia

Laura Davila Pena, Balbina Casas Mendez, Ignacio Garcıa Jurado

15 de outubro de 2020

Laura Davila Pena R na clasificacion de pacientes de COVID-19 en Galicia 15 de outubro de 2020

15 de outubro de 2020 19/19 15 de outubro de 2020