1 aspectos metodológicos do método de linkage probabilístico carla jorge machado - ufmg
TRANSCRIPT
![Page 1: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/1.jpg)
1
Aspectos metodológicos do
método de linkage probabilístico
Carla Jorge Machado - UFMG
![Page 2: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/2.jpg)
2
Roteiro para apresentação1. Motivações
1. Breve Histórico
1. O relacionamento de registros: Determinístico Probabilístico
1. Metodologia – Relacionamento probabilístico
1. Desafios
![Page 3: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/3.jpg)
3
1. MOTIVAÇÃO
• Estudo de coortes reais ao longo do tempo.
• Estudo de associações de exposição com doença/morte
• Recuperar informação, em caso de informação não declarada
![Page 4: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/4.jpg)
4
1. MOTIVAÇÃO
• Correção da informação quando acredita-se na validade desta em um banco de dados, mas não na validade desta em outro.
• Adicionar informação de um banco de dados a outro banco de dados.
![Page 5: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/5.jpg)
5
2. HISTÓRICO
• O Relacionamento de dados não é uma idéia recente
• No Século XVIII, Edward Jenner descobriu a associação entre a varíola bovina e a varíola humana através do relacionamento de registros.
![Page 6: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/6.jpg)
6
2. HISTÓRICO
• Jenner relacionou as vacas de todos os tipos às pessoas, após injetar material bovino nos seres humanos.
![Page 7: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/7.jpg)
7
2. HISTÓRICO
• Os registros de dados relacionados de Jenner foram utilizados como forma de evidência de que a intervenção havia sido eficaz.
![Page 8: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/8.jpg)
8
2. HISTÓRICO
• No Século XX, o termo relacionamento de registros (record linkage) apareceu pela primeira vez na literatura em Dunn(1946) - AJPH.
• Os estudos utilizando relacionamento de registros começam a surgir na literatura com mais freqüência a partir da década dos 80.
![Page 9: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/9.jpg)
9
3. RELACIONAMENTO DETERMINÍSTICO
• O Relacionamento Determinístico implica a procura de concordância exata no processo de pareamento de registros.
• Por exemplo, se temos acesso ao CPF ou RG dos indivíduos em dois ou mais bancos de dados podemos relacionar esses indivíduos com base nessa informação.
![Page 10: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/10.jpg)
10
3. RELACIONAMENTO DETERMINÍSTICO
• Um problema é que se o identificador (CPF e/ou RG) está em erro em um banco de dados nós refutamos pares que podem pertencer a mesmos indivíduos.
![Page 11: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/11.jpg)
11
3. RELACIONAMENTO DETERMINÍSTICO
• Além disso, acesso à informações deste tipo em larga escala é difícil.
• Pode-se dizer, então, que se um registro concordar com outro com base em identificadores gerais (sexo, idade, data de nascimento, estado civil) considera-se o par de registros como de um mesmo indivíduo.
![Page 12: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/12.jpg)
12
3. RELACIONAMENTO DETERMINÍSTICO
• Problema: O relacionamento determinístico (exato), é incapaz de levar em conta incertezas que podem existir para alguns pares relacionados:
-- Erros na declaração em um ou outro banco;-- Problemas de informação não declarada em um ou outro banco.
-- Erros na declaração em um ou outro banco;-- Problemas de informação não declarada em um ou outro banco.
![Page 13: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/13.jpg)
13
3. RELACIONAMENTO Determinístico X Probabilístico
• Logo, a solução...
Relacionamento Probabilístico de
RegistrosRelacionamento Probabilístico de
Registros
![Page 14: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/14.jpg)
14
3. RELACIONAMENTO PROBABILÍSTICO
• Utiliza-se o relacionamento probabilístico para ponderar diferentemente as informações utilizadas no pareamento.
• Essas diferenças na ponderação são inviáveis no caso de relacionamento determinístico.
![Page 15: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/15.jpg)
15
3. RELACIONAMENTO PROBABILÍSTICO
• Intuitivamente, na busca de evidência se o pareamento se refere ao mesmo indivíduo....
![Page 16: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/16.jpg)
16
3. RELACIONAMENTO PROBABILÍSTICO
• ... a concordância no identificador ‘sexo’ não adiciona tanta informação quanto às concordâncias nos identificadores ‘nome’ ou ‘CPF’, ou seja...
![Page 17: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/17.jpg)
17
3. RELACIONAMENTO PROBABILÍSTICO
• ... Concordâncias em ‘nome’ ou CPF são mais sugestivas de um pareamento correto do que concordância em ‘sexo’.
![Page 18: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/18.jpg)
18
3. RELACIONAMENTO PROBABILÍSTICO - histórico
• Howard Newcombe e colaboradores (Newcombe et al, 1959) publicaram um artigo em 1959 na Revista Science.
• A primeira menção de registro probabilísitico na literatura.
![Page 19: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/19.jpg)
19
3. RELACIONAMENTO PROBABILÍSTICO - histórico
• Os autores relacionaram dados de trabalhadores expostos a baixos níveis de radiação para estudar:
–causas de mortalidade
–impactos na fecundidade
–deformações genéticas posteriores
![Page 20: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/20.jpg)
20
3. RELACIONAMENTO PROBABILÍSTICO - histórico
• Dez anos mais tarde Fellegi & Sunter - estatísticos Canadenses - publicaram um artigo no JASA
• Estabeleceram as bases matemáticas e estatísticas para o relacionamento probabilístico de registros (Fellegi & Sunter, 1969).
![Page 21: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/21.jpg)
21
4. RELACIONAMENTO PROBABILÍSTICO
METODOLOGIA (clássica)
![Page 22: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/22.jpg)
22
4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -
• IDÉIAS FUNDAMENTAIS
(1)
A freqüência de ocorrência de uma característica deveria ser utilizada para computar um escore para cada par formado;
![Page 23: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/23.jpg)
23
4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -
• IDÉIAS FUNDAMENTAIS
(2)
Pares podem ser caracterizados em pares corretos, pares incorretos e pares possíveis, que requerem algum tipo de revisão;
![Page 24: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/24.jpg)
24
4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -
• IDÉIAS FUNDAMENTAIS(3)
Na procura de pares os registros devem ser comparados apenas se concordarem em um identificador, válido e altamente discriminatório.
![Page 25: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/25.jpg)
25
4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -
• IDÉIAS FUNDAMENTAIS
(4)
A idéia é de se particionar ambos os arquivos em sub-conjuntos exclusivos e e exaustivos e procurar pares dentro de cada sub-conjunto.
–Essa estratégia é chamada de blocagem
![Page 26: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/26.jpg)
26
4. RELACIONAMENTO PROBABILÍSTICO
- METODOLOGIA -
O processo de estimação dos escores para cada identificador
utilizado na comparação
![Page 27: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/27.jpg)
27
Quando um identificador concorda (em um bloco) atribuímos o seguinte escore (wi)
wi = log2(m/u) =
log2((probabilidade de concordância do identificador dado que o pareamento é correto) / (probabilidade de concordância do identificador, dado que o pareamento é incorreto))
![Page 28: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/28.jpg)
28
Quando um identificador NÃO concorda (em um bloco) atribuímos o seguinte escore (wi)
wi =
log2(1-m/1-u) = log2(probabilidade de discordância do identificador dado que o pareamento é correto) / (probabilidade de discordância do identificador, dado que o pareamento é incorreto))
![Page 29: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/29.jpg)
29
4. RELACIONAMENTO PROBABILÍSTICO
Estimação dos Parâmetros: Considere sexo
fácil de codificar, mas......discrimina pouco
![Page 30: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/30.jpg)
30
4. RELACIONAMENTO PROBABILÍSTICO
Probabilidade de concordância em sexo
quando 2 registros pareados se referem ao mesmo indivíduo...
...estimada em torno de 0,95
Probabilidade M = 0,95Probabilidade M = 0,95
![Page 31: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/31.jpg)
31
4. RELACIONAMENTO PROBABILÍSTICO
Probabilidade de concordância em sexo
quando 2 registros pareados não se referem ao mesmo indivíduo...
...estimada em torno de 0,50
Probabilidade U = 0,50Probabilidade U = 0,50
![Page 32: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/32.jpg)
32
4. RELACIONAMENTO PROBABILÍSTICO
- Estimação dos Parâmetros: Exemplo com sexo
wi para concordância = log2(m/u) =
log2(0,95/0,5)
= 0,93wi para discordância =
log2[(1-m)/(1-u)] =log2(0,05/0,5)
= -3,32
![Page 33: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/33.jpg)
33
4. RELACIONAMENTO PROBABILÍSTICO
Estimação dos Parâmetros: Considere nome raro
mais difícil de codificar, mas......discrimina mais
![Page 34: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/34.jpg)
34
4. RELACIONAMENTO PROBABILÍSTICO
Probabilidade de concordância em nome
raro
quando 2 registros pareados se referem ao mesmo indivíduo
estimada em torno de 0,85
Probabilidade M = 0,85Probabilidade M = 0,85
![Page 35: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/35.jpg)
35
4. RELACIONAMENTO PROBABILÍSTICO
Probabilidade de concordância em nome
raro
quando 2 registros pareados não se referem ao mesmo indivíduo
estimada em torno de 0,01
Probabilidade U = 0,01Probabilidade U = 0,01
![Page 36: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/36.jpg)
36
4. RELACIONAMENTO PROBABILÍSTICO
Estimação dos Parâmetros: Exemplo com nome raro
wi para concordância = log2(m/u) =
log2(0,85/0,01)
= 6,41wi para discordância =
log2[(1-m)/(1-u)] =log2(0,15/0,99)
= -2,72
![Page 37: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/37.jpg)
37
4. RELACIONAMENTO PROBABILÍSTICO Possibilidades
• Par 1: Concorda em sexo, não concorda em nome raro.
• + 0,93 + (-2,72) =
-1,80 (escore par 1)
• Par 2: Concorda em nome raro, não concorda em sexo
• + 6,41 + (-3,32) =
+3,09 (escore par 2)
Se eu tenho que escolher, fico com o Par 2
![Page 38: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/38.jpg)
38
4. RELACIONAMENTO PROBABILÍSTICO – METODOLOGIA
Log na Base 2...A Idéia das Urnas
Idênticas
![Page 39: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/39.jpg)
39
![Page 40: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/40.jpg)
40
A diferença é que...
![Page 41: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/41.jpg)
41
• Só argolas brancas
• Argolas brancas e vermelhas
![Page 42: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/42.jpg)
42
4. Relacionamento probabilístico - metodologia
Por qual motivo uso log na base 2?
O Evento de Interesse é
o número consecutivo de bolas brancas retiradas
![Page 43: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/43.jpg)
43
• 2 hipóteses sobre o conteúdo da urna: todas são brancas / metade é branca.
• Bolas brancas retiradas → Evidência → urna é de argolas brancas
• A razão de verossimilhança de ‘todas brancas’ em relação a ‘metade brancas’: (1)b/(1/2)b = 2b
4. Relacionamento probabilístico - metodologia
Por qual motivo uso log na base 2 ?
![Page 44: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/44.jpg)
44
4. Relacionamento probabilístico - metodologia
Por qual motivo uso log na base 2 ?
• Uma razão de verossimilhança de x corresponde a b bolas brancas da seguinte maneira
xlogln2
lnxb
ou
2x
2
b
![Page 45: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/45.jpg)
45
4. Relacionamento probabilístico - metodologia
Por qual motivo uso log na base 2 ?
• Considere então que:
(m)/(u) x onde
xlogln2
lnxwb
:então
wb
2i
i
![Page 46: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/46.jpg)
46
4. Relacionamento probabilístico - metodologia
Por qual motivo uso log na base 2 ?
• Por exemplo: Concordância em sexo e nome raro com peso 6;
• ‘6’ representa evidência favorecendo ‘todas brancas’ versus ‘metade brancas’ em 6 bolas brancas consecutivas retiradas.
![Page 47: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/47.jpg)
47
Escores limiares, curva bimodal: zona cinzenta
Gráfico freqüência dos escores X escores
4. RELACIONAMENTO PROBABILÍSTICO
0
10
20
30
40
50
60
70
80
90
1 4 7 10 13 16 19 22
![Page 48: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/48.jpg)
48
Análise de Dados Pareados (o fantasma da incerteza...)
um estimador da incerteza que possa ser incorporarado no modelo de análise de resultados
5. DESAFIOS
![Page 49: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/49.jpg)
49
“O Relacionamento Probabilístico de Registros pode auxiliar uma sociedade no sentido de avançar no conhecimento sobre o bem-estar e saúde de seus cidadãos. A literatura epidemiológica é repleta de estudos sobre saúde que fazem uso dos mais variados procedimentos de relacionamento de registro para produzir Ciência.”(Scheuren, 1997)
![Page 50: 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG](https://reader036.vdocumento.com/reader036/viewer/2022062404/552fc104497959413d8bf99d/html5/thumbnails/50.jpg)
50