Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

C

DATOS MASIVOS Y APRENDIZAJE AUTOMÁTICO

CONCEPTOS Y APLICACIONES

EN JUSTICIA

Ricardo Baeza-Yates

NTENT & UPF

AGENDA

• Big Data y Aprendizaje Automático

• Oportunidades• Desafíos

• Ruido y spam• Sesgos y más sesgos• Escasez: la cola alargada • Privacidad• Ética y legalidad

• Aplicaciones en la justicia• Caso de estudio: Fianzas en NY• Epílogo

Datos Masivos (Big Data)

§ Capturar, transferir, almacenar, buscar, compartir, analizar y visualizar grandes cantidades de datos en un tiemporazonable

§ Gran volumen y crecimiento§ De petabytes a exabytes § Mayoría de datos semi o no estructurados

frente a datos estructurados§ Diversidad

§ Tipos, formatos, complejidad, temas, etc.

3

Big Data: 5 “V”

6

Cualidad Problema de datos

Problema de computación

Problemahumano

Volumen Escala,Redundancia

Escalabilidad Sobrecarga de Información

Variedad Heterogeneidad,Complejidad

Adaptabilidad,Extensibilidad

Complejidad

Veracidad Exhaustividad, Sesgo, Escasez, Ruido, Spam

Fiabilidad,Confianza

Sesgo, Escasez, Ruido, Spam

Velocidad Tiempo real En línea Sobrecarga de Información

Valor Utilidad,Privacidad

Depende del objetivo

Privacidad,Ética y legalidad

Oportunidades

§ Decisiones verdaderamente basadas en datos§ Optimización global§ Aprender, predecir, prescribir§ (Tus) datos personales§ ….....

7

4-traders.com

Aprendizaje Automático

• La inteligencia artificial ha vuelto

• ¿Por qué?• Más datos (Big Data)• Más capacidad de

procesamiento(GPUs, TPUs)• Aprendizaje profundo (redes

neuronales de muchas capas)

• Aplicaciones en todas partes• Economía compartida• Coches sin conductor• Salud personalizada• Robots mejorados• …..

9

Una Pregunta Social

AlgoritmoDatoscon

problemas¿Neutral?

¿Justo?

Mismosproblemas

¿Qué Significa Ser Justo?

La Percepción de Justicia

Ingeniería en Universidad de Chile4000 estudiantes20% mujeres800 al año Acción afirmativa: 5% final sólo mujeresà Equidad social, injusticia individualDespués de 5 años à 25%

Diferencia: 1 sola pregunta más correcta de matemáticas

Resultado: 32% de mujeres

Declaración de ACM en 2017 sobre la Transparencia y Responsabilidad de los Algoritmos

1. Conscientes2. Acceso y corrección3. Responsables (Accountability)4. Interpretables5. Procedencia de los datos6. Auditables7. Validables y comprobables

No necesitan ser perfectos, sólo mejores que nosotros

Ruido y “Spam”

• El ruido puede provenir de muchas fuentes:§ Instrumentos de medición (IoT)§ El modo de interpretar los datos

§ Spam está en todas partes

§ La sabiduría de la multitud puede mitigar ambos problemas (J. Surowiecki, 2004)

§ ¿Qué hacemos cuando la mayoría está mal?

15

Redundancia y sesgo

§ ¿Existen dependencias entre los datos?§ Si es así, las características que discriminan se

pueden inferir§ ¿Existen duplicados?

§ Si es así, los resultados serán sesgados§ Duplicación semántica es más difícil de detectar

§ ¿Existen sesgos? ¡muchos!§ Género (caso de “la manada”)§ Económico (empresarios vs. pobres)§ Clase/Político (Urdangarin vs. Valtonyc)§ Racial (no sólo en EE.UU.)

16

Sesgo de Género

[E. Graells-Garrido et al,. “First Women, Second Sex: Gender Bias in Wikipedia”. ACM Hypertext’15]

Sesgo de Actividad: ¿Sabiduría de unos pocos?

[Baeza-Yates & Saez-Trumper, ACM Hypertext 2015]

¿Que porcentaje de usuarios activos genera la mitad del contenido?

Empresas

Datos

DatosMasivos

Datos normales/pequeños

Escasez: La Cola Alargada de Datos

Potenciación de la Escasez

La “Burbuja de filtros”, Eli Pariser• Evitar el síndrome que aumenta la pobreza

de los que ya son pobres• Evitar el “EFECTO TUNEL” • ¿Cómo exponer visiones opuestas?

35

Soluciones:• Diversidad• Novedad• Serendipia• Vertiente opuesta

• La distribución de cola alargada (long tail) no es sólo importante para el comercio electrónico, sino porque todos nosotros estamos representados en ella

• Personalización frente a ContextualizaciónRecordar que la interacción de los usuarios también se ajusta a un modelo de distribución de cola alargada

Personas

Agregación en la Cola Alargada

Tareas

Ejemplo: de Fotos a Regiones

[Thomee et al, Demo at CHI 2014]

Riesgos para la Privacidad

• El código postal, la fecha de nacimiento y el género son suficientes para identificar al 87% de los ciudadanos estadounidenses que utilizan bases de datos públicas [Sweeney, 2001]• K-anonimato [Sweeney, 2001]

Elimina o generaliza los atributos hasta que todas las entradas sean IDÉNTICAS al menos a otras (k-1) entradas

• La Comisión Federal de Comercio de los EE.UU.: las políticas de privacidad deben “gestionar la propia recopilación de datos y no solo el uso que se haga de ellos” (2010)• Directiva de protección de datos en la UE (GDPR)

40

Incidente de AOL

• El usuario número 4417749 realizó cientos de búsquedas en tres meses sobre temas que iban desde «dedos entumecidos” a «hombres solteros De 60 años”.

• Otras consultas: “paisajistas en Lilburn, Ga,” varias consultas personas sobre personas cuyo apellido era Arnold y “viviendas vendidas en Shadow Lake, Condado de Awinnett, Georgia.”

• Estos datos fueron suficientes para identificar a ThelmaArnold, una viuda de 62 años que vivía en Lilburn, Ga., que realizaba frecuentes búsquedas sobre los problemas médicos de sus amigos y que ama a sus tres perros.

A Face Is Exposed for AOL Searcher No. 4417749*, Por MICHAEL BARBARO y TOM ZELLER Jr, The New York Times, 9 de Agosto de 2006

41

*Se desvela la cara de la buscadora de AOL número 4417749

http://www.nytimes.com/2006/08/09/technology/09aol.html%3Fex=1312776000&en=996f61c946da4d34&ei=5088&partner=rssnyt&emc=rss

Riesgos de Privacidad: Consultas

• PERFIL: [Jones, Kumar, Pang, Tompkins, CIKM 2007]• Género: 84 %• Edad (±10): 79 %• Ubicación (Cód. Postal): 35 %

• CONSULTAS VANIDOSAS: [Jones et al, CIKM 2008]• Nombre parcial: 8,9 %• Nombre completo: 1,2 %

Riesgos de Privacidad: Juegos

Privacy Project: New York Times, Diciembre 2019

Ética y Legalidad• El retorno de la Frenología• Predicción de criminales usando caras (Shanghái, 2016)• Predicción de homosexualidad (Stanford, 2017)

• Video vigilancia y reconocimiento facial• Corte francesa detiene iniciativa de una región para

video monitorizar dos escuelas secundarias (2020)• Competencia• Consentimiento• Proporcionalidad

• Armas automatizadas• España es uno de los 11 países

que se niega a prohibirlas• Artículo 22 de GDPR• ¿Podemos llegar a consenso?

45

Aplicaciones en la Justicia§ COMPAS (Northpointe): Perfilación de criminales§ creado para apoyar, no para sentenciar§ Datos: criminales, estilo de vida, personalidad,

familia & sociales§ Propublica (2016):

§ sesgo racial de 2 a 1§ 80% error en crímenes violentos y 37% en general (2 años)§ Discriminación de pobres – Bearden vs. georgia§ Inconsistencia en predicciones

§ ¿Es un algoritmo secreto ético?

47

§ Gotham & others (Palantir)§ Perfilador de criminales§ Los Angeles (2009) – vía fundación policíaca§ Nueva york (2011) – nunca aprobado por el

concejo§ Nueva Orleans (2012) – secreto hasta 2014 § Dinamarca (2016)§ Un error y una persona pasa a ser

discriminada§ PSA (Laura & John Arnold Foundation):

§ Medición de seguridad pública49

Aplicaciones en la Justicia

§ Predpol (Chicago & IIT)§ Otro perfilador de criminales§ Sesgo geográfico – círculo vicioso

50

Aplicaciones en la Justicia

Análisis de la Justicia

§ Predicción de violencia doméstica§ Jueces: 80%, algoritmo: 90%

§ Predicción de asilo para refugiados§ Exactitud del 82%§ Sólo 1/3 depende de información del caso

§ Predicción de consenso en apelaciones§ 50% depende del caso y 50% de la persona

§ Predicción de sentencias (casi 70%)§ Fotos del proceso (+1.8%)§ Audio del proceso (+2.0%)

52

Caso de Estudio: Fianzas

53

Acusado/a ¿Fianza?

Si y paga¿Reincide?¿Se presenta al juicio?

No

Juicio

Cárcel

Si y no puede pagar

No sabemos que habría pasado si no

hubiera ido a la cárcel

Decisiones humanas vs. Predicciones artificiales

§ Casi 760 mil datos de Nueva York (2008 a 2013)

§ Se podría decrecer la tasa criminal en 24.7% manteniendo la tasa de cárcel o

§ Se podría decrecer la tasa de cárcel en 41.9% manteniendo la misma tasa criminal

§ Los jueces dejan libres al 49% del 1% de los criminales más peligrosos que no se presentan en un 56% y reinciden en un 62% de los casos

[Kleinberg et al, JQE, 237—293, 2018]

Datos y metodología

55

Algoritmo y Variables

56

§ GBDT: Arboles de decisión avanzados§ Variables (18):

§ Edad§ Delito actual y su nivel

§ Arma de fuego§ Drogas

§ Delitos históricos y su nivel§ Arma de fuego§ Arrestos§ No aparición en el juicio§ Penas de cárcel

¿Cuál es la diferencia?

58

Discriminación Racial

62

Los Algoritmos no tienen Ruido

63

Dilema

¿Un algoritmo con sesgo o

un/a juez/a con ruido?

64

è 61 analistas, 29 equipos: 20 si y 9 no (Univ. of Virginia, COS)

Es Difícil Obtener la Verdad a Partir de los Datos (Sesgo Profesional)

El Futuro• Sistema más integrado• Sin privacidad• Grados en ciencia de datos• Algoritmos transparentes• Decisiones humanas con apoyo de IA• Seguros de software• Ética para robots• Medicina personalizada• Trabajadores del conocimiento remotos• Humanidad aumentada

• Por ahora el cambio tecnológico sigue siendo bueno

• Pero ¿evolucionará hacia algo como Solaria? (el sol desnudo, Asimov)

• ¡Si existen extraterrestres agradables ahí fuera, que vengan pronto, por favor!

¿Preguntas?

Recuerde, lo importante son los datos correctos!

Agradecimientos:• Rubén Egote• Francesc Caminal

“Las personas más fácilde manipular son aquellasque creen que no pueden ser manipuladas” (Harari)

ponència 'datos masivos y aprendizaje automático...

Documents

sectarismo suicidios masivos

sulfuros masivos

publicidad medios masivos

exposición medios masivos

incidencias transporte masivos

sesión 15medios masivos

manual pagos masivos bcp

gestcon gestiÓn procesos a resultados

despidos masivos

catálogo productos masivos

medios masivos

vidrios metálicos masivos

medios de comunicación masivos

eventos masivos (religión)

seguros masivos

comunicacion por medios masivos

medios masivos de comunicacion

medios no masivos

catalogo de masivos

07 medios masivos