ponència 'datos masivos y aprendizaje automático...
Post on 14-Mar-2020
3 Views
Preview:
TRANSCRIPT
C
DATOS MASIVOS Y APRENDIZAJE AUTOMÁTICO
CONCEPTOS Y APLICACIONES
EN JUSTICIA
Ricardo Baeza-Yates
NTENT & UPF
AGENDA
• Big Data y Aprendizaje Automático
• Oportunidades• Desafíos
• Ruido y spam• Sesgos y más sesgos• Escasez: la cola alargada • Privacidad• Ética y legalidad
• Aplicaciones en la justicia• Caso de estudio: Fianzas en NY• Epílogo
Datos Masivos (Big Data)
§ Capturar, transferir, almacenar, buscar, compartir, analizar y visualizar grandes cantidades de datos en un tiemporazonable
§ Gran volumen y crecimiento§ De petabytes a exabytes § Mayoría de datos semi o no estructurados
frente a datos estructurados§ Diversidad
§ Tipos, formatos, complejidad, temas, etc.
3
Big Data: 5 “V”
6
Cualidad Problema de datos
Problema de computación
Problemahumano
Volumen Escala,Redundancia
Escalabilidad Sobrecarga de Información
Variedad Heterogeneidad,Complejidad
Adaptabilidad,Extensibilidad
Complejidad
Veracidad Exhaustividad, Sesgo, Escasez, Ruido, Spam
Fiabilidad,Confianza
Sesgo, Escasez, Ruido, Spam
Velocidad Tiempo real En línea Sobrecarga de Información
Valor Utilidad,Privacidad
Depende del objetivo
Privacidad,Ética y legalidad
Oportunidades
§ Decisiones verdaderamente basadas en datos§ Optimización global§ Aprender, predecir, prescribir§ (Tus) datos personales§ ….....
7
4-traders.com
Aprendizaje Automático
• La inteligencia artificial ha vuelto
• ¿Por qué?• Más datos (Big Data)• Más capacidad de
procesamiento(GPUs, TPUs)• Aprendizaje profundo (redes
neuronales de muchas capas)
• Aplicaciones en todas partes• Economía compartida• Coches sin conductor• Salud personalizada• Robots mejorados• …..
9
Una Pregunta Social
AlgoritmoDatoscon
problemas¿Neutral?
¿Justo?
Mismosproblemas
¿Qué Significa Ser Justo?
La Percepción de Justicia
Ingeniería en Universidad de Chile4000 estudiantes20% mujeres800 al año Acción afirmativa: 5% final sólo mujeresà Equidad social, injusticia individualDespués de 5 años à 25%
Diferencia: 1 sola pregunta más correcta de matemáticas
Resultado: 32% de mujeres
Declaración de ACM en 2017 sobre la Transparencia y Responsabilidad de los Algoritmos
1. Conscientes2. Acceso y corrección3. Responsables (Accountability)4. Interpretables5. Procedencia de los datos6. Auditables7. Validables y comprobables
No necesitan ser perfectos, sólo mejores que nosotros
Ruido y “Spam”
• El ruido puede provenir de muchas fuentes:§ Instrumentos de medición (IoT)§ El modo de interpretar los datos
§ Spam está en todas partes
§ La sabiduría de la multitud puede mitigar ambos problemas (J. Surowiecki, 2004)
§ ¿Qué hacemos cuando la mayoría está mal?
15
Redundancia y sesgo
§ ¿Existen dependencias entre los datos?§ Si es así, las características que discriminan se
pueden inferir§ ¿Existen duplicados?
§ Si es así, los resultados serán sesgados§ Duplicación semántica es más difícil de detectar
§ ¿Existen sesgos? ¡muchos!§ Género (caso de “la manada”)§ Económico (empresarios vs. pobres)§ Clase/Político (Urdangarin vs. Valtonyc)§ Racial (no sólo en EE.UU.)
16
Sesgo de Género
Sesgo de Género
[E. Graells-Garrido et al,. “First Women, Second Sex: Gender Bias in Wikipedia”. ACM Hypertext’15]
Sesgo de Actividad: ¿Sabiduría de unos pocos?
[Baeza-Yates & Saez-Trumper, ACM Hypertext 2015]
¿Que porcentaje de usuarios activos genera la mitad del contenido?
Empresas
Datos
DatosMasivos
Datos normales/pequeños
Escasez: La Cola Alargada de Datos
Potenciación de la Escasez
La “Burbuja de filtros”, Eli Pariser• Evitar el síndrome que aumenta la pobreza
de los que ya son pobres• Evitar el “EFECTO TUNEL” • ¿Cómo exponer visiones opuestas?
35
Soluciones:• Diversidad• Novedad• Serendipia• Vertiente opuesta
• La distribución de cola alargada (long tail) no es sólo importante para el comercio electrónico, sino porque todos nosotros estamos representados en ella
• Personalización frente a ContextualizaciónRecordar que la interacción de los usuarios también se ajusta a un modelo de distribución de cola alargada
Personas
Agregación en la Cola Alargada
Tareas
Ejemplo: de Fotos a Regiones
[Thomee et al, Demo at CHI 2014]
Riesgos para la Privacidad
• El código postal, la fecha de nacimiento y el género son suficientes para identificar al 87% de los ciudadanos estadounidenses que utilizan bases de datos públicas [Sweeney, 2001]• K-anonimato [Sweeney, 2001]
Elimina o generaliza los atributos hasta que todas las entradas sean IDÉNTICAS al menos a otras (k-1) entradas
• La Comisión Federal de Comercio de los EE.UU.: las políticas de privacidad deben “gestionar la propia recopilación de datos y no solo el uso que se haga de ellos” (2010)• Directiva de protección de datos en la UE (GDPR)
40
Incidente de AOL
• El usuario número 4417749 realizó cientos de búsquedas en tres meses sobre temas que iban desde «dedos entumecidos” a «hombres solteros De 60 años”.
• Otras consultas: “paisajistas en Lilburn, Ga,” varias consultas personas sobre personas cuyo apellido era Arnold y “viviendas vendidas en Shadow Lake, Condado de Awinnett, Georgia.”
• Estos datos fueron suficientes para identificar a ThelmaArnold, una viuda de 62 años que vivía en Lilburn, Ga., que realizaba frecuentes búsquedas sobre los problemas médicos de sus amigos y que ama a sus tres perros.
A Face Is Exposed for AOL Searcher No. 4417749*, Por MICHAEL BARBARO y TOM ZELLER Jr, The New York Times, 9 de Agosto de 2006
41
*Se desvela la cara de la buscadora de AOL número 4417749
Riesgos de Privacidad: Consultas
• PERFIL: [Jones, Kumar, Pang, Tompkins, CIKM 2007]• Género: 84 %• Edad (±10): 79 %• Ubicación (Cód. Postal): 35 %
• CONSULTAS VANIDOSAS: [Jones et al, CIKM 2008]• Nombre parcial: 8,9 %• Nombre completo: 1,2 %
Riesgos de Privacidad: Juegos
Privacy Project: New York Times, Diciembre 2019
Ética y Legalidad• El retorno de la Frenología• Predicción de criminales usando caras (Shanghái, 2016)• Predicción de homosexualidad (Stanford, 2017)
• Video vigilancia y reconocimiento facial• Corte francesa detiene iniciativa de una región para
video monitorizar dos escuelas secundarias (2020)• Competencia• Consentimiento• Proporcionalidad
• Armas automatizadas• España es uno de los 11 países
que se niega a prohibirlas• Artículo 22 de GDPR• ¿Podemos llegar a consenso?
45
Aplicaciones en la Justicia§ COMPAS (Northpointe): Perfilación de criminales§ creado para apoyar, no para sentenciar§ Datos: criminales, estilo de vida, personalidad,
familia & sociales§ Propublica (2016):
§ sesgo racial de 2 a 1§ 80% error en crímenes violentos y 37% en general (2 años)§ Discriminación de pobres – Bearden vs. georgia§ Inconsistencia en predicciones
§ ¿Es un algoritmo secreto ético?
47
§ Gotham & others (Palantir)§ Perfilador de criminales§ Los Angeles (2009) – vía fundación policíaca§ Nueva york (2011) – nunca aprobado por el
concejo§ Nueva Orleans (2012) – secreto hasta 2014 § Dinamarca (2016)§ Un error y una persona pasa a ser
discriminada§ PSA (Laura & John Arnold Foundation):
§ Medición de seguridad pública49
Aplicaciones en la Justicia
§ Predpol (Chicago & IIT)§ Otro perfilador de criminales§ Sesgo geográfico – círculo vicioso
50
Aplicaciones en la Justicia
Análisis de la Justicia
§ Predicción de violencia doméstica§ Jueces: 80%, algoritmo: 90%
§ Predicción de asilo para refugiados§ Exactitud del 82%§ Sólo 1/3 depende de información del caso
§ Predicción de consenso en apelaciones§ 50% depende del caso y 50% de la persona
§ Predicción de sentencias (casi 70%)§ Fotos del proceso (+1.8%)§ Audio del proceso (+2.0%)
52
Caso de Estudio: Fianzas
53
Acusado/a ¿Fianza?
Si y paga¿Reincide?¿Se presenta al juicio?
No
Juicio
Cárcel
Si y no puede pagar
No sabemos que habría pasado si no
hubiera ido a la cárcel
Decisiones humanas vs. Predicciones artificiales
§ Casi 760 mil datos de Nueva York (2008 a 2013)
§ Se podría decrecer la tasa criminal en 24.7% manteniendo la tasa de cárcel o
§ Se podría decrecer la tasa de cárcel en 41.9% manteniendo la misma tasa criminal
§ Los jueces dejan libres al 49% del 1% de los criminales más peligrosos que no se presentan en un 56% y reinciden en un 62% de los casos
[Kleinberg et al, JQE, 237—293, 2018]
Datos y metodología
55
Algoritmo y Variables
56
§ GBDT: Arboles de decisión avanzados§ Variables (18):
§ Edad§ Delito actual y su nivel
§ Arma de fuego§ Drogas
§ Delitos históricos y su nivel§ Arma de fuego§ Arrestos§ No aparición en el juicio§ Penas de cárcel
¿Cuál es la diferencia?
58
Discriminación Racial
62
Los Algoritmos no tienen Ruido
63
Dilema
¿Un algoritmo con sesgo o
un/a juez/a con ruido?
64
è 61 analistas, 29 equipos: 20 si y 9 no (Univ. of Virginia, COS)
Es Difícil Obtener la Verdad a Partir de los Datos (Sesgo Profesional)
El Futuro• Sistema más integrado• Sin privacidad• Grados en ciencia de datos• Algoritmos transparentes• Decisiones humanas con apoyo de IA• Seguros de software• Ética para robots• Medicina personalizada• Trabajadores del conocimiento remotos• Humanidad aumentada
• Por ahora el cambio tecnológico sigue siendo bueno
• Pero ¿evolucionará hacia algo como Solaria? (el sol desnudo, Asimov)
• ¡Si existen extraterrestres agradables ahí fuera, que vengan pronto, por favor!
¿Preguntas?
Recuerde, lo importante son los datos correctos!
Agradecimientos:• Rubén Egote• Francesc Caminal
“Las personas más fácilde manipular son aquellasque creen que no pueden ser manipuladas” (Harari)
top related