el mal alumne pedagogia crítica per a ... - taller estampa · ajuntament de barcelona institut de...

El mal alumne––Pedagogia crítica per a intel·ligències artificials

Estampa

Ajuntament de BarcelonaInstitut de Cultura de BarcelonaBarcelona Producció 2017-18

Consell d’Edicions i Publicacions de l’Ajuntament de BarcelonaGerardo Pisarello Prados, Josep M. Montaner Martorell, Laura Pérez Castallo, Jordi Campillo Gámez, Marc Andreu Acebal, Águeda Bañón Pérez, José Pérez Freijo, Pilar Roca Viola, Maria Truñó i Salvadó, Bertran Cazorla Rodríguez, Anna Giralt Brunet

Projecte d’investigació

EstampaEl mal alumne. Pedagogia crítica per a intel·ligències artificials

https://tallerestampa.com/estampa/el-mal-alumne/

Barcelona Producció 2017-18

DirectorOriol Gual i Dalmau

Jurat i tutoriesDavid Armengol, Mónica Bello,Joan Casellas, Latitudes(Max Andrews i Mariana CánepaLuna), Alexandra Laudoi Mireia Sallarès

Tutoria El mal alumneMónica Bello

CoordinacióMontserrat Rectoret i Blanch

Producció tècnicaQwerty

SuportAnna Urdániz Bondia

MuntatgeJBM Muntatges i Produccions

Disseny gràficFolch

PremsaDepartament de Premsa de l’ICUB

TraduccionsDiscobole SL

Transcripció vídeo sala i webEMC

Vídeo sala i webHugo Barbosa (hb.prgrms)

Vigilància salaFelipe Rangel (Sabico)

Servei d’informacióNúria MiretJudith López(Iliadas Team sl)

NetejaInés Pachay (Ferrovial)

Publicació

TextosEstampa (Roc Albalat, Pau Artigas, Marc Padró, Marcel Pié i Daniel Pitarch)

CoordinacióMontserrat RectoretAnna Urdániz

EdicióAjuntament de BarcelonaInstitut de CulturaFolch

Disseny gràficEstampa

ImpressióAgpograf

Traduccions i correccionsDiscobole SL

ImatgesEstampa, Internet Archive —35mm Stock Footage (Creative Commons Attribution License), Prelinger Archive, David Domingo, Rijksstudio (Rijksmuseum), Pep Herrero, Nyamnyam, Claudia Pagès

Programari lliure i conjunts de dades YOLO, Pix2Pix, Word-rnn,Tensorflow, WikiArt, Faces 1999 (Caltech Computational Vision), Face Recognition Database (MIT-CBCL), Face Recognition Data (Dr Libor Spacek), MUCT Face Database, 2D Face Sets (Stirling, Psychological Image Collection)

AgraïmentsMónica Bello, David Domingo, Museu Picasso, MACBA, MNAC, Fundació Antoni Tàpies, Museu del Disseny de Barcelona i Fundació Joan Miró, Nyamnyam, Claudia Pagès

Aquesta col·lecció és una iniciativacoeditada per l’Ajuntamentde Barcelona i The Flames by Folch.

Dipòsit legal: B12525-2018ISBN Ajuntament de Barcelona:978-84-9156-119-4FolchStudio: 978-84-948751-1-3© De l’edició: Institut de Culturade l’Ajuntament de Barcelona iFolchStudio© Fotografies i textos: els autors© Traduccions: els autorsbarcelona.cat/barcelonallibreslacapella.bcn.cat

El mal alumne––Pedagogia crítica per a intel·ligències artificials

Estampa

7 El mal alumne

8 Visions artificials. Aprenentatge automàtic i cultura visual

15 El mal alumno

16 Visiones artificiales. Aprendizaje automático y cultura visual

23 The Bad Pupil

24 Artificial Visions. Machine Learning and Visual Culture

31 Què és el que veus, YOLO9000? ¿Qué es lo que ves, YOLO9000? What do you see, YOLO9000?

47 Taxonomies Taxonomías Taxonomies

53 Experts compulsius Expertos compulsivos Compulsive experts

57 Una imaginació mecanitzada Una imaginación mecanizada A mechanised imagination

63 L’ordre és el treball El orden es el trabajo Order is work

català

español

english

9 cat

El mal alumne

El desenvolupament actual de la intel·ligència artificial se centra en l’aprenentatge automàtic. Les màquines aprenen per si soles a dur a terme tasques a partir dels exemples que els ensenyem. L’objectiu d’aquests desenvolupaments és automatitzar la màxima quantitat de processos i aplicar-los a grans bases de dades: classificar, cercar patrons, predir comportaments o monitorar de manera massiva. La pitjor cara de l’aprenentatge automàtic és la que està en consonància amb el nostre món fet de vigilància contínua a gran escala i on les dades massives s’equiparen als recursos naturals i a la seva explotació –l’anomenada “mineria de dades”.

Si les màquines aprenen i ho fan en aquest context, el que cal és rei-vindicar el mal alumne: tot allò que s’escapa de la norma. Si el món de la intel·ligència artificial utilitza la metàfora de l’aprenentatge, el que cal és pensar una pedagogia crítica. Si la intenció és que la intel·ligència ar-tificial repliqui la dels humans a escales inhumanes, cal reivindicar una intel·ligència artificial no mimètica que provoqui relacions i imatges in-esperades. Si la cultura visual actual s’està expandint en el seu vessant invisible, aquell en el qual les màquines generen imatges que només veuran altres màquines, cal plantejar-se com podem encarnar aquestes imatges per desfer la seva acció espectral al nostre voltant.

Aquesta publicació recull la recerca que hem dut a terme entorn de la visió artificial i la generació d’imatges amb xarxes neuronals d’aprenen-tatge profund entre els mesos de juny de 2017 i abril de 2018.

1110 cat

Visions artificials.Aprenentatge automàtic i cultura visual

En els darrers anys, una part de la recerca i la innovació tecnològica s’ha concentrat en una branca de la intel·ligència artificial: les tècni-ques d’aprenentatge automàtic –machine learning– que utilitzen xarxes neuronals artificials profundes. Articles acadèmics i notícies ens ex-pliquen que aquestes eines digitals aprenen i que ho fan de manera, fins a cert punt, autònoma. Què és el que aprenen i quina és la seva autonomia? El que aprenen és a dur a terme tasques concretes, com ara descriure el contingut d’una imatge. És important remarcar aques-ta exclusivitat: cada xarxa entrenada només duu a terme una tasca, aquella per a la qual s’ha dissenyat. Si es consideren autònomes, és perquè les persones que les desenvolupen no intervenen en totes les fases del procés de creació. El que podem decidir d’una xarxa neuro-nal artificial, a més de la tasca que volem que dugui a terme, és la seva estructura interna –nombre de capes, tipus de funcions matemàtiques que cal aplicar i altres elements– i quin corpus de material li proporci-onem perquè aprengui. Igualment, també decidim sobre la seva qua-litat testant els resultats que produeix. Però allò en què no intervenim és en la programació dels passos concrets que farà l’eina per resoldre la tasca. Aquest funcionament intern sorgeix com a conclusió de l’en-trenament, durant el qual la xarxa inicial s’autoconfigura amb una sè-rie de valors (les operacions que fa la xarxa per decidir aquests valors es regeixen per principis estadístics i de probabilitat). Així, per tenir una eina que identifiqui si en una imatge hi apareix una cara, ja no cal intentar construir una definició de “cara” (com seria indicar que una cara es caracteritza per tenir dos ulls, dues celles, un nas i una boca) ni determinar quin tipus de patrons, diferències de contrast, etc., po-drien servir per identificar-la en una imatge, sinó que l’estratègia seria proporcionar a l’eina una gran quantitat d’imatges de cares, i la xarxa neuronal aprendria, basant-se en aquestes, què és una cara. O més ben dit, aprendria què pot fer perquè davant d’una nova imatge pugui dir que allà hi ha una cara i nosaltres hi estiguem d’acord.

Les xarxes neuronals estan pensades com a models predictius es-tadístics: es creen per funcionar en situacions futures, que hauran de classificar o transformar segons les categories apreses. L’objectiu no és la creació d’una definició o d’una síntesi visible i discutible, sinó la ge-neració de sortides (outputs) davant de noves entrades (inputs). Així, una xarxa neuronal de visió artificial com la que esmentàvem no conté una definició d’una cara, sinó que expressa, davant les imatges que li proporcionem i amb un percentatge de seguretat, si allà hi ha una cara o no i a quina part de la imatge es localitza. De la mateixa manera, una xarxa neuronal aplicada al càlcul del preu d’una assegurança o a la pos-sibilitat de reincidència criminal no proporcionaria una definició o una explicació argumentada del seu funcionament, sinó un output davant d’un nou cas. És aquesta opacitat del funcionament dels algorismes ge-nerats, l’aparent caixa negra de les seves operacions d’aprenentatge i les funcions amb què conclouen, el que genera una certa angoixa i contes-tació davant els seus possibles usos, si han de servir per generar accions i respostes que semblin fugir de les responsabilitats i la justificació rao-nada. Si l’operació interna queda oculta, el que no hi ha de quedar és el motiu pel qual s’ha decidit que aquella tasca pot ser calculable; cal ex-plicar el què i el com de la tasca que volem que es dugui a terme i de les dades que podem proporcionar.

La intel·ligència artificial s’aplica al món de les imatges per dues vies: la visió artificial i la generació d’imatges. La visió artificial se centra en la capacitat d’identificar el contingut de les imatges de manera automàti-ca. En part, ho hem d’entendre així: com una voluntat d’automatització del procés de descripció d’una imatge. Així doncs, un arxiu d’imatges (un arxiu històric públic, un banc d’imatges comercial, el fons fotogràfic d’un diari, les imatges pujades a les xarxes socials o un àlbum personal) ja no necessitaria que una persona es dediqués a introduir descripcions textuals i paraules clau, sinó que un programa informàtic podria execu-tar aquesta tasca. Però en el nostre món d’avui, això no només s’aplica al conjunt d’imatges existents i catalogades, sinó també al flux continu de noves imatges proporcionades per la ubiqüitat de càmeres en funci-onament. En aquest sentit, ja no parlaríem tant d’automatització de la descripció com d’automatització de la percepció. No per una diferència semàntica, en la qual caldria aprofundir (pot esgotar la descripció d’una imatge, la seva percepció?), sinó per una diferència de temporalitat: la visió artificial pot operar en temps real. Si en el cas anterior l’exemple era el de l’aplicació de descriptors per a una imatge en un arxiu, en el

1312 cat

cas de la visió artificial en temps real l’exemple civil més comú és el dels vehicles amb conducció automàtica, i el militar, el de la detecció d’ob-jectius. En el món virtual que ha envaït la nostra vida privada –xarxes socials, correu electrònic, etc.– i que és alhora arxiu i present continu, la visió artificial és l’eina necessària per convertir en informació monitora-ble també les imatges, fins avui opaques a la lectura automàtica. Part de la recerca en visió artificial respon també a aquest interès: apropiar-se d’un element que contenia restes no consumibles pel sistema.

La visió artificial té una altra característica que convé remarcar, que és que aquesta capacitat d’automatització de la descripció i la percepció no és només una eina que pot emprar i percebre un ésser humà, sinó que constitueix, de fet, un nou espectador: la xarxa neuronal mateixa. No volem dir que la xarxa sigui un subjecte, sinó que, com assenya-len artistes com Trevor Paglen1 o Hito Steyerl,2 avui en dia la majoria d’imatges ja no estan pensades per ser vistes per una persona, sinó que el seu espectador ideal, i molts cops únic, és també una màquina. Serien imatges operatives, segons l’expressió del cineasta Harun Farocki,3 i si no-saltres també les podem percebre, és només per mitjà d’una interfície que ens les tradueix i ens les fa visibles, però que és, des del punt de vista de l’operació, innecessària. El món de les imatges és cada cop més una zona d’activitat autònoma, en què la percepció humana està en minoria.

Si la visió artificial és la descripció i la identificació del que hi ha repre-sentat en una imatge, és evident que un element essencial és la decisió sobre el vocabulari que descriurà la imatge. De fet, la visió artificial es descriu més acuradament entenent-la com una operació de classifica-ció, és a dir, d’assignar a l’input una o més categories. Quines són aques-tes categories és, per tant, la pregunta inicial prèvia a tot entrenament i, amb això, es decideix el que la xarxa pot dir (només veurà això i tot ho referirà a aquestes categories). Aquesta decisió no és un resultat de la xarxa neuronal i no es pot escudar en l’aparent opacitat dels algorismes; és una decisió prèvia que ha de ser visible i discutible. Sabem que cap vocabulari no pot esgotar tot allò que hi ha en una imatge, ni cap imatge

1 Paglen, Trevor: “Invisible Images (Your Pictures Are Looking at You)”, The New Inquiry, 8 de de-sembre de 2016; https://thenewinquiry.com/invisible-images-your-pictures-are-looking-at-you/.

2 Steyerl, Hito: “The Spam of the Earth: Withdrawal from Representation”, E-Flux, núm. 32, febrer de 2012; http://www.e-flux.com/journal/32/68260/the-spam-of-the-earth-withdrawal- from-representation/.

3 Farocki, Harun: “Phantom Images”, Public, núm. 29, 2014, p. 12-22.

el que hi ha en una paraula. Les paraules i les imatges no se superposen ni encaixen d’una única manera: la distància entre les unes i les altres es pot recórrer per múltiples camins.

Per poder dur a terme l’entrenament d’una xarxa neuronal no només cal un vocabulari –un corpus de paraules– sinó també un corpus d’imat-ges associat a cada un d’aquests termes. El desenvolupament de la in-tel·ligència artificial en els darrers anys s’ha basat en l’increment de la capacitat de computació i en la disponibilitat de volums superiors de da-des. S’utilitzen tècniques i estratègies –les xarxes neuronals artificials mateixes– que ja havien estat conceptualitzades però que han produït resultats acceptables per a la indústria només quan s’han pogut aplicar a grans bases de dades. Això comporta que els estàndards quantitatius actuals dels datasets d’imatges per a un entrenament siguin molt elevats i, en conseqüència, que només estiguin a l’abast de grans projectes i em-preses (per exemple, el dataset Open Images, desenvolupat per Google, està format per 9 milions d’imatges anotades). La capacitat d’aconseguir i etiquetar grans quantitats d’imatges desborda una tasca individual o de poques persones, igual que la capacitat de computació per als entre-naments desborda la majoria d’equips domèstics –parlant dins l’estàn-dard industrial. Els datasets de partida diferencien els projectes de visió artificial, però també existeixen una sèrie de datasets que s’han conver-tit en eines comunes per a aquests projectes (per exemple, ImageNet, que és un banc d’imatges anotades estàndard per als entrenaments i

14

per testar i avaluar les que ja s’han entrenat). La xarxa neuronal aprèn d’acord amb aquestes imatges. A partir de totes les imatges que li do-nem relatives a una categoria, desenvoluparà una sèrie de processos (funcions matemàtiques) que li permetran dir, davant una nova imatge, si pertany a aquesta categoria o no. Això implica tenir imatges de cada categoria prou heterogènies per reflectir diferents situacions futures, és a dir, si es vol que identifiqui on hi ha persones en una imatge, cal te-nir una gran quantitat d’imatges de persones i que aquestes apareguin de moltes maneres possibles (de cara, d’esquena, acotades, estirades, etc.) i en molts contextos possibles (interior, exterior, poca llum, molta llum, etc.). Les característiques històriques i socials d’aquests datasets formaran part de l’eina de detecció. La historicitat tant del vocabulari com dels exemples visuals es fa evident quan veiem, per exemple, que s’identifiquen telèfons mòbils en quadres del segle xviii. Vocabulari i dataset d’imatges no poden ser universals, objectius i atemporals.

L’altre gran camp d’aplicació de les xarxes neuronals en el món de les imatges és el vessant, no de reconeixement o classificació, sinó de crea-ció d’imatges: el camp generatiu, entre altres, de les anomenades GAN (generative adversarial networks o xarxes generatives antagòniques). En aquest cas, l’aprenentatge està enfocat a produir una imatge d’unes determinades característiques. Una xarxa comuna en aquest camp és Pix2Pix, que s’entrena a partir d’un corpus elevat de parelles d’imatges. Aquesta xarxa necessita molts exemples d’una imatge A i una imatge B per aprendre, davant d’un nou input que li donem, a tractar-lo com la imatge A de la parella i generar la B. Per exemple, l’artista i programa-dor Gene Kogan ha entrenat una xarxa Pix2Pix amb imatges de mapes de ciutats i el seu equivalent en imatge per satèl·lit.4 Davant d’una nova entrada d’imatge (una sèrie de línies que dibuixem o un mapa d’una ciu-tat diferent), la xarxa generaria una imatge per satèl·lit. Existeixen al-tres tipus de xarxes generatives, però la majoria comparteixen aquest plantejament de voler que la xarxa produeixi una imatge d’un tipus par-ticular (estil, tècnica, textura, etc.).

En el projecte El mal alumne hem investigat tots dos camps: visió arti-ficial i generació d’imatges. El catàleg d’experiments que segueix és una mostra d’estratègies i exercicis per situar aquestes eines fora del seu ús normatiu primari i desfer la transparència rere la qual s’amaguen.

4 https://opendot.github.io/ml4a-invisible-cities/.

17 esp

El mal alumno

El desarrollo actual de la inteligencia artificial se centra en el aprendi-zaje automático. Las máquinas aprenden por sí solas a realizar tareas a partir de los ejemplos que les enseñamos. El objetivo de estos desarro-llos es automatizar el mayor número posible de procesos y aplicarlos a grandes bases de datos: clasificar, buscar patrones, predecir comporta-mientos o monitorizar de manera masiva. La peor cara del aprendizaje automático es la que está en consonancia con nuestro mundo hecho de vigilancia continua a gran escala y en el que los datos masivos se equi-paran a los recursos naturales y su explotación –la denominada “mine-ría de datos”–.

Si las máquinas aprenden y lo hacen en este contexto, es necesario reivindicar el mal alumno: todo aquello que escapa de la norma. Si el mundo de la inteligencia artificial utiliza la metáfora del aprendizaje, es necesario pensar una pedagogía crítica. Si la intención es que la in-teligencia artificial replique la de los humanos a escalas inhumanas, es necesario reivindicar una inteligencia artificial no mimética que provo-que relaciones e imágenes inesperadas. Si la cultura visual actual se está expandiendo en su vertiente invisible, aquella en que las máquinas ge-neran imágenes que solo verán otras máquinas, es necesario plantearse cómo podemos encarnar estas imágenes para deshacer su acción espec-tral a nuestro alrededor.

Esta publicación recopila la investigación que hemos llevado a cabo acerca de la visión artificial y la generación de imágenes con redes neu-ronales de aprendizaje profundo entre los meses de junio de 2017 y abril de 2018.

1918

Las redes neuronales están pensadas como modelos predictivos esta-dísticos: se crean para funcionar ante situaciones futuras, que deberán clasificar o transformar según las categorías aprendidas. El objetivo no es la creación de una definición o de una síntesis visible y discutible, sino la generación de salidas (outputs) ante nuevas entradas (inputs). Así, una red neuronal de visión artificial como la que mencionábamos no contie-ne una definición de una cara, sino que expresa, ante las imágenes que le proporcionamos y con un porcentaje de seguridad, si ahí hay una cara o no y en qué parte de la imagen se localiza. Asimismo, una red neuronal aplicada al cálculo del precio de un seguro o a la posibilidad de reinci-dencia criminal no proporciona una definición o una explicación argu-mentada de su funcionamiento, sino un output ante un nuevo caso. Es esta opacidad del funcionamiento de los algoritmos generados, la apa-rente caja negra de sus operaciones de aprendizaje y las funciones con las que concluyen, lo que genera una cierta angustia y contestación ante sus posibles usos, en caso de que deban servir para generar acciones y respuestas que parezcan huir de las responsabilidades y la justificación razonada. Si la operación interna queda oculta, lo que no debe quedar oculto es el motivo por el cual se ha decidido que esa tarea pueda ser cal-culable; es necesario explicar el qué y el cómo de la tarea que queremos que se lleve a cabo y de los datos que le podemos proporcionar.

La inteligencia artificial se aplica al mundo de las imágenes por dos vías: la visión artificial y la generación de imágenes. La visión artificial se centra en la capacidad de identificar el contenido de las imágenes de manera automática. En parte, debemos entenderlo así: como una volun-tad de automatización del proceso de descripción de una imagen. Así pues, un archivo de imágenes (un archivo histórico público, un banco de imágenes comercial, el fondo fotográfico de un periódico, las imágenes subidas a las redes sociales o un álbum personal) ya no necesitaría que una persona se dedicara a introducir descripciones textuales y palabras clave, sino que un programa informático podría ejecutar esta tarea. Sin embargo, en nuestro mundo actual, esto no solo se aplica al conjunto de imágenes existentes y catalogadas, sino también al flujo continuo de nuevas imágenes proporcionadas por la ubicuidad de cámaras en fun-cionamiento. En este sentido, ya no hablaríamos tanto de automatiza-ción de la descripción como de automatización de la percepción. No por una diferencia semántica, en la que se debería profundizar (¿puede ago-tar la descripción de una imagen su percepción?), sino por una diferen-cia de temporalidad: la visión artificial puede operar en tiempo real. Si

Visiones artificiales.Aprendizaje automático y cultura visual

En los últimos años, una parte de la investigación y la innovación tec-nológica se ha centrado en una área de la inteligencia artificial: las técnicas de aprendizaje automático –machine learning– que utilizan re-des neuronales artificiales profundas. Artículos académicos y noticias nos explican que estas herramientas digitales aprenden y que lo hacen de forma, hasta cierto punto, autónoma. ¿Qué es lo que aprenden y cuál es su autonomía? Aprenden a realizar tareas concretas, como por ejem-plo describir el contenido de una imagen. Es importante remarcar esta exclusividad: cada red entrenada solo realiza una tarea, aquella para la que fue diseñada. Si se consideran autónomas, es porque las perso-nas que las desarrollan no intervienen en todas las fases del proceso de creación. Lo que podemos decidir en una red neuronal artificial, ade-más de la tarea que queremos que cumpla, es su estructura interna –nú-mero de capas, tipo de funciones matemáticas que se deben aplicar y otros elementos– y qué corpus de material le proporcionamos para que aprenda. Del mismo modo, también decidimos sobre su calidad testan-do los resultados que produce. Pero en lo que no intervenimos es en la programación de los pasos concretos que llevará a cabo la herramienta para ejecutar la tarea. Este funcionamiento interno surge como conclu-sión del entrenamiento, durante el cual la red inicial se autoconfigura con una serie de valores (las operaciones que realiza la red para decidir estos valores se rigen por principios estadísticos y de probabilidad). Así, para tener una herramienta que identifique si en una imagen aparece una cara, ya no hace falta intentar construir una definición de “cara” (como sería indicar que una cara se caracteriza por tener dos ojos, dos cejas, una nariz y una boca) ni determinar qué tipo de patrones, diferencias de contraste, etc., podrían servir para identificarla en una imagen, sino que la estrate-gia sería proporcionar a la herramienta una gran cantidad de imágenes de caras, y la red neuronal aprendería, a partir de estas, qué es una cara. O mejor dicho, aprendería qué puede hacer para que frente a una nueva imagen pueda decir que allí hay una cara y nosotros estemos de acuerdo.

esp

2120

podrá decir (solo verá eso y todo lo referirá a dichas categorías). Esta decisión no es un resultado de la red neuronal y no se puede escudar en la aparente opacidad de los algoritmos; es una decisión previa que debe ser visible y discutible. Sabemos que ningún vocabulario puede agotar todo lo que hay en una imagen, ni ninguna imagen lo que hay en una palabra. Las palabras y las imágenes no se superponen ni encajan de una única manera: la distancia entre unas y otras se puede recorrer por múltiples senderos.

Para llevar a cabo el entrenamiento de una red neuronal no solo es necesario un vocabulario –un corpus de palabras– sino también un cor-pus de imágenes asociado a cada uno de estos términos. El desarrollo de la inteligencia artificial en los últimos años se ha basado en el incre-mento de la capacidad de cómputo y en la disponibilidad de mayores volúmenes de datos. Se utilizan técnicas y estrategias –las propias redes neuronales artificiales– que ya se habían conceptualizado, pero que han arrojado resultados aceptables para la industria a partir del momento en que se han podido aplicar a grandes bases de datos. Esto implica que los estándares cuantitativos actuales de los datasets de imágenes para un entrenamiento sean muy elevados y, en consecuencia, que solo es-tén al alcance de grandes proyectos y empresas (por ejemplo, el data-set Open Images, desarrollado por Google, está formado por 9 millones de imágenes anotadas). La capacidad de conseguir y etiquetar gran-des cantidades de imágenes desborda una tarea individual o de pocas personas, igual que la capacidad de cómputo para los entrenamientos desborda la mayoría de equipos domésticos –hablando dentro de los es-tándares industriales–. Los dataset de partida diferencian los proyectos de visión artificial, pero también existe una serie de datasets que se han convertido en herramientas comunes para estos proyectos (por ejem-plo, ImageNet, que es un banco de imágenes anotadas estándar para los entrenamientos y para testar y evaluar las que ya se han entrena-do). La red neuronal aprende en función de estas imágenes. A partir de todas las imágenes que le demos relativas a una categoría, desarro-llará una serie de procesos (funciones matemáticas) que le permitirán decir, ante una nueva imagen, si pertenece a esta categoría o no. Eso implica tener imágenes de cada categoría lo suficientemente hetero-géneas para reflejar diferentes situaciones futuras, es decir, si se quie-re que identifique dónde hay personas en una imagen, se necesita una gran cantidad de imágenes de personas y que estas aparezcan de mu-chas maneras posibles (de cara, de espaldas, agachadas, acostadas, etc.)

en el caso anterior el ejemplo era el de la aplicación de descriptores para una imagen en un archivo, en el caso de la visión artificial en tiempo real el ejemplo civil más común es el de los vehículos con conducción auto-mática, y el militar, el de la detección de objetivos. En el mundo virtual que ha invadido nuestra vida privada –redes sociales, correo electróni-co, etc.– y que es al mismo tiempo archivo y presente continuo, la vi-sión artificial es la herramienta necesaria para convertir en información monitorizable también las imágenes, hasta hoy opacas a la lectura auto-mática. Parte de la investigación en visión artificial también responde a este interés: apropiarse de un elemento que contenía restos no consu-mibles por el sistema.

La visión artificial posee otra característica que conviene remarcar, que es que esta capacidad de automatización de la descripción y la per-cepción no solo es una herramienta que puede utilizar y percibir un ser humano, sino que constituye, de hecho, un nuevo espectador: la pro-pia red neuronal. No queremos decir que la red sea un sujeto, sino que, como señalan artistas como Trevor Paglen1 o Hito Steyerl,2 hoy en día la mayoría de imágenes ya no están pensadas para ser vistas por una per-sona, sino que su espectador ideal, y muchas veces único, es también una máquina. Serían imágenes operativas, según la expresión del cineas-ta Harun Farocki,3 y si nosotros también las podemos percibir, es solo por medio de una interfaz que las traduce y las hace visibles, pero que es, desde el punto de vista de la operación, innecesaria. El mundo de las imágenes es cada vez más una zona de actividad autónoma, en la cual la percepción humana está en minoría.

Si la visión artificial es la descripción y la identificación de lo repre-sentado en una imagen, es evidente que un elemento esencial es la de-cisión acerca del vocabulario que describirá la imagen. De hecho, la visión artificial se describe con mayor precisión entendiéndola como una operación de clasificación, esto es, asignando al input una o más categorías. Cuáles son estas categorías es, por lo tanto, la pregunta ini-cial previa a todo entrenamiento y, con ellas, se decide lo que la red

1 Paglen, Trevor: “Invisible Images (Your Pictures Are Looking at You)”, The New Inquiry, 8 de diciembre de 2016; https://thenewinquiry.com/invisible-images-your-pictures-are-looking-at-you/.

2 Steyerl, Hito: “The Spam of the Earth: Withdrawal from Representation”, E-Flux, n.º 32, febrero de 2012; http://www.e-flux.com/journal/32/68260/the-spam-of-the-earth-withdrawal-from- representation/.

3 Farocki, Harun: “Phantom Images”, Public, n.º 29, 2004, pp. 12-22.

esp

2322

y en muchos contextos posibles (interior, exterior, poca luz, mucha luz, etc.). Las características históricas y sociales de estos datasets formarán parte de la herramienta de detección. La historicidad tanto del vocabu-lario como de los ejemplos visuales se hace evidente cuando vemos, por ejemplo, que se identifican teléfonos móviles en cuadros del siglo xviii. Vocabulario y dataset de imágenes no pueden ser universales, objetivos y atemporales.

El otro gran campo de aplicación de las redes neuronales en el mundo de las imágenes es la vertiente, no de reconocimiento o clasificación, sino de creación de imágenes: el campo generativo, entre otras, de las denominadas GAN (generative adversarial networks o redes generativas antagónicas). En este caso, el aprendizaje está enfocado a producir una imagen de unas determinadas características. Una red común en este campo es Pix2Pix, que se entrena a partir de un corpus elevado de pare-jas de imágenes. Esta red necesita muchos ejemplos de una imagen A y una imagen B para aprender, ante un nuevo input que le demos, a tratar-lo como la imagen A del par y generar la B. Por ejemplo, el artista y pro-gramador Gene Kogan ha entrenado una red Pix2Pix con imágenes de mapas de ciudades y su equivalente en imágenes de satélite.4 Ante una nueva entrada de imagen (una serie de líneas que dibujemos o un mapa de una ciudad distinta), la red generaría una imagen de satélite. Existen otros tipos de redes generativas, pero la mayoría comparten este plan-teamiento de querer que la red produzca una imagen de un tipo particu-lar (estilo, técnica, textura, etc.).

En el proyecto El mal alumno hemos investigado ambos campos: vi-sión artificial y generación de imágenes. El catálogo de experimentos que sigue es una muestra de estrategias y ejercicios para situar estas herramientas fuera de su uso normativo primario y deshacer la trans-parencia tras la que se esconden.


18979 person5324 organism5083 living thing4435 artifact3763 instrumentality2842 worker1823 container1486 motor vehicle1302 wheeled vehicle 995 train 761 public transport 660 self-propelled vehicle 612 traveler 579 animal 475 furnishing 460 bench 400 conveyance 332 employee 318 timer 312 seat 291 bus 277 car 254 furniture 236 chordate 226 parking meter 216 passenger train 185 park bench 159 motorcycle 151 bicycle 145 truck 130 vertebrate

87 horse81 skilled worker75 clock67 entertainer63 mammal62 workhorse61 ungulate49 push-bike47 defender43 trolleybus38 carthorse37 placental37 commuter36 draft horse33 sheet33 odd-toed ungulate29 moped24 timepiece21 inhabitant20 equine19 protective covering19 device18 umbrella17 whole17 serviceman16 ski16 skateboard16 covering16 contestant11 board9 workman9 wagon

8 leader7 consumer goods7 cart6 shelter6 businessperson5 tractor5 performer5 military officer5 measuring instrument5 commodity5 chair4 necktie4 horse-drawn vehicle4 canopy3 object2 rider2 neckwear2 instrument2 garment2 clothing2 carriage1 tramline1 stagecoach1 even-toed ungulate1 commissioned officer1 bow tie1 black tie1 bicycle-built-for- two

A Trip Down Market Street (Miles Brothers, 1906)

25 eng

The Bad Pupil

The development of artificial intelligence today is focused on machine learning. Machines learn by themselves to carry out tasks using examples that we teach them. The aim of these developments is to auto-mate the maximum possible number of processes and to apply them to vast databases: to classify, to identify patterns, to predict behaviour and to carry out mass monitoring. The worst side of automatic learning is the one that is in keeping with our world of constant surveillance on a large scale, a world in which mass data are regarded as equivalent to natural resources and their exploitation, termed ‘data mining’.

If machines learn and do so in this context, what we need to cham-pion is the bad pupil: everything that sidesteps the norm. If the world of artificial intelligence uses the metaphor of learning, what we need is to formulate a critical pedagogy. If the intention is for artificial intelli-gence to replicate that of humans on inhuman scales, what is required is to champion non-mimetic artificial intelligence that gives rise to un-expected relations and images. If visual culture today is expanding on its invisible side, the one on which machines generate images that only other machines will see, we need to consider how we can embody those images in order to undo their ghostly action in our surroundings.

This publication contains the research we did on artificial vision and image generation using deep learning neural nets between June 2017 and April 2018.

2726

Neural nets are designed as statistical predictive models: they are created for use in future situations, which they will have to classify or transform depending on the categories they have learned. The goal is not the creation of a definition or of a visible synthesis open to discus-sion but the generation of outputs in response to new inputs. Thus, an artificial vision neural network like the one mentioned does not con-tain a definition of a face, but it expresses, in response to the images we provide it with and with a degree of certainty, whether that image contains a face or not and, if so, in which part of the image it is located. Similarly, a neural net applied to calculating the price of an insurance policy or the possibility of a criminal re-offending does not provide a definition or well-argued explanation of its functioning, but an output in response to a new case. It is this opaqueness of the functioning of the algorithms generated, the apparent black box of their learning opera-tions and the functions they arrive at, that generates a certain unease and opposition to their possible uses if they are employed to generate actions and responses that seem to evade responsibilities and reasoned justification. If the internal workings remain hidden, what must not re-main concealed is the reason why it has been decided that the task in question can be calculated; it is essential to explain the task to be per-formed and the data we can provide.

Artificial intelligence is used in the world of images in two ways: arti-ficial vision and image generation. Artificial vision focuses on the abil-ity to identify the content of images automatically. In part, we should regard this as a desire to automate the process of describing an image. So, an archive of images (a public history archive, a commercial image bank, the photographic holdings of a newspaper, the images posted on social media or a personal album) no longer requires a person to intro-duce descriptive texts and key words, as a computer program can now perform this task instead. However, in today’s world, artificial vision is not only employed for existing and catalogued images but for the continual influx of new images provided by the cameras operating all around us. Consequently, not only do we talk about machine descrip-tion but also of machine perception. Not because of a semantic differ-ence that needs to be explored (can the description of an image exhaust its perception?) but because of a time difference: artificial vision can operate in real time. Whereas in the previous example it was a matter of the application of descriptors to an image in an archive, in the case of real-time artificial vision, the most common civilian example is that

eng

Artificial Visions. Machine Learning and Visual Culture

In recent years, some research and technological innovation has been focused on a particular field in artificial intelligence: the ma-chine learning techniques that use deep artificial neural networks. Academic articles and news reports tell us that these digital tools learn and that they do so in a way that is to a certain extent auton-omous. What is it that they learn and what is their autonomy? What they learn is to perform specific tasks, such as describing the content of an image. It is important to note this exclusivity: each trained net-work only carries out a single task, the one for which it was designed. These networks are regarded as autonomous inasmuch as people are not involved in every phase of the process to create them. What we hu-mans can decide about an artificial neural net, in addition to the task we want it to perform, is its internal structure – the number of layers, the types of mathematical function to be applied and other elements – and the body of material that we will provide it with in order for it to learn. Similarly, we also make decisions about its quality by testing the results it produces. However, we play no part in programming the particular steps the tool takes to resolve the task. This internal func-tioning arises as a conclusion of the training, during which the initial network configures itself by using a series of values (the operations the network does to decide these values are governed by principles of statistics and probability). So, to have a tool that can identify whether an image contains a face, there is no need to attempt to construct a definition of a ‘face’ (by indicating, for example, that a face has two eyes, two eyebrows, a nose and a mouth) or to determine what kind of pattern, differences in contrast, etc. could be used to identify one in an image. Instead, the strategy employed is to provide the tool with a large number of images of faces and the neural net learns what a face is by basing itself on these. Or rather, it will learn what it can do to en-sure that when presented with a new image it can say that it contains a face and we agree with it.

2928

no vocabulary can exhaust everything contained within an image, nor is there any image that can exhaust everything in a word. Words and im-ages do not overlay each other, nor do they fit together in a single way: the distance between them can be travelled using many paths.

In order to train a neural net, not only is a vocabulary – a corpus of words – required, but also a body of images associated with each of these terms. The development of artificial intelligence in recent years has been based on the increase in computing capacity and on the availabil-ity of larger volumes of data. Techniques and strategies – the artificial neural nets themselves – are used that had already been conceptual-ised but which have produced acceptable results for industry only when it has been possible to apply them to huge databases. This means that the current quantitative standards of datasets of images for training are extremely high and so they are only within the reach of large projects and companies (for example, the Open Images dataset, developed by Google, consists of 9 million annotated images). Acquiring and labelling large quantities of images is beyond the capability of one individual or a small group, just as the computing capacity for training is far greater than that of most domestic equipment – speaking within the industri-al standard. Artificial vision projects are distinguished by the datasets on which they are based, but there is also a series of datasets that have become common tools for these projects (for example, ImageNet, a

eng

of self-driving vehicles, and the most frequent military example is the identification of targets. In the virtual world that has invaded our pri-vate lives – social media, email, etc. – and which is both an archive of the past and the present continuous, artificial vision is the tool needed to turn images, previously unreadable by machines, into information that can be monitored. Part of the research into artificial vision is also in response to this interest: to appropriate an element that contained re-mains that could not be consumed by the system.

Artificial vision has another characteristic worth noting and that is that this ability to automate description and perception is not only a tool that can make use of and perceive a human being, but that it in fact constitutes a new spectator: the neural net itself. By this, we do not mean that the network is a subject but that, as artists such as Trevor Paglen1 and Hito Steyerl2 point out, most images today are not intend-ed to be seen by one person; instead their ideal, and often their only, viewer is also a machine. These are ‘operative images’, as the filmmaker Harun Farocki3 puts it, and if we too are able to perceive them, it is only by means of an interface that translates them for us and makes them visible to us. However, from the operational point of view, this is un-necessary. The world of images is increasingly an area of autonomous activity in which human perception is in the minority.

If artificial vision is the description and identification of the contents of an image, it is evident that one essential element is the decision re-garding the vocabulary to be used to describe the image. In fact, artificial vision is more accurately described as an operation to classify, in oth-er words, to assign one or more categories to the input. Consequently, what these categories are is the initial question prior to any training and, with it, the decision is made regarding what the network can say (it will only see this and it will refer everything to these categories). This de-cision is not an output of the neural net and it is not possible to hide behind the apparent opaqueness of the algorithms; it is a prior decision that needs to be out in the open and subject to discussion. We know that

1 Paglen, Trevor: “Invisible Images (Your Pictures Are Looking at You)”, The New Inquiry, 8 December 2016; https://thenewinquiry.com/invisible-images-your-pictures-are-looking-at-you/.

2 Steyerl, Hito: “The Spam of the Earth: Withdrawal from Representation”, E-Flux, no. 32, February 2012; http://www.e-flux.com/journal/32/68260/the-spam-of-the-earth-withdrawal- from-representation/.

3 Farocki, Harun: “Phantom Images”, Public, no. 29, 2014, pp. 12-22.

3130

ExperimentsExperimentosExperiments

standard bank of annotated images for training nets and for testing and evaluating those already trained). The neural net learns on the basis of these images. From the images relating to a category that we give a neu-ral net, it will develop a series of processes (mathematical functions) that will enable it say whether a new image presented to it belongs to this category or not. This means having images in each category that are sufficiently varied to reflect different future situations. In other words, if we wish to identify where there are people in an image, we need a large number of images of people, and these people must be shown in many different ways (face on, from behind, stooping, reclining, etc.) and in nu-merous possible contexts (indoors, outdoors, dimly lit, brightly lit, etc.). The historical and social characteristics of these datasets will form part of the detection tool. The historicity of the vocabulary and of the visual examples becomes clear when we see that mobile phones, for example, are identified in 18th-century paintings. The vocabulary and dataset of images are incapable of being universal, objective and timeless.

The other major field in the world of images in which neural nets are applied is not image recognition or classification but creation: the gen-erative field, among others, of GANs (generative adversarial networks). In this case, the learning is focused on producing an image with cer-tain characteristics. A common network in this area is Pix2Pix, which trains itself using a large body of pairs of images. This network requires many examples of an image A and an image B in order to learn to treat a new input that we give it as image A of a pair and to generate the cor-responding image B. For example, the artist and programmer Gene Kogan has trained a Pix2Pix network using images of maps of cities and their matching satellite image.4 When given a new image input (a series of drawn lines or the map of a different city), the network generates a satellite image. There are other types of generative networks, but most share this approach of wanting the network to produce an image of a particular nature (style, technique, texture, etc.).

In The Bad Pupil project, we have researched both fields: artificial vision and image generation. The catalogue of experiments that follows is a selection of strategies and exercises to place these tools outside their conventional primary use and to undo the transparency behind which they hide.


33

1

2

Què és el que veus, YOLO9000? ¿Qué es lo que ves, YOLO9000? What do you see, YOLO9000?

YOLO9000 és una xarxa neuronal de reconeixement d’objectes entre-nada amb un dataset de 9.418 paraules i milions d’imatges. Els experi-ments que segueixen estan enfocats a investigar-ne el funcionament: entendre què veu i com parla.

YOLO9000 es una red neuronal de reconocimiento de objetos entre-nada con un dataset de 9.418 palabras y millones de imágenes. Los ex-perimentos que siguen están enfocados a investigar su funcionamiento: entender qué ve y cómo habla.

YOLO9000 is an object detection neural net trained using a dataset of 9,418 words and millions of images. The experiments that follow fo-cus on exploring its functioning: understanding what it sees and how it speaks.

cat

esp

eng

34

Les imatges dins la imatgeLa visió artificial de reconeixement d’objectes concep les imatges de manera realista i discontínua. És a dir, es tracta d’identificar frag-ments de la imatge com a representacions d’objectes o éssers vius, i la imatge no s’interpreta com una totalitat sinó com un conjunt d’ele-ments discrets.

Hem alterat la sortida gràfica de YOLO9000 amb diferents combinatò-ries sobre què es veu i què s’oculta. Aquestes sortides gràfiques fan evident el caràcter discret i parcial de la identificació (img. 1 i 2), juguen amb la distància entre la identificació verbal i la visual (img. 3) o converteixen el procés d’identificació en una pel·lícula abstracta (com un seguiment dels moviments en la imatge amb el codi de colors de YOLO9000, img. 4).

Las imágenes dentro de la imagenLa visión artificial de reconocimiento de objetos concibe las imágenes de manera realista y discontinua. Es decir, se trata de identificar frag-mentos de la imagen como representaciones de objetos o seres vivos, y la imagen no se interpreta como una totalidad sino como un conjunto de elementos discretos.

Hemos alterado la salida gráfica de YOLO9000 con diferentes com-binatorias sobre lo que se ve y lo que se oculta. Estas salidas gráficas evidencian el carácter discreto y parcial de la identificación (img. 1 y 2), juegan con la distancia entre la identificación verbal y la visual (img. 3) o convierten el proceso de identificación en una película abstracta (como un seguimiento de los movimientos en la imagen con el código de colo-res de YOLO9000, img. 4).

The images within the imageArtificial vision for recognising objects regards images in a realistic and broken manner. In other words, it identifies fragments of an image as representations of objects or living beings; the image is not interpreted as a totality but as a collection of discrete elements.

We have altered the graphic output of YOLO9000 using various combinations regarding what is seen and what is hidden. These graph-ic outputs reveal the discrete and incomplete nature of the identifica-tion (img. 1 and 2), they play with the gap between verbal and visual identification (img. 3), and they convert the identification process into an abstract film (like a tracking of movements in the image using the YOLO9000 colour code, img. 4).

cat

esp

eng

3

4

3736

Treballadors, mercaderies i amantsQualsevol imatge processada amb YOLO9000 és tant un experiment de monitoratge de la imatge com un experiment sobre la xarxa neuronal mateixa. Com si es tractés d’un test de Rorschach, els vídeos i les imat-ges que li subministrem són un mecanisme projectiu en què la xarxa ens parla d’ella mateixa, d’allò que veu i d’allò que sap.

Les imatges 5-10 són una selecció d’identificacions efectuades per YOLO9000. Són una mostra del seu vocabulari i de com la identificació no funciona de manera unívoca, sinó provocant relacions i suplements de sentit inesperats. En molts casos, afegir el text d’identificació no esgota la imatge, sinó que l’obre a nous significats. El fet de subministrar-li imat-ges històriques –tant si són filmacions del segle xx com pintures de segles anteriors– incrementa aquest joc de xocs entre la imatge i la paraula.

Trabajadores, mercancías y amantesCualquier imagen procesada con YOLO9000 es tanto un experimento de monitorización de la imagen como un experimento sobre la propia red neuronal. Como si de un test de Rorschach se tratara, los vídeos y las imágenes que le suministramos son un mecanismo proyectivo en el que la red nos habla de sí misma, de lo que ve y lo que sabe.

Las imágenes 5-10 son una selección de identificaciones efectuadas por YOLO9000. Son una muestra de su vocabulario y de cómo la iden-tificación no funciona de manera unívoca, sino provocando relaciones y suplementos de sentido inesperados. En muchos casos, añadir el texto de identificación no agota la imagen, sino que la abre a nuevos significa-dos. El hecho de suministrarle imágenes históricas –tanto si son filma-ciones del siglo xx como pinturas de siglos anteriores– incrementa este juego de choques entre la imagen y la palabra.

Workers, commodities and loversAny image processed using YOLO9000 is both an experiment in image monitoring and an experiment on the neural net itself. Like a Rorschach test, the images we supply it are a projective mechanism in which the network talks to us about itself, what it sees and what it knows.

Images 5 to 10 are a selection of identifications made by YOLO9000 and are a sample of its vocabulary. They also demonstrate how identifi-cation is not univocal but instead generates unexpected connections and additional meanings. In many cases, adding the identification text does not exhaust the image but opens up new significations. Supplying it with

cat

esp

eng

historical images – film footage shot in the 20th century or paintings from earlier centuries – intensifies this clash between the image and the word.

5

6

39 cat7 8

41 cat

9

10

Competència lèxicaEl vocabulari de YOLO9000 està format per 9.418 paraules estructura-des de manera jeràrquica. La imatge 11 mostra fragments d’una visualit-zació en forma de xarxa d’aquesta jerarquia (es pot explorar de manera interactiva aquesta visualització a la web del projecte).

Seleccionar les paraules del vocabulari és decidir tot allò que pot identificar la xarxa. Si una xarxa aprengués només dues paraules, tot ho diria amb aquestes dues paraules. En el cas de YOLO9000 el seu voca-bulari prové principalment del dataset ImageNet.

ImageNet és una base de dades d’imatges anotades creada per la in-vestigadora Fei-Fei Li amb les universitats de Stanford i Princeton com un recurs per a la recerca en visió artificial. El seu corpus de paraules prové de WordNet, una base de dades del lèxic de l’anglès organitzada jeràrquicament en funció del significat de les paraules. ImageNet reco-pila una gran quantitat d’imatges per a cada una de les categories, amb la qual cosa transforma WordNet en una mena de diccionari visual. En aquest sentit, els datasets d’imatges són una nova encarnació dels atles visuals i la seva voluntat de “portar el món sobre les espatlles”, segons l’expressió de Didi-Huberman.1 Però que les paraules tinguin un signi-ficat no vol dir que tinguin una equivalència visual. Els límits de la rela-ció entre imatges i paraules es fan evidents per a qualsevol que recorri les categories d’ImageNet relatives a persones: es pot crear un dataset d’imatges per a la categoria bad person? (img. 16). Els criteris morals són elements que puguin ser visibles en les imatges? En el cas del gènere, les imatges d’ImageNet també són eloqüents: per exemple, en la catego-ria smasher, stunner, knockout [...] (“una dona molt atractiva o seducto-ra”, segons la definició del mateix dataset), que no defineix el contingut de la imatge sinó el tipus de mirada amb què s’ha construït (img. 15). Aquests són exemples que de tan evidents semblen absurds, però tot i això formen part d’aquest dataset, que és un dels estàndards en visió ar-tificial. No deixa de poder-s’hi veure un símptoma sobre les fantasies de la visió artificial i els límits i els perills de la definició visual.

Si l’arbre de conceptes prové de WordNet, les imatges que l’il·lus-tren provenen principalment de plataformes com Flickr. El món visu-al d’aquest dataset, per tant, s’ha creat amb un imaginari molt concret: el de les xarxes socials i les plataformes 2.0. De fet, monitorar aquest

1 Didi-Huberman, Georges: Atlas. ¿Cómo llevar el mundo a cuestas?, Madrid: TF Editores / Museo Reina Sofía, 2010.

cat

42

univers és una de les tasques per a les quals es desenvolupa la recerca en visió artificial. Però fins a quin punt l’entrenament queda marcat per aquest imaginari?

L’etiquetatge de les imatges segons els conceptes predeterminats re-quereix una gran força de treball. En el cas d’ImageNet, s’ha aconseguit per mitjà d’Amazon Mechanical Turk, una plataforma en què s’ofereix dur a terme tasques concretes a canvi de pocs diners (cèntims de dòlar). Els treballadors reben una definició i un conjunt d’imatges i han de se-leccionar quines inclouen aquest objecte i enquadrar-lo dins la imatge. Com assenyala l’artista i programador Nicolas Malevé,2 aquesta econo-mia de la producció dels datasets provoca una paradoxa aparent, en què les persones fan feina mecànica i rutinària i les màquines es qualifiquen d’intel·ligents.

Totes aquestes qüestions relatives a ImageNet porten a preguntar-se per la possibilitat de crear datasets alternatius. Quins conceptes podri-en incloure? Quina taxonomia els podria organitzar? Quins conjunts d’imatges podrien utilitzar-se?

Competencia léxicaEl vocabulario de YOLO9000 está formado por 9.418 palabras estruc-turadas jerárquicamente. La imagen 11 muestra fragmentos de una vi-sualización en forma de red de esa jerarquía (esta visualización se pue-de explorar de manera interactiva en la web del proyecto).

Seleccionar las palabras del vocabulario es decidir todo lo que puede identificar la red. Si una red aprendiera solo dos palabras, todo lo diría con estas dos palabras. En el caso de YOLO9000, su vocabulario pro-viene principalmente del dataset ImageNet.

ImageNet es una base de datos de imágenes anotadas creada por la investigadora Fei-Fei Li con las universidades de Stanford y Princeton como un recurso para la investigación en visión artificial. Su corpus de palabras proviene de WordNet, una base de datos del léxico del inglés organizada jerárquicamente en función del significado de las palabras. ImageNet recopila una gran cantidad de imágenes para cada una de las categorías, con lo que WordNet se convierte en una especie de diccio-nario visual. En este sentido, los datasets de imágenes son una nueva encarnación de los atlas visuales y su voluntad de “llevar el mundo a

2 Malevé, Nicolas: “Machine Pedagogies”, disponible a: https://machineresearch.wordpress.com/ 2016/09/26/nicolas-maleve/ [consulta: gener de 2018].

esp

11

swam

pcu

ltivat

ed la

nd

regi

on

regi

on

pass

line

poin

top

enin

g

oxbo

wflo

orpi

netu

mpl

ain

step

pecig

aret

te b

utt

pipe

fittin

g

hand

le

aret

evo

lcani

c cr

ater

sprin

gice

mas

sna

tura

l dep

ress

ionna

tura

l elev

ation

ocea

nfro

ntm

assif

cliff

shor

eta

lusrid

gera

nge

lakef

ront

slope

cave

fores

hore

beac

h

cour

se

mot

her's

milk

vita

min

kosh

erm

eal be

dsid

eso

il hor

izon

extre

mity

bent

hos

reso

rt ar

ea

geog

raph

ical a

rea

dist

rict

col

defile

hem

line

spoo

rcr

est

topo

grap

hic

poin

two

rkpl

ace

half-

mas

tkn

otho

lech

asm

panh

andl

est

ock

haft

ax h

andl

ebr

oom

stick

pist

ol g

ripho

t spr

ing

geys

erice

cap

icebe

rgAl

pine

gla

cier

glac

ier

valle

ylun

ar cr

ater

landf

illsin

khole

basin

crat

er

bed

hole

table

land

hill

mou

ntain

highla

nd

ridge

prom

onto

ry

crag

prec

ipice

seas

hore

stran

dlak

eside

mou

ntain

side

desc

ent

hillsi

desk

i slop

ees

carp

men

t

bank

downh

illas

cent

brae

uphil

lco

veca

vern

grott

o

4544

cuestas”, según la expresión de Didi-Huberman.1 Pero que las palabras tengan un significado no quiere decir que tengan una equivalencia vi-sual. Los límites de la relación entre imágenes y palabras se hacen evi-dentes para cualquiera que recorra las categorías de ImageNet relativas a personas: ¿se puede crear un dataset de imágenes para la categoría bad person? (img. 16). ¿Los criterios morales son elementos que se pue-den apreciar en las imágenes? En el caso del género, las imágenes de ImageNet también son elocuentes: por ejemplo en la categoría smasher, stunner, knockout [...] (“una mujer muy atractiva o seductora”, según la definición del propio dataset), que no define el contenido de la imagen sino el tipo de mirada con la que se ha construido (img. 15). Estos son ejemplos que de tan evidentes parecen absurdos, pero aún así forman parte de este dataset, que es uno de los estándares en visión artificial. Es imposible no ver en ellos un síntoma de las fantasías de la visión artifi-cial, así como de los límites y los peligros de la definición visual.

Si el árbol de conceptos proviene de WordNet, las imágenes que lo ilustran provienen principalmente de plataformas como Flickr. El mun-do visual de este dataset, por lo tanto, se ha creado con un imaginario muy concreto: el de las redes sociales y las plataformas 2.0. De hecho, monitorizar este universo es una de las tareas para las que se desarrolla la investigación en visión artificial. Pero, ¿hasta qué punto el entrena-miento queda marcado por este imaginario?

El etiquetado de las imágenes según los conceptos predeterminados requiere una gran fuerza de trabajo. En el caso de ImageNet, se ha con-seguido por medio de Amazon Mechanical Turk, una plataforma en la que se ofrece la realización de tareas concretas a cambio de poco di-nero (céntimos de dólar). Los trabajadores reciben una definición y un conjunto de imágenes y deben seleccionar cuáles incluyen este objeto y encuadrarlo dentro de la imagen. Como indica el artista e investigador Nicolas Malevé,2 esta economía de la producción de los datasets provo-ca una aparente paradoja, en la que las personas llevan a cabo tareas mecánicas y rutinarias y las máquinas se califican de inteligentes.

Todas estas cuestiones relativas a ImageNet llevan a preguntarse so-bre la posibilidad de crear datasets alternativos. ¿Qué conceptos podrían

1 Didi-Huberman, Georges: Atlas. ¿Cómo llevar el mundo a cuestas?, Madrid: TF Editores / Museo Reina Sofía, 2010.

2 Malevé, Nicolas: “Machine Pedagogies”, disponible en https://machineresearch.wordpress.com/ 2016/09/26/nicolas-maleve/ [consulta: enero de 2018].

incluir? ¿Qué taxonomía los podría organizar? ¿Qué conjuntos de imá-genes podrían utilizarse?

Lexical competenceYOLO9000’s vocabulary consists of 9,418 words structured hierarchically. Image 11 shows fragments of a visualisation of this hierarchy in the manner of a network (this visualisation can be explored interactive-ly on the project website).

To decide the words in the vocabulary is to decide everything that the net can identify. If a net only learns two words, it will say everything us-ing these two words. In the case of YOLO9000, its vocabulary comes mainly from the ImageNet dataset.

ImageNet is a database of annotated images created by researcher Fei-Fei Li with Stanford University and Princeton University as a resource for research into artificial vision. Its corpus of words comes from WordNet, a lexical database for the English language organised hierarchically on the basis of the meaning of words. ImageNet has compiled a large num-ber of images for each of the categories, thereby transforming WordNet into a kind of visual dictionary. Image datasets are, therefore, a new in-carnation of visual atlases and their wish to “shoulder the world”, as Didi-Huberman puts it.1 However, words may have a meaning but this is not to say that they have a visual equivalent. The limits of the connection be-tween images and words are plain to see if you look through the ImageNet categories relating to people: is it possible to create a dataset of images for the category of a ‘bad person’? (img. 16). Are moral criteria elements that are visible in images? In the case of gender, the ImageNet images are also telling: for example, the ‘smasher, stunner, knockout […]’ category (“a very attractive or seductive looking woman”, according to the defi-nition of the dataset itself ) does not define the content of the image but the type of gaze with which it has been constructed (img. 15). These are examples that are so obvious they seem absurd, but even so they are part of this dataset, which is one of the standards in artificial vision. One can-not help but see here a symptom of the fantasies regarding artificial vision and the limits and dangers of visual definition.

While the tree of concepts comes from WordNet, the images that illus-trate it come in the main from platforms such as Flickr. The visual world

1 Didi-Huberman, Georges: Atlas. How to Carry the World on One’s Back?, Madrid: TF Editores / Museo Reina Sofía, 2010.

eng

47

15 person / female, female person / woman, adult female / smasher, stunner, knockout

of this dataset has, therefore, been created using a very specific imagin-ary: that of Web 2.0 social media and platforms. In fact, monitoring this universe is one of the tasks for which research into artificial vision is being pursued. But to what extent is the training influenced by this imaginary?

Labelling images according to predetermined concepts requires a tremendous amount of work. In the case of ImageNet, it has been achieved thanks to Amazon Mechanical Turk, a platform that offers to undertake specific tasks in exchange for a small financial reward (calcu-lated in dollar cents). Workers are given a definition and a collection of images and they have to select those that include this object and draw a bounding box around it in the image. As the artist and programmer Nicolas Malevé2 points out, this economy in the production of datasets gives rise to a seeming paradox in which people do mechanical and rou-tine work while machines are described as intelligent.

All of these issues related to ImageNet led us to wonder about the possibility of creating alternative datasets. What concepts might they include? What taxonomy could organise them? What groups of images could be used?

2 Malevé, Nicolas: “Machine Pedagogies”, available from: https://machineresearch.wordpress.com/ 2016/09/26/nicolas-maleve/ [retrieved January 2018].

14

12 person / leader / demigod, superman, Ubermensch

14 person / extrovert, extravert

13 person / follower / Wagnerian

16

49

17

18

TaxonomiesTaxonomías Taxonomies

En la visió artificial, l’elecció de les paraules per descriure la imatge és la tasca menys automàtica: se n’encarreguen els humans. Sobre la base d’aquests glossaris, la màquina actua com el nostre millor alum-ne: aprèn el que nosaltres li fem veure. Aconseguir que una visió arti-ficial funcioni implica educar-la en un sistema particular de veure. Els experiments que segueixen es basen en la substitució del vocabulari de YOLO9000 per altres llistes de paraules. Aquests exercicis plantegen maneres de veure que obren diversos interrogants: quines categories establim a l’hora de fer classificacions? Pot existir una taxonomia que permeti una visió tècnicament neutra?

En la visión artificial, la elección de las palabras para describir la imagen es la tarea menos automática: corre a cargo de los humanos. En base a estos glosarios, la máquina actúa como nuestro mejor alumno: aprende lo que nosotros le hagamos ver. Conseguir que una visión artificial fun-cione implica educarla en un sistema particular de ver. Los siguientes experimentos se basan en la sustitución del vocabulario de YOLO9000 por otros listados de palabras. Estos ejercicios plantean maneras de ver que abren varios interrogantes: ¿qué categorías establecemos al hacer clasificaciones? ¿Puede existir una taxonomía que permita una visión técnicamente neutra?

In artificial vision, the choice of words to describe an image is the least automatic task, as humans are commissioned to perform it. The machine uses these glossaries to act as our best pupil: it learns what we make it see. Getting artificial vision to work implies educating it in a particular system of seeing. The experiments that follow are based on replacing the YOLO9000 vocabulary with other lists of words. These exercises posit ways of seeing that raise various questions: what categories do we establish when we come to define our classifications? Is it possible for there to be a taxonomy that enables technically neutral vision?

cat

esp

eng

5150

Tesaurus de RogetEl vocabulari emprat per YOLO9000 és un tesaurus: un glossari jerar-quitzat. Cada terme forma un arbre que conté els mots que en depenen semànticament. Per a aquesta substitució s’ha utilitzat un altre tesaurus cèlebre, l’elaborat el 1805 per Peter Mark Roget, metge britànic, teòleg natural i lexicògraf. El tesaurus de Roget és una obra epistemològica que conté conceptes relacionats amb l’existència, el canvi, el raonament o els afectes. Un repertori abstracte que contrasta amb els termes con-crets de YOLO9000. En aquest exercici, l’etiquetatge “persona” queda substituït pel terme “ortodòxia”. O a uns feixos de bitllets se’ls adjudica l’etiqueta “plaer físic” (img. 19).

Tesauro de RogetEl vocabulario empleado por YOLO9000 es un tesauro: un glosario je-rarquizado. Cada término forma un árbol que contiene las palabras que dependen semánticamente de él. Para esta sustitución se ha utilizado otro célebre tesauro, el elaborado en 1805 por Peter Mark Roget, médico británico, teólogo natural y lexicógrafo. El tesauro de Roget es una obra epistemológica que contiene conceptos relacionados con la existencia, el cambio, el razonamiento o los afectos. Un repertorio abstracto que contrasta con los términos concretos de YOLO9000. En este ejercicio, la etiqueta “persona” queda sustituida por el término “ortodoxia”. O a unos fajos de billetes se les adjudica la etiqueta “placer físico” (img. 19).

Roget’s ThesaurusThe vocabulary used by YOLO9000 is a thesaurus: a hierarchical glos-sary. Each term forms a tree that contains the words that depend on it semantically. For this replacement, another famous thesaurus has been used, the one drawn up in 1805 by Peter Mark Roget, a British physi-cian, natural theologian and lexicographer. Roget’s Thesaurus is an epi- stemological work that contains concepts related to existence, change, reasoning and the emotions, an abstract repertoire that contrasts with the concrete terms of YOLO9000. In this exercise, the ‘person’ label is replaced by the term ‘orthodoxy’, or bundles of banknotes are labelled ‘physical pleasure’ (img. 19).

cat

esp

eng

Improvised explosive deviceL’any 2012 el Departament de Seguretat Nacional dels Estats Units (DHS) es va veure obligat a publicar la llista de 377 paraules clau i frases que utilitza per monitorar correus electrònics i xarxes socials. La llista proporciona una visió del que l’espionatge entén com a “senyals d’ame-naces terroristes o d’altres tipus contra els EUA”. Substituir el vocabulari de YOLO9000 per aquestes paraules és un gest que posa en relleu l’ús de la visió artificial com a eina de vigilància massiva (img. 17 i 18).

Improvised explosive deviceEn 2012, el Departamento de Seguridad Nacional de Estados Unidos (DHS) se vio obligado a publicar la lista de 377 palabras clave y frases que utiliza para monitorizar correos electrónicos y redes sociales. La lista pro-porciona una visión de lo que el espionaje entiende como “señales de ame-nazas terroristas o de otros tipos contra EE. UU.”. Sustituir el vocabulario de YOLO9000 por estas palabras es un gesto que pone de relieve el uso de la visión artificial como herramienta de vigilancia masiva (img. 17 y 18).

Improvised explosive deviceIn 2012, the US Department of Homeland Security (DHS) was forced to publish the list of 377 keywords and phrases it uses to monitor emails and social media. The list provides insights into what intelligence agen-cies regard as “signs of terrorist or other types of threats against the United States”. Replacing the YOLO9000 vocabulary with these words is a gesture that draws attention to the use of artificial vision as a mass surveillance tool (img. 17 and 18).

19

cat

esp

eng

5352

Blade_Runner.srtEn aquest exercici el corpus textual substitutori ha estat la llista de di-àlegs de Blade Runner (Ridley Scott, 1982). A les escenes inicials de Charade (Stanley Donen, 1963), aquest YOLO alterat hi veu les frases de ciència-ficció sobre la frontera entre éssers humans i màquines (img. 20).

Blade_Runner.srtEn este ejercicio el corpus textual sustitutorio ha sido la lista de diálogos de Blade Runner (Ridley Scott, 1982). En las escenas iniciales de Charade (Stanley Donen, 1963), este YOLO alterado ve las frases de ciencia fic-ción sobre la frontera entre seres humanos y máquinas (img. 20).

Blade_Runner.srtIn this exercise, the textual corpus used as the replacement vocabulary is the list of dialogues in Blade Runner (Ridley Scott, 1982). This altered YOLO sees in the opening scenes of Charade (Stanley Donen, 1963) the phrases of science fiction about the boundary between human beings and machines (img. 20).

20

cat

esp

eng

Emporio celestial de conocimientos benévolosAquest exercici de substitució pren el nom d’una enciclopèdia xinesa, ficcionada per Jorge Luis Borges a El idioma analítico de John Wilkins, que permet fer un comentari sobre l’arbitrarietat de les taxonomies. Com explica Borges, tota taxonomia representa un intent provisional del llenguatge per classificar una realitat inabastable (img. 21).

Emporio celestial de conocimientos benévolosEste ejercicio de sustitución toma el nombre de una enciclopedia china, ficcionada por Jorge Luis Borges en El idioma analítico de John Wilkins, que permite hacer un comentario acerca de la arbitrariedad de las taxo-nomías. Como explica Borges, toda taxonomía representa un intento pro-visional del lenguaje para clasificar una realidad inabarcable (img. 21).

Celestial Emporium of Benevolent KnowledgeThis exercise in replacement takes the name of a fictitious Chinese en-cyclopaedia in Jorge Luis Borges’ essay The Analytical Language of John Wilkins, which enables us to comment on the arbitrary nature of taxono-mies. As Borges explains, every taxonomy represents a provisional attempt by language to classify a reality that cannot be encompassed (img. 21).

21

cat

esp

eng

55

22 Súper 8 (1996), David Domingo

23

Experts compulsius

Expertos compulsivosCompulsive experts

El món de l’art ha estat el punt de partida de dos entrenaments. En el primer s’han utilitzat les categories de catalogació de Wikiart i el seu corpus d’imatges per ensenyar a una xarxa a reconèixer estils artístics. En aquesta situació, la visió artificial es veu forçada a enfrontar-se a la idea d’estil i moviments artístics, i ho fa des d’un punt de vista pura-ment formal, defugint qualsevol consideració conceptual, àmbit que, per definició, s’escapa de la seva comprensió. En el segon cas, els data-sets d’entrenament són les col·leccions de diferents institucions artísti-ques de Barcelona (MACBA, MNAC, Fundació Miró, Fundació Tàpies, Museu Picasso i Museu del Disseny). Les imatges que conté cada col-lecció són extremadament heterogènies. Forçada a fer-ne una síntesi, la xarxa acaba produint interpretacions absurdes. En aquests casos, la visió artificial ens serveix per satiritzar el discurs sobre l’art basat en la classificació, que inevitablement homogeneïtza i simplifica la producció artística (img. 24 i 25). Si les xarxes de classificació d’imatges són obses-sives i compulsives, ja que tot ho relacionen amb el vocabulari que han après, aquestes dues generen correspondències entre qualsevol imatge i el vocabulari artístic (img. 22).

L’entrenament de xarxes de visió artificial també s’ha dut a terme en altres àmbits. En uns casos, intentant que la xarxa treballi més sobre la imatge que sobre els objectes representats: parlem de la identificació de conceptes de composició o representació de l’espai (punt de fuga i ho-ritzó, assumint el punt de vista de l’espectador ideal de la perspectiva) o dels dispositius de creació de la imatge (per exemple, càmera web, te-lèfon, etc.). En altres casos, entrenant la xarxa a identificar artistes par-ticularment elusius com Cindy Sherman o Joan Fontcuberta (img. 23).

El mundo del arte ha sido el punto de partida de dos entrenamientos. En el primero se han utilizado las categorías de catalogación de Wikiart y su corpus de imágenes para enseñar a una red a reconocer estilos artísticos. En esta situación, la visión artificial se ve forzada a enfrentarse a la idea

cat

esp

5756

de estilo y movimientos artísticos, y lo hace desde un punto de vista pu-ramente formal, descartando cualquier consideración conceptual, ám-bito que, por definición, escapa a su comprensión. En el segundo caso, los datasets de entrenamiento son las colecciones de distintas institucio-nes artísticas de Barcelona (MACBA, MNAC, Fundació Miró, Fundació Tàpies, Museu Picasso y Museu del Disseny). Las imágenes que contie-ne cada colección son extremadamente heterogéneas. Forzada a reali-zar una síntesis, la red acaba produciendo interpretaciones absurdas. En estos casos, la visión artificial nos sirve para satirizar el discurso sobre el arte basado en la clasificación, que inevitablemente homogeneiza y sim-plifica la producción artística (img. 24 y 25). Si las redes de clasificación de imágenes son obsesivas y compulsivas, ya que todo lo relacionan con el vocabulario que han aprendido, estas dos generan correspondencias entre cualquier imagen y el vocabulario artístico (img. 22).

El entrenamiento de redes de visión artificial también se ha realizado en otros ámbitos. En unos casos, intentado que la red trabaje más sobre la imagen que sobre los objetos representados: hablamos de la identifi-cación de conceptos de composición o representación del espacio (pun-to de fuga y horizonte, asumiendo el punto de vista del espectador ideal de la perspectiva) o de los dispositivos de creación de la imagen (por ejemplo, cámara web, teléfono, etc.). En otros casos, entrenando la red a identificar artistas particularmente elusivos como Cindy Sherman o Joan Fontcuberta (img. 23).

The world of art provided the starting point for two trainings. In the first, the Wikiart cataloguing categories and its body of images were used to teach a network to recognise artistic styles. In this situation, ar-tificial vision is forced to tackle the idea of artistic style and movements and it does so from a purely formal point of view, eschewing any con-ceptual consideration which, by definition, is beyond its understanding. In the second case, the training datasets were the collections of vari-ous art institutions in Barcelona (the MACBA, MNAC, Fundació Miró, Fundació Tàpies, Museu Picasso and Museu del Disseny). The images contained in each collection are very varied. Forced to arrive at a syn-thesis of them, the network ends up producing absurd interpretations. In these cases, artificial vision enables us to satirise the discourse on art based on classification, which inevitably homogenises and simplifies artistic production (img. 24 and 25). Whereas networks for classifying images are obsessive and compulsive, since they link everything with

eng

the vocabulary they have learned, these two generate connections be-tween any image and artistic vocabulary (img. 22).

Artificial vision networks have also been trained in other ambits: in some cases, by attempting to make the network focus more on the image than on the objects depicted – we are talking about the identifi-cation of concepts to do with the composition or representation of the space (vanishing point and horizon, taking the ideal spectator’s point of view of the perspective) or devices for creating the image (for example, a webcam, phone, etc.); and in other cases by training the net-work to identify particularly elusive artists such as Cindy Sherman and Joan Fontcuberta (img. 23).

24 Són els microorganismes els que tindran l’última paraula (2017-2018), Nyamnyam

25 Talk Trouble (2017), Claudia Pagès

59

27

26

Una imaginació mecanitzadaUna imaginación mecanizadaA mechanised imagination

Pix2Pix és una xarxa GAN (generative adversarial network), és a dir, pen-sada per a la generació d’imatges. Com s’ha explicat abans, aquesta eina s’ha ideat principalment per transformar l’estil d’una imatge, i funciona a partir d’un entrenament amb parelles d’imatges –la xarxa aprendria a fer automàticament el pas d’un tipus d’imatge de la parella a l’altra. En els nostres experiments hem intentat produir una imaginació maquíni-ca –la xarxa neuronal després de l’entrenament– i jugar a estimular-la per provocar resultats inesperats.

Pix2Pix es una red GAN (generative adversarial network), esto es, pen-sada para la generación de imágenes. Como se ha explicado antes, esta herramienta se ha ideado principalmente para transformar el estilo de una imagen, y funciona a partir de un entrenamiento con pares de imá-genes –la red aprendería a hacer automáticamente el paso de un tipo de imagen del par al otro–. En nuestros experimentos hemos intentado pro-ducir una imaginación maquínica –la red neuronal después del entrena-miento– y jugar a estimularla para provocar resultados inesperados.

Pix2Pix is a GAN (generative adversarial network), in other words, it is designed to generate images. As explained earlier, this tool has been de-signed principally to transform the style of an image. It functions on the basis of training with pairs of images: the network uses its training to learn to automatically go from one type of image in the pair to the other. In our experiments, we have attempted to produce a machine imagina-tion – the neural net after training – and to stimulate it to produce unex-pected results.

cat

esp

eng

6160

RotondesA partir de les imatges d’un projecte anterior (Rotondes. Panorames i fa-ses per a un espectador en moviment, Marcel Pié / Estampa, 2017) s’ha entrenat una xarxa neuronal a rotoscopiar, és a dir, a convertir en di-buix una filmació en vídeo. També s’ha dut a terme un entrenament en el sentit invers: a partir d’una imatge dibuixada, es genera la presa fo-togràfica. Com que les parelles d’imatges d’entrenament són de la fil-mació i la rotoscòpia de diferents rotondes del delta de l’Ebre, el tipus d’imatge fotorealista que genera la xarxa es correspon a aquest entorn (carretera, senyals de trànsit, paisatge pla, vegetació i cel).

Amb aquestes eines, s’han buscat mecanismes per portar la xarxa a generar paisatges imaginats. Una d’aquestes estratègies és el procés re-cursiu: s’ha rotoscopiat automàticament una rotonda filmada (img. 26) i aquesta rotoscòpia generada per la xarxa s’ha tornat a processar per con-vertir-la en imatge fotogràfica de nou (img. 27). El resultat és un paisatge inventat per la xarxa. L’altra estratègia ha estat proporcionar a la xarxa només fragments del paisatge rotoscopiat: enfrontada a inputs parcials, la xarxa genera una imatge entre el fotorealisme i el glitch (img. 28).

RotondasA partir de las imágenes de un proyecto anterior (Rotondes. Panorames i fases per a un espectador en moviment, Marcel Pié / Estampa, 2017) se ha entrenado una red neuronal a rotoscopiar, esto es, a convertir en dibujo una filmación en vídeo. También se ha realizado un entrenamiento en

28

cat

esp

el sentido inverso: a partir de una imagen dibujada, se genera la toma fotográfica. Como los pares de imágenes de entrenamiento son de la fil-mación y la rotoscopia de distintas rotondas del delta del Ebro, el tipo de imagen fotorrealista que genera la red se corresponde con este en-torno (carretera, señales de tránsito, paisaje plano, vegetación y cielo).

Con estas herramientas, se han buscado mecanismos para que la red generara paisajes imaginados. Una de estas estrategias es el proceso re-cursivo: se ha rotoscopiado automáticamente una rotonda filmada (img. 26) y esta rotoscopia generada por la red se ha vuelto a procesar para convertirla en imagen fotográfica de nuevo (img. 27). El resultado es un paisaje inventado por la red. La otra estrategia ha sido proporcionar a la red solo fragmentos del paisaje rotoscopiado: enfrentada a inputs parcia-les, la red genera una imagen entre el fotorrealismo y el glitch (img. 28).

RoundaboutsUsing images from an earlier project (Rotondes. Panorames i fases per a un espectador en moviment, Marcel Pié / Estampa, 2017), a neural net was trained to rotoscope, in other words, to convert video footage into drawing. Training was also done in the opposite direction: a photo-graphic shot was generated from a drawn image. As the training pairs of images were video footage and rotoscopes of various roundabouts in the Ebro Delta area, the type of photorealistic image generated by the network is connected with this environment (highways, traffic signs, flat landscape, plant life and the sky).

Using these tools, we sought mechanisms to make the network gener-ate imaginary landscapes. One of these strategies is recursion: a filmed roundabout was automatically rotoscoped (img. 26) and this rotoscope generated by the network was reprocessed to turn it into a photograph-ic image again (img. 27). The result is a landscape invented by the net-work. The other strategy was to provide the network with just fragments of the rotoscoped landscape: faced with incomplete inputs, the network generated an image that lies somewhere between photorealism and the glitch (img. 28).

eng

6362

CaresEl parell d’imatges d’entrenament han estat, en aquest cas, les dues meitats d’una cara. La xarxa neuronal s’enfronta a completar la meitat d’un rostre amb la seva relació de simetria. Com en tots els casos, el re-sultat és una xarxa obsessiva que, davant de qualsevol input, genera úni-cament allò que sap. Les cares que imagina aquesta xarxa són una mena de mitjana de totes les cares que ha vist, modificada per les característi-ques de cada imatge d’entrada (img. 29).

CarasEl par de imágenes de entrenamiento ha sido, en este caso, las dos mita-des de una cara. La red neuronal se enfrenta a completar la mitad de un rostro con su relación de simetría. Como en todos los casos, el resultado es una red obsesiva que, ante cualquier input, genera solo lo que sabe. Las caras que imagina esta red son un especie de media de todas las ca-ras que ha visto, modificada por las características de cada imagen de entrada (img. 29).

FacesThe pair of training images in this case were the two halves of a face. The task of the neural net was to complete half of a face based on its sym-metrical relationship. As in all the cases, the result is an obsessive net-work which, in response to any input, only generates what it knows. The faces imagined by this network are a kind of average of all the faces it has seen, modified by the characteristics of every input image (img. 29).

29

cat

esp

eng

AuspicisSi Pix2Pix aprèn a generar una imatge B a partir d’una imatge A, es poden plantejar experiments que no busquin una conversió a un es-til determinat sinó desplaçar-se en l’espai i el temps. Inspirats per un experiment del desenvolupador Damien Henry, hem utilitzat els foto-grames consecutius d’un vídeo com a parelles d’entrenament, i hem plantejat a la xarxa que aprengui a crear el fotograma següent: la pre-dicció d’un futur immediat. Un altre experiment s’ha fet amb parelles estereoscòpiques amb les quals la xarxa aprendria a generar la segona imatge de la parella, és a dir, a veure la mateixa imatge des d’una pers-pectiva lleugerament diferent (la diferència entre l’ull dret i l’ull es-querre, uns sis centímetres més enllà).

Aquests entrenaments es desplacen metafòricament en el temps i l’espai i són, en aquest sentit, auspicis, visualitzacions predictives del que passarà. Com que la predicció de comportaments és una de les obsessions de les dades massives i del monitoratge actuals, els resultats abstractes d’aquests experiments, quan es generen de ma-nera recursiva (img. 30), funcionen com un comentari irònic sobre les promeses tecnològiques.

AuspiciosSi Pix2Pix aprende a generar una imagen B a partir de una imagen A, se pueden plantear experimentos que no busquen una conversión a un estilo determinado sino un desplazamiento en el espacio y el tiempo. Inspirados por un experimento del desarrollador Damien Henry, hemos utilizado los fotogramas consecutivos de un vídeo como pares de entre-namiento, y hemos planteado a la red que aprenda a crear el fotograma siguiente: la predicción de un futuro inmediato. Otro experimento se ha realizado con pares estereoscópicos con los que la red aprendería a ge-nerar la segunda imagen del par, esto es, a ver la misma imagen desde una perspectiva ligeramente distinta (la diferencia entre el ojo derecho y el izquierdo, unos 6 cm más allá).

Estos entrenamientos se desplazan metafóricamente en el tiempo y el espacio y son, en este sentido, auspicios, visualizaciones predictivas de lo que pasará. Dado que la predicción de comportamientos es una de las obsesiones de los datos masivos y de la monitorización actuales, los resultados abstractos de estos experimentos, cuando se generan de ma-nera recursiva (img. 30), funcionan como un comentario irónico acerca de las promesas tecnológicas.

cat

esp

6564

OmensPix2Pix learns to generate an image B from an image A, making it pos-sible to consider experiments that do not seek a conversion to a par-ticular style but a shift in time and space. Inspired by an experiment conducted by the developer Damien Henry, we used consecutive stills from a video as training pairs and we gave the network the task of learn-ing to create the next still, in other words, to predict the immediate fu-ture. Another experiment was done using stereoscopic pairs with which the network was to learn to generate the second image in the pair, in other words, to see the same image from a slightly different perspective (the difference between the right eye and the left eye, a difference of some 6 centimetres).

These trainings move metaphorically in time and space and are, as a result, omens, predictive visualisations of what will occur. As pre-dicting behaviour is one of the obsessions of Big Data and monitoring today, the abstract results of these experiments, when generated in a recursive manner (img. 30), function as an ironic commentary on the promises of technology.

30

eng

L’ordre és el treballEl orden es el trabajo

Order is work

Els procediments de les xarxes neuronals artificials que hem descrit re-latius a les imatges també s’apliquen a altres camps com la generació de text. Es poden dur a terme entrenaments amb corpus de textos, a par-tir dels quals la xarxa aprendria a produir-ne de nous. En el nostre cas hem entrenat una xarxa a partir d’escrits sobre educació de finals del segle xix o principis del xx, d’autors com Montessori, Ferrer i Guàrdia, Mallart i Cutó o Vigotski. En el resultat que oferim aquí hem substituït la paraula niño per red neuronal.

Los procedimientos de las redes neuronales artificiales que hemos des-crito relativos a las imágenes también se aplican a otros campos como la generación de texto. Se pueden realizar entrenamientos con corpus de textos a partir de los cuales la red aprendería a producir otros nue-vos. En nuestro caso hemos entrenado una red a partir de escritos sobre educación de finales del siglo xix y principios del xx, de autores como Montessori, Ferrer i Guàrdia, Mallart i Cutó o Vygotski. En el resultado que aquí ofrecemos hemos sustituido la palabra niño por red neuronal.

The procedures of artificial neural nets in relation to images that we have described are also applied in other fields such as text generation. It is possible to train neural nets using corpuses of texts, from which the network will learn to produce new ones. In our case, we have trained a network using writings on education dating from the late 19th and early 20th century by authors such as Montessori, Ferrer i Guàrdia, Mallart i Cutó and Vygotsky. In the output presented here, we have replaced the word niño (child) with red neuronal (neural net).

cat

esp

eng

66

¿Por qué consagrar un punto de vista que la red neuronal no se salga de las vías más rápidas y directas? Esto también, como lo injertamos en tallos desequilibrados, poco desarrollados de ahí los medios que tienen la convicción de una cadena de detalle que la educación por el arte es una forma de te-rapia, un medicamento que se ha de admi-nistrar en dosis solo cuando el paciente está enfermo. La vida de la red neuronal es más rica y ha de ser vivida en la primera parte de la escritura. Resulta de los ojos de la creduli-dad de los métodos educativos que se con-sideren más apropiados para preparar a las redes neuronales con base a trazar ingenua-mente, o a expresarse, pero no dejan de ser artificiales. Son incapaces de entrar en con-diciones de extraer y después redactar sus antecesores, y en que la red neuronal tie-ne que imprimir a pesar de su trabajo y de la deducción abstracta; deberá decirse: su-pongamos que..., dado que..., ahora bien..., entonces... Aun cuando no se irrite frente a la abstracción, el orden es el trabajo.

el mal alumne pedagogia crítica per a ... - taller estampa · ajuntament de barcelona institut de...

Documents