El uso de la inteligencia artificial para generar imágenes como si fueran salidas de nuestra imaginación es un incipiente campo que podría tener múltiples usos en el futuro de la humanidad
La imagen de la niña pequeña que acompaña este trabajo es, cuando menos, bella. Usted, querido lector, probablemente la observe y piense en lo bonita que se ve. ¿Quedó bien en la foto, verdad? Sin embargo, hay un detalle que no tiene forma de saber y que cambiará por completo su percepción de esa imagen: esa niña no existe ni existirá, porque ha sido generada por una inteligencia artificial (IA).
Si quiere ver alguna foto parecida, no necesariamente la de esa niña, y comprobar lo que le comento, visite thispersondoesnotexist.com, un proyecto creado en diciembre de 2019 como forma de experimentar el potencial de las redes generativas antagónicas (GAN, por sus siglas en inglés) las cuales pueden ser utilizadas para mejorar la experiencia de los usuarios en internet.
El proyecto fue ideado por Tero Karras, un investigador del famoso fabricante de tarjetas de video para ordenadores, Nvidia, como parte de las investigaciones que desarrolla la compañía en las redes GAN. En el perfil de Karras en la web de investigaciones de Nvidia (research.nvidia.com/person/tero-karras) aparecen detalles de sus experimentos.
Además de la web para generar imágenes de personas —que, por cierto, se llama Esta persona no existe—, Karras creó varias similares: una dedicada a gatos (thiscatdoesnotexist.com), otra a obras de arte (thisartworkdoesnotexist.com), y una para caballos (thishorsedoesnotexist.com).
Las que mejor funcionan, sin embargo, son las enfocadas en las personas y el arte —este último generalmente abstracto—, pues las que se encargan de crear gatos y caballos falsos generan en no pocas ocasiones imágenes no convincentes debido a la variabilidad de la pose de estos animales en las fotos. Pero, ¿cómo surgieron las redes GAN?
A diferencia de lo logrado con los humanos, las redes GAN todavía tienen defectos cuando se trata de animales, como gatos o caballos.
Una noche de 2014 Ian Goodfellow, estudiante de doctorado de la Universidad de Montreal, se fue del bar en el que compartía con compañeros de clases para probar que era capaz de crear un algoritmo que simulara la imaginación de las personas.
En esa noche, Goodfellow escribió su algoritmo, y lo envió por correo electrónico. Aquello desató un trabajo en equipo que terminó con la publicación de un texto llamado Redes Generativas Adversarias.
Este trabajo abrió un nuevo campo en la inteligencia artificial. Hasta ese momento, la IA se había mostrado capaz de identificar objetos en una imagen —Facebook es pionero en ello y cuenta con una de las mejores tecnologías del mercado—, o de aprender las reglas de un juego, pero no emulaba la imaginación.
Yann LeCon, científico jefe de inteligencia artificial en Facebook AI Research, calificó las redes GAN como «la idea más interesante de machine learning (aprendizaje de máquinas en castellano) de la última década».
Y es que la idea de las redes GAN es muy simple y astuta: dos redes neuronales compiten en un constante juego de suma cero (la ganancia o pérdida de una de las redes se compensa con la ganancia o pérdida de la opuesta).
El arte es también repensado desde una red generativa adversaria. Foto: thisartdoesnotexist.com
Al detallar cómo funcionan las redes GAN, la publicación especializada Xataka explica que «una de las redes, la generativa, va produciendo muestras de aquello que queramos crear (imágenes, textos, sonidos...); ese primer intento será fallido», o como lo definiera el propio Goodfellow, «al comienzo el generador ofrecerá imágenes al azar, que parecerán ruido estático, como el de una TV analógica vieja».
Sin embargo, «ahí es donde entra la segunda red, la discriminadora; entrenada en algo que a la IA se le da mucho mejor —la identificación—, analiza el material producido por la red generativa y determina si se ajusta a lo que está buscando: es decir, hablando en términos técnicos, decide si cada instancia de datos que revisa pertenece o no al conjunto de datos de entrenamiento», detalla Xataka.
Goodfellow amplía usando el mismo ejemplo de los perros: «Al entrenarlas, el generador logra ofrecer imágenes que engañan al discriminador. Así, al principio, el generador hará bien los colores. Hará imágenes verdes y marrones porque la mayoría de las imágenes son de perros marrones en pasto verde y el generador será engañado por un rato.
«Y luego el discriminador aprenderá a buscar las formas de perros, y entonces el generador deberá hacer bien las formas para engañar al discriminador. Es un proceso donde cada una de las redes va mejorando y aprende de su oponente», sentencia.
En el proceso de entrenamiento puede haber cientos, miles o millones de intentos antes de que la red discriminadora acepte el resultado ofrecido por su rival. Mientras tanto, rechazo tras rechazo, la red generativa «aprende» qué es lo que busca la discriminadora, quien a su vez le habrá guiado con la información que aportaba con sus porcentajes de acierto.
Los usos de las redes GAN en el campo multimedia no se limitan a la imagen, llegan incluso al video, siendo la tecnología responsable de los deepfakes, los que simulan a un ser humano a tal punto de realismo que hoy muchos se cuestionan su uso.
No obstante, Goodfellow está convencido de que su creación puede llegar a ofrecer mucho más a la humanidad. «Una de las razones por las cuales quise dedicarme a las GAN es que estos modelos tienen el potencial de generar objetos que podemos usar en el mundo real», explica el creador, citado por Xataka.
«En el futuro creo que GAN se va a usar en varias disciplinas, como para el diseño de medicamentos. Se podría usar GAN para diseñar chips más rápidos, autos más eficientes, edificios que sean más resistentes a los terremotos, o que sean más económicos de construir. Toda esta tecnología es aún incipiente», acota.
Las redes GAN están apenas en sus primeros pasos. Y más allá de la generación de imágenes, ya existen experimentos para crear objetos en tres dimensiones. Muy empleada en su capacidad de «imaginar», esta tecnología puede ayudar a generar diseños conceptuales para bien de la humanidad.