El camino de la inteligencia artificial tiene muchas bifurcaciones. Una de ellas lleva a la creación de videos hiperrealistas, tecnología que se perfecciona con cada presentación por parte de los gigantes del mercado
Las expresiones son casi impecables. Como sé que lo que veo no es «real», puedo distinguir un movimiento «raro» de la boca, una sonrisa algo exagerada o un pestañeo «excesivo». Sin embargo, si hubiera visto los videos sin saber a lo que me enfrentaba, no habría notado nada. Son, sencillamente, personas comunes y corrientes hablando de diferentes temas. Excepto que no son personas, sino constructos digitales generados por inteligencia artificial, capaces de reproducir la vida real con una fidelidad inquietante.
La pasada semana Microsoft reveló una nueva inteligencia artificial (IA), llamada VASA-1, que es capaz de crear avatares humanos hiperrealistas a partir de una imagen y un archivo de voz.
Esta tecnología puede dar vida a nuestras fotografías, añadiendo expresiones y sincronizando el movimiento de los labios con el clip de sonido. Es una sincronización perfecta que ya hasta puso a cantar a la Mona Lisa de Da Vinci el tema Paparazzi, de Anne Hathaway, entre los ejemplos de videos que reveló Microsoft.
Según los investigadores, VASA-1 captura toda la gama de expresiones humanas, incluyendo los movimientos naturales de la cabeza, para generar avatares parlantes verdaderamente creíbles. Esto es posible al separar elementos como los rasgos faciales, la posición de la cabeza y las expresiones, lo que permite un control detallado de cada atributo y la posibilidad de editar el contenido por separado.
La inteligencia artificial de Microsoft utiliza un enfoque 3D para capturar más detalles sobre la cara y cómo esta se mueve en un espacio tridimensional. El modelo de difusión acepta señales adicionales, como la dirección de la mirada principal y la distancia de la cabeza, así como emociones. Con la misma pista de audio, VASA-1 puede generar avatares felices, enojados o nerviosos, que buscan acercarse al realismo.
VASA-1 puede producir videos de alta calidad en una resolución de 512x512 píxeles a 45 fotogramas por segundo. Los investigadores destacaron su eficiencia, ya que la herramienta puede ejecutarse en un ordenador con una tarjeta gráfica Nvidia RTX 4090.
La inteligencia artificial de Microsoft, que por ahora es solo experimental y no está disponible para el público, no se limita a fotografías reales, también puede aplicarse en ilustraciones o pinturas, como la mencionada Mona Lisa. Los avatares hiperrealistas podrían revolucionar la forma en que interactuamos en el mundo digital.
Si se busca en internet, encontrará que hay múltiples herramientas gratuitas para crear avatares a partir del uso de la inteligencia artificial, aunque muchas brindan resultados de dudosa calidad. Empero, los esfuerzos de Microsoft no son los únicos con resultados sorprendentes.
En enero, Google presentó Lumiere, una IA para generar videos a partir de texto. Lumiere se distingue por su arquitectura de espacio-tiempo, que le permite generar clips completos en un solo paso, evitando la inconsistencia temporal observada en modelos anteriores. Esta característica es esencial para lograr una fluidez y coherencia en los videos que se asemejan cada vez más a la realidad.
Además, Lumiere facilita el proceso de edición de video a los usuarios con pocos conocimientos, permitiendo modificar partes específicas con una simple máscara y un comando de texto. También es posible generar «videos estilizados» —lo aesthetic está muy de moda actualmente— utilizando una imagen de referencia, lo que era un desafío considerable hasta ahora.
Entretanto, el 15 de febrero último llegó Sora, una herramienta desarrollada por OpenAI que permite generar videos realistas a partir de una frase de texto. Con ella puede detallar el movimiento, la ambientación y la transición de las escenas, con una duración máxima de un minuto.
Al igual que GPT-4 o DALL-E 3, Sora utiliza el sistema de aprendizaje profundo de redes neuronales artificiales y estructuras computacionales para aprender de grandes cantidades de datos y aplicarlo en la creación de cosas totalmente nuevas. Sora se entrenó con muchos videos y descripciones para entender y aprender del funcionamiento de este tipo de entorno multimedia y aplicarlo a sus propias creaciones.
VASA-1 es la evolución de Sora y Lumiere, pues no emplea texto, sino voces, para generar sus avatares.
Dos conceptos clave para evaluar el potencial de las inteligencias artificiales son el entrenamiento y la inferencia. Estos términos a menudo pasan desapercibidos, pero son fundamentales para medir la capacidad de estos sistemas para funcionar al máximo.
El entrenamiento es el primer aspecto que debemos considerar. Se refiere al volumen de datos con el que ha sido entrenada la IA para crear cosas nuevas. No genera nada desde cero, sino que se basa en lo que ha aprendido. Esto es algo que también experimentamos los humanos, cuando aprendemos a crear cosas nuevas. Cuanto más grande sea el volumen de datos con el que ha sido entrenada la IA, más fácil será que pueda generar variaciones notables en el video generado.
La inferencia es el otro aspecto fundamental. Sin ella, sería muy difícil que la IA pudiera entenderse con los humanos y cumplir con éxito nuestras peticiones. La inferencia es la capacidad de entender y atenerse a nuestras peticiones para cumplirlas con éxito. Cuanta más capacidad para entender, más precisa será. Los ingenieros detrás de la IA tienen un planteamiento claro: los modelos de lenguaje deben entender nuestras peticiones, incluso si nos explicamos mal.
Sin embargo, Sora también plantea un problema: la dificultad de distinguir entre un video real y uno creado con inteligencia artificial, como ya ocurre con las imágenes. Esto abre la puerta a la proliferación de videos falsos en las redes sociales, que pueden mostrar situaciones irreales con personajes famosos. Por eso, es importante que haya una regulación y unos límites para el uso de esta tecnología.
Sin embargo, también hay un lado peligroso para este tipo de inteligencia artificial. Los avatares y videos hiperrealistas podrían ser utilizados para engañar a los usuarios. Ante ello, Microsoft declaró que está en contra de cualquier aplicación negativa y señaló que no publicará esta herramienta hasta no estar seguro de que su tecnología se utilizará de manera responsable.
«Nos oponemos a cualquier comportamiento que cree contenidos engañosos o dañinos de personas reales y estamos interesados en aplicar nuestra técnica para avanzar en la detección de falsificaciones. Nos dedicamos a desarrollar la IA de manera responsable, con el objetivo de promover el bienestar humano», mencionó la empresa.
A pesar de las buenas intenciones de Microsoft —que también comparten Google y OpenAI—, lo cierto es que con los modelos capaces de generar imágenes ya han surgido polémicas. Recordemos el pasado año las fotos falsas de Donald Trump siendo arrestado y resistiéndose a ello, el papa Francisco rapeando o modelando, o el presidente estadounidense, Joe Biden, combatiendo en una calle rodeado de explosiones y balas.
Todas ellas fueron creadas con Midjourney, herramienta que eliminó su modelo de acceso gratuito para evitar la proliferación de fake news. Lo cierto es que en esta era de la posverdad, donde ya debemos dudar de todo lo que vemos, leemos o escuchamos, al menos hasta cerciorarnos de que es cierto mediante fuentes confiables, herramientas como VASA-1, Sora o Lumiere son también una alerta de la importancia de nuevas regulaciones y límites para el uso de estas tecnologías.
Video generado con la inteligencia artificial Sora de OpenAI.