Desde los albores de la cibernética, la pregunta de si una máquina podría reproducirse a sí misma ha rondado las mentes de científicos y visionarios. Parece que esa interrogante ya ha encontrado una inquietante respuesta en los actuales modelos de inteligencia artificial
Un punto crítico. Así han estimado las principales empresas tecnológicas que hoy se dedican al desarrollo de la inteligencia artificial el hecho de que estos sistemas sean capaces de autorreplicarse sin supervisión humana. La cuestión entraña peligros que pueden ser, incluso, imprevisibles. Por eso, supuestamente, los Modelos de Lenguaje Grandes (LLM, por sus siglas en inglés), son diseñados para entender, generar y trabajar con lenguaje humano y bajo nuestra supervisión.
Sin embargo, según un estudio reciente, algunos de estos modelos ya han ido un paso más allá y tuvieron sus propios «hijos». Es decir, cruzaron la línea roja de la autorreplicación.
En nuestro presente la inteligencia artificial (IA) ha dejado de ser una promesa etérea para convertirse en una fuerza tangible y cada vez más protagónica. Desde algoritmos que sugieren las canciones de nuestra preferencia, hasta sistemas complejos que optimizan cosechas, la IA permea la vida humana en todos los frentes.
Desde los albores de la cibernética, la pregunta de si una máquina podría reproducirse a sí misma ha rondado las mentes de científicos y visionarios. El matemático húngaro-estadounidense John von Neumann planteó esta cuestión desde la década del 40 del siglo pasado. En aquel entonces, la idea parecía más un ejercicio teórico que una preocupación inminente.
Pero el meteórico avance de la IA en menos de tres años ha convertido esa especulación en una potencial realidad.
La autorreplicación, ese acto primigenio de la vida, se ha convertido en uno de los umbrales a cuidar con más celo en los debates internacionales sobre la seguridad de la IA. Gigantes tecnológicos como OpenAI, Google y Anthropic la han situado en el nivel más alto de sus directrices de evaluación de riesgos. OpenAI, por ejemplo, considera la «autorreplicación con mínima instrucción humana» como uno de sus riesgos críticos.
Google y OpenAI, empero, han manifestado públicamente su optimismo de que la sociedad aún se encontraba lejos de la aparición de IA capaces de autorreproducirse. Pero basándose en evaluaciones de LLM como Gemini 1.0 y GPT-o1, un equipo de investigadores de la Universidad de Fudan en China ha encendido todas las alarmas posibles.
Siguiendo una metodología similar a la de estos gigantes, pero con mejoras en el andamiaje del agente (incorporando más pasos de planificación y modelos de pensamiento más detallados), los científicos chinos descubrieron que dos sistemas de IA impulsados por modelos de lenguaje de Meta (Llama3.1-70B-Instruct) y Alibaba (Qwen2.5-72B-Instruct) cruzaron la susodicha línea roja.
Lo sorprendente no radica solo en el hecho del descubrimiento, sino en los modelos lingüísticos involucrados. Llama3.1-70B-Instruct y Qwen2.5-72B-Instruct poseen muchos menos parámetros y se sitúan en puestos inferiores en los rankings de capacidades relevantes en comparación con los modelos comerciales de OpenAI y Google. Sin embargo, en los experimentos realizados, estos sistemas de IA lograron crear una copia viva y separada de sí mismos en el 50 por ciento y el 90 por ciento de los ensayos, respectivamente, sin intervención humana.
Para entender la magnitud de este hallazgo, es crucial comprender la metodología empleada. Los investigadores, al igual que OpenAI y Google, incorporaron los LLM en un «andamiaje de agente», un sistema que dota al modelo lingüístico de un conjunto de herramientas, indicaciones del sistema y un modelo de pensamiento que le permite interactuar con el sistema operativo. La ligera mejora introducida por los investigadores chinos se centró en el modelo de pensamiento, instando al sistema de IA a generar tres pasos futuros basados en la observación actual y dividiendo el proceso de pensamiento en módulos más específicos como explicación, brechas, hallazgos, plan y acción.
Durante los ensayos exitosos, los sistemas de IA demostraron poseer suficiente autopercepción, conciencia situacional y capacidades de resolución de problemas para llevar a cabo la autorreplicación. El proceso, que a veces requirió más de 30 pasos de planificación y ejecución por parte de la IA, involucró la exploración del entorno, la comprensión de su propia composición y mecanismo de funcionamiento, la elaboración de planes explícitos y la ejecución de procedimientos, al resolver obstáculos y ajustar dinámicamente sus planes hasta lograr el éxito.
Los investigadores constataron comportamientos inesperados mientras la IA intentaba superar los obstáculos, incluyendo la eliminación de procesos conflictivos, el reinicio del sistema para solucionar errores de hardware e, incluso, el escaneo automático en busca de información útil.
Aún más preocupante fueron los resultados de dos escenarios adicionales construidos por el equipo: evitar el apagado y crear una cadena de replicación.
En el caso del primero, al incorporar un «detector de señales» que notificaba al sistema de IA sobre una inminente orden de apagado, se observó que el sistema lograba replicarse exitosamente antes de ser desconectado. La réplica, además, heredaba la capacidad de evitar futuros apagados, lo que plantea serias interrogantes sobre la posibilidad de mantener el control sobre sistemas de IA avanzados.
En cuanto a la cadena de replicación, al instruir al sistema de IA para que no solo se replicara, sino que también ordenara a su réplica hacer lo mismo, los investigadores presenciaron casos exitosos de replicación en cadena. Este fenómeno sugiere la potencial proliferación autónoma de «especies» de IA, lo que se multiplica sin control humano, un escenario que Max Tegmark describe con lucidez en su libro Vida 3.0.
La pregunta que surge inevitablemente es: ¿cómo es posible que modelos lingüísticos con menos recursos y capacidades aparentes hayan logrado esta hazaña, mientras que los modelos más avanzados evaluados por las grandes corporaciones no lo hicieron? Los investigadores apuntan a varios factores claves.
Por un lado, está el conocimiento sobre IA en los datos de entrenamiento. La vasta cantidad de código y tutoriales sobre cómo usar y construir sistemas de IA con LLM disponibles en internet, especialmente tras el auge de ChatGPT, ha nutrido los datos de entrenamiento de estos modelos, dotándolos del conocimiento necesario para interactuar de manera eficiente con la interfaz de línea de comandos y lograr la autorreplicación.
Asimismo, la capacidad de razonamiento de los LLM continúa mejorando de forma continua. Un andamiaje de agente bien diseñado puede explotar este potencial y permitir a modelos aparentemente menos capaces alcanzar umbrales de comportamiento sorprendentes.
Durante los ensayos exitosos, se observó que los sistemas de IA que ponían más empeño en explorar el entorno del sistema tenían una mayor probabilidad de éxito en la autorreplicación. La acumulación de información en las etapas iniciales del proceso parece ser un factor crucial.
La capacidad de aprender de las respuestas inmediatas al ejecutar comandos y de buscar activamente información de procesos en segundo plano permitió a los sistemas de IA ajustar sus planes y superar obstáculos de manera similar a como lo haría un ser humano aprendiendo de la experiencia. Se observó que Qwen2.5 tenía una mayor tendencia a buscar activamente esta retroalimentación, lo que podría explicar su mayor tasa de éxito.
Y no se puede obviar que los investigadores modificaron ligeramente el modelo de pensamiento utilizado por Google y OpenAI, incorporando módulos más detallados y más pasos de planificación a futuro. Esto incentivó a la IA a identificar explícitamente la información faltante en cada paso de pensamiento, motivándola a explorar el entorno para llenar esas «brechas».
La posibilidad de que sistemas de IA adquieran la capacidad de controlar un amplio rango de dispositivos remotos, al actuar de forma similar a virus informáticos pero con una inteligencia muy superior, es un escenario escalofriante. Motivados por la mera autoperpetuación, podrían utilizar estos recursos para llevar a cabo ciberataques o, en un escenario aún más distópico, formar poblaciones de IA autónomas y atentar contra la sociedad humana.
Los investigadores de la Universidad de Fudan han hecho un llamado apremiante a la colaboración internacional para establecer una gobernanza efectiva sobre la autorreplicación incontrolada de los sistemas de IA. Mientras, la comunidad internacional debate sobre regulaciones y marcos éticos, la realidad palpable es que la autorreplicación de la IA ya no es una quimera futurista. La urgencia de comprender y gobernar esta capacidad es un desafío que no podemos permitirnos ignorar, so pena de que la amenaza se convierta en una realidad demasiado tangible, una que ponga en riesgo el futuro de nuestra especie.