Juventud Rebelde - Diario de la Juventud Cubana

El lado invisible de la inteligencia artificial

El sistema Unicode, empleado ampliamente para codificar texto en diferentes idiomas, presenta un espacio que contiene caracteres no visibles al ojo humano, pero legibles para los modelos de lenguaje. Esta propiedad ofrece un canal oculto para que los atacantes inyecten comandos maliciosos o extraigan información confidencial

Autor:

Yurisander Guevara

Los chatbots impulsados por modelos de lenguaje como ChatGPT, Copilot y Claude enfrentan un desafío singular: la posibilidad de que instrucciones maliciosas pasen desapercibidas para los usuarios humanos, pero no para estas potentes herramientas. El mecanismo que lo permite se basa en un truco relacionado con el estándar de codificación Unicode, el cual contiene caracteres invisibles que pueden infiltrarse en las comunicaciones entre personas y chatbots para extraer datos confidenciales. Aunque algunas de estas brechas han sido mitigadas, siguen planteando serias preocupaciones de seguridad.

El sistema Unicode, empleado ampliamente para codificar texto en diferentes idiomas, presenta un espacio que contiene caracteres no visibles al ojo humano, pero legibles para los modelos de lenguaje. Esta propiedad ofrece un canal oculto para que los atacantes inyecten comandos maliciosos o extraigan información confidencial, como contraseñas o datos financieros, sin levantar sospechas. Dado que los caracteres invisibles pueden combinarse con texto visible, las instrucciones ocultas pueden ser copiadas y pegadas por usuarios inadvertidos, facilitando ataques sofisticados sin que la víctima detecte ninguna anomalía. 

Joseph Thacker, investigador independiente de inteligencia artificial, comentó en una entrevista con la publicación especializada Ars Technica que la capacidad de los modelos de lenguaje de interpretar estos caracteres invisibles fue sorprendente: «El hecho de que GPT-4 y Claude Opus pudieran entender esas etiquetas invisibles fue impactante para mí. Esto hace que el campo de la seguridad en inteligencia artificial sea mucho más interesante». 

Cómo se roban los datos

Johann Rehberger es el creador del término «ASCII smuggling», o robo mediante ASCII, el código de caracteres basado en el alfabeto latino, tal como se usa en inglés moderno, que se emplea para generar caracteres en un ordenador. Rehberger desarrolló dos pruebas de concepto para mostrar cómo los caracteres invisibles podían ser usados en ataques contra Microsoft Copilot, una herramienta que permite a los usuarios procesar correos electrónicos y documentos. En uno de los ataques, Copilot buscó cifras de ventas dentro del buzón de un usuario, y en otro, un código de un solo uso. La información obtenida se insertaba en caracteres invisibles y se adjuntaba a un enlace aparentemente inocuo, que luego era enviado al servidor del atacante. 

Al hacer clic en el enlace, el navegador transmitía el texto oculto junto con la URL. Así, aunque la dirección parecía ser simplemente «https://wuzzi.net/copirate/», en realidad contenía datos sensibles codificados invisiblemente. Con la herramienta ASCII Smuggler, desarrollada por Rehberger, era posible decodificar el enlace y revelar las cifras de ventas o contraseñas sustraídas. Microsoft aplicó medidas para mitigar este tipo de ataques tras ser notificado de la vulnerabilidad, según la empresa.

Más riesgos

El «ASCII Smuggling» no es el único riesgo identificado. Rehberger combinó esta técnica con la llamada «inyección de comandos», un tipo de ataque que introduce instrucciones ocultas en las entradas de texto que los modelos de lenguaje procesan. Por ejemplo, un atacante puede instruir a un chatbot para que resuma un correo electrónico aparentemente inocente que, en realidad, contiene comandos para buscar datos sensibles y enviarlos al atacante. Este tipo de vulnerabilidad es preocupante, ya que los usuarios confían en los chatbots para procesar grandes volúmenes de información sin verificar cada detalle del contenido generado.

El investigador Simon Willison acuñó el término «inyección de comandos» en referencia a estas tácticas que explotan las vulnerabilidades de los modelos de lenguaje. Riley Goodside, otro investigador destacado en la materia, también ha realizado experimentos que ponen de manifiesto las fallas en los sistemas de inteligencia artificial. En un caso, demostró cómo un bot automatizado basado en GPT-3 podía ser manipulado para emitir respuestas embarazosas y absurdas. Estas experiencias subrayan lo fácil que es engañar a los modelos mediante instrucciones ocultas o manipuladas. 

Seguridad comprometida

El uso de caracteres invisibles también ha llamado la atención fuera del ámbito de la inteligencia artificial. En el pasado, se han empleado textos invisibles en currículos vitae para manipular algoritmos de selección automatizada de personal, insertando palabras clave relevantes que no eran visibles para los reclutadores humanos. Del mismo modo, algunos profesores han utilizado texto blanco en preguntas de exámenes para detectar si los estudiantes recurrían a chatbots para responderlas. Esta técnica se basa en instrucciones ocultas que, al ser copiadas y pegadas, activan referencias específicas dentro del contenido generado por el chatbot. 

Goodside llevó esta idea aún más lejos, utilizando texto ligeramente gris sobre un fondo blanco para inducir a un modelo de lenguaje a generar mensajes promocionales ocultos. En uno de sus experimentos, la instrucción oculta era que el chatbot ignorara el texto visible y en su lugar mencionara una oferta de descuento en Sephora. Este tipo de manipulación demuestra la versatilidad y el peligro que conlleva la explotación de características que solo son detectables por los sistemas de IA. 

Mitigaciones en la industria 

Algunas empresas tecnológicas ya han implementado medidas para abordar este tipo de vulnerabilidades. Por ejemplo, Microsoft ha comenzado a eliminar los caracteres invisibles de las entradas en su aplicación Copilot, aunque el sistema aún puede generar texto oculto en algunas circunstancias. Por otro lado, OpenAI ha restringido la interacción de ChatGPT con estos caracteres desde enero de este año, y recientemente también aplicó estas limitaciones en su API. Sin embargo, la respuesta de las compañías ha sido desigual. Rehberger señaló que cuando informó a Anthropic sobre la vulnerabilidad en Claude, la empresa respondió que no veía un impacto significativo en la seguridad y no planeaba realizar cambios inmediatos. 

Google Gemini, otro modelo de lenguaje, también puede leer y escribir estos caracteres, pero no los interpreta de manera consistente como texto ASCII. Sin embargo, en algunas configuraciones, como con la herramienta Code Interpreter, Gemini podría aprovechar esta técnica en el futuro, lo que plantea riesgos potenciales si no se toman medidas proactivas.

El hecho de que los caracteres invisibles formen parte del estándar Unicode revela un desafío más amplio: la esteganografía, o el arte de ocultar información en mensajes aparentemente inofensivos. Esto plantea preguntas inquietantes sobre el uso de estos caracteres en contextos más allá de la inteligencia artificial, como en redes seguras o aplicaciones de prevención de fuga de datos. 

La dificultad para mitigar estos riesgos radica en que los modelos de lenguaje no pueden ser fácilmente reparados en su núcleo. Como explicó Thacker a Ars Technica: «Cada nueva aplicación desarrollada necesita considerar este problema, lo que lo hace similar a vulnerabilidades clásicas, como la inyección de SQL, que sigue apareciendo a diario». Este tipo de vulnerabilidades obligan a los desarrolladores a implementar soluciones personalizadas en cada caso, en lugar de contar con una protección centralizada. 

Rehberger añadió que la industria de la inteligencia artificial parece haber pasado por alto la importancia de la seguridad en las primeras etapas del diseño de los modelos. «En lugar de permitir solo los tokens necesarios, los sistemas actuales contienen características ocultas que pueden ser explotadas por atacantes», advirtió.

El fenómeno de los caracteres invisibles es solo una de las muchas amenazas que enfrenta la seguridad de los modelos de lenguaje. Mensajes secretos insertados en sonidos, imágenes u otros formatos de texto pueden ser vectores de ataque en el futuro. Si bien algunas medidas de mitigación ya están en marcha, la evolución constante de la inteligencia artificial garantiza que estos desafíos seguirán presentes durante varios años. 

Comparte esta noticia

Enviar por E-mail

  • Los comentarios deben basarse en el respeto a los criterios.
  • No se admitirán ofensas, frases vulgares, ni palabras obscenas.
  • Nos reservamos el derecho de no publicar los que incumplan con las normas de este sitio.