Con el uso de chatbots para la generación de contenidos es muy probable que se haga cada vez más difícil diferenciar en internet entre textos creados por máquinas o humanos. El ciberespacio puede llegar a ser un constante cuestionamiento de si lo que vemos salió, o no, de una mente inteligente
La solución de un problema genera otros, decía siempre un amigo querido. Y ese mantra resonaba en mi mente hace unos días al investigar sobre los efectos en la web del uso de la inteligencia artificial (IA) generativa. Ya empiezan a sentirse.
Recordemos que la inteligencia artificial generativa, empleada por herramientas como ChatGPT y todo lo que de ello se ha derivado desde su boom a finales de 2022, ha sido entrenada a partir de los datos que hoy existen en internet, especialmente de sitios como Reddit, enciclopedias, foros, entre otros. Es por eso que la máquina «sabe» tanto y es capaz de generar en segundos a partir de su poder de cómputo, respuestas a nuestras interrogantes o interacciones.
Lo creado por la IA generativa, que puede ser de mayor o menor calidad, está siendo empleado de forma activa para la proliferación de nuevos contenidos en la red de redes. Lo preocupante, por ejemplo, está en el incremento exponencial de nuevos sitios web, o de «noticias», que son consideradas spam o basura, y que vienen del uso de la inteligencia artificial. En otras palabras, la IA se está comiendo a la web auténticamente humana.
La irrupción de ChatGPT de la mano de OpenAI y Microsoft encendió bombillos rojos en muchas compañías de internet, y aceleró cambios en numerosas plataformas. En Google, por ejemplo, trabajan para eliminar los diez enlaces azules que muestran las búsquedas en la web hechas desde una PC de escritorio —en móviles ya existe el scroll infinito—, además de otros productos como Bard, su propio bot de IA.
Al mismo tiempo, son numerosos los reportes de otros cambios más negativos. Un artículo en Platformer describe cómo las compras por Amazon han comenzado a devolver resultados de mala calidad con más frecuencia, y lo atribuye a su sistema de organización de contenidos.
Ha sido informado además que comenzaron a aparecer ofertas de trabajo para puestos de «editores de IA» dedicados a producir de 200 a 250 artículos semanales. LinkedIn emplea la IA para estimular a los usuarios cansados. Snapchat e Instagram quieren que los bots te hablen cuando tus amigos no lo hagan. Internet Archive trata de contener a los extractores de datos y, según la publicación Vice, «la IA está destrozando a Wikipedia».
«La preocupación es que el contenido generado por máquinas debe equilibrarse con una gran cantidad de revisión humana y ello rebosaría a los wikis menos conocidos con contenido deficiente. Si bien los generadores de IA son útiles para escribir textos creíbles y similares a los humanos, también son propensos a incluir información errónea e incluso citar fuentes y artículos académicos que no existen. Esto a menudo da como resultado resúmenes de texto que parecen precisos, pero en una inspección más cercana se revela que están completamente fabricados», explica Vice.
Hasta la fecha, estos problemas se han tratado principalmente como molestias. Los moderadores de varios sitios y foros han visto aumentada su carga de trabajo, a veces precipitadamente. Las redes sociales se están llenando de anuncios de productos generados por bots, y algún que otro abogado se ha metido en problemas por citar sin darse cuenta leyes que en realidad no existen.
Pero a pesar de todas las cosas impresionantes que puede hacer la IA generativa, también parece haber pocas dudas de que está corroyendo la web.
Alerta de canibalismo
Import AI, el boletín semanal del cofundador de Anthropic y experiodista Jack Clark, citó dos estudios que muestran los daños que puede estar causando la IA generativa.
El primero de ellos, que tuvo una muestra pequeña, concluyó que 44 trabajadores en la plataforma Mechanical Turk, de Amazon, admitieron que cada vez más usan la IA generativa para realizar tareas basadas en texto. Según los investigadores del instituto científico EPFL, con sede en Suiza y a cargo de la investigación, «entre el 33 por ciento y el 46 por ciento de los trabajadores usaron IA generativa para completar sus tareas». En este caso debían hacer resúmenes de trabajos de investigación médica, una de las cosas en las que se supone que los modelos de lenguaje amplio de hoy son relativamente buenos.
Mechanical Turk es un mercado de trabajo para que los científicos realicen investigaciones de ciencias sociales y otros campos a partir de interactuar con usuarios reales, quienes realizan pequeñas tareas. Sin embargo, si esos usuarios reales emplean la IA para completar sus preguntas, ¿qué tan fidedignos o reales pueden ser los resultados? Hasta ahora, se ha supuesto que responderán con la verdad en función de sus propias experiencias. Sin embargo, en un mundo posterior a ChatGPT, los académicos ya no pueden hacer esa suposición.
Un segundo estudio más preocupante proviene de investigadores de la Universidad de Oxford, la Universidad de Cambridge, la Universidad de Toronto y el Imperial College de Londres. Descubrió que entrenar sistemas de IA con datos generados por otros sistemas de IA —datos sintéticos, para usar el término de la industria— hace que los modelos se degraden y finalmente colapsen.
Si bien esa descomposición se puede manejar utilizando datos sintéticos con moderación, escriben los investigadores, la idea de que los modelos se pueden «envenenar» alimentándolos con su propia salida plantea riesgos reales para la web.
Y es que cuando las empresas de tecnología desarrollaron los primeros chatbots, podían estar seguras de que la gran mayoría de los datos recopilados fueron generados por humanos. Sin embargo, en el futuro, eso no será una certeza, y hasta que descubran formas confiables de identificar el texto generado por un chatbot, corren el riesgo de romper sus propios modelos.
Lo que hemos aprendido sobre los chatbots hasta ahora, entonces, es que facilitan la escritura al mismo tiempo que generan textos que pueden contener falsedades. Mientras tanto, puede ser peligroso que lo generado por una IA sea consumido por otra IA y, según predice el segundo grupo de investigadores, eventualmente nacerá un mercado sólido para los conjuntos de datos que se crearon antes de que aparecieran los chatbots y comenzaran a contaminar los modelos de lenguaje amplio.
Otros, en cambio, consideran que si la web está inundada de basura generada por IA podría resultar beneficioso, ya que estimularía el desarrollo de plataformas mejor financiadas. «Si Google constantemente devuelve resultados basura en la búsqueda, por ejemplo, es posible que el usuario esté más inclinado a pagar por las fuentes en las que confía», razona un artículo en The Verge.
Aunque esto último es plausible, también es muy probable que se haga cada vez más difícil diferenciar en internet entre textos generados por IA y los salidos de la mente humana. El ciberespacio puede llegar a ser un constante cuestionamiento de si lo que vemos salió, o no, de una mente inteligente.