La empresa del buscador más popular de internet presentó su nuevo modelo de inteligencia artificial y una herramienta para la generación de imágenes que la ubican como una seria competidora en una carrera que muchos quieren liderar
Cuando ChatGPT se abrió al gran público hace poco más de un año, varias fueron las alarmas que se encendieron en otras compañías tecnológicas. La llegada de la inteligencia artificial generativa al usuario promedio prometía cambiar muchas cosas, y así ha hecho durante estos meses, para bien o para mal. En Google, trascendió en ese momento, se activó un «código rojo» ante la amenaza de OpenAI, y pusieron manos a la obra para igualar o superar su gran modelo de lenguaje, algo que parecen haber conseguido con la llegada de Gemini.
Se trata de un gran modelo de lenguaje creado por Google que busca liderar el mercado de la inteligencia artificial. Luego de varios retrasos, y cuando parecía que conoceríamos más al respecto en 2024, hace unos días la empresa del buscador más popular de internet lo presentó al mundo.
Con Gemini lo que pretende Google es reemplazar a PaLM, el modelo de IA que actualmente utiliza Bard, el chatbot de la empresa, similar a ChatGPT, que se había mostrado inferior a su competidor.
El plan es que, poco a poco, Gemini sea la tecnología que impulse a Bard a todos los niveles, y aunque para el usuario sea el mismo bot de IA, el «cerebro» detrás es diferente y más capaz.
A la hora de presentarse Gemini ha destacado por superar a todos sus rivales en las principales demostraciones. Y es que se trata de un modelo multimodal, supuestamente capaz de entender diferentes tipos de información, como texto, imágenes, audio y código de programación, por ejemplo.
Los modelos de inteligencia artificial son entrenados de forma intensiva con una gran cantidad de datos recopilados de internet y procesados por algoritmos para que los primeros sean capaces de «entender» las cosas que les digamos y generen respuestas «naturales».
Google diseñó a Gemini desde cero, y lo pensó como un modelo multimodal. Esto significa que no tuvo que aprender primero a entender el texto para luego convertirlo a algo más, sino que se alimentó de varios formatos de datos y ahora puede combinarlos de forma nativa.
Así, Gemini es capaz de descifrar y trabajar, en tiempo real, tanto con un texto como con un dibujo que le hagamos. Según Google, también puede relacionar objetos y sugerir canciones a medida que le damos indicaciones.
Gemini introduce además a AlphaCode2, para generar código. Este sistema mejora la comprensión de matemáticas complejas y la teoría de ciencias de la computación. También se ha mejorado el razonamiento y su capacidad de entender código, de forma que sus respuestas sean más fiables.
Para la puesta en marcha Google ha previsto tres versiones diferentes de Gemini: Ultra, Pro y Nano. Ultra es la más avanzada y multimodal, Pro tiene menos funciones y capacidades, y Nano está pensada para equipos con menos poder de cómputo y memoria, lo que le permitiría funcionar, por ejemplo, en celulares.
Aunque parezca la menos potente, Gemini Nano es una de las mayores revoluciones, ya que podrá ser utilizada como una IA que se implementa directamente dentro de un teléfono móvil. Las posibilidades son muchas, pues no habría que emplear un servidor de internet para que funcione la IA, ya que vendría de serie en el equipo.
Las distintas versiones de Gemini se irán implementando de manera paulatina en los próximos meses. Gemini Pro, por ejemplo, ya está siendo empleada en Google Bard, por el momento solo en Estados Unidos.
Probamos Gemini Pro en Código Fuente y trabaja de maravillas, muy fluido y rápido en la generación de respuestas. Empero, es válido recordar que este producto, como tantos otros del mundo de la IA, está bloqueado para Cuba por parte de estas compañías —que cumplen las imposiciones del bloqueo económico, comercial y financiero de Estados Unidos contra nuestro país—, y solo se puede acceder con una VPN.
Está previsto que Bard con Gemini se lance inicialmente en inglés y esté disponible en 180 países. Al mismo tiempo, Google pretende implementar para 2024 un Bard Advance, versión mejorada del chatbot que integraría Gemini Ultra, aunque todavía no brindó una fecha concreta.
Y en cuanto a Gemini Nano, comenzará a llegar a los móviles Pixel 8 Pro de Google. Además, también habrá un AI Core, un nuevo servicio para que los creadores de aplicaciones puedan usarlo e implementarlo.
Además de Google Bard, Gemini también llegará a otros servicios y aplicaciones de la empresa. Para empezar, tenemos al buscador Google, así como a Google Ads, Duet AI y el propio navegador Google Chrome. Todavía no hay fechas para estas nuevas características, pero desde el 13 de diciembre Google permite el acceso a la API de Gemini Pro para los desarrolladores, y de seguro muchos pondrán manos a la obra.
En Google el código rojo de hace un año parece haber activado un boom de investigación de IA, y no es solo Gemini lo novedoso. Hace una semana presentaron sin mucho bombo, pero con muy buenos resultados, Imagen 2, su última innovación en tecnología de generación de imágenes impulsada por inteligencia artificial.
Este modelo avanzado representa un cambio en cómo las herramientas de IA pueden enriquecer y facilitar la creatividad y el diseño. Imagen 2 destaca por su capacidad para generar imágenes fotorrealistas de alta resolución.
Otra característica clave de este sistema es su soporte para textos en múltiples idiomas. Eso amplía su alcance a un público global y permite una mayor personalización y adaptabilidad en la generación de contenido visual.
La foto que se muestra a continuación ha sido creada con Imagen 2 a partir de un texto que describe a una mujer de 32 años en la jungla, con pelo corto y sonrisa cálida. Foto: Imagen 2
Imagen 2 también introduce una herramienta excepcional para el diseño de logotipos, que puede generar una amplia gama de logos creativos y realistas, incluyendo emblemas, marcas de letras y conceptos abstractos. Además, tiene la capacidad de superponer estos logotipos en diferentes superficies, lo que es esencial para crear nuevos productos.
Asimismo, Imagen 2 ofrece funcionalidades avanzadas de edición de imágenes, conocidas como «inpainting» y «outpainting». Estas capacidades permiten crear contenido nuevo dentro de una imagen existente o ampliar los bordes de la imagen más allá de sus límites originales, utilizando una foto de referencia y una máscara.
El modelo también sobresale en su capacidad de preguntas y respuestas visuales, lo que significa que puede generar subtítulos descriptivos para las imágenes y proporcionar respuestas informativas a preguntas sobre sus detalles, mejorando la interactividad y la comprensión del contexto visual.