Google, OpenAI y una inteligencia cada vez más natural

Suplementos

Código Fuente

Las herramientas de inteligencia artificial se han refinado y potenciado para ofrecer capacidades de interacción que ya rozan lo que hace un humano, a juzgar por los últimos avances presentados esta semana

Publicado: Miércoles 15 mayo 2024 | 08:56:46 pm.

Autor:

Yurisander Guevara Zaila

guevara@juventudrebelde.cu

Me gusta y me da miedo. Son esas mis reacciones a los últimos avances en inteligencia artificial (IA), presentados entre lunes y martes por OpenAI y Google, respectivamente. La primera de ellas, una empresa casi desconocida hace un par de años que ahora se encumbra en lo más alto de la innovación tecnológica, quiso aguarle la fiesta al gigante de los buscadores con un show en el que mostró un nuevo gran modelo de lenguaje: GPT-4o, acompañado de una nueva manera de integrar la IA para el uso diario. Pero Google no se quedó atrás.

En todo caso, luego de estas presentaciones la palabra de orden ahora es multimodal: no se trata de una herramienta de IA para generar texto, o imágenes, o audio, o video. Es todo en uno, y con un nivel de realismo que recuerda a la película Her, aunque esperemos que los desenlaces futuros no sean tan trágicos.

Solo Habla

Si algo ha impedido que la inteligencia artificial sea adoptada por una mayor masa de usuarios, a pesar de su increíble potencial, es que requiere de prompts o comandos que le indiquen qué hacer. Con los nuevos modelos multimodales de OpenAI y Google, ese método se enrumba por otros derroteros. Ahora sencillamente se habla con la IA, tal y como se hace con asistentes como Alexa o Siri. Sin embargo, al integrar todo el potencial, según las demostraciones hechas por estas empresas, el usuario conversa con la IA y va encontrando lo que busca o solucionando su problema en tiempo real, tal y como lo hiciera, digamos, al interactuar con un ser humano.

En el caso de GPT-4o, se trata de una iteración del modelo GPT-4 de OpenAI, que está detrás de ChatGPT. A diferencia de modelos anteriores, este será gratuito, y según la compañía es mucho más rápido y mejora las capacidades de texto, visión y audio.

En una publicación de blog de la compañía, OpenAI afirma que las características de GPT-4o «se implementarán de forma progresiva», pero sus capacidades de texto e imagen empezaron a ser empeladas desde el mismo lunes.

El director ejecutivo de OpenAI, Sam Altman, publicó que el modelo es multimodal de forma nativa, lo que significa que GPT-4o puede generar contenido o comprender comandos en voz, texto o imágenes, todo a la vez. Los desarrolladores que quieran «jugar» con GPT-4o tendrán acceso a la API, que cuesta la mitad y es dos veces más rápida que GPT-4 Turbo, agregó Altman en X.

Nuevas funciones llegan al modo de voz de ChatGPT como parte de este modelo. La aplicación es un asistente que responde en tiempo real y además «observa» el mundo que nos rodea. El modo de voz de GPT-4 era más limitado, respondía un mensaje a la vez y trabajaba solo con audio.

Una de las principales diferencias entre la nueva versión GPT-4o es que, al haber reducido la latencia, ofrece respuestas casi instantáneas. Mientras que GPT-4 tardaba una media de unos cinco segundos en responder, con GPT-4o ese tiempo baja a 320 milisegundos, aunque siempre dependerá de la petición que se le realice.

Un torrente desde google

Google I/O, la conferencia anual de desarrolladores que impulsa la compañía del megabuscador, fue esta vez en su primera jornada un desfile interminable de nuevas capacidades de inteligencia artificial, las cuales giran, en su mayoría, en torno a Gemini, su IA insignia. Como Google es un gran ecosistema de aplicaciones, repasemos las principales características dadas a conocer.

Google Lens se amplía al video: esta aplicación ya permite buscar algo basado en imágenes, pero ahora lleva las cosas un paso más allá y es posible incluir videos. Ello significa que usted puede tomar un video de algo que desea buscar, hacer una pregunta y la IA de Google intentará obtener respuestas relevantes de la web.

Gemini buscará en la biblioteca de fotos: Google lanzará en el verano una función que permitirá a Gemini estudiar detenidamente la biblioteca de Google Photos y dar una respuesta a las preguntas del usuario. En la demostración la IA localizó el número de una chapa de automóvil en una foto tomada hace unos años.

Gemini es más rápido todavía: la IA bandera de Google ahora contará con Gemini 1.5 Flash. El nuevo modelo multimodal es tan potente como Gemini 1.5 Pro, pero está optimizado para tareas de alta frecuencia y baja latencia. Lo que esto significa es que es mejor para generar respuestas rápidas. Google también hizo algunos cambios en Gemini 1.5 que, según dice, mejorarán su capacidad para traducir, razonar y codificar.

Gemini en todas partes: el modelo Gemini 1.5 Pro estará ahora integrado en la barra lateral de las aplicaciones Documentos, Hojas de cálculo, Presentaciones, Drive y Gmail. Primero se lanzará para los suscriptores de pago desde el próximo mes, y les permitirá contar con un asistente de uso general dentro de Workspace que puede obtener información de todo el contenido de Drive, sin importar dónde se encuentre. También podrá hacer cosas por el usuario, como escribir correos electrónicos que incorporen información de un documento que se esté visualizando en ese instante, o crear recordatorios.

Proyecto Astra: el Proyecto Astra de Google es un asistente de IA multimodal que la compañía espera se convierta en un asistente virtual capaz de ver, y comprender lo que ve, a través de la cámara de un celular, recordar dónde están las cosas y ejecutar tareas por el ser humano. Las demostraciones fueron múltiples sobre las potencialidades de esta IA en la palma de la mano.

Veo, la respuesta a Sora: OpenAI lanzó a inicios de este año Sora, un modelo de IA capaz de generar videos ultrarrealistas. Ahora Google reveló Veo, una inteligencia artificial que crea videos de alta definición a partir de textos, imágenes o indicaciones en otro video. Los audiovisuales se pueden producir en una variedad de estilos, como tomas aéreas o lapsos de tiempo, y se pueden ajustar con más indicaciones. La compañía ya ofrece Veo a algunos creadores para su uso en videos de YouTube, pero también lo está lanzando a Hollywood para su uso en películas.

Gems, una gema para los chatbots: Google presentó un creador de chatbots personalizado llamado Gems. Al igual que los GPT de OpenAI, Gems permite a los usuarios dar instrucciones a Gemini para detallar cómo responderá y en qué se especializa su robot conversacional.

Gemini Live: la nueva función Gemini Live tiene como objetivo hacer que los chats de voz con esta IA se sientan más naturales. La voz del chatbot se actualizará con algo de personalidad extra, y los usuarios podrán interrumpirla a mitad de frase o pedirle que mire a través de la cámara de su smartphone y dé información sobre lo que ve en tiempo real. Gemini también recibió nuevas integraciones que le permiten actualizar o extraer información de Google Calendar, Tasks y Keep, utilizando funciones multimodales para ello, como agregar detalles de un folleto al calendario personal, por ejemplo.

Tanto OpenAI como Google están en un punto donde la IA ha avanzado a pasos agigantados si se compara con lo que teníamos a mano hace menos de dos años, luego de que ChatGPT desatara la fiebre de la inteligencia artificial. Acaso los próximos meses nos deparen nuevos hitos, pero estas herramientas, ya sean de pago o gratuitas, de seguro reconfigurarán los espacios digitales en poco tiempo.

Enviar por E-mail

Deje su comentario

Acepto los términos y condiciones

Normas

Los comentarios deben basarse en el respeto a los criterios.
No se admitirán ofensas, frases vulgares, ni palabras obscenas.
Nos reservamos el derecho de no publicar los que incumplan con las normas de este sitio.