OpenAI presenta modelo de IA gratuito que trabaja con voz, texto e imagen al mismo tiempo

Comparta este Artículo en:

Estamos hablando de GPT-4o, que se presenta como el producto más “inteligente y rápido” de la historia de la compañía dirigida por Sam Altman.

GPT-4o es multimodal de forma nativa, característica que aborda el problema de la latencia y permite una interacción “en tiempo real”.

Una buena noticia es que este prometedor modelo estará disponible para todos los usuarios de ChatGPT, incluso para aquellos que utilizan la versión gratuita.

La CTO de OpenAI, Muri Murati, dijo durante la transmisión que el nuevo modelo de IA tiene una “inteligencia al nivel de GPT-4“, pero mejora en sus capacidades de texto, audio y visión.

Este avance tecnológico ha permitido, entre otras cosas, desarrollar un nuevo modo de voz.

El modo de voz original de ChatGPT ofrecía respuestas con una latencia promedio de 2,8 segundos en GPT-3.5 y 5,4 segundos en GPT-4.

El nuevo modo de voz rebaja el tiempo de respuesta hasta los 320 milisegundos y, gracias a GPT-4o, llega con un sistema de interacción mucho más natural.

Cuando esté disponible nos encontraremos con un asistente al que podremos hablarle en lenguaje completamente natural, como lo haríamos con otra persona.

Por ejemplo, podremos interrumpirle mientras responde. Se trata de características que no habíamos visto en ninguna IA hasta el momento.

El modelo no solo responde al instante, sino que también brinda respuestas en diferentes tonos de voz e incluso puede reír, cantar, tener diferentes estados de ánimo y resolver problemas matemáticos.

Otra de las funcionalidades destacadas que llegarán a ChatGPT gracias al nuevo modelo es la traducción instantánea.

OpenAI quiere que simplemente le pidamos lo que queramos al chatbot para que este empiece a hacer su trabajo, todo en lenguaje natural, sin pensar en comandos específicos.

Podremos contarle a ChatGPT que estamos con alguien que habla otro idioma, por ejemplo, italiano, y pedirle que traduzca la conversación en tiempo real al español.

Lo único que tendríamos que hacer a continuación es comenzar a conversar para que la IA haga la traducción en tiempo real.

Como decimos, este nuevo modelo también mejora en sus capacidades de visión.

En este sentido, podremos darle una foto o una captura de pantalla para que la analice y nos brinde información al respecto.

Desde qué modelo es tal carro hasta si tiene errores el código de un lenguaje de programación.

La compañía de inteligencia artificial respaldada por Microsoft dice que ha comenzado a desplegar GPT-4o entre los usuarios de ChatGPT Plus y Team (versiones de pago), y que también está comenzando la implementación en ChatGPT gratuito.

Se trata de un lanzamiento “iterativo” que incluye únicamente las novedades relacionadas al texto e imagen.

Cabe señalar que los usuarios de pago del chatbot seguirán teniendo beneficios.

En primer lugar, tendrán un límite más amplio para utilizar el nuevo modelo (cinco veces más amplio que el gratuito).

Además, dentro de “las próximas semanas” podrán acceder al nuevo modo de voz en tiempo real que nos recuerda a la película ‘Her’.

Para los usuarios free llegará más tarde.

Además, OpenAI ha anunciado el lanzamiento de una aplicación de ChatGPT para macOS que nos permitirá invocar el asistente con el atajo de teclado Opción + Espacio.

La misma está diseñada para integrarse en nuestro escritorio de modo tal que podamos pedirle que analice un gráfico estadístico o se sume a una videollamada. Estará disponible anticipadamente desde hoy para usuarios Plus.

Fuente: OpenAI