ChatGPT ahora habla como si fuera un ser humano, traduce e incluso cuenta historias
ChatGPT ya era capaz de escuchar y hablar, pero ahora no. OpenAI ha anunciado su nuevo modelo de inteligencia artificial llamado GPT-4o, que no solo es más poderoso, sino que también puede hablar con todo y entonaciones de voz en tiempo real, casi como lo haría un humano.
OpenAI demostró en una actualización de primavera sus capacidades para este nuevo modelo de IA, que incluye la resolución de ecuaciones en tiempo real, el análisis de código, la narración de historias en tiempo real (cambiando la entonación a gusto del usuario), el servicio de traductor instantáneo y hasta la capacidad de analizar el rostro de una persona.
OpenAI afirma que GPT-4o es un modelo multimodal nuevo que puede utilizar de forma nativa una variedad de entradas de contenido, audio, visión y texto en tiempo real, lo que hace que la interacción sea “mucho más natural” y también más rápida en sus respuestas.
Esto se debe a una nueva forma de entrenamiento de extremo a extremo, donde la IA procesa todas las entradas y salidas de audio, visión y texto en la misma red neuronal.
Simplemente, este cambio cambia la forma en que veía el contenido. Hasta ahora, la IA debía completar tres acciones: transcribir una entrada de audio a texto, crear el texto de la respuesta y convertir la entrada de audio nuevamente para compartirla con el usuario.
Como resultado de este proceso, ChatGPT perdió información al no poder analizar detalles como los tonos o si había múltiples participantes, además de limitar su capacidad para emitir risas, cantar o expresar emociones.
Una de las mejoras con GPT-4o es que la IA ahora puede mantener las conversaciones en tiempo real, agregar tonos y transmitir emociones en su voz, y interactuar con contenido en tiempo real a través de la función de cámara en vivo de su aplicación para smartphones.
La empresa afirma que GPT-4o supera el nivel GPT-4 Turbo en texto, razonamiento e inteligencia de codificación, pero utiliza menos tokens para procesar el contenido, lo que lo hace “más económico” para los desarrolladores que utilizan su API.
En la presentación se exhibieron algunos de estos detalles, ya que al solicitar que contara una historia, varios usuarios podían solicitar ajustes en la narración, usar una voz más emotiva o incluso cambiar la voz por una robótica.
El nuevo modelo también se probó en otros entornos, como ayudar a los presentadores a resolver una ecuación lineal paso a paso en tiempo real mientras apuntaban la cámara de su smartphone al problema, y traducir de manera prácticamente instantánea entre dos personas de italiano a inglés.
Al igual que los otros modelos, GPT-4o tiene la capacidad de analizar el código paso a paso y proporcionar comentarios al usuario sobre cómo funciona, además de proporcionar explicaciones de información en formato gráfico.
Uno de los aspectos más notables de este nuevo modelo es que estará disponible para prácticamente todos los usuarios, aunque con ciertas limitaciones, tanto para aquellos que están suscritos a algunos de sus planes y sin costo.
OpenAI ha anunciado que desde el miércoles 13 de mayo se implementarán gratuitamente en ChatGPT las capacidades de texto e imagen del modelo. Además, los usuarios Plus tendrán límites de mensajes hasta cinco veces más altos.
Sin embargo, en las próximas semanas, una de las funciones más destacadas del modelo, el nuevo modo de voz, solo estará disponible para los suscriptores de la versión alfa.
OpenAI afirma que GPT-4o es un modelo que es dos veces más rápido, a mitad de precio y con límites de velocidad más altos que GPT-4 Turbo, lo que brinda ventajas para los desarrolladores que utilizan la API de IA.
La empresa presentó una nueva aplicación de escritorio, además de GPT-4o, que incluye un comando específico para realizar consultas sobre contenido de forma instantánea, ya sea seleccionando texto o tomando capturas de pantalla.
Para el momento, esta característica será exclusiva para macOS y los usuarios Plus, sin embargo, la empresa tiene en mente lanzar una versión para Windows a finales de 2024.