Gracias a la nueva versión GPT-4o, ChatGPT ha adquirido la capacidad de comunicarse de manera más natural

En el mes de mayo de 2024, OpenAI presentó al mundo su innovador modelo de inteligencia artificial GPT-4o, el cual destaca por su mayor capacidad en comparación con versiones anteriores. Este avance se debe en gran medida a la implementación de un novedoso sistema de procesamiento que le permite analizar de manera simultánea información proveniente de texto, visión y audio en una versión multimodal. Después de una larga espera y múltiples demoras, la empresa ha lanzado finalmente esta función de voz.

La recién incorporada característica de audio enriquece la interacción con ChatGPT, ofreciendo mejoras significativas en comparación con la versión demostrativa. Se destaca por su mayor rapidez, fluidez y mejoras en la entonación de acentos en diversos idiomas extranjeros.

Según OpenAI, el “modo de voz avanzado” (AVM) se implementará primero en los clientes que tienen las suscripciones de pago de ChatGPT, específicamente en los niveles Plus o Teams. Sin embargo, se prevé que pronto esté accesible para los usuarios de Enterprise y Edu, tras haberse iniciado su lanzamiento en versión alfa para ciertos individuos hace varios meses.

De esta manera opera el modo avanzado de voz.

El AVM trae consigo numerosas modificaciones con respecto a lo que se presentó inicialmente. Ahora presenta un aspecto actualizado que destaca especialmente en su apariencia visual. En vez de los habituales puntos negros o blancos en movimiento, se ha incorporado una esfera azul en movimiento al ritmo de la música.

Es importante mencionar que en la aplicación de ChatGPT ya existía un modo de voz básico que ofrecía la posibilidad de elegir entre distintos estilos de voz para comunicarse sin necesidad de teclear. Sin embargo, este enfoque operaba de forma secuencial, lo que significa que el chatbot podía hablar o escuchar en momentos específicos.

En este momento, la distinción radica en que ChatGPT, en su modalidad de voz avanzada, permanece en un estado de escucha continua, lo que posibilita interrumpir una respuesta de manera similar a como se haría en una charla con alguien más. Esto hace que sea más sencillo pedir modificaciones en una orden, incluir datos adicionales o modificar la respuesta del chatbot.

Igual que en la forma de voz convencional, esta característica está disponible a través de un botón ubicado al lado del cuadro de texto, visible para los usuarios premium mediante una notificación recién incorporada en la app.

Los sonidos que emanan de ChatGPT

Dentro de las opciones del modo de voz avanzado se encuentran cinco voces adicionales para que los usuarios experimenten: Arbor, Maple, Sol, Spruce y Vale. Cada una posee distintas cualidades de entonación y respuestas generadas, ajustándose a los gustos individuales de los usuarios.

No obstante, una voz ha quedado excluida: la de Sky. Durante la presentación de primavera de OpenAI, se empleó una voz que guardaba una notable semejanza con la voz de Scarlett Johansson, lo cual generó una advertencia legal de la actriz y finalmente llevó a la empresa a eliminarla.

Chatgpt Voces

Por ahora, el AVM carece de otras funciones presentadas en la demostración, como la posibilidad de compartir pantalla y video en directo con ChatGPT para que pueda analizar tanto información visual como auditiva. En estos momentos, la empresa no ha establecido una fecha para el lanzamiento de esta función.

Un desarrollo en marcha

A pesar de que OpenAI no especifica el lugar exacto donde se puede encontrar la reciente característica AVM de ChatGPT, es probable que México forme parte de los territorios abarcados en esta implementación, dado que las suscripciones Plus, Team y Enterprise están disponibles para su adquisición en dicho país.

Según OpenAI, el AVM no se encuentra accesible en múltiples áreas, incluyendo la Unión Europea, Reino Unido, Suiza, Islandia, Noruega y Liechtenstein.