/

ChatGPT-4o: La Revolución de OpenAI con Traducción Simultánea y Reconocimiento Emocional

OpenAI ha lanzado el revolucionario modelo de inteligencia artificial ChatGPT-4o, disponible gratuitamente para todos los usuarios. Con funciones avanzadas como traducción simultánea y la capacidad de leer emociones faciales, esta nueva versión promete transformar la interacción entre humanos y máquinas.

El 13 de mayo de 2024 marca un hito en la historia de la inteligencia artificial con el lanzamiento del ChatGPT-4o por parte de OpenAI. Este nuevo modelo, cuyo nombre incluye una «o» que significa «omni», introduce funcionalidades sorprendentes que prometen redefinir la interacción entre personas y computadoras. Además, y quizás lo más llamativo, es que estará disponible de manera gratuita para todos los usuarios.

GPT-4o es un modelo que acepta como entrada cualquier combinación de texto, audio e imagen, y es capaz de generar salidas en estos mismos formatos. Esto significa que los usuarios podrán interactuar con el asistente de inteligencia artificial de OpenAI de maneras más variadas y naturales que nunca antes. Según la compañía, el despliegue de este modelo en sus productos se realizará en las próximas semanas, permitiendo a los usuarios experimentar estas innovaciones de primera mano.

Leer emociones

Una de las características más destacadas de GPT-4o es su capacidad para leer las emociones en el rostro de los usuarios a través de la cámara de sus teléfonos inteligentes. Esta función permite que el asistente pueda ofrecer respuestas más empáticas y personalizadas, guiando a los usuarios en actividades como ejercicios de respiración, narración de historias o resolución de problemas matemáticos. La tecnología de reconocimiento emocional podría significar un gran avance en la manera en que interactuamos con los dispositivos, haciéndolos más sensibles a nuestro estado emocional y, por ende, más útiles en situaciones cotidianas.

Traducciones

Además, GPT-4o permite realizar traducciones simultáneas en diversos idiomas, una función que se demostró durante la presentación oficial con ejemplos en tiempo real. Esta capacidad no solo facilita la comunicación entre personas de diferentes lenguas, sino que también abre un abanico de posibilidades para el aprendizaje y la accesibilidad global.

Durante una conferencia de prensa virtual, Mira Murati, directora tecnológica de OpenAI, expresó el entusiasmo de la compañía por presentar GPT-4o a los usuarios gratuitos. «Entrenamos un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal», explicó Murati. «Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rascando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones», añadió.

La presentación de GPT-4o incluyó una demostración del asistente accionado por voz, capaz de reproducir de manera sorprendente la fluidez de las conversaciones humanas. Con tiempos de respuesta de solo 232 milisegundos en el mejor de los casos y un promedio de 320 milisegundos, la interacción con el asistente se siente casi como una conversación con una persona real.

OpenAI ha indicado que las capacidades de GPT-4o se implementarán de forma gradual. Desde el primer día, las capacidades de texto e imagen comenzarán a estar disponibles en ChatGPT, con una ampliación significativa de los límites de mensajes para usuarios gratuitos y Plus. Además, se lanzará una nueva versión del Modo de Voz en fase alfa para los suscriptores de ChatGPT Plus en las próximas semanas. Los desarrolladores también podrán acceder a GPT-4o a través de la API como modelo de texto y visión, y se espera que las nuevas capacidades de audio y video se lancen a un grupo selecto de socios en el futuro cercano.

La optimización del tiempo de respuesta es otra de las mejoras significativas en GPT-4o. En comparación con sus predecesores, este nuevo modelo es dos veces más rápido y tiene la mitad del costo, con límites de velocidad cinco veces superiores a los de GPT-4 Turbo. Estas mejoras no solo hacen que el modelo sea más eficiente, sino que también reducen las barreras para su uso extensivo en aplicaciones comerciales y personales.

Antes de la llegada de GPT-4o, el Modo de Voz utilizaba una canalización de tres modelos separados para transcribir audio, generar respuestas y convertir texto a audio nuevamente. Este proceso, aunque efectivo, implicaba una pérdida de información crucial como el tono, la identificación de múltiples hablantes o el ruido de fondo. GPT-4o supera estas limitaciones al integrar todas las capacidades en una única red neuronal, permitiendo interacciones más naturales y precisas.

Con GPT-4o, OpenAI no solo está mejorando la tecnología de inteligencia artificial, sino que también está ampliando su accesibilidad y utilidad para un público global. Las innovaciones presentadas prometen un futuro donde la tecnología y la humanidad puedan coexistir de manera más armoniosa y eficiente, ofreciendo herramientas que realmente comprenden y responden a nuestras necesidades emocionales y comunicativas.

Y tú, ¿Qué opinas?

Licenciado en Periodismo en el Centro de Enseñanza Superior Alberta Giménez (CESAG). Pasé por IB3 Radio y por Cope Mallorca; ahora, en Mallorcadiario.com desde enero de 2023. Periodista polivalente, sobre todo apasionado de los deportes y, ahora, también de los sucesos. Disfrutando de juntar letras para contar historias. Generación del 96.

Artículo anterior

Tirana: La Ciudad del Renacer

Siguiente artículo

El Kiosco Mundial: Un Ícono Perdido de Palma

Lo último

×