ChatGPT integra el modo de voz en el chat para una conversación más natural y multimodal

  • El modo de voz de ChatGPT pasa a estar integrado en la misma ventana de chat, sin cambiar de pantalla.
  • La IA muestra transcripción en tiempo real y contenido visual como mapas o imágenes dentro del propio hilo.
  • Se mantienen dos niveles de experiencia de voz (estándar y avanzada) y la opción de "Modo separado".
  • La actualización ya se está desplegando globalmente en web, Android e iOS, también en España y Europa.

ChatGPT modo voz integrado

La manera de relacionarnos con las inteligencias artificiales conversacionales sigue cambiando a gran velocidad. Si hace no tanto el foco estaba en la capacidad para generar textos complejos, ahora la batalla pasa por conseguir que la interacción sea más fluida, más cercana al habla cotidiana y menos encorsetada en ventanas y menús.

En este contexto, OpenAI ha reordenado por completo la forma de usar la voz en ChatGPT. La compañía ha comenzado a desplegar una actualización que integra el modo de voz directamente dentro del chat habitual, tanto en la web como en las apps móviles, de forma que hablar con el asistente y ver la conversación en pantalla pasan a formar parte de un único flujo continuo.

El modo de voz se integra en el chat principal

ChatGPT voz en el chat

Hasta ahora, para utilizar la voz en ChatGPT era necesario abandonar la ventana de conversación y saltar a una interfaz específica, dominada por el famoso orbe azul o por una esfera flotante. Aquella pantalla estaba pensada solo para el audio: permitía hablar y escuchar respuestas, pero dificultaba revisar mensajes previos o consultar información visual sin romper el hilo.

La nueva versión elimina esa fricción. A partir de esta actualización, el modo de voz avanzado se activa desde el propio chat mediante un icono con forma de onda situado a la derecha de la barra de escritura. Al pulsarlo, el usuario puede empezar a hablar con la IA sin cambiar de entorno, manteniendo siempre visible el historial de mensajes.

Mientras se desarrolla la conversación, la herramienta muestra una transcripción en vivo de lo que dice la persona y de las respuestas del asistente. Esa transcripción aparece incrustada en el hilo, como si se tratase de mensajes escritos normales, lo que facilita seguir la conversación, volver a un punto concreto o revisar instrucciones anteriores en cualquier momento.

Uno de los puntos clave de este cambio es que la experiencia se vuelve multimodal de verdad. En la misma ventana donde se está hablando por voz, ChatGPT puede incorporar elementos visuales contextuales: imágenes, capturas relevantes, fragmentos de páginas o mapas, todo sin obligar a salir del modo de voz. De este modo, consultar una ruta, pedir recomendaciones geolocalizadas o analizar gráficos se hace en un solo espacio.

Además, el usuario puede alternar libremente entre escribir y hablar. Aunque el modo de voz esté activo, es posible teclear una pregunta y recibir la respuesta por voz, o combinar indicaciones habladas con aclaraciones por escrito, sin necesidad de cambiar manualmente de “modo”.

Un cambio pensado para conversaciones más naturales y continuas

Más allá del rediseño visual, OpenAI persigue que la interacción se parezca cada vez más a una conversación continua, manos libres y sin pasos intermedios innecesarios. La idea es que, tanto en ordenadores como en móviles, hablar con ChatGPT no se sienta como una sucesión de herramientas separadas, sino como un único asistente que entiende voz, texto e imágenes en un mismo lugar.

La compañía apunta a un escenario en el que se pueda, por ejemplo, consultar el tiempo, pedir que muestre un mapa con una ruta, revisar un documento y seguir hablando sin cambiar de pantalla. Todo se resuelve desde el chat principal, lo que resulta especialmente útil en multitarea o cuando se usa el móvil mientras se hacen otras cosas.

Este movimiento encaja con la estrategia de competir directamente con otros asistentes de voz basados en IA, como Gemini Live de Google, que también pone el acento en conversaciones fluidas y en la mezcla de respuesta hablada con contenido visual. La integración de voz dentro de ChatGPT refuerza la posición de OpenAI en ese terreno, al reducir tiempos de espera, simplificar la experiencia y minimizar los saltos entre vistas.

Para quienes usan la IA de forma intensiva —ya sea como apoyo en el trabajo, en estudios o como asistente personal—, el hecho de no tener que alternar constantemente entre ventanas dedicadas a texto o a audio puede marcar la diferencia. La sensación es más cercana a charlar con un mismo interlocutor que cambia de canal (voz o texto) según convenga, pero sin que el usuario tenga que pensar en ello.

Modo estándar y modo avanzado de voz: dos niveles de experiencia

La actualización de la interfaz no llega sola: OpenAI mantiene y potencia la existencia de dos niveles diferenciados de experiencia de voz dentro de ChatGPT. Por un lado, se encuentra el modo estándar, disponible sin coste adicional para cualquier cuenta, que emplea tecnologías de reconocimiento y síntesis de voz más tradicionales.

Por otro lado, se ofrece el llamado modo de voz avanzado, pensado para usuarios con suscripción (como ChatGPT Plus, Pro o Teams), que aprovecha capacidades de modelos más recientes, como GPT-4o o GPT-5.1, para ofrecer una conversación más rica en matices. Esta opción se integra de la misma manera en el chat, pero con mejoras técnicas más evidentes.

OpenAI asegura haber realizado ajustes para reducir la latencia y acercar la respuesta de la IA al ritmo de una conversación humana. En la práctica, el sistema puede contestar en apenas unos cientos de milisegundos, lo que hace que la charla resulte más dinámica y menos “robótica”. Esa rapidez es especialmente perceptible cuando se mantienen diálogos largos o se encadenan muchas preguntas seguidas.

También se han introducido cambios en las voces disponibles. La compañía afirma que ahora su entonación es más personal y realista, con capacidad para reflejar mejor pausas, énfasis y ciertos matices emocionales. Aunque este intento de “humanizar” a la IA ha generado debate entre especialistas, OpenAI defiende que ayuda a que la interacción resulte menos fría y más cómoda de usar durante periodos prolongados.

En cualquier caso, tanto en la versión estándar como en la avanzada, la integración del modo de voz dentro del chat principal funciona de forma similar: el usuario habla, ve la transcripción en directo, recibe las respuestas y puede visualizar contenido gráfico sin abandonar el hilo.

Cómo activar el modo de voz integrado o volver al «Modo separado»

Acceder a la nueva experiencia no tiene demasiada complicación. En la versión web y en las aplicaciones de Android e iOS, basta con asegurarse de que ChatGPT está actualizado a la versión más reciente. Una vez hecho esto, en el lateral derecho del cuadro donde se escribe aparece el icono de onda de voz.

Al pulsar ese icono, se inicia de inmediato la conversación por voz dentro del propio hilo de chat. Desde ese momento, se puede hablar con el asistente, ver cómo se van generando las respuestas en texto en tiempo real, y, cuando resulte pertinente, recibir mapas, imágenes u otros elementos visuales integrados en la misma conversación.

Si en medio de una interacción de voz la persona prefiere escribir, puede simplemente empezar a teclear o tocar de nuevo el botón de voz para cambiar el tipo de entrada, sin que eso suponga cerrar la sesión hablada ni perder el contexto. El sistema está diseñado para permitir ese salto entre voz y texto de forma natural.

OpenAI, no obstante, es consciente de que no todos los usuarios se sienten cómodos con cambios bruscos de interfaz. Por ello, mantiene disponible el llamado “Modo separado”, que recupera la experiencia antigua en la que la voz se gestiona en una pantalla exclusiva.

Para activarlo, hay que ir a la sección de Ajustes de ChatGPT, entrar en el apartado Modo de voz y seleccionar la opción “Modo separado”. Al hacerlo, las conversaciones habladas volverán a abrirse en la interfaz dedicada al audio, con la esfera flotante característica y sin integración directa en el chat principal. Esta preferencia se puede activar y desactivar tantas veces como se quiera, sin limitaciones.

Disponibilidad global, impacto en España y uso en Europa

La compañía ha confirmado que la integración del modo avanzado de voz dentro del chat se está desplegando de forma generalizada para todos los usuarios, tanto en la web como en las aplicaciones móviles. No hace falta registrarse en ningún programa especial: en principio, basta con actualizar la app o recargar la página para que el cambio entre en funcionamiento.

En España y en el resto de Europa, esta llegada se produce en un momento de fuerte competencia entre distintas plataformas de IA conversacional. Servicios como Gemini Live de Google o asistentes integrados en sistemas operativos también están apostando por la voz y la multimodalidad, de modo que la jugada de OpenAI refuerza el papel de ChatGPT como una de las referencias en este campo.

Para el usuario medio, la novedad se traduce en que puede consultar rutas en un mapa, pedir recomendaciones locales, revisar correos o dictar textos mientras ve la información ordenada en pantalla, sin saltos entre modos ni pantallas. El uso manos libres gana peso, algo especialmente interesante cuando se utiliza el móvil en desplazamientos o mientras se realizan otras tareas.

En entornos profesionales y educativos europeos, la integración de voz y texto en un único hilo puede facilitar reuniones asistidas por IA, generación de resúmenes dictados, corrección de textos hablados o apoyo en el aprendizaje de idiomas. Poder escuchar la explicación, ver el contenido escrito y recibir material visual complementario en una misma ventana abre margen a usos más sofisticados.

OpenAI recuerda que el acceso básico al asistente de voz se mantiene gratuito, aunque en cuentas sin suscripción pueden aplicarse ciertos límites de minutos u otras restricciones dinámicas según la carga del sistema. Los planes de pago cuentan, además, con el modo avanzado de voz y un margen de uso más amplio integrado en esta nueva interfaz.

Con todos estos cambios, ChatGPT da un paso más hacia una experiencia conversacional en la que voz, texto y contenido visual conviven sin barreras en la misma pantalla. La posibilidad de volver cuando se quiera al antiguo “Modo separado” ofrece margen a quienes prefieren la experiencia clásica, pero la dirección que marca OpenAI es clara: reducir los pasos intermedios y acercar la interacción con la IA a la forma en que hablamos, preguntamos y consultamos información en el día a día, tanto en España como en el resto de Europa.

cómo comprar desde ChatGPT-2
Artículo relacionado:
ChatGPT y Shopify: hacia una nueva era del ecommerce conversacional