sexta-feira, 18 de julho de 2025

Rádio SOUCG

ThePlus Audio

ChatGPT ganha assistente de voz multimodal com tradução em tempo real

Guilherme Haas

A OpenAI apresentou uma atualização do ChatGPT
que adicionou ao app uma assistente de voz estilo Google
e Siri capaz de interpretar conteúdos em diferentes formatos — como fotos, imagens e códigos de programação — e responder aos comandos como uma conversa natural.

Na apresentação Spring Update, desta segunda-feira (13)
, a empresa destacou a capacidade do modelo de linguagem
de captar emoções e expressas variações no tom de voz.

Assistente de voz multimodal

A nova assistente de voz do ChatGPT foi apresentada pelos demonstradores Mark Chen e Barret Zoph durante o evento de divulgação da OpenAI. No palco, ao lado da diretora de tecnologia
da empresa, Mira Murati, eles mostraram exemplos de como as novas capacidades do modelo preparam o app da OpenAI para disputar a próxima fase da corrida de IA — a dos assistentes virtuais ainda mais inteligentes.

–
Canaltech no Youtube: notícias, análise de produtos, dicas, cobertura de eventos e muito mais! Assine nosso canal no YouTube
, todo dia tem vídeo novo para você!
–

A dupla destacou que a IA consegue responder às solicitações com mais velocidade, o que elimina o atraso entre o envio do comando e a resposta — o que permite interagir com a ferramenta como se fosse uma conversa.

Além disso, não é preciso mais esperar a IA terminar uma resposta para fazer uma nova pergunta, pois é possível interromper o modelo a qualquer momento para mudar o rumo da prosa e enviar novos comandos.

Na apresentação, a dupla de desenvolvedores da OpenAI demonstrou também as habilidades da assistente de voz do ChatGPT de compreender vários formatos ao mesmo tempo.

Chen e Zoph usaram a IA para resolver problemas matemáticos e analisar códigos de programação enviados no chatbot
. A assistente foi capaz de identificar a foto de uma equação matemática e responder como solucionar o problema com dicas passo a passo.

A ferramenta de voz do ChatGPT foi usada também para analisar a emoção dos desenvolvedores a partir do tom de voz e do ritmo de respiração, bem como criar um conto de ficção com diferentes formas de dramatização. Além de captar e expressar emoções, a IA foi capaz de fazer uma versão musical cantada da história.

check it out: pic.twitter.com/eDvHseLngy

— Sam Altman (@sama) May 13, 2024

Por fim, a equipe demonstrou ainda como a assistente de voz pode ser utilizada para realizar tradução em tempo real entre diferentes línguas. Ao ser desafiada para traduzir entre três línguas ao mesmo tempo, a IA brincou que estava pronta para a tarefa em italiano.