A OpenAI apresentou uma atualização do ChatGPT
que adicionou ao app uma assistente de voz estilo Google
e Siri capaz de interpretar conteúdos em diferentes formatos — como fotos, imagens e códigos de programação — e responder aos comandos como uma conversa natural.
Na apresentação Spring Update, desta segunda-feira (13)
, a empresa destacou a capacidade do modelo de linguagem
de captar emoções e expressas variações no tom de voz.
Assistente de voz multimodal
A nova assistente de voz do ChatGPT foi apresentada pelos demonstradores Mark Chen e Barret Zoph durante o evento de divulgação da OpenAI. No palco, ao lado da diretora de tecnologia
da empresa, Mira Murati, eles mostraram exemplos de como as novas capacidades do modelo preparam o app da OpenAI para disputar a próxima fase da corrida de IA — a dos assistentes virtuais ainda mais inteligentes.
–
Canaltech no Youtube: notícias, análise de produtos, dicas, cobertura de eventos e muito mais! Assine nosso canal no YouTube
, todo dia tem vídeo novo para você!
–
A dupla destacou que a IA consegue responder às solicitações com mais velocidade, o que elimina o atraso entre o envio do comando e a resposta — o que permite interagir com a ferramenta como se fosse uma conversa.
Além disso, não é preciso mais esperar a IA terminar uma resposta para fazer uma nova pergunta, pois é possível interromper o modelo a qualquer momento para mudar o rumo da prosa e enviar novos comandos.
Na apresentação, a dupla de desenvolvedores da OpenAI demonstrou também as habilidades da assistente de voz do ChatGPT de compreender vários formatos ao mesmo tempo.
Chen e Zoph usaram a IA para resolver problemas matemáticos e analisar códigos de programação enviados no chatbot
. A assistente foi capaz de identificar a foto de uma equação matemática e responder como solucionar o problema com dicas passo a passo.
A ferramenta de voz do ChatGPT foi usada também para analisar a emoção dos desenvolvedores a partir do tom de voz e do ritmo de respiração, bem como criar um conto de ficção com diferentes formas de dramatização. Além de captar e expressar emoções, a IA foi capaz de fazer uma versão musical cantada da história.
check it out: pic.twitter.com/eDvHseLngy
— Sam Altman (@sama) May 13, 2024
Por fim, a equipe demonstrou ainda como a assistente de voz pode ser utilizada para realizar tradução em tempo real entre diferentes línguas. Ao ser desafiada para traduzir entre três línguas ao mesmo tempo, a IA brincou que estava pronta para a tarefa em italiano.
Quando chega?
A OpenAI informou que a nova capacidade multimodal da função de voz no ChatGPT será lançada nas próximas semanas para todo o público.
Leia a matéria no Canaltech
.
Trending no Canaltech: