quinta-feira, 1 de maio de 2025

Rádio SOUCG

  • ThePlus Audio

Google Gemini 1.5 Pro agora interpreta arquivos de áudio

André Lourenti Magalhães

Google Gemini 1.5 Pro agora interpreta arquivos de áudio

O Google
anunciou que o modelo de IA Gemini
1.5 Pro, o mais recente da empresa, recebeu suporte para processar arquivos com áudio, como vídeos e mensagens de voz. A ferramenta ganhou uma prévia pública e pode ser testada por empresas com acesso ao Vertex AI, plataforma para criar tecnologias com IA generativa.

O Gemini 1.5 Pro é oferecido em dois tamanhos, compatíveis com 128K e 1 milhão de tokens, e é capaz de processar até uma hora de vídeo ou 11 horas de áudio durante um único fluxo, de acordo com dados da Gigante de Mountain View.

A empresa reforça que a tecnologia
pode ser usada para análises multimodais entre textos, imagens, vídeos e áudios entre corporações, com capacidade para transcrever, analisar e pesquisar áudios de conferências de resultados e reuniões com investidores, por exemplo. O modelo foi lançado em fevereiro deste ano
, mas ainda não tinha passado por testes públicos — a expectativa é de que supere o Gemini 1.0 Ultra em performance, até então a tecnologia mais potente do Google no segmento.


Siga o Canaltech no Twitter
e seja o primeiro a saber tudo o que acontece no mundo da tecnologia.

A variante 1.5 Pro também foi integrada ao Gemini Code Assist, assistente de código por IA voltado para empresas e organizações privadas. Em nota, a desenvolvedora comenta que a novidade aumenta a janela de contexto, ideal para projetos grandes, e “oferece sugestões de código ainda mais precisas, insights mais profundos e fluxos de trabalho simplificados”

Vale lembrar que a empresa divide o modelo de IA em três níveis: Nano (voltada para celulares, como os da linha Pixel
), Pro (intermediário, usado no chatbot
gratuito Gemini) e Ultra (exclusivo para assinantes do Gemini Advanced
).

Novidades no Vertex AI

A Big Tech aproveitou o evento Google Cloud Next 24 para anunciar uma série de melhorias ao Vertex AI. Além do Gemini 1.5 Pro, a ferramenta se tornou compatível com outros modelos fundacionais, como o Claude 3, da Anthropic, e o CodeGemma, modelo mais leve do Google voltado para programação.

Por fim, a plataforma recebeu integração com o Imagen 2.0
, usado para geração de imagens. A nova versão do LLM
é capaz de gerar GIFs animados de até quatro segundos de duração, editar conteúdos já existentes e adicionar uma nova marca d’água digital para sinalizar que algo foi gerado por IA.

Leia a matéria no Canaltech
.

Trending no Canaltech:



Fonte

Enquete

O que falta para o centro de Campo Grande ter mais movimento?

Últimas