O Google
DeepMind revelou uma nova ferramenta de IA capaz de gerar trilhas sonoras, diálogos e efeitos sonoros para vídeos com base no conteúdo visual dos materiais. A tecnologia
V2A (video-to-audio) consegue analisar os pixels do vídeo e combinar as informações com prompts de texto em linguagem natural para gerar áudios que acompanham a ação na tela.
A nova IA está em fase de testes e ainda passará por avaliações de segurança antes de ser disponibilizada ao público. Segundo a companhia, cineastas e criadores de conteúdo experimentam a ferramentas e fornecem feedback neste período de experimentação. Ainda não há previsão de quando a ferramenta será liberada ao grande público.
Como funciona a V2A
De acordo com o Google Deepmind, o laboratório de inovação e IA da companhia, a tecnologia V2A parte das informações visuais do vídeo para gerar um áudio que combine com os elementos na tela. A ferramenta codifica a entrada de vídeo em uma representação comprimida e utiliza um modelo de difusão para refinar iterativamente o áudio a partir de ruído aleatório.
–
CT no Flipboard
: você já pode assinar gratuitamente as revistas Canaltech no Flipboard do iOS e Android e acompanhar todas as notícias em seu agregador de notícias favorito.
–
“Ao treinar em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a diversas cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições”, explica a equipe responsável pela V2A no blog
oficial da companhia.
Apesar da possibilidade de incluir comandos de texto, eles são opcionais, pois a ferramenta é capaz de criar as trilhas apenas com base no material visual. Além de criar faixas sonoras para vídeos contemporâneos, a V2A pode ser aplicada a materiais tradicionais, como filmes silenciosos e arquivos históricos.
No entanto, o laboratório cita alguns desafios. Primeiramente, os resultados da IA dependem qualidade do vídeo de entrada, e vídeos granulados ou distorcidos podem resultar em uma queda perceptível na qualidade do áudio. Além disso, a sincronização labial em vídeos que envolvem diálogos ainda é imprecisa e precisa de mais tempo de treinamento.
Exemplos da nova IA
O Google DeepMind divulgou alguns exemplos de vídeos com áudios gerados com a nova IA em seu blog oficial. Em um vídeo de um carro em uma cidade futurista, a ferramenta gerou sons de derrapagem, motor acelerando e trilha de música eletrônica que se ajustam aos movimentos do carro.
Em outro exemplo, a IA criou um ambiente sonoro de terror a partir do prompt “cinematográfico, suspense, filme de terror, música, tensão, ambiente, pegadas no concreto”.
A companhia informou que todos os conteúdos gerados pela IA V2A terão a marca d’água SynthID do Google para indicar sua origem artificial
, com o objetivo de ajudar a prevenir o uso indevido da tecnologia.
Leia a matéria no Canaltech
.
Trending no Canaltech: