Filmes gerados por inteligência artificial estão se tornando uma realidade mais cedo do que você imagina. E a nova ferramenta do Google DeepMind, capaz de gerar trilhas sonoras e efeitos sonoros para vídeos gerados por IA, é a prova disso.
3 Pontos-Chave
- A ferramenta V2A (Video-to-Audio) do DeepMind usa combinação de pixels e prompts de texto para gerar automaticamente trilhas sonoras e efeitos sonoros para vídeos de IA.
- Essa tecnologia representa um grande passo em direção à criação totalmente automatizada de cenas de filmes.
- Embora ainda tenha limitações, o potencial para filmes amadores e animações é enorme, reduzindo drasticamente os orçamentos necessários.
Uma Nova Era para o Cinema
Nos últimos tempos, geradores de vídeo com IA, como o Sora da OpenAI, o Dream Machine da Luma AI e o Runway Gen-3 Alpha, têm roubado as manchetes. Porém, uma nova ferramenta do Google DeepMind pode resolver a principal fraqueza que todos eles compartilham: a falta de áudio acompanhante.
O Poder da Geração de Áudio por IA
A nova ferramenta V2A (Video-to-Audio) do DeepMind usa uma combinação de pixels e prompts de texto para gerar automaticamente trilhas sonoras, efeitos sonoros e até mesmo diálogos que, segundo a empresa, “combinam com os personagens e o tom do vídeo”.
Infinitas Possibilidades Sonoras
O que torna essa ferramenta ainda mais impressionante é a sua capacidade de gerar um “número ilimitado de trilhas sonoras para qualquer entrada de vídeo”. Isso significa que os criadores podem ajustar os resultados com simples prompts de texto até obterem o resultado desejado.
Diferencial da Tecnologia DeepMind
O que diferencia a ferramenta V2A do DeepMind das tecnologias rivais é sua capacidade de gerar áudio puramente com base em pixels – o uso de prompts de texto é opcional. Mas a empresa também está ciente do enorme potencial para usos indevidos e deepfakes, motivo pelo qual essa ferramenta está sendo restrita a um projeto de pesquisa, por enquanto.
Potencial Explosivo
Os exemplos de vídeos curtos fornecidos pelo DeepMind mostram que essa tecnologia tem um potencial explosivo, tanto para o bem quanto para o mal. O potencial para filmes amadores e animações é enorme, conforme demonstrado pelos clipes de “horror” e de um desenho animado de um bebê dinossauro.
Redução Drástica de Orçamentos
Uma cena semelhante ao filme “Blade Runner”, com carros derrapando por uma cidade com uma trilha sonora de música eletrônica, também mostra como a ferramenta V2A poderia reduzir drasticamente os orçamentos necessários para filmes de ficção científica.
Limitações Atuais
No entanto, as limitações ainda são evidentes, como demonstrado no vídeo de uma “família em animação de massa de modelar”, onde os diálogos gerados deixam a desejar. Mas, se o último ano nos ensinou alguma coisa, é que a tecnologia V2A do DeepMind só irá melhorar drasticamente a partir daqui.
A Corrida pela Supremacia do Áudio Gerado por IA
A combinação de vídeos gerados por IA com trilhas sonoras e efeitos sonoros criados por IA é um divisor de águas em vários níveis – e adiciona outra dimensão a uma corrida armamentista que já estava em ritmo acelerado.
Planos da OpenAI para Adicionar Áudio
A OpenAI já anunciou que tem planos de adicionar áudio ao seu gerador de vídeo Sora, que deve ser lançado ainda este ano. Mas a nova ferramenta V2A do DeepMind mostra que a tecnologia já está em um estágio avançado e pode criar áudio com base puramente em vídeos, sem a necessidade de prompts intermináveis.
Como a Ferramenta V2A Funciona
A ferramenta V2A funciona usando um modelo de difusão que combina informações dos pixels do vídeo e dos prompts de texto do usuário, gerando então um áudio comprimido que é decodificado em uma forma de onda sonora. Ela foi treinada em uma combinação de vídeos, áudios e anotações geradas por IA.
A Vantagem do Google
Não está claro exatamente qual conteúdo foi usado para treinar a ferramenta V2A, mas o Google claramente tem uma vantagem potencial enorme por ser dono da maior plataforma de compartilhamento de vídeos do mundo, o YouTube. Embora os termos de serviço do YouTube não sejam totalmente claros sobre como seus vídeos podem ser usados para treinar modelos de IA, o CEO Neal Mohan disse recentemente que alguns criadores têm contratos que permitem que seu conteúdo seja usado para esse fim.
Conclusão
Embora a tecnologia ainda tenha limitações com diálogos e esteja longe de produzir um produto acabado pronto para Hollywood, ela já é uma ferramenta poderosa para storyboarding e filmes amadores. E com a intensa competição de empresas como a OpenAI, é certo que ela só irá melhorar rapidamente a partir daqui.