A Stability AI, desenvolvedora do popular Stable Diffusion, apresentou um novo modelo de inteligência artificial generativa
para criar imagens a partir de textos: o Stable Cascade.
Ainda limitado ao uso não comercial, a tecnologia
conta com a arquitetura Würstchen e chama a atenção pela sua eficiência para reduzir os gastos ao gerar ou editar imagens com IA.
Stable Cascade é mais rápido
A Stability AI demonstrou o potencial da solução do Stable Cascade ao compará-la com outros modelos, incluindo o Stable Diffusion XL (SDXL). O grande destaque se encontra na velocidade de inferência — o tempo que o algoritmo leva para processar as informações, ou seja, quanto menor, melhor.
O Stable Cascade precisou de, ao todo, 10 segundos para concluir o processamento. Já o SDXL e o Playground v2 levaram 22,8 segundos para oferecer os resultados da mesma solicitação.
–
Siga no Instagram
: acompanhe nossos bastidores, converse com nossa equipe, tire suas dúvidas e saiba em primeira mão as novidades que estão por vir no Canaltech.
–
O novo algoritmo só perdeu para o SDXL Turbo, que tem foco na velocidade e somente uma etapa no processo: 0,3 segundo. Por outro lado, o lançamento é superior à versão mais ágil do Stable Diffusion quando o assunto é estética, que avalia a qualidade da imagem gerada ou editada.
Além disso, o Stable Cascade lidera no quesito alinhamento do prompt — ou seja, ele é mais fiel às solicitações dos usuários. Especialmente em relação ao Würstchen v2, que teve o pior resultado no comparativo entre os modelos.
Abordagem de três estágios
O grande destaque da nova solução da Stability se concentra na abordagem de três estágios. Esse processo é dividido em dois grupos, sendo um para interpretar e transformar o comando dado pelo usuário (prompt, em inglês)
e outro para comprimir as imagens.
Seguindo essa abordagem, o algoritmo começa pelo estágio C, que analisa o prompt. Essa etapa, que compreende o primeiro grupo, usa exclusivamente modelos estatísticos de difusão latente para processar os dados.
O processo dá sequência no segundo grupo, que concentra duas etapas do processo na seguinte ordem: estágio B, também com modelo de difusão latente, e o estágio C, com VAE para fazer a codificação e a compressão dos dados com rede neural.
Após esse processo, em que existem nuances mais aprofundadas e variações para atender às necessidades dos desenvolvedores, a imagem é entregue a quem realizou a solicitação.
Apenas para uso não comercial
O Stable Cascade garante recursos essenciais, como a possibilidade de oferecer variação das mídias geradas, criar imagens a partir de outras imagens e duplicar a resolução dos arquivos ( upscaling
). Mas todos esses recursos têm um limite de uso, pois o algoritmo está disponível apenas para uso não comercial.
Além disso, o modelo está em fase prévia para pesquisas e tende a ser aprimorado com o tempo. Enquanto isso, os desenvolvedores podem explorar o Stable Cascade no repositório oficial do GitHub ( github.com/Stability-AI/StableCascade
).
Leia a matéria no Canaltech
.
Trending no Canaltech: