Novo modelo de IA aberto do Google revoluciona a geração de texto com velocidade 4x maior

há 1 semana 19

Novo modelo de IA aberto do Google revoluciona a gera??o de texto com velocidade 4x maior

10 de junho de 2026 0

O Google DeepMind lançou nesta terça-feira (10) o DiffusionGemma. Trata-se de um modelo de inteligência artificial de código aberto que abandona a geração sequencial de texto para produzir blocos de 256 tokens em paralelo. Dessa maneira, ele alcança até 1.000 tokens por segundo numa NVIDIA H100 e opera com maior velocidade.

O que é o DiffusionGemma e como funciona a geração paralela de texto

De modo geral, o novo modelo da família Gemma 4 promete operar com velocidade até 4x maior em comparação com versões anteriores. Nesse sentido, a inovação está na forma como ele gera seus textos em blocos paralelos, trabalhando de forma inspirada em técnicas de difusão usadas em IA de imagens.

Google DeepMind apresenta intelig?ncia artificial capaz de gerar efeitos sonoros a partir de v?deos

Tech 18 Jun

Google DeepMind revela intelig?ncia artificial capaz de aprender a jogar videogames

Tech 13 Mar

Novo modelo DiffusionGemma redefine a eficiência da IA local

Diferente do que se vê em modelos tradicionais autorregressivos, que geram texto token por token, o DiffusionGemma gera blocos inteiros de texto de forma simultânea. Esse processo “denoising”, então, é bem parecido com o que se utiliza em geração de imagens, refinando tokens até formar o texto final.

Desempenho impressionante: até 1.000 tokens por segundo

Em termos de desempenho, vale destacar que ele é um modelo Mixture of Experts (MoE) com 26 bilhões de parâmetros, dos quais 3,8 bilhões são ativados por inferência. Além disso, ele roda localmente em placas como RTX 5090 ou NVIDIA H100, atingindo 700 a 1.000 tokens por segundo.

Com isso, o modelo se torna ideal para tarefas não lineares, como edição de texto em linha, sequenciamento molecular e gráficos matemáticos.

Desafios da difusão em texto e limitações para uso em nuvem

Apesar do desempenho impressionante, vale destacar algumas limitações, já que a técnica de difusão pode gerar erros discretos em texto, o que a torna menos confiável para grandes modelos em nuvem. Mesmo assim, ela é mais eficiente para uso local, visto que aproveita melhor o poder de processamento disponível.

No mais, esse modelo é de código aberto, licenciado sob Apache 2.0 e disponível para download no Hugging Face.