Leilão do pré-sal rende R$ 8,8 bi e frustra expectativa do governo
Investing.com -- O sistema NVL72 GB200 da NVIDIA está proporcionando um salto de desempenho de 10 vezes para modelos de IA de mistura de especialistas (MoE) em comparação com hardware da geração anterior, transformando a forma como os modelos de IA de fronteira são implementados, segundo uma publicação recente no blog da empresa.
A arquitetura MoE, que imita o cérebro humano ao ativar apenas componentes "especialistas" relevantes para cada tarefa, tornou-se a abordagem dominante para os principais modelos de IA. O ranking Artificial Analysis mostra que os 10 modelos de código aberto mais inteligentes utilizam a arquitetura MoE, incluindo DeepSeek-R1, Kimi K2 Thinking da Moonshot AI, gpt-oss-120B da OpenAI e Mistral Large 3.
O sistema NVIDIA GB200 NVL72 combina 72 GPUs Blackwell funcionando como uma única unidade, oferecendo 1,4 exaflops de desempenho em IA com 30TB de memória compartilhada. O NVLink Switch do sistema cria um tecido unificado com 130 TB/s de conectividade, permitindo que especialistas sejam distribuídos em até 72 GPUs.
Este design aborda diretamente os principais desafios de escalonamento MoE, reduzindo o número de especialistas por GPU e acelerando a comunicação entre eles. O sistema também incorpora o framework NVIDIA Dynamo e o formato NVFP4 para melhorar ainda mais o desempenho.
"Na CoreWeave, nossos clientes estão aproveitando nossa plataforma para colocar modelos de mistura de especialistas em produção enquanto constroem fluxos de trabalho agênticos", disse Peter Salanki, cofundador e diretor de tecnologia da CoreWeave.
O GB200 NVL72 está sendo implementado por grandes provedores de nuvem, incluindo Amazon Web Services, Google Cloud, Microsoft Azure e Oracle Cloud Infrastructure, entre outros.
A DeepL está usando o sistema Blackwell NVL72 para treinar seus modelos de IA de próxima geração. "A DeepL está aproveitando o hardware NVIDIA GB200 para treinar modelos de mistura de especialistas, avançando sua arquitetura de modelo para melhorar a eficiência durante o treinamento e inferência", disse Paul Busch, líder da equipe de pesquisa da DeepL.
A melhoria de desempenho de 10 vezes se traduz em receita de tokens 10 vezes maior, melhorando significativamente a economia da implementação de IA em data centers com restrições de energia. Jensen Huang, fundador e CEO da NVIDIA, destacou este salto de desempenho para o DeepSeek-R1 no NVIDIA GTC Washington, D.C.
A Fireworks AI implementou o Kimi K2 na plataforma NVIDIA B200. "O design em escala de rack NVIDIA GB200 NVL72 torna o serviço de modelo MoE dramaticamente mais eficiente", disse Lin Qiao, cofundador e CEO da Fireworks AI.
O novo modelo Kinnie também alcançou um ganho de desempenho de 10 vezes no GB200 NVL72 em comparação com o H200, resultando em melhor experiência do usuário, menor custo por token e maior eficiência energética.
Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.
