Como o escalonamento pós-treinamento está oferecendo ganhos em inteligência artificial

Publicado 26.07.2025, 06:00

Investing.com - A corrida da IA está entrando em uma nova fase, com uma mudança acentuada do escalonamento por força bruta de dados de treinamento para a amplificação estratégica de modelos após o treinamento.

Divulgações recentes sobre o modelo Grok 4 da xAI mostram uma mudança estrutural na forma como os ganhos de inteligência estão sendo desbloqueados, não pelo aumento do tamanho do modelo ou pela alimentação de mais dados, mas pelo investimento pesado em computação pós-treinamento.

Até o final de 2024, a maioria dos avanços em IA foi impulsionada pelas leis de escalonamento "Chinchilla" — treinando modelos cada vez maiores em conjuntos de dados cada vez maiores.

Isso mudou com o modelo o1 da OpenAI e agora está sendo acelerado pelo Grok 4, segundo o Barclays (LON:BARC).

O modelo Grok 4 usa aproximadamente a mesma computação de pré-treinamento que seu antecessor, mas alcança níveis de inteligência marcadamente mais altos graças a um aumento de dez vezes no aprendizado por reforço aplicado após a fase inicial de treinamento.

Diferentemente do pré-treinamento, que depende do aprendizado não supervisionado de vastos corpora de texto, o pós-treinamento através do aprendizado por reforço permite que os modelos melhorem por meio de tentativa e erro usando tarefas selecionadas.

No caso do Grok 4, essa mudança não apenas melhorou o raciocínio e a resolução de problemas, mas o fez sem aumentar o número de parâmetros do modelo, mantendo os custos de inferência mais baixos enquanto aumentava a qualidade da saída.

As implicações são significativas. "Não deveria haver tanta dependência do aumento de tokens brutos de dados de pré-treinamento para alcançar maior desempenho e inteligência", disse o analista do Barclays.

Em vez disso, a tendência é em direção a modelos agênticos que podem planejar, raciocinar e interagir com ferramentas em ambientes complexos. Um benchmark mostra o Grok 4 superando outros modelos líderes e humanos na gestão de um negócio simulado de máquinas de venda automática, um teste de raciocínio econômico e adaptabilidade.

Essa evolução tem ramificações claras para a demanda de computação e despesas de capital.

Enquanto modelos anteriores geravam respostas em etapas únicas, modelos agênticos agora raciocinam em cadeias, emitindo tokens 15 vezes mais intensivos em computação por consulta.

Como tal, o pós-treinamento pode não ser apenas o caminho para modelos mais inteligentes, mas também pode justificar os impressionantes investimentos em infraestrutura sendo feitos pelos hiperescaladores.

Em um campo há muito definido pela escala de pré-treinamento, o pós-treinamento pode ser onde reside a verdadeira inteligência.

Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.

Últimos comentários

Instale nossos aplicativos
Divulgação de riscos: Negociar instrumentos financeiros e/ou criptomoedas envolve riscos elevados, inclusive o risco de perder parte ou todo o valor do investimento, e pode não ser algo indicado e apropriado a todos os investidores. Os preços das criptomoedas são extremamente voláteis e podem ser afetados por fatores externos, como eventos financeiros, regulatórios ou políticos. Negociar com margem aumenta os riscos financeiros.
Antes de decidir operar e negociar instrumentos financeiros ou criptomoedas, você deve se informar completamente sobre os riscos e custos associados a operações e negociações nos mercados financeiros, considerar cuidadosamente seus objetivos de investimento, nível de experiência e apetite de risco; além disso, recomenda-se procurar orientação e conselhos profissionais quando necessário.
A Fusion Media gostaria de lembrar que os dados contidos nesse site não são necessariamente precisos ou atualizados em tempo real. Os dados e preços disponíveis no site não são necessariamente fornecidos por qualquer mercado ou bolsa de valores, mas sim por market makers e, por isso, os preços podem não ser exatos e podem diferir dos preços reais em qualquer mercado, o que significa que são inapropriados para fins de uso em negociações e operações financeiras. A Fusion Media e quaisquer outros colaboradores/partes fornecedoras de conteúdo não são responsáveis por quaisquer perdas e danos financeiros ou em negociações sofridas como resultado da utilização das informações contidas nesse site.
É proibido utilizar, armazenar, reproduzir, exibir, modificar, transmitir ou distribuir os dados contidos nesse site sem permissão explícita prévia por escrito da Fusion Media e/ou de colaboradores/partes fornecedoras de conteúdo. Todos os direitos de propriedade intelectual são reservados aos colaboradores/partes fornecedoras de conteúdo e/ou bolsas de valores que fornecem os dados contidos nesse site.
A Fusion Media pode ser compensada pelos anunciantes que aparecem no site com base na interação dos usuários do site com os anúncios publicitários ou entidades anunciantes.
A versão em inglês deste acordo é a versão principal, a qual prevalece sempre que houver alguma discrepância entre a versão em inglês e a versão em português.
© 2007-2025 - Fusion Media Limited. Todos os direitos reservados.