🍎 🍕 Menos maçãs, mais pizza 🤔 Já viu recentemente a carteira de Warren Buffett?Veja mais

OpenAI e seus rivais buscam novo caminho para IA "mais inteligente"

Publicado 11.11.2024, 10:47
© Reuters. Imagem ilustrativa de Inteligência Artificialn19/02/2024nREUTERS/Dado Ruvic

Por Krystal Hu e Anna Tong

(Reuters) - Empresas de inteligência artificial, como a OpenAI, estão tentando superar atrasos e desafios inesperados na busca de modelos de linguagem cada vez maiores, desenvolvendo técnicas de treinamento de máquina que usam formas mais humanas para os algoritmos "pensarem".

Uma dúzia de cientistas, pesquisadores e investidores disseram à Reuters que acreditam que essas técnicas, que estão por trás do modelo o1 lançado recentemente pela OpenAI, podem remodelar a corrida da IA e ter implicações para os tipos de recursos pelos quais as empresas de IA têm uma demanda insaciável por energia e chips.

A OpenAI se recusou a comentar. Após o lançamento do ChatGPT, há dois anos, as empresas de tecnologia têm afirmado publicamente que o "aumento de escala" dos modelos atuais por meio da adição de mais dados e capacidade de processamento levará consistentemente a modelos de IA aprimorados.

Mas agora alguns dos mais proeminentes cientistas de IA estão falando sobre as limitações dessa filosofia "maior é melhor".

Ilya Sutskever, cofundador dos laboratórios de IA Safe Superintelligence (SSI) e OpenAI, disse recentemente à Reuters que os resultados do aumento do pré-treinamento - a fase de treinamento de um modelo de IA que usa uma grande quantidade de dados não rotulados para entender padrões e estruturas de linguagem - atingiram um platô.

Sutskever é amplamente reconhecido como um dos primeiros defensores da obtenção de grandes saltos no avanço da IA generativa por meio do uso de mais dados e capacidade de computação no pré-treinamento, o que acabou criando o ChatGPT. Sutskever deixou a OpenAI no início deste ano para fundar a SSI.

"A década de 2010 foi a era do dimensionamento, agora estamos de volta à era da maravilha e da descoberta. Todos estão procurando a próxima coisa", disse Sutskever. "Dimensionar a coisa certa é mais importante agora do que nunca."

Sutskever não quis dar mais detalhes sobre como sua equipe está lidando com o problema, além de dizer que a SSI está trabalhando em uma abordagem alternativa para ampliar o pré-treinamento.

Nos bastidores, os pesquisadores dos principais laboratórios de IA têm enfrentado atrasos e resultados decepcionantes na corrida para lançar um modelo de linguagem grande que supere o modelo GPT-4 da OpenAI, que tem quase dois anos de idade, de acordo com três fontes familiarizadas com o assunto.

As chamadas "corridas de treinamento" para modelos grandes podem custar dezenas de milhões de dólares com a execução simultânea do software por centenas de chips. É mais provável que ocorram falhas induzidas por hardware, dada a complexidade do sistema; os pesquisadores talvez não saibam o eventual desempenho dos modelos até o final da execução, o que pode levar meses.

Outro problema é que os modelos grandes de linguagem consomem enormes quantidades de dados, e os modelos de IA esgotaram todos os dados facilmente acessíveis do mundo. A falta de energia também prejudicou as execuções de treinamento, pois o processo requer grandes quantidades de energia.

Para superar esses desafios, os pesquisadores estão explorando a "computação em tempo de teste", uma técnica que aprimora os modelos de IA existentes durante a chamada fase de "inferência", ou quando o modelo está sendo usado. Por exemplo, em vez de escolher imediatamente uma única resposta, um modelo poderia gerar e avaliar várias possibilidades em tempo real, escolhendo, por fim, o melhor caminho a seguir.

Esse método permite que os modelos dediquem mais poder de processamento a tarefas desafiadoras, como problemas de matemática ou de codificação, ou a operações complexas que exigem raciocínio e tomada de decisão semelhantes aos humanos.

"Descobriu-se que fazer um bot pensar por apenas 20 segundos em uma mão de pôquer obteve o mesmo desempenho de aumento de escala do modelo em 100 mil vezes e treiná-lo por 100 mil vezes mais tempo", disse Noam Brown, pesquisador da OpenAI que trabalhou no o1, na conferência TED AI em São Francisco no mês passado.

A OpenAI adotou essa técnica em seu modelo recém-lançado, conhecido como "o1", anteriormente conhecido como Q* e Strawberry, que a Reuters noticiou pela primeira vez em julho. O modelo O1 pode "pensar" em problemas em várias etapas, de forma semelhante ao raciocínio humano, e também envolve o uso de dados e feedback selecionados por PhDs e especialistas do setor. O ingrediente secreto da série o1 é outro conjunto de treinamento realizado em cima de modelos "básicos" como o GPT-4, e a empresa diz que planeja aplicar essa técnica com modelos básicos cada vez maiores.

Ao mesmo tempo, pesquisadores de outros grandes laboratórios de IA, como Anthropic, xAI e Google (NASDAQ:GOOGL) DeepMind, também têm trabalhado para desenvolver suas próprias versões da técnica, de acordo com cinco pessoas familiarizadas com os esforços.

"Somos capazes de colher muitos frutos para melhorar esses modelos muito rapidamente", disse Kevin Weil, diretor de produtos da OpenAI, em uma conferência de tecnologia em outubro. "Quando as pessoas se atualizarem, tentaremos estar três passos à frente."

O Google e a xAI não responderam aos pedidos de comentários e a Anthropic não se manifestou.

As implicações podem alterar o cenário competitivo do hardware de IA, até agora dominado pela demanda insaciável pelos chips de IA da Nvidia (NASDAQ:NVDA). Investidores de capital de risco proeminentes, da Sequoia (BVMF:SEQL3) à Andreessen Horowitz, que investiram bilhões para financiar o desenvolvimento de modelos de IA em vários laboratórios, incluindo OpenAI e xAI, estão percebendo a transição e avaliando o impacto em suas apostas caras.

"Essa mudança nos levará de um mundo de clusters maciços de pré-treinamento para nuvens de inferência, que são servidores distribuídos e baseados em nuvem para inferência", disse Sonya Huang, sócia da Sequoia Capital, à Reuters.

© Reuters. Imagem ilustrativa de Inteligência Artificial
19/02/2024
REUTERS/Dado Ruvic

A demanda pelos chips de IA da Nvidia, que são os mais avançados, impulsionou a ascensão da empresa, que se tornou a companhia a mais valiosa do mundo, ultrapassando a Apple (NASDAQ:AAPL) em outubro. Ao contrário dos chips de treinamento, onde a Nvidia domina, a gigante dos chips poderia enfrentar mais concorrência no mercado de inferência.

Questionada sobre o possível impacto na demanda por seus produtos, a Nvidia apontou para apresentações recentes da empresa sobre a importância da técnica por trás do modelo o1. O presidente-executivo da Nvidia, Jensen Huang, falou sobre o aumento da demanda por chips para inferência.

"Agora descobrimos uma segunda lei de escala, e essa é a lei de escala em um momento de inferência... Todos esses fatores fizeram com que a demanda pelo (chip) Blackwell fosse incrivelmente alta", disse Huang no mês passado em uma conferência na Índia, referindo-se ao mais recente chip de IA da empresa.

Últimos comentários

Instale nossos aplicativos
Divulgação de riscos: Negociar instrumentos financeiros e/ou criptomoedas envolve riscos elevados, inclusive o risco de perder parte ou todo o valor do investimento, e pode não ser algo indicado e apropriado a todos os investidores. Os preços das criptomoedas são extremamente voláteis e podem ser afetados por fatores externos, como eventos financeiros, regulatórios ou políticos. Negociar com margem aumenta os riscos financeiros.
Antes de decidir operar e negociar instrumentos financeiros ou criptomoedas, você deve se informar completamente sobre os riscos e custos associados a operações e negociações nos mercados financeiros, considerar cuidadosamente seus objetivos de investimento, nível de experiência e apetite de risco; além disso, recomenda-se procurar orientação e conselhos profissionais quando necessário.
A Fusion Media gostaria de lembrar que os dados contidos nesse site não são necessariamente precisos ou atualizados em tempo real. Os dados e preços disponíveis no site não são necessariamente fornecidos por qualquer mercado ou bolsa de valores, mas sim por market makers e, por isso, os preços podem não ser exatos e podem diferir dos preços reais em qualquer mercado, o que significa que são inapropriados para fins de uso em negociações e operações financeiras. A Fusion Media e quaisquer outros colaboradores/partes fornecedoras de conteúdo não são responsáveis por quaisquer perdas e danos financeiros ou em negociações sofridas como resultado da utilização das informações contidas nesse site.
É proibido utilizar, armazenar, reproduzir, exibir, modificar, transmitir ou distribuir os dados contidos nesse site sem permissão explícita prévia por escrito da Fusion Media e/ou de colaboradores/partes fornecedoras de conteúdo. Todos os direitos de propriedade intelectual são reservados aos colaboradores/partes fornecedoras de conteúdo e/ou bolsas de valores que fornecem os dados contidos nesse site.
A Fusion Media pode ser compensada pelos anunciantes que aparecem no site com base na interação dos usuários do site com os anúncios publicitários ou entidades anunciantes.
A versão em inglês deste acordo é a versão principal, a qual prevalece sempre que houver alguma discrepância entre a versão em inglês e a versão em português.
© 2007-2024 - Fusion Media Limited. Todos os direitos reservados.