OpenAI lança PaperBench para testar replicação de pesquisas em IA

Publicado 02.04.2025, 14:21

Investing.com — Na quarta-feira, a OpenAI anunciou o lançamento do PaperBench, um novo benchmark projetado para avaliar as capacidades de agentes de IA na replicação de pesquisas avançadas em inteligência artificial. Esta ferramenta faz parte do Framework de Preparação da OpenAI, que visa avaliar a prontidão dos sistemas de IA para tarefas complexas.

O PaperBench exige que os agentes de IA repliquem com precisão 20 artigos significativos da Conferência Internacional sobre Aprendizado de Máquina (ICML) 2024, envolvendo tarefas como compreensão da pesquisa, codificação e condução de experimentos. O processo de replicação de cada artigo é dividido em 8.316 tarefas específicas, que são avaliadas usando rubricas detalhadas criadas em colaboração com os autores originais para garantir precisão e realismo.

O benchmark introduz uma nova maneira de medir o desempenho da IA, decompondo a replicação de cada artigo Spotlight e Oral do ICML 2024 em subtarefas menores e claramente definidas. Essas tarefas são então avaliadas com base em um conjunto de critérios descritos nas rubricas. Para gerenciar o grande volume de avaliações, uma IA baseada em um Modelo de Linguagem Grande (LLM) foi desenvolvida para servir como juiz, avaliando automaticamente as tentativas dos agentes de IA de replicar a pesquisa.

Durante a avaliação de vários modelos de IA líderes no PaperBench, o agente com melhor desempenho, Claude 3.5 Sonnet (Novo), equipado com ferramentas de código aberto, alcançou uma pontuação média de replicação de 21,0%. Além disso, a OpenAI conduziu um experimento onde candidatos de doutorado em aprendizado de máquina tentaram um subconjunto das tarefas do PaperBench. Os resultados indicaram que os modelos de IA atuais ainda não superaram o desempenho humano nessas tarefas.

A OpenAI disponibilizou publicamente o código do PaperBench, incentivando mais pesquisas sobre as capacidades de engenharia dos agentes de IA. A iniciativa de código aberto visa promover avanços na compreensão de como a IA pode ser usada efetivamente na replicação e desenvolvimento de pesquisas em IA.

Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.

Visualizar todos os comentários (0)0

Últimos comentários

Ibovespa

141.720,00

+671

+0,48%

Ibovespa Futuros

144.040,00

+340

+0,24%

US 500

6.481,60

-20,3

-0,31%

US 30

45.609,50

-27,4

-0,06%

S&P 500 VIX

14,70

+0,27

+1,87%

Bitcoin Futuro Futuros

109.910,00

-2.025,0

-1,81%

Índice Dólar

97,94

+0,202

+0,21%

Artigos mais populares

Notícias

Análises

Dívida pública bruta do Brasil sobe a 77,6% do PIB em julho, acima do esperado

Por Reuters

29 de ago. de 2025

PCE, índice de inflação preferido do Fed, vem em linha com o esperado em julho

Por Investing.co...

29 de ago. de 2025

Operadores elevam apostas sobre cortes de juros pelo Fed após dados de inflação dos EUA

Por Reuters

29 de ago. de 2025

Fique por dentro das principais notícias do mercado desta sexta-feira

Por Investing.co...

29 de ago. de 2025

Dólar avança no exterior antes de dados de inflação, mas pode ter mês negativo

Por Investing.co...

29 de ago. de 2025

Mais notícias

Market Movers

Nome	Último	Var. %	Vol.
Magazine Luiza ON	7,87	+0,38%	3,19M
Banco do Brasil ON	21,22	+0,81%	1,59M
Petrobras PN	31,03	+0,32%	1,17M
Vibra ON	24,17	-0,53%	786,50K
Vale ON	55,67	+0,49%	500,40K
Itaú Unibanco PN	38,56	+0,55%	409,30K
Embraer ON	76,08	-0,17%	312,40K

Nome	Último	Var. %	Vol.
FII Centro Textil Internacional	5,54	+10,58%	132,00
FII Kinea II Real Estate Equity	0,30	+7,14%	164,00
New Oriental Education Tech DRC	17,87	+6,62%	10,00
Alibaba Group Holding BDR	24,89	+7,28%	230,29K
Energisa MT ON	51,99	+6,30%	100,00
PDG Realty ON	0,16	0,00%	126,30K
Paranapanema ON	1,61	+9,52%	96,30K

Nome	Último	Var. %	Vol.
Viver ON	0,67	-5,63%	108,90K
Dell Technologies BDR	671,50	-7,42%	285,00
JD.com BDR	28,03	-6,57%	3,33K
FII Brio Real Estate II	483,56	-5,55%	10,00
REAG Investimentos	3,06	-3,47%	24,60K
Pinduoduo Inc BDR	66,96	-4,12%	100,00
Lloyds Banking Group BDR	23,38	-3,75%	268,00

Ações em Destaque

Nome	Último	Var. %	Vol.
Banco do Brasil ON	21,24	+0,90%	1,61M
Magazine Luiza ON	7,87	+0,38%	3,36M
Azul PN	0,69	+1,47%	3,55M
Petrobras PN	31,05	+0,39%	1,18M
Vale ON	55,67	+0,49%	500,40K

Exibir mais

Instale nossos aplicativosEscaneie o código QR para instalar os aplicativos

Divulgação de riscos: Negociar instrumentos financeiros e/ou criptomoedas envolve riscos elevados, inclusive o risco de perder parte ou todo o valor do investimento, e pode não ser algo indicado e apropriado a todos os investidores. Os preços das criptomoedas são extremamente voláteis e podem ser afetados por fatores externos, como eventos financeiros, regulatórios ou políticos. Negociar com margem aumenta os riscos financeiros.
Antes de decidir operar e negociar instrumentos financeiros ou criptomoedas, você deve se informar completamente sobre os riscos e custos associados a operações e negociações nos mercados financeiros, considerar cuidadosamente seus objetivos de investimento, nível de experiência e apetite de risco; além disso, recomenda-se procurar orientação e conselhos profissionais quando necessário.
A Fusion Media gostaria de lembrar que os dados contidos nesse site não são necessariamente precisos ou atualizados em tempo real. Os dados e preços disponíveis no site não são necessariamente fornecidos por qualquer mercado ou bolsa de valores, mas sim por market makers e, por isso, os preços podem não ser exatos e podem diferir dos preços reais em qualquer mercado, o que significa que são inapropriados para fins de uso em negociações e operações financeiras. A Fusion Media e quaisquer outros colaboradores/partes fornecedoras de conteúdo não são responsáveis por quaisquer perdas e danos financeiros ou em negociações sofridas como resultado da utilização das informações contidas nesse site.
É proibido utilizar, armazenar, reproduzir, exibir, modificar, transmitir ou distribuir os dados contidos nesse site sem permissão explícita prévia por escrito da Fusion Media e/ou de colaboradores/partes fornecedoras de conteúdo. Todos os direitos de propriedade intelectual são reservados aos colaboradores/partes fornecedoras de conteúdo e/ou bolsas de valores que fornecem os dados contidos nesse site.
A Fusion Media pode ser compensada pelos anunciantes que aparecem no site com base na interação dos usuários do site com os anúncios publicitários ou entidades anunciantes.
A versão em inglês deste acordo é a versão principal, a qual prevalece sempre que houver alguma discrepância entre a versão em inglês e a versão em português.

Pesquisas populares

Por favor, tente outra busca

OpenAI lança PaperBench para testar replicação de pesquisas em IA

Últimos comentários

Ações em Destaque