OpenAI lança PaperBench para testar replicação de pesquisas em IA

Publicado 02.04.2025, 14:21
© Reuters.

Investing.com — Na quarta-feira, a OpenAI anunciou o lançamento do PaperBench, um novo benchmark projetado para avaliar as capacidades de agentes de IA na replicação de pesquisas avançadas em inteligência artificial. Esta ferramenta faz parte do Framework de Preparação da OpenAI, que visa avaliar a prontidão dos sistemas de IA para tarefas complexas.

O PaperBench exige que os agentes de IA repliquem com precisão 20 artigos significativos da Conferência Internacional sobre Aprendizado de Máquina (ICML) 2024, envolvendo tarefas como compreensão da pesquisa, codificação e condução de experimentos. O processo de replicação de cada artigo é dividido em 8.316 tarefas específicas, que são avaliadas usando rubricas detalhadas criadas em colaboração com os autores originais para garantir precisão e realismo.

O benchmark introduz uma nova maneira de medir o desempenho da IA, decompondo a replicação de cada artigo Spotlight e Oral do ICML 2024 em subtarefas menores e claramente definidas. Essas tarefas são então avaliadas com base em um conjunto de critérios descritos nas rubricas. Para gerenciar o grande volume de avaliações, uma IA baseada em um Modelo de Linguagem Grande (LLM) foi desenvolvida para servir como juiz, avaliando automaticamente as tentativas dos agentes de IA de replicar a pesquisa.

Durante a avaliação de vários modelos de IA líderes no PaperBench, o agente com melhor desempenho, Claude 3.5 Sonnet (Novo), equipado com ferramentas de código aberto, alcançou uma pontuação média de replicação de 21,0%. Além disso, a OpenAI conduziu um experimento onde candidatos de doutorado em aprendizado de máquina tentaram um subconjunto das tarefas do PaperBench. Os resultados indicaram que os modelos de IA atuais ainda não superaram o desempenho humano nessas tarefas.

A OpenAI disponibilizou publicamente o código do PaperBench, incentivando mais pesquisas sobre as capacidades de engenharia dos agentes de IA. A iniciativa de código aberto visa promover avanços na compreensão de como a IA pode ser usada efetivamente na replicação e desenvolvimento de pesquisas em IA.

Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.

Últimos comentários

Instale nossos aplicativos
Divulgação de riscos: Negociar instrumentos financeiros e/ou criptomoedas envolve riscos elevados, inclusive o risco de perder parte ou todo o valor do investimento, e pode não ser algo indicado e apropriado a todos os investidores. Os preços das criptomoedas são extremamente voláteis e podem ser afetados por fatores externos, como eventos financeiros, regulatórios ou políticos. Negociar com margem aumenta os riscos financeiros.
Antes de decidir operar e negociar instrumentos financeiros ou criptomoedas, você deve se informar completamente sobre os riscos e custos associados a operações e negociações nos mercados financeiros, considerar cuidadosamente seus objetivos de investimento, nível de experiência e apetite de risco; além disso, recomenda-se procurar orientação e conselhos profissionais quando necessário.
A Fusion Media gostaria de lembrar que os dados contidos nesse site não são necessariamente precisos ou atualizados em tempo real. Os dados e preços disponíveis no site não são necessariamente fornecidos por qualquer mercado ou bolsa de valores, mas sim por market makers e, por isso, os preços podem não ser exatos e podem diferir dos preços reais em qualquer mercado, o que significa que são inapropriados para fins de uso em negociações e operações financeiras. A Fusion Media e quaisquer outros colaboradores/partes fornecedoras de conteúdo não são responsáveis por quaisquer perdas e danos financeiros ou em negociações sofridas como resultado da utilização das informações contidas nesse site.
É proibido utilizar, armazenar, reproduzir, exibir, modificar, transmitir ou distribuir os dados contidos nesse site sem permissão explícita prévia por escrito da Fusion Media e/ou de colaboradores/partes fornecedoras de conteúdo. Todos os direitos de propriedade intelectual são reservados aos colaboradores/partes fornecedoras de conteúdo e/ou bolsas de valores que fornecem os dados contidos nesse site.
A Fusion Media pode ser compensada pelos anunciantes que aparecem no site com base na interação dos usuários do site com os anúncios publicitários ou entidades anunciantes.
A versão em inglês deste acordo é a versão principal, a qual prevalece sempre que houver alguma discrepância entre a versão em inglês e a versão em português.
© 2007-2025 - Fusion Media Limited. Todos os direitos reservados.