Dívida pública bruta do Brasil sobe a 77,6% do PIB em julho, acima do esperado
Investing.com — Na quarta-feira, a OpenAI anunciou o lançamento do PaperBench, um novo benchmark projetado para avaliar as capacidades de agentes de IA na replicação de pesquisas avançadas em inteligência artificial. Esta ferramenta faz parte do Framework de Preparação da OpenAI, que visa avaliar a prontidão dos sistemas de IA para tarefas complexas.
O PaperBench exige que os agentes de IA repliquem com precisão 20 artigos significativos da Conferência Internacional sobre Aprendizado de Máquina (ICML) 2024, envolvendo tarefas como compreensão da pesquisa, codificação e condução de experimentos. O processo de replicação de cada artigo é dividido em 8.316 tarefas específicas, que são avaliadas usando rubricas detalhadas criadas em colaboração com os autores originais para garantir precisão e realismo.
O benchmark introduz uma nova maneira de medir o desempenho da IA, decompondo a replicação de cada artigo Spotlight e Oral do ICML 2024 em subtarefas menores e claramente definidas. Essas tarefas são então avaliadas com base em um conjunto de critérios descritos nas rubricas. Para gerenciar o grande volume de avaliações, uma IA baseada em um Modelo de Linguagem Grande (LLM) foi desenvolvida para servir como juiz, avaliando automaticamente as tentativas dos agentes de IA de replicar a pesquisa.
Durante a avaliação de vários modelos de IA líderes no PaperBench, o agente com melhor desempenho, Claude 3.5 Sonnet (Novo), equipado com ferramentas de código aberto, alcançou uma pontuação média de replicação de 21,0%. Além disso, a OpenAI conduziu um experimento onde candidatos de doutorado em aprendizado de máquina tentaram um subconjunto das tarefas do PaperBench. Os resultados indicaram que os modelos de IA atuais ainda não superaram o desempenho humano nessas tarefas.
A OpenAI disponibilizou publicamente o código do PaperBench, incentivando mais pesquisas sobre as capacidades de engenharia dos agentes de IA. A iniciativa de código aberto visa promover avanços na compreensão de como a IA pode ser usada efetivamente na replicação e desenvolvimento de pesquisas em IA.
Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.