OpenAI lança BrowseComp, um benchmark para navegação na internet por IA

Publicado 10.04.2025, 16:24
© Reuters.

Investing.com — A OpenAI anunciou o lançamento do BrowseComp, um benchmark de código aberto projetado para testar a capacidade de agentes de IA de navegar na internet para localizar informações difíceis de encontrar. O benchmark, disponível no repositório GitHub simple evals da OpenAI, consiste em 1.266 problemas desafiadores.

O BrowseComp foi desenvolvido para medir a capacidade dos agentes de IA de localizar informações complexas e interligadas na internet. Agentes de IA que podem coletar conhecimento navegando na internet estão se tornando cada vez mais valiosos. Um agente de navegação competente deve ser capaz de localizar informações difíceis de encontrar, potencialmente exigindo a navegação em dezenas ou até centenas de sites.

O benchmark foi criado para ser desafiador para os modelos e fácil de verificar. Concentra-se em questões onde a resposta é curta e há apenas uma resposta correta. Isso torna a avaliação das respostas simples e facilita o uso do benchmark.

O benchmark foi criado seguindo as diretrizes do benchmark de factualidade anterior da OpenAI, o SimpleQA. Treinadores humanos foram solicitados a criar questões desafiadoras que buscam fatos com respostas únicas, indiscutíveis e curtas, que não mudariam com o tempo e eram apoiadas por evidências. Os treinadores criaram questões extremamente desafiadoras, e três verificações foram usadas para garantir que as questões fossem suficientemente difíceis.

Os treinadores foram solicitados a criar tarefas desafiadoras o suficiente para que outra pessoa não conseguisse resolvê-las em dez minutos. Para criar questões desafiadoras, os treinadores foram incentivados a começar com um fato e, em seguida, criar uma questão "invertida", onde a resposta é difícil de encontrar, mas fácil de verificar.

A distribuição de tópicos no benchmark BrowseComp foi diversificada, abrangendo desde programas de TV e filmes até ciência e tecnologia, arte, história, esportes, música, videogames, geografia e política.

A OpenAI avaliou uma variedade de modelos no BrowseComp, incluindo modelos sem navegação — GPT-4o, GPT-4.5 e OpenAI o1 (médio) — bem como GPT-4o com navegação e Deep Research, um modelo de agente explicitamente treinado para navegação web persistente. Os resultados mostraram que tanto o uso de ferramentas quanto o raciocínio contribuem significativamente para o desempenho no BrowseComp.

O Deep Research superou significativamente todos os outros modelos, resolvendo cerca de metade dos problemas. Sua capacidade de pesquisar autonomamente na web, avaliar e sintetizar informações de múltiplas fontes e adaptar sua estratégia de busca permite lidar com questões que de outra forma seriam intratáveis.

Uma característica fundamental dos agentes é que o desempenho aumenta em relação à quantidade de computação usada no momento da inferência. De maneira semelhante, computação adicional no momento da inferência melhora o desempenho no BrowseComp, porque as questões exigem navegação iterativa em um grande número de sites e combinação de informações.

O BrowseComp avalia quão bem os modelos podem navegar na internet para buscar informações difíceis de encontrar. Embora o BrowseComp não vise medir o desempenho em consultas comuns, ele mede a capacidade de encontrar uma única informação específica, é fácil de avaliar e é desafiador para os agentes de navegação existentes. A OpenAI espera que a disponibilização do código aberto do BrowseComp impulsione pesquisas sobre IA mais confiável e segura.

Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.

Últimos comentários

Instale nossos aplicativos
Divulgação de riscos: Negociar instrumentos financeiros e/ou criptomoedas envolve riscos elevados, inclusive o risco de perder parte ou todo o valor do investimento, e pode não ser algo indicado e apropriado a todos os investidores. Os preços das criptomoedas são extremamente voláteis e podem ser afetados por fatores externos, como eventos financeiros, regulatórios ou políticos. Negociar com margem aumenta os riscos financeiros.
Antes de decidir operar e negociar instrumentos financeiros ou criptomoedas, você deve se informar completamente sobre os riscos e custos associados a operações e negociações nos mercados financeiros, considerar cuidadosamente seus objetivos de investimento, nível de experiência e apetite de risco; além disso, recomenda-se procurar orientação e conselhos profissionais quando necessário.
A Fusion Media gostaria de lembrar que os dados contidos nesse site não são necessariamente precisos ou atualizados em tempo real. Os dados e preços disponíveis no site não são necessariamente fornecidos por qualquer mercado ou bolsa de valores, mas sim por market makers e, por isso, os preços podem não ser exatos e podem diferir dos preços reais em qualquer mercado, o que significa que são inapropriados para fins de uso em negociações e operações financeiras. A Fusion Media e quaisquer outros colaboradores/partes fornecedoras de conteúdo não são responsáveis por quaisquer perdas e danos financeiros ou em negociações sofridas como resultado da utilização das informações contidas nesse site.
É proibido utilizar, armazenar, reproduzir, exibir, modificar, transmitir ou distribuir os dados contidos nesse site sem permissão explícita prévia por escrito da Fusion Media e/ou de colaboradores/partes fornecedoras de conteúdo. Todos os direitos de propriedade intelectual são reservados aos colaboradores/partes fornecedoras de conteúdo e/ou bolsas de valores que fornecem os dados contidos nesse site.
A Fusion Media pode ser compensada pelos anunciantes que aparecem no site com base na interação dos usuários do site com os anúncios publicitários ou entidades anunciantes.
A versão em inglês deste acordo é a versão principal, a qual prevalece sempre que houver alguma discrepância entre a versão em inglês e a versão em português.
© 2007-2025 - Fusion Media Limited. Todos os direitos reservados.