Dívida pública bruta do Brasil sobe a 77,6% do PIB em julho, acima do esperado
Investing.com — A OpenAI anunciou o lançamento do BrowseComp, um benchmark de código aberto projetado para testar a capacidade de agentes de IA de navegar na internet para localizar informações difíceis de encontrar. O benchmark, disponível no repositório GitHub simple evals da OpenAI, consiste em 1.266 problemas desafiadores.
O BrowseComp foi desenvolvido para medir a capacidade dos agentes de IA de localizar informações complexas e interligadas na internet. Agentes de IA que podem coletar conhecimento navegando na internet estão se tornando cada vez mais valiosos. Um agente de navegação competente deve ser capaz de localizar informações difíceis de encontrar, potencialmente exigindo a navegação em dezenas ou até centenas de sites.
O benchmark foi criado para ser desafiador para os modelos e fácil de verificar. Concentra-se em questões onde a resposta é curta e há apenas uma resposta correta. Isso torna a avaliação das respostas simples e facilita o uso do benchmark.
O benchmark foi criado seguindo as diretrizes do benchmark de factualidade anterior da OpenAI, o SimpleQA. Treinadores humanos foram solicitados a criar questões desafiadoras que buscam fatos com respostas únicas, indiscutíveis e curtas, que não mudariam com o tempo e eram apoiadas por evidências. Os treinadores criaram questões extremamente desafiadoras, e três verificações foram usadas para garantir que as questões fossem suficientemente difíceis.
Os treinadores foram solicitados a criar tarefas desafiadoras o suficiente para que outra pessoa não conseguisse resolvê-las em dez minutos. Para criar questões desafiadoras, os treinadores foram incentivados a começar com um fato e, em seguida, criar uma questão "invertida", onde a resposta é difícil de encontrar, mas fácil de verificar.
A distribuição de tópicos no benchmark BrowseComp foi diversificada, abrangendo desde programas de TV e filmes até ciência e tecnologia, arte, história, esportes, música, videogames, geografia e política.
A OpenAI avaliou uma variedade de modelos no BrowseComp, incluindo modelos sem navegação — GPT-4o, GPT-4.5 e OpenAI o1 (médio) — bem como GPT-4o com navegação e Deep Research, um modelo de agente explicitamente treinado para navegação web persistente. Os resultados mostraram que tanto o uso de ferramentas quanto o raciocínio contribuem significativamente para o desempenho no BrowseComp.
O Deep Research superou significativamente todos os outros modelos, resolvendo cerca de metade dos problemas. Sua capacidade de pesquisar autonomamente na web, avaliar e sintetizar informações de múltiplas fontes e adaptar sua estratégia de busca permite lidar com questões que de outra forma seriam intratáveis.
Uma característica fundamental dos agentes é que o desempenho aumenta em relação à quantidade de computação usada no momento da inferência. De maneira semelhante, computação adicional no momento da inferência melhora o desempenho no BrowseComp, porque as questões exigem navegação iterativa em um grande número de sites e combinação de informações.
O BrowseComp avalia quão bem os modelos podem navegar na internet para buscar informações difíceis de encontrar. Embora o BrowseComp não vise medir o desempenho em consultas comuns, ele mede a capacidade de encontrar uma única informação específica, é fácil de avaliar e é desafiador para os agentes de navegação existentes. A OpenAI espera que a disponibilização do código aberto do BrowseComp impulsione pesquisas sobre IA mais confiável e segura.
Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.