OpenAI lança BrowseComp, um benchmark para navegação na internet por IA

Publicado 10.04.2025, 16:24

Investing.com — A OpenAI anunciou o lançamento do BrowseComp, um benchmark de código aberto projetado para testar a capacidade de agentes de IA de navegar na internet para localizar informações difíceis de encontrar. O benchmark, disponível no repositório GitHub simple evals da OpenAI, consiste em 1.266 problemas desafiadores.

O BrowseComp foi desenvolvido para medir a capacidade dos agentes de IA de localizar informações complexas e interligadas na internet. Agentes de IA que podem coletar conhecimento navegando na internet estão se tornando cada vez mais valiosos. Um agente de navegação competente deve ser capaz de localizar informações difíceis de encontrar, potencialmente exigindo a navegação em dezenas ou até centenas de sites.

O benchmark foi criado para ser desafiador para os modelos e fácil de verificar. Concentra-se em questões onde a resposta é curta e há apenas uma resposta correta. Isso torna a avaliação das respostas simples e facilita o uso do benchmark.

O benchmark foi criado seguindo as diretrizes do benchmark de factualidade anterior da OpenAI, o SimpleQA. Treinadores humanos foram solicitados a criar questões desafiadoras que buscam fatos com respostas únicas, indiscutíveis e curtas, que não mudariam com o tempo e eram apoiadas por evidências. Os treinadores criaram questões extremamente desafiadoras, e três verificações foram usadas para garantir que as questões fossem suficientemente difíceis.

Os treinadores foram solicitados a criar tarefas desafiadoras o suficiente para que outra pessoa não conseguisse resolvê-las em dez minutos. Para criar questões desafiadoras, os treinadores foram incentivados a começar com um fato e, em seguida, criar uma questão "invertida", onde a resposta é difícil de encontrar, mas fácil de verificar.

A distribuição de tópicos no benchmark BrowseComp foi diversificada, abrangendo desde programas de TV e filmes até ciência e tecnologia, arte, história, esportes, música, videogames, geografia e política.

A OpenAI avaliou uma variedade de modelos no BrowseComp, incluindo modelos sem navegação — GPT-4o, GPT-4.5 e OpenAI o1 (médio) — bem como GPT-4o com navegação e Deep Research, um modelo de agente explicitamente treinado para navegação web persistente. Os resultados mostraram que tanto o uso de ferramentas quanto o raciocínio contribuem significativamente para o desempenho no BrowseComp.

O Deep Research superou significativamente todos os outros modelos, resolvendo cerca de metade dos problemas. Sua capacidade de pesquisar autonomamente na web, avaliar e sintetizar informações de múltiplas fontes e adaptar sua estratégia de busca permite lidar com questões que de outra forma seriam intratáveis.

Uma característica fundamental dos agentes é que o desempenho aumenta em relação à quantidade de computação usada no momento da inferência. De maneira semelhante, computação adicional no momento da inferência melhora o desempenho no BrowseComp, porque as questões exigem navegação iterativa em um grande número de sites e combinação de informações.

O BrowseComp avalia quão bem os modelos podem navegar na internet para buscar informações difíceis de encontrar. Embora o BrowseComp não vise medir o desempenho em consultas comuns, ele mede a capacidade de encontrar uma única informação específica, é fácil de avaliar e é desafiador para os agentes de navegação existentes. A OpenAI espera que a disponibilização do código aberto do BrowseComp impulsione pesquisas sobre IA mais confiável e segura.

Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.

Visualizar todos os comentários (0)0

Últimos comentários

Ibovespa

141.368,00

+319

+0,23%

Ibovespa Futuros

143.815,00

+115

+0,08%

US 500

6.487,50

-14,4

-0,22%

US 30

45.572,00

-64,9

-0,14%

S&P 500 VIX

14,53

+0,10

+0,69%

Bitcoin Futuro Futuros

110.510,00

-1.425,0

-1,27%

Índice Dólar

98,00

+0,262

+0,27%

Artigos mais populares

Notícias

Análises

Dívida pública bruta do Brasil sobe a 77,6% do PIB em julho, acima do esperado

Por Reuters

29 de ago. de 2025

PCE, índice de inflação preferido do Fed, vem em linha com o esperado em julho

Por Investing.co...

29 de ago. de 2025

Fique por dentro das principais notícias do mercado desta sexta-feira

Por Investing.co...

29 de ago. de 2025

Dólar avança no exterior antes de dados de inflação, mas pode ter mês negativo

Por Investing.co...

29 de ago. de 2025

Ação escolhida por IA dispara +13% na semana na B3; veja qual é

Por Investing.co...

29 de ago. de 2025

Mais notícias

Market Movers

Nome	Último	Var. %	Vol.
Banco do Brasil ON	21,15	+0,48%	1,08M
Petrobras PN	30,96	+0,10%	836,80K
Ultrapar ON	20,09	+0,75%	379,50K
Copasa ON	29,89	+0,13%	224,10K
Embraer ON	76,09	-0,16%	211,70K
Prio ON	38,51	-0,18%	195,00K
JBS NV BDR	87,86	-0,22%	72,07K

Nome	Último	Var. %	Vol.
FII Centro Textil Internacional	5,54	+10,58%	63,00
FII Kinea II Real Estate Equity	0,30	+7,14%	164,00
Tecnisa ON	1,59	+6,71%	10,90K
New Oriental Education Tech DRC	17,87	+6,62%	10,00
Energisa MT ON	51,99	+6,30%	100,00
Telebras ON	12,75	+5,20%	200,00
Fertilizantes Heringer ON	4,18	+4,50%	4,90K

Nome	Último	Var. %	Vol.
Dell Technologies BDR	677,00	-6,67%	185,00
FII Brio Real Estate II	483,56	-5,55%	10,00
REAG Investimentos	2,91	-8,20%	21,90K
Pinduoduo Inc BDR	66,89	-4,22%	85,00
G2D Investments BDR	1,75	-2,78%	3,33K
FII RBR Credito Pulverizado Resp Limitada	8,60	-1,94%	2,03K
Lloyds Banking Group BDR	23,42	-3,58%	262,00

Ações em Destaque

Nome	Último	Var. %	Vol.
Banco do Brasil ON	21,15	+0,48%	1,08M
Magazine Luiza ON	7,76	-1,02%	1,41M
Azul PN	0,69	+1,47%	1,84M
Petrobras PN	30,96	+0,10%	836,80K
Vale ON	55,59	+0,34%	293,70K

Exibir mais

Instale nossos aplicativosEscaneie o código QR para instalar os aplicativos

Divulgação de riscos: Negociar instrumentos financeiros e/ou criptomoedas envolve riscos elevados, inclusive o risco de perder parte ou todo o valor do investimento, e pode não ser algo indicado e apropriado a todos os investidores. Os preços das criptomoedas são extremamente voláteis e podem ser afetados por fatores externos, como eventos financeiros, regulatórios ou políticos. Negociar com margem aumenta os riscos financeiros.
Antes de decidir operar e negociar instrumentos financeiros ou criptomoedas, você deve se informar completamente sobre os riscos e custos associados a operações e negociações nos mercados financeiros, considerar cuidadosamente seus objetivos de investimento, nível de experiência e apetite de risco; além disso, recomenda-se procurar orientação e conselhos profissionais quando necessário.
A Fusion Media gostaria de lembrar que os dados contidos nesse site não são necessariamente precisos ou atualizados em tempo real. Os dados e preços disponíveis no site não são necessariamente fornecidos por qualquer mercado ou bolsa de valores, mas sim por market makers e, por isso, os preços podem não ser exatos e podem diferir dos preços reais em qualquer mercado, o que significa que são inapropriados para fins de uso em negociações e operações financeiras. A Fusion Media e quaisquer outros colaboradores/partes fornecedoras de conteúdo não são responsáveis por quaisquer perdas e danos financeiros ou em negociações sofridas como resultado da utilização das informações contidas nesse site.
É proibido utilizar, armazenar, reproduzir, exibir, modificar, transmitir ou distribuir os dados contidos nesse site sem permissão explícita prévia por escrito da Fusion Media e/ou de colaboradores/partes fornecedoras de conteúdo. Todos os direitos de propriedade intelectual são reservados aos colaboradores/partes fornecedoras de conteúdo e/ou bolsas de valores que fornecem os dados contidos nesse site.
A Fusion Media pode ser compensada pelos anunciantes que aparecem no site com base na interação dos usuários do site com os anúncios publicitários ou entidades anunciantes.
A versão em inglês deste acordo é a versão principal, a qual prevalece sempre que houver alguma discrepância entre a versão em inglês e a versão em português.

Pesquisas populares

Por favor, tente outra busca

OpenAI lança BrowseComp, um benchmark para navegação na internet por IA

Últimos comentários

Ações em Destaque