Trump leva luta contra o Fed a nível sem precedentes com tentativa de demitir diretora
Investing.com -- A Meta revelou o DINOv3, um modelo de visão computacional de última geração que alcança desempenho sem precedentes em diversas tarefas visuais sem necessidade de dados rotulados.
O novo modelo escala o aprendizado autossupervisionado para criar backbones de visão universais que superam soluções especializadas em múltiplas tarefas, incluindo detecção de objetos e segmentação semântica. O DINOv3 foi treinado com 1,7 bilhão de imagens e escalado para 7 bilhões de parâmetros, representando um modelo 7 vezes maior em um conjunto de dados 12 vezes maior que seu antecessor.
Diferentemente das abordagens anteriores que dependem fortemente de metadados gerados por humanos, como legendas da web, o DINOv3 aprende de forma independente, sem supervisão humana. Essa abordagem sem rótulos permite aplicações onde anotações são escassas, caras ou impossíveis de obter.
O modelo produz recursos visuais de alta resolução que facilitam o treinamento de adaptadores leves, resultando em desempenho excepcional em classificação de imagens, segmentação semântica e rastreamento de objetos em vídeo. Pela primeira vez, um único backbone de visão congelado supera soluções especializadas em múltiplas tarefas de predição densa.
A Meta está lançando um conjunto abrangente de backbones pré-treinados sob licença comercial, incluindo modelos menores que superam derivados comparáveis baseados em CLIP e arquiteturas ConvNeXt alternativas para casos de uso com recursos limitados. A empresa também está compartilhando cabeçalhos de avaliação downstream e notebooks de exemplo para ajudar desenvolvedores a construir com o DINOv3.
Aplicações do mundo real já estão surgindo. O Instituto de Recursos Mundiais está usando o DINOv3 para monitorar o desmatamento e apoiar esforços de restauração. Em comparação com o DINOv2, o novo modelo reduz o erro médio na medição da altura do dossel das árvores em uma região do Quênia de 4,1 metros para 1,2 metros.
O Laboratório de Propulsão a Jato da NASA também está aproveitando a tecnologia para construir robôs de exploração para Marte, permitindo múltiplas tarefas de visão com requisitos mínimos de computação.
O lançamento inclui o código completo de treinamento do DINOv3 e modelos pré-treinados para impulsionar a inovação em visão computacional e aplicações multimodais em diversos setores, incluindo saúde, monitoramento ambiental, veículos autônomos, varejo e manufatura.
Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.