Meta apresenta modelos avançados de IA para tarefas de visão e linguagem

Publicado 06.05.2025, 16:05
© Reuters

Investing.com — A Meta Platforms (NASDAQ:META) revelou uma série de novos modelos de inteligência artificial que ampliam os limites da percepção de máquina e compreensão de linguagem, sinalizando um avanço significativo nas capacidades de IA. Entre os novos modelos estão o Perception Encoder, Perception Language Model (PLM), Meta Locate 3D, Dynamic Byte Latent Transformer e Collaborative Reasoner, cada um projetado para enfrentar desafios complexos em seus respectivos campos.

O Perception Encoder se destaca por sua capacidade de interpretar informações visuais de imagens e vídeos, superando modelos existentes em tarefas de classificação e recuperação zero-shot. Ele demonstrou proficiência em tarefas difíceis, como identificar animais em seus habitats naturais, e mostrou melhorias significativas em tarefas de linguagem após integração com um modelo de linguagem grande.

O PLM da Meta, por outro lado, é um modelo de visão-linguagem de código aberto treinado com uma combinação de dados rotulados por humanos e dados sintéticos. Foi projetado para lidar com tarefas desafiadoras de reconhecimento visual e vem em variantes com até 8 bilhões de parâmetros. O PLM-VideoBench, um novo benchmark lançado junto com o PLM, concentra-se na compreensão detalhada de atividades e raciocínio espaciotemporalmente fundamentado.

Na robótica, o Meta Locate 3D representa uma inovação na localização de objetos, permitindo que robôs compreendam e interajam com o mundo 3D usando comandos em linguagem natural. Este modelo pode localizar objetos com precisão em ambientes 3D, um passo crucial para sistemas robóticos mais autônomos e inteligentes. A Meta também lançou um conjunto de dados para apoiar o desenvolvimento desta tecnologia, que inclui 130.000 anotações de linguagem.

O Dynamic Byte Latent Transformer é outro modelo inovador da Meta, projetado para aumentar a eficiência e robustez no processamento de linguagem. Esta arquitetura de modelo de linguagem em nível de byte iguala o desempenho dos modelos tradicionais baseados em tokenização e agora está disponível para uso da comunidade após sua publicação de pesquisa no final de 2024.

Finalmente, o framework Collaborative Reasoner visa desenvolver agentes de IA sociais capazes de colaborar com humanos ou outros agentes de IA. Inclui um conjunto de tarefas orientadas a objetivos que requerem raciocínio de múltiplas etapas e conversação de múltiplos turnos. A avaliação da Meta mostra que os modelos atuais podem se beneficiar do raciocínio colaborativo, e a empresa disponibilizou seu pipeline de geração de dados e modelagem como código aberto para incentivar mais pesquisas.

À medida que a Meta integra esses modelos avançados de IA em novas aplicações, o potencial para sistemas de IA mais capazes em vários domínios deve se expandir, marcando um progresso significativo na pesquisa e desenvolvimento de inteligência artificial.

Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.

Últimos comentários

Instale nossos aplicativos
Divulgação de riscos: Negociar instrumentos financeiros e/ou criptomoedas envolve riscos elevados, inclusive o risco de perder parte ou todo o valor do investimento, e pode não ser algo indicado e apropriado a todos os investidores. Os preços das criptomoedas são extremamente voláteis e podem ser afetados por fatores externos, como eventos financeiros, regulatórios ou políticos. Negociar com margem aumenta os riscos financeiros.
Antes de decidir operar e negociar instrumentos financeiros ou criptomoedas, você deve se informar completamente sobre os riscos e custos associados a operações e negociações nos mercados financeiros, considerar cuidadosamente seus objetivos de investimento, nível de experiência e apetite de risco; além disso, recomenda-se procurar orientação e conselhos profissionais quando necessário.
A Fusion Media gostaria de lembrar que os dados contidos nesse site não são necessariamente precisos ou atualizados em tempo real. Os dados e preços disponíveis no site não são necessariamente fornecidos por qualquer mercado ou bolsa de valores, mas sim por market makers e, por isso, os preços podem não ser exatos e podem diferir dos preços reais em qualquer mercado, o que significa que são inapropriados para fins de uso em negociações e operações financeiras. A Fusion Media e quaisquer outros colaboradores/partes fornecedoras de conteúdo não são responsáveis por quaisquer perdas e danos financeiros ou em negociações sofridas como resultado da utilização das informações contidas nesse site.
É proibido utilizar, armazenar, reproduzir, exibir, modificar, transmitir ou distribuir os dados contidos nesse site sem permissão explícita prévia por escrito da Fusion Media e/ou de colaboradores/partes fornecedoras de conteúdo. Todos os direitos de propriedade intelectual são reservados aos colaboradores/partes fornecedoras de conteúdo e/ou bolsas de valores que fornecem os dados contidos nesse site.
A Fusion Media pode ser compensada pelos anunciantes que aparecem no site com base na interação dos usuários do site com os anúncios publicitários ou entidades anunciantes.
A versão em inglês deste acordo é a versão principal, a qual prevalece sempre que houver alguma discrepância entre a versão em inglês e a versão em português.
© 2007-2025 - Fusion Media Limited. Todos os direitos reservados.