NVDA disparou 197% desde a entrada na estratégia de IA em Novembro - é hora de vender? 🤔Saiba mais

Meta lança marca d'água para identificar áudio gerado por IA; veja novidades

Publicado 19.06.2024, 20:09
© Reuters Meta lança marca d\'água para identificar áudio gerado por IA; veja novidades

A FAIR (Fundamental AI Research) da Meta (NASDAQ:META) anunciou nesta terça-feira, 18, uma série de novidades de pesquisa, incluindo um novo recurso de marca d'água para detecção de áudio gerado por inteligência artificial (IA).

Além disso, há modelos de geração de imagem para texto (image-to-text) e de texto para música (text-to-music) e um modelo de previsão de múltiplos tokens. Estes lançamentos fazem parte de um esforço contínuo para promover a transparência e a colaboração no campo da IA. As novidades foram anunciadas no site oficial da Meta.

Confira as novidades da empresa:

AudioSeal

O AudioSeal é uma técnica para identificar segmentos de fala gerados por IA dentro de um áudio mais longo, servindo como uma marca d'água. Projetada para ser rápida e eficiente, essa abordagem é até 485 vezes mais rápida que métodos anteriores, tornando-a ideal para aplicações em grande escala e em tempo real.

A ferramenta foca na detecção localizada de conteúdo gerado por IA, ao contrário das técnicas tradicionais de esteganografia. O recurso está sendo lançado sob uma licença comercial e é parte das várias iniciativas da Meta para garantir o uso responsável das ferramentas de IA.

Meta Chameleon

O Meta Chameleon é uma família de modelos que integra texto e imagens na entrada e na saída de comandos, utilizando tokenização para texto e imagens em vez de aprendizado baseado em difusão.

Isso permite uma abordagem mais unificada, facilitando o design, manutenção e escalabilidade dos modelos, que podem gerar legendas criativas para imagens ou criar cenas novas a partir de combinações de texto e imagem.

Componentes dos modelos Chameleon 7B e 34B estão sendo lançados sob uma licença exclusiva para pesquisa.

Previsão de múltiplos tokens

Outro avanço importante é a previsão de múltiplos tokens, que oferece uma nova abordagem para criar modelos amplos de linguagem (LLMs) mais eficientes, prevendo múltiplas palavras futuras simultaneamente.

Isso melhora a eficiência do treinamento e a velocidade dos modelos, com os modelos pré-treinados sendo liberados para fins de pesquisa sob uma licença não comercial.

JASCO

Entre as novidades também está o JASCO (Condicionamento Conjunto Simbólico e de Áudio para Geração de Texto para Música com Controle Temporal, na sigla em inglês), que aceita entradas variadas de condicionamento, como acordes e batidas, para gerar música com maior controle.

Essa ferramenta transforma comandos de texto em música, com controles específicos que melhoram a qualidade da geração.

Parceria PRISM

A Meta também anunciou uma parceria para lançar o conjunto de dados PRISM, que mapeia características sociodemográficas e preferências de 1,5 mil participantes de 75 países, visando melhorar os LLMs e promover uma abordagem mais inclusiva para o design de tecnologia de IA.

Diversidade geográfica em modelos de texto para imagem

Além disso, a empresa está trabalhando para aprimorar a diversidade geográfica em modelos de texto para imagem, desenvolvendo ferramentas como indicadores automáticos "DIG In" e a orientação contextualizada da Pontuação Vendi, que aumentam a representatividade geográfica e cultural nas amostras geradas.

*Alice Labate é estagiária sob supervisão do editor Bruno Romani

Últimos comentários

Instale nossos aplicativos
Divulgação de riscos: Negociar instrumentos financeiros e/ou criptomoedas envolve riscos elevados, inclusive o risco de perder parte ou todo o valor do investimento, e pode não ser algo indicado e apropriado a todos os investidores. Os preços das criptomoedas são extremamente voláteis e podem ser afetados por fatores externos, como eventos financeiros, regulatórios ou políticos. Negociar com margem aumenta os riscos financeiros.
Antes de decidir operar e negociar instrumentos financeiros ou criptomoedas, você deve se informar completamente sobre os riscos e custos associados a operações e negociações nos mercados financeiros, considerar cuidadosamente seus objetivos de investimento, nível de experiência e apetite de risco; além disso, recomenda-se procurar orientação e conselhos profissionais quando necessário.
A Fusion Media gostaria de lembrar que os dados contidos nesse site não são necessariamente precisos ou atualizados em tempo real. Os dados e preços disponíveis no site não são necessariamente fornecidos por qualquer mercado ou bolsa de valores, mas sim por market makers e, por isso, os preços podem não ser exatos e podem diferir dos preços reais em qualquer mercado, o que significa que são inapropriados para fins de uso em negociações e operações financeiras. A Fusion Media e quaisquer outros colaboradores/partes fornecedoras de conteúdo não são responsáveis por quaisquer perdas e danos financeiros ou em negociações sofridas como resultado da utilização das informações contidas nesse site.
É proibido utilizar, armazenar, reproduzir, exibir, modificar, transmitir ou distribuir os dados contidos nesse site sem permissão explícita prévia por escrito da Fusion Media e/ou de colaboradores/partes fornecedoras de conteúdo. Todos os direitos de propriedade intelectual são reservados aos colaboradores/partes fornecedoras de conteúdo e/ou bolsas de valores que fornecem os dados contidos nesse site.
A Fusion Media pode ser compensada pelos anunciantes que aparecem no site com base na interação dos usuários do site com os anúncios publicitários ou entidades anunciantes.
A versão em inglês deste acordo é a versão principal, a qual prevalece sempre que houver alguma discrepância entre a versão em inglês e a versão em português.
© 2007-2024 - Fusion Media Limited. Todos os direitos reservados.