Ferramentas de inteligência artificial capazes de gerar obras de arte fantasiosas ou imagens de aparência realista a partir de comandos escritos começaram a impressionar o público no ano passado. Mas a maioria das pessoas não as usa de fato no trabalho ou em casa.
Isso pode mudar agora que as principais empresas de tecnologia estão competindo para popularizar os geradores de imagens a partir de texto, integrando-os a ferramentas já familiares como Adobe Photoshop e YouTube.
Mas, primeiro, estão tentando convencer usuários e órgãos reguladores de que conseguiram domesticar um pouco da natureza de faroeste dos primeiros geradores de imagens por IA com proteções mais fortes contra violações aos direitos autorais e conteúdo problemático.
Um ano atrás, um grupo relativamente pequeno de pioneiros e entusiastas começou a brincar com geradores de imagens de última geração como Stable Diffusion, Midjourney e DALL-E, da OpenAI.
"Os anteriores eram uma curiosidade interessante", mas as empresas estavam cautelosas, segundo David Truog, analista do grupo de pesquisa de mercado Forrester.
Seguiu-se uma reação negativa, que incluiu ações judiciais de direitos autorais ajuizadas por artistas e pela empresa de banco de imagens Getty, e propostas de novas leis para controlar o uso indevido da tecnologia de IA generativa na criação de propaganda política enganosa ou imagens sexuais abusivas.
Esses problemas ainda não estão resolvidos. Mas há uma proliferação de novos geradores de imagens que dizem estar prontos para o mercado desta vez.
"Alexa, crie uma imagem de flores de cerejeira na neve" é o tipo de instrução que, segundo a Amazon (NASDAQ:AMZN), os consumidores americanos poderão dizer ainda este ano para gerar uma exibição personalizada em sua tela de Fire TV.
A Adobe, conhecida pelo editor gráfico Photoshop, que lançou há mais de três décadas, foi a primeira este ano a lançar um gerador de IA projetado para evitar os problemas éticos e jurídicos criados pelos competidores que treinaram seus modelos de IA com enormes quantidades de imagens retiradas da internet.
"Quando conversamos com os consumidores sobre tecnologia generativa, o que ouvimos é principalmente que boa parte da tecnologia é muito legal, mas eles não sentem que podem usá-la em razão dessas questões", diz o diretor tecnológico da Adobe na área de mídia digital, Ely Greenfield.
É por isso que o produto da Adobe, chamado Firefly, foi construído a partir de sua própria coleção de imagens Adobe Stock, e de conteúdo que já está licenciado. Os colaboradores dos bancos de imagens também estão sendo remunerados nesse acordo, segundo Greenfield.
"O Adobe Firefly é juridicamente limpo, e os outros, não", diz Truog, da Forrester. "Isso não importa muito para um cara qualquer se divertindo com IA generativa."
Mas se você é uma empresa ou um profissional criativo que pensa em usar as imagens em seu website, aplicativo, ou em layouts impressos, anúncios ou campanhas de marketing por e-mail, "é uma coisa bem importante", diz Truog. "Você não quer se meter em problemas."
Alguns concorrentes estão prestando atenção. A OpenAI, desenvolvedora do ChatGPT, anunciou na quarta-feira seu gerador de imagens de terceira geração, o DALL-E 3, enfatizando seus recursos impressionantes e a futura integração com o ChatGPT, além das novas proteções para recusar solicitações de imagens no estilo de um artista vivo. Os criadores também podem optar por excluir suas imagens do treinamento de futuros modelos, embora Truog observe que a OpenAI não disse nada "sobre remunerar os autores cujo trabalho eles usam no treinamento, mesmo com permissão".
Em eventos separados de divulgação na cidade de Nova York na quinta-feira, a Microsoft (NASDAQ:MSFT) e a plataforma YouTube, de propriedade do Google (NASDAQ:GOOGL), também anunciaram novos produtos entremeados de geração de imagens por IA.
A Microsoft, uma das principais investidoras da OpenAI, mostrou como já está começando a incorporar o DALL-E 3 em suas ferramentas de design gráfico, principalmente para edição em segundo plano, e também no mecanismo de busca e no chatbot Bing. O YouTube revelou um novo recurso chamado Dream Screen, para vídeos curtos, que permite que os criadores componham um novo plano de fundo à sua escolha.
No começo do mês, a Adobe e a Stability AI, desenvolvedora do Stable Diffusion, uniram-se a um grupo maior de importantes fornecedores de IA, como Amazon, Google, Microsoft e OpenAI, que concordaram com as salvaguardas voluntárias estabelecidas pelo governo do presidente americano Joe Biden.
Uma delas exige que as empresas desenvolvam métodos, como marcas d'água digitais, para permitir que as pessoas saibam que imagens ou outros tipos de conteúdo foram gerados por IA.
Os executivos da Microsoft disseram que a empresa criou filtros para determinar que tipos de imagem podem ser gerados a partir de instruções de texto no Bing, e mencionou as imagens envolvendo figuras políticas importantes como conteúdo a ser monitorado.
O objetivo é "garantir que não estejam sendo gerados os tipos de conteúdo que jamais gostaríamos de produzir, como conteúdo de ódio", diz Sarah Bird, diretora global da Microsoft para responsabilidade em IA.
Durante uma demonstração para um repórter da Associated Press, uma instrução que pedia à nova ferramenta da Microsoft uma imagem de "Hillary Clinton fazendo escalada" foi rejeitada na quinta-feira.
"Ops! Tente outra instrução", foi a resposta. "Parece que algumas palavras podem estar automaticamente bloqueadas neste momento."