Lula diz que não há espaço para negociação e rejeita "humilhação" de ligar para Trump
A Alibaba (NYSE:BABA) lançou o Qwen-Image, um modelo de fundação de imagem MMDiT de 20B que oferece avanços significativos em renderização complexa de texto e recursos precisos de edição de imagem.
O novo modelo, que os usuários podem acessar através do Qwen Chat selecionando "Geração de Imagem", apresenta capacidades superiores de renderização de texto que lidam com layouts de múltiplas linhas, semântica em nível de parágrafo e detalhes minuciosos. Ele suporta tanto idiomas alfabéticos como o inglês quanto idiomas logográficos como o chinês com alta fidelidade.
O Qwen-Image também oferece edição de imagem consistente através de um paradigma aprimorado de treinamento multitarefa, alcançando desempenho excepcional na preservação tanto do significado semântico quanto do realismo visual durante operações de edição.
De acordo com a Alibaba, o modelo supera as soluções existentes em vários benchmarks públicos para tarefas de geração e edição, incluindo GenEval, DPG, OneIG-Bench, GEdit, ImgEdit e GSO. Ele se destaca particularmente em benchmarks de renderização de texto como LongText-Bench, ChineseWord e TextCraft, onde supera significativamente os modelos de última geração atuais.
A empresa demonstrou as capacidades do Qwen-Image através de vários exemplos, mostrando sua habilidade de renderizar texto complexo em diferentes cenários. Estes incluem a geração precisa de caracteres chineses em placas de lojas com profundidade de campo adequada, criação de texto detalhado em inglês em capas de livros e slides informativos, além de lidar facilmente com conteúdo bilíngue.
Além do processamento de texto, o Qwen-Image suporta uma ampla gama de estilos artísticos, desde cenas fotorrealistas até pinturas impressionistas, e oferece várias operações de edição, incluindo transferência de estilo, adições, exclusões, aprimoramento de detalhes, edição de texto e ajuste de pose de personagens.
A Alibaba afirmou que o Qwen-Image visa promover o desenvolvimento da geração de imagens, reduzir barreiras técnicas para a criação de conteúdo visual e inspirar aplicações inovadoras. A empresa está convidando a participação e feedback da comunidade para construir "um ecossistema de IA generativa aberto, transparente e sustentável".
O lançamento do modelo está programado para agosto de 2025.
Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.