Juro da dívida bate recorde e deficit nominal supera R$ 1 trilhão
Investing.com -- A Alibaba Cloud publicou um artigo detalhando sua solução de otimização de recursos GPU Aegaeon para inferência concorrente de modelos de linguagem de grande porte (LLM), anunciou a empresa na segunda-feira.
O braço de computação em nuvem do Alibaba Group também revelou que conseguiu reduzir em 82% o número de GPUs necessárias na implementação por meio dessa nova abordagem.
A inferência de LLM normalmente envolve numerosas solicitações em rajada, o que cria desafios para o uso eficiente de GPU. A Alibaba Cloud melhorou a eficiência implementando um modelo que processa o trabalho com base em tokens, em vez de solicitações.
A solução acelera o processamento de inferência dividindo-o em duas fases - pré-preenchimento e decodificação - e tratando cada uma em pools separados de GPU.
Se comercializada, essa otimização provavelmente reduziria os custos dos servidores de inferência de IA e potencialmente aumentaria a demanda por semicondutores de servidor não-GPGPU e elementos de processamento especializado (SPE).
Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.
