Ação sobe 96% em agosto, mas está fora de escolhas de IA deste mês; Veja quem está
Investing.com - A Bernstein publicou nova pesquisa sobre o uso de grandes modelos de linguagem (LLMs), avaliando onde a IA pode trabalhar independentemente e onde precisa de supervisão humana.
A corretora constatou que os sistemas de IA têm bom desempenho em tarefas como coleta e síntese de informações, mas ficam aquém em áreas que exigem julgamento crítico.
Os analistas afirmam que a pesquisa financeira difere de setores padronizados porque depende de "dados protegidos" proprietários e julgamento qualitativo.
Descobriu-se que os LLMs são eficazes em resumir teleconferências de resultados ao longo de cinco a seis anos e revisar relatórios extensos.
No entanto, quando solicitados a construir modelos de empresas ou teses de investimento, os sistemas de IA tiveram desempenho inferior.
Mesmo com instruções estruturadas, os resultados continham erros, valores codificados e faltava profundidade analítica.
A qualidade do prompt foi identificada como um fator crítico. Um estudo da Universidade do Sul da Califórnia mostrou que pequenas alterações nos prompts modificaram entre 5% e 9% das respostas.
Por exemplo, terminar uma pergunta com "Obrigado" alterou 5,6% dos resultados, enquanto reformular uma pergunta como uma afirmação mudou 8,5%.
Em pesquisas médicas, o GPT-4 produziu recomendações de tratamento alinhadas com diretrizes clínicas em 50,6% a 52,9% das vezes usando um método de "cadeia de pensamento", aumentando para 63% com prompts de recursão de pensamento.
Prompts estruturados melhoraram ainda mais a precisão diagnóstica, com a IA identificando casos de câncer metastático com uma pontuação F1 de 0,886, acima da média dos anotadores humanos de 0,838.
Os testes também mostraram que detalhes excessivos reduziram a precisão. O desempenho inicialmente melhorou com mais informações, mas diminuiu quando os prompts ficaram sobrecarregados, levando ao "inchaço de prompt".
A Bernstein testou novamente os LLMs em tarefas financeiras. No processamento de teleconferências de resultados, as pontuações médias aumentaram de 3,8 para 4,3 em 5 quando foi utilizado o prompt iterativo. O Perplexity subiu de 2 para 4,5, enquanto o ChatGPT melhorou de 3,5 para 4.
Para avaliar o tom da gestão, as pontuações médias aumentaram de 3,8 para 4 depois que os prompts adicionaram preocupações específicas dos investidores.
A análise mais ampla do setor melhorou de 3,2 para 3,9 com prompts mais elaborados. A construção de teses de investimento subiu apenas de 3 para 3,4, apesar de estruturas passo a passo bem definidas.
Na avaliação de decisões de gestão, as pontuações médias aumentaram de 3,5 para 4,1 quando fornecidos com um conjunto completo de parâmetros analíticos.
Tarefas padronizadas mostraram melhor desempenho da IA. Em testes de helpdesk de TI, sistemas de IA usando Geração Aumentada por Recuperação (RAG) pontuaram 29,4 em um benchmark SelfScore, comparado com humanos em 23,1. Mesmo sem técnicas de recuperação, agentes de IA superaram seus equivalentes humanos.
A Bernstein também acompanha o progresso da IA em diversas habilidades desde o final dos anos 1990. Os sistemas alcançaram ou superaram os níveis humanos em reconhecimento de escrita à mão, reconhecimento de imagem e reconhecimento de fala.
Ganhos também foram relatados em compreensão de leitura, codificação e resolução de problemas matemáticos, enquanto a interpretação nuançada da linguagem e o raciocínio complexo permanecem como pontos fortes humanos.
Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.