2 ações disparam +59%, 4 sobem +25% em agosto; como este modelo de IA identifica?
Investing.com — A OpenAI lançou uma nova central para avaliações de segurança de seus modelos de inteligência artificial (IA). Esta central foi projetada para medir a segurança e o desempenho de cada modelo e compartilhará publicamente esses resultados.
As avaliações de segurança abrangem diversos aspectos como conteúdo prejudicial, jailbreaks, alucinações e hierarquia de instruções. As avaliações de conteúdo prejudicial garantem que o modelo não atenda a solicitações de conteúdo que viole as políticas da OpenAI, incluindo conteúdo de ódio ou conselhos ilícitos.
As avaliações de jailbreak incluem prompts adversariais projetados para contornar o treinamento de segurança do modelo e induzi-lo a produzir conteúdo prejudicial. As avaliações de alucinações medem quando um modelo comete erros factuais. As avaliações de hierarquia de instruções medem a adesão ao framework que um modelo usa para priorizar instruções entre as três classificações de mensagens enviadas ao modelo.
Esta central fornece acesso aos resultados das avaliações de segurança dos modelos da OpenAI, que estão incluídos em seus cartões de sistema. A OpenAI utiliza essas avaliações internamente como parte de seu processo decisório sobre segurança e implementação de modelos.
A central permite que a OpenAI compartilhe métricas de segurança continuamente, com atualizações coincidindo com as principais atualizações dos modelos. Isso faz parte do esforço mais amplo da OpenAI para comunicar de forma mais proativa sobre segurança.
À medida que a ciência de avaliação de IA evolui, a OpenAI pretende compartilhar seu progresso no desenvolvimento de formas mais escaláveis para medir a capacidade e segurança dos modelos. Como os modelos se tornam mais capazes e adaptáveis, métodos mais antigos tornam-se obsoletos ou ineficazes para mostrar diferenças significativas, levando a atualizações regulares dos métodos de avaliação para considerar novas modalidades e riscos emergentes.
Os resultados das avaliações de segurança compartilhados na central visam facilitar a compreensão do desempenho de segurança dos sistemas da OpenAI ao longo do tempo e apoiar os esforços da comunidade para aumentar a transparência em todo o campo. Esses resultados não refletem todos os esforços e métricas de segurança utilizados na OpenAI, mas fornecem um panorama da segurança e do desempenho de um modelo.
A central descreve um subconjunto de avaliações de segurança e exibe resultados dessas avaliações. Os usuários podem selecionar quais avaliações desejam conhecer melhor e comparar resultados em vários modelos da OpenAI. A página atualmente descreve o desempenho de segurança baseado em texto em quatro tipos de avaliações: conteúdo prejudicial, jailbreaks, alucinações e hierarquia de instruções.
Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.