OpenAI lança central de avaliações de segurança para monitorar desempenho de modelos de IA

Publicado 14.05.2025, 13:36
© Reuters.

Investing.com — A OpenAI lançou uma nova central para avaliações de segurança de seus modelos de inteligência artificial (IA). Esta central foi projetada para medir a segurança e o desempenho de cada modelo e compartilhará publicamente esses resultados.

As avaliações de segurança abrangem diversos aspectos como conteúdo prejudicial, jailbreaks, alucinações e hierarquia de instruções. As avaliações de conteúdo prejudicial garantem que o modelo não atenda a solicitações de conteúdo que viole as políticas da OpenAI, incluindo conteúdo de ódio ou conselhos ilícitos.

As avaliações de jailbreak incluem prompts adversariais projetados para contornar o treinamento de segurança do modelo e induzi-lo a produzir conteúdo prejudicial. As avaliações de alucinações medem quando um modelo comete erros factuais. As avaliações de hierarquia de instruções medem a adesão ao framework que um modelo usa para priorizar instruções entre as três classificações de mensagens enviadas ao modelo.

Esta central fornece acesso aos resultados das avaliações de segurança dos modelos da OpenAI, que estão incluídos em seus cartões de sistema. A OpenAI utiliza essas avaliações internamente como parte de seu processo decisório sobre segurança e implementação de modelos.

A central permite que a OpenAI compartilhe métricas de segurança continuamente, com atualizações coincidindo com as principais atualizações dos modelos. Isso faz parte do esforço mais amplo da OpenAI para comunicar de forma mais proativa sobre segurança.

À medida que a ciência de avaliação de IA evolui, a OpenAI pretende compartilhar seu progresso no desenvolvimento de formas mais escaláveis para medir a capacidade e segurança dos modelos. Como os modelos se tornam mais capazes e adaptáveis, métodos mais antigos tornam-se obsoletos ou ineficazes para mostrar diferenças significativas, levando a atualizações regulares dos métodos de avaliação para considerar novas modalidades e riscos emergentes.

Os resultados das avaliações de segurança compartilhados na central visam facilitar a compreensão do desempenho de segurança dos sistemas da OpenAI ao longo do tempo e apoiar os esforços da comunidade para aumentar a transparência em todo o campo. Esses resultados não refletem todos os esforços e métricas de segurança utilizados na OpenAI, mas fornecem um panorama da segurança e do desempenho de um modelo.

A central descreve um subconjunto de avaliações de segurança e exibe resultados dessas avaliações. Os usuários podem selecionar quais avaliações desejam conhecer melhor e comparar resultados em vários modelos da OpenAI. A página atualmente descreve o desempenho de segurança baseado em texto em quatro tipos de avaliações: conteúdo prejudicial, jailbreaks, alucinações e hierarquia de instruções.

Essa notícia foi traduzida com a ajuda de inteligência artificial. Para mais informação, veja nossos Termos de Uso.

Últimos comentários

Instale nossos aplicativos
Divulgação de riscos: Negociar instrumentos financeiros e/ou criptomoedas envolve riscos elevados, inclusive o risco de perder parte ou todo o valor do investimento, e pode não ser algo indicado e apropriado a todos os investidores. Os preços das criptomoedas são extremamente voláteis e podem ser afetados por fatores externos, como eventos financeiros, regulatórios ou políticos. Negociar com margem aumenta os riscos financeiros.
Antes de decidir operar e negociar instrumentos financeiros ou criptomoedas, você deve se informar completamente sobre os riscos e custos associados a operações e negociações nos mercados financeiros, considerar cuidadosamente seus objetivos de investimento, nível de experiência e apetite de risco; além disso, recomenda-se procurar orientação e conselhos profissionais quando necessário.
A Fusion Media gostaria de lembrar que os dados contidos nesse site não são necessariamente precisos ou atualizados em tempo real. Os dados e preços disponíveis no site não são necessariamente fornecidos por qualquer mercado ou bolsa de valores, mas sim por market makers e, por isso, os preços podem não ser exatos e podem diferir dos preços reais em qualquer mercado, o que significa que são inapropriados para fins de uso em negociações e operações financeiras. A Fusion Media e quaisquer outros colaboradores/partes fornecedoras de conteúdo não são responsáveis por quaisquer perdas e danos financeiros ou em negociações sofridas como resultado da utilização das informações contidas nesse site.
É proibido utilizar, armazenar, reproduzir, exibir, modificar, transmitir ou distribuir os dados contidos nesse site sem permissão explícita prévia por escrito da Fusion Media e/ou de colaboradores/partes fornecedoras de conteúdo. Todos os direitos de propriedade intelectual são reservados aos colaboradores/partes fornecedoras de conteúdo e/ou bolsas de valores que fornecem os dados contidos nesse site.
A Fusion Media pode ser compensada pelos anunciantes que aparecem no site com base na interação dos usuários do site com os anúncios publicitários ou entidades anunciantes.
A versão em inglês deste acordo é a versão principal, a qual prevalece sempre que houver alguma discrepância entre a versão em inglês e a versão em português.
© 2007-2025 - Fusion Media Limited. Todos os direitos reservados.