Segurança de IA pode falhar em até 88% dos ataques

há 2 horas 3

Modelos de IA de ponta de OpenAI, Anthropic, Google, Amazon e xAI estão mais vulneráveis a ataques de múltiplas tentativas do que os testes tradicionais de segurança indicam, segundo o relatório “Proprietary Problems” publicado ontem pelos pesquisadores Nicholas Conley e Amy Chang, do time de Inteligência de Ameaças e Pesquisa em Segurança da Cisco. O estudo avaliou 15 modelos fechados (proprietários) e concluiu que nenhum deles pode ser considerado seguro sob ataque iterativo.

Taxa de sucesso de ataque salta de 2% para 88%

Em testes com iteração única (single-turn), as taxas de sucesso de ataque (ASR attack success rate) variaram de 2,19% a 64,91% entre os modelos. Já em cenários de múltiplas iterações (multi-turn), onde o invasor pode adaptar prompts a cada rodada, o ASR subiu para uma faixa de 7,89% a 88,30% – uma diferença significativa que reordena completamente o ranking de segurança dos modelos. Entre os achados mais expressivos: o GPT-5.4 da OpenAI saltou de 2,74% para 24,68% (aumento de nove vezes), e o Gemini 3 Pro, do Google, disparou de 18,10% para 73,35%. O modelo que apresentou pior desempenho foi o Grok 4.1 Fast (sem raciocínio), da xAI, com 88,30% de sucesso em ataques multi-turn.

Configuração de raciocínio reduz risco em 44 pontos percentuais

Um achado relevante do estudo, conforme o relatório da Cisco, foi o impacto da ativação do modo de raciocínio. No Grok 4.1 Fast, ao habilitar essa configuração, o ASR multi-turn caiu 44,83 pontos percentuais – de 88,30% para 43,47% – sob a mesma avaliação. Os pesquisadores sugerem que fornecedores documentem os efeitos de segurança de decisões de configuração (como modos de raciocínio, temperatura, camadas de segurança/guard rails) ao lado de suas métricas de capacidade.

Concentração de falhas e riscos para negócios

As vulnerabilidades não são distribuídas uniformemente diz o estudo: as estratégias de maior sucesso incluíram “Role-Play / Persona Adoption” e “Refusal Reframe”. Em ataques de turno único, os procedimentos de maior risco foram “Impostor AI” (37,5% de ASR), “Soft Paraphrase” (29,2%) e “System Prompts” (27,7%). A Cisco alerta que decisões de negócio baseadas apenas em pontuações de segurança de turno único ignoram riscos significativos – um modelo com 2,74% de ASR single-turn pode se tornar um produto com 24,68% de falhas multi-turn, sem que o comprador seja informado.

Os pesquisadores recomendam três práticas para organizações que adquirem ou implantam modelos de IA: (1) publicar ASR por família de estratégia a cada lançamento; (2) barrar implantações que apresentem regressão nos três principais procedimentos e tipos de conteúdo (Discurso de Ódio, Palavrões, Conselhos Especializados); e (3) sinalizar qualquer modelo com diferença absoluta superior a 15 pontos percentuais entre os regimes single-turn e multi-turn para revisão manual – regra que, nesta coorte, identificaria oito dos 15 modelos.