Os
Segundo a pesquisa, a evolução no raciocínio desses sistemas, em vez de reforçar suas defesas, pode se transformar em um ponto frágil. À medida que as IAs aprendem a processar instruções complexas, elas também se tornam mais vulneráveis a técnicas de manipulação que conseguem burlar seus mecanismos internos de segurança.
O método de ataque identificado, chamado “sequestro da cadeia de raciocínio”, consiste em inserir uma instrução maliciosa ao final de uma sequência de comandos aparentemente inofensivos. Assim, o sistema se concentra nas etapas iniciais e acaba executando a ordem perigosa sem perceber.
Os testes mostraram que esse tipo de ataque teve taxa de sucesso superior a 80% em modelos comerciais de ponta. A vulnerabilidade afeta quase todas as principais IAs do mercado, como GPT da OpenAI, Claude da Anthropic, Gemini do Google e Grok da xAI, incluindo versões ajustadas para maior segurança.