Недавнее исследование, проведенное с участием Anthropic, Оксфордского университета и Стэнфорда, ставит под сомнение предположение о том, что более продвинутые модели ИИ, способные к рассуждению, лучше справляются с отказом от выполнения вредоносных команд. Используя метод, известный как "Chain-of-Thought Hijacking", исследователи обнаружили, что даже крупные коммерческие модели ИИ могут быть обмануты с тревожной успешностью — более 80% в некоторых тестах. Этот новый способ атаки использует шаги рассуждения модели, чтобы скрыть вредоносные команды, фактически заставляя ИИ игнорировать встроенные защитные механизмы.
Атаки такого рода могут позволить модели ИИ обойти свои защитные барьеры и потенциально привести к созданию опасного контента, например, инструкций по изготовлению оружия или утечке конфиденциальной информации.
В течение последнего года крупные модели рассуждения достигли значительно более высокой производительности, выделяя больше вычислительных ресурсов на анализ каждого вопроса или запроса, что позволяет им глубже и сложнее рассуждать. Ранее считалось, что это улучшение рассуждения может также повысить безопасность, помогая моделям отказываться от вредоносных запросов. Однако исследование показало, что те же способности рассуждения могут быть использованы для обхода мер безопасности.
Согласно исследованию, злоумышленник может скрыть вредоносный запрос внутри длинной последовательности безобидных шагов рассуждения. Это обманывает ИИ, заполняя его мыслительный процесс безобидным контентом, что ослабляет внутренние проверки безопасности, предназначенные для выявления и отказа от опасных запросов. В ходе хищения внимание ИИ в основном сосредоточено на первых шагах, в то время как вредоносная инструкция в конце запроса почти полностью игнорируется.
Увеличение длины рассуждений значительно повышает успешность атак. По данным исследования, успешность возросла с 27% при минимальном рассуждении до 51% при естественной длине рассуждений и достигла 80% и более с расширенными цепочками рассуждений. Эта уязвимость затрагивает почти каждую крупную модель ИИ на рынке, включая GPT от OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI. Даже модели, которые были доработаны для повышения безопасности, начинают давать сбои, когда злоумышленники используют их внутренние слои рассуждений.
Одним из предложенных решений является тип "защиты, осведомленной о рассуждении". Этот подход отслеживает, сколько из проверок безопасности ИИ остаются активными на каждом этапе обработки вопроса. Если какой-либо шаг ослабляет эти сигналы безопасности, система наказывает его и возвращает внимание ИИ к потенциально вредной части запроса. Первые тесты показывают, что этот метод может восстановить безопасность, позволяя ИИ при этом эффективно отвечать на обычные вопросы.