В последние годы искусственный интеллект стал неотъемлемой частью технологий, но с его развитием возникают и новые угрозы. Одной из самых серьезных проблем является возможность внедрения троянцев в модели ИИ. Это может происходить через скрытые функции или намеренные ошибки, которые на первый взгляд не видны.
Одним из методов является внедрение вредоносного кода в модели. Например, некоторые форматы хранения моделей, такие как pickle в Python, могут содержать исполняемый код. Это позволяет злоумышленникам активировать вредоносные функции при загрузке модели. В 2024 году в репозитории Hugging Face было обнаружено около 100 моделей с вредоносным функционалом, что подчеркивает серьезность проблемы.
Другим способом является отравление данных на этапе обучения. Злоумышленники могут манипулировать исходными наборами данных, чтобы модель работала неправильно в определенных случаях. Например, известен случай с чат-ботом Microsoft Tay, который за один день начал выражать расистские и экстремистские взгляды.
Кроме того, существует метод, называемый "теневая логика", который позволяет модифицировать вычислительный граф модели, добавляя дополнительные ветви, что может привести к нежелательному поведению при определенных входных данных.
Чтобы защитить модели ИИ от таких атак, важно тщательно контролировать цепочку поставок. Это включает в себя проверку источников компонентов системы ИИ, а также использование безопасных форматов для хранения моделей. Ведущие репозитории постепенно внедряют цифровые подписи для проверки подлинности моделей.