Anthropic, компания, стоящая за чат-ботом Claude, недавно анонсировала новый инструмент под названием Clio, который использует машинное обучение для выявления ранее неизвестных угроз и анализа использования своих ИИ-моделей. В этом году Clio помогла обнаружить сеть аккаунтов, которые пытались обмануть систему, генерируя текст для поисковой оптимизации. Эти аккаунты использовали хитроумные формулировки, чтобы избежать фильтров компании, но Clio смогла выявить их как часть скоординированной группы спамеров.
Clio, что расшифровывается как "Claude insights and observations", анализирует миллионы разговоров с Claude, группируя их по темам и выявляя паттерны. Это позволяет команде безопасности компании не только обнаруживать злоупотребления, но и понимать, как пользователи взаимодействуют с ИИ. Например, Clio выявила, что Claude часто отказывался отвечать на вопросы о ролевых играх, ошибочно полагая, что пользователи планируют насилие.
Инструмент работает на основе анализа разговоров, создавая кластеры тем и визуализируя их, что позволяет аналитикам легко находить подозрительные активности. Clio также помогает выявлять возможности для улучшения работы Claude, показывая, как пользователи применяют ИИ в различных сферах, от программирования до интерпретации снов.
Anthropic надеется, что другие компании в области ИИ также начнут использовать подобные подходы для мониторинга и предотвращения потенциальных угроз. Clio уже стал важной частью усилий компании по обеспечению безопасности, и Anthropic рассматривает возможность его применения для изучения будущего работы и научных исследований.
С помощью Clio Anthropic стремится не только выявлять угрозы, но и понимать, как их технологии используются, что может помочь в разработке более безопасных и эффективных ИИ-систем.