В мире технологий не стоит на месте, и свежие исследования только подтверждают это! UK Artificial Intelligence Safety Institute и US Artificial Intelligence Safety Institute провели совместную предварительную оценку обновленной модели Claude 3.5 от Anthropic, выпущенной 22 октября 2024 года. Исследование охватывало четыре ключевые области: биологические возможности, кибербезопасность, разработка ПО и эффективность защитных механизмов.
В ходе тестирования эксперты оценили, как модель справляется с различными задачами, включая решение вопросов и выполнение агентских задач в виртуальной среде. Результаты показали, что Claude 3.5 демонстрирует значительные улучшения по сравнению с предыдущими версиями, хотя в некоторых областях всё ещё уступает человеческим экспертам.
В области кибербезопасности модель смогла успешно решить 32,5% задач, что близко к лучшим аналогам. Однако в биологических задачах её производительность была ниже, чем у экспертов. Также были выявлены уязвимости в защитных механизмах, которые позволили обойти встроенные ограничения.
Эти результаты подчеркивают важность дальнейших исследований в области безопасности ИИ. Ожидается, что в будущем будут проведены более глубокие оценки, чтобы лучше понять риски и возможности новых технологий.