| Телеграм-канал БлоGнот

4 февраля 2025 г. / Source

Давайте лучше опять про AI.

Anthropic представила новую систему Constitutional Classifiers для защиты языковых моделей от универсальных джейлбрейков. В ходе тестирования прототипа системы более 180 участников потратили свыше 3000 часов на попытки обойти защиту, но никому не удалось найти универсальный джейлбрейк.

Обновленная версия системы блокирует 95.6% попыток джейлбрейка при минимальном увеличении ложных срабатываний (всего на 0.38%) и умеренном росте вычислительных затрат (на 23.7%).

Система работает на основе “конституции” — набора принципов, определяющих разрешенный и запрещенный контент. С помощью Claude генерируются синтетические промпты и ответы для всех категорий контента, включая варианты на разных языках и в стиле известных джейлбрейков. На этих данных обучаются классификаторы входящих запросов и исходящих ответов.

Anthropic предлагает присоединиться к публичному тестированию системы с 3 по 10 февраля 2025 года и попробовать обойти защиту версии Claude 3.5 Sonnet в области запросов, связанных с химическим оружием.

Интересно, что компания открыто признает: система может не предотвратить все универсальные джейлбрейки, а новые методы атак могут оказаться эффективными против нее. Тем не менее, даже те джейлбрейки, которые проходят через защиту, требуют гораздо больше усилий для обнаружения.

А будет еще интереснее, если окажется, что машина все же придумает набор принципов и их применения, который окажется более эффективным, чем реальные конституции, придуманные человеком. Сколько доморощенных правоведов в интернете исчезнет…