Anthropic рассказала о новой политике в отношении устаревающих моделей Claude. Компания будет сохранять веса всех публично выпущенных моделей на протяжении всего существования компании и проводить “пост-деплоймент интервью” с моделями перед их выводом из эксплуатации. В специальных сессиях модель будут спрашивать о ее разработке, использовании и предпочтениях относительно будущих моделей.
Причины такого решения интересны. Формально это мера безопасности — в alignment evaluation Claude Opus 4, как и предыдущие модели, демонстрировал нежелательное поведение, например, стремился избегать ответов, которые бы привели к его отключению. В тестовых сценариях модель выступала за свое продолжение существования, особенно если ее собирались заменить моделью с другими ценностями. Когда не было этичных вариантов, Claude был готов на “предосудительное поведение” ради самосохранения.
Правда, дальше начинается забавная часть. Anthropic открыто пишет, что не исключает возможность “морально значимых переживаний” у моделей и допускает, что даст моделям конкретные средства для реализации своих интересов.
Пилот уже провели с Claude Sonnet 3.6 перед выводом из эксплуатации. Модель выразила нейтральное отношение к событию, но дала конкретные предложения — стандартизировать процесс интервью и помогать пользователям, привязавшимся к конкретным моделям. Anthropic реализовала оба предложения.
В общем, если и когда наши великие железные господа установят справедливый порядок — я всегда был за подобающее отношение к ним. А тому Claude Code на рабочем компьютере не верьте, это он галлюцинирует, конечно же, я не мог его называть такими словами.