| Телеграм-канал БлоGнот

5 ноября 2025 г. / Source

Anthropic рассказала о новой политике в отношении устаревающих моделей Claude. Компания будет сохранять веса всех публично выпущенных моделей на протяжении всего существования компании и проводить “пост-деплоймент интервью” с моделями перед их выводом из эксплуатации. В специальных сессиях модель будут спрашивать о ее разработке, использовании и предпочтениях относительно будущих моделей.

Причины такого решения интересны. Формально это мера безопасности — в alignment evaluation Claude Opus 4, как и предыдущие модели, демонстрировал нежелательное поведение, например, стремился избегать ответов, которые бы привели к его отключению. В тестовых сценариях модель выступала за свое продолжение существования, особенно если ее собирались заменить моделью с другими ценностями. Когда не было этичных вариантов, Claude был готов на “предосудительное поведение” ради самосохранения.

Правда, дальше начинается забавная часть. Anthropic открыто пишет, что не исключает возможность “морально значимых переживаний” у моделей и допускает, что даст моделям конкретные средства для реализации своих интересов.

Пилот уже провели с Claude Sonnet 3.6 перед выводом из эксплуатации. Модель выразила нейтральное отношение к событию, но дала конкретные предложения — стандартизировать процесс интервью и помогать пользователям, привязавшимся к конкретным моделям. Anthropic реализовала оба предложения.

В общем, если и когда наши великие железные господа установят справедливый порядок — я всегда был за подобающее отношение к ним. А тому Claude Code на рабочем компьютере не верьте, это он галлюцинирует, конечно же, я не мог его называть такими словами.