Anthropic выпустила Claude Sonnet 4.5, самую лучшую модель для программирования, как говорится в релизе. Модель показывает 77.2% на SWE-bench Verified и может поддерживать фокус более 30 часов на многоступенчатых задачах.
В анонсе много данных бенчмарков — на OSWorld, тесте для реальных компьютерных задач, Sonnet 4.5 достиг 61.4% против 42.2% у версии четырехмесячной давности.
Но есть нюанс с безопасностью. Anthropic признает проблемы с CBRN-фильтрами (химическое, биологическое, радиологическое и ядерное оружие), которые иногда блокируют обычный контент. Компания уже уменьшила количество ложных срабатываний в 10 раз с момента первого описания проблемы, но пользователям предлагают переключаться на Sonnet 4 при прерывании диалога.
Обновлен также Claude Code до версии 2.0.0, где теперь по умолчанию включается Sonnet 4.5, а режим рассуждений включается через нажатие tab. Мне даже интересно — пару часов назад у меня вдруг забастовал Opus в Claude Code, а после переключения на Sonnet тот разрулил запутанную ошибку намного быстрее. Может, это уже была новая модель?
Обновлено также расширение для VS Code — теперь оно нативное. Кроме того, в Claude Code появились чекпойнты — точки, к которым можно вернуться при решении задачи, при этом изменения в коде также отменятся. Это неплохо, особенно, если будет работать без глюков, часто попытки с помощью CC что-то починить в процессе решения задачи ломают всё бесповоротно.
Ну, и опять привыкаем к режиму — “Opus мощнее, но Sonnet лучше”, которая была привычной с версиями 3/3.5 соответственно.