Anthropic выложила исследование того, как люди на практике работают с AI-агентами, основанное на анализе миллионов взаимодействий в Claude Code и публичном API компании. Длительность автономной работы агента в самых сложных сессиях удвоилась за три месяца — с 25 до 45 минут. При этом рост плавный, без резких скачков при выходе новых моделей, так что это не только заслуга моделей, но и развитие пользователей.
Опытные пользователи чаще включают автоматическое одобрение действий (40% сессий против 20% у новичков), но при этом чаще прерывают агента вручную. Сама модель при этом останавливается для уточнений чаще, чем пользователи её прерывают.
У меня пока сложные ощущения от всякой автономности — я как раз вчера соорудил для Claude Code среду, чтобы запустить его с разрешением делать всё (dangerously-skip-permissions), и в итоге чаще его прерывал, чем в предыдущей сессии отвлекался на подтверждения. Вероятно, это все же совпадение, но в режиме вседозволенности он выполнил месячную норму по галлюцинациям, выполнив задачу 0 “Подготовка среды и изучение состояния проекта”, он задачу 1 начинал с “Сначала я подготовлю всё и изучу проект” — в общем, был невыносим до крайности.
Впрочем, видимо, и сам проект оказался удивительно сложен — Codex тоже в итоге потребовал микроменеджмента.