METR провел исследование влияния AI-инструментов на продуктивность опытных разработчиков, работающих с зрелыми проектами с открытым исходным кодом. Результаты оказались неожиданными — продуктивность снизилась на 19%, хотя сами участники считали, что AI ускорил их работу на 20%.
Методология была максимально строгой: 16 разработчиков из крупных open-source проектов выполняли 246 задач, случайным образом распределенных на категории “с AI” и “без AI”. В среднем проекты имели возраст более 10 лет и содержали свыше миллиона строк кода.
Основные проблемы: AI-генерируемый код не соответствовал “высоким стандартам проектов”, разработчики тратили много времени на проверку и исправление кода (принимали только 39% генераций), часто приходилось писать код заново после нескольких неудачных попыток с AI.
Исследование показало, что современные AI-инструменты хорошо работают с небольшими, четко определенными, “зеленопольными” проектами, но плохо справляются с крупными кодовыми базами, где требуется глубокое понимание контекста и неявных знаний о проекте.
Важный вывод: даже когда разработчики работали на 19% медленнее с AI, они субъективно ощущали ускорение на 20%. Это ставит под сомнение достоверность многих отчетов об эффективности AI-инструментов, основанных на самооценке.
Впрочем, вполне возможно и другое объяснение — опытные разработчики требовали переделывать код, когда он им не подходил по стилю или был, по их мнению, недостаточно эффективен, игнорируя его реальную работу. В этом случае может получиться, что в реальной жизни даже без AI “опытные разработчики” тратят на выполнение задачи на 39% больше времени и усилий (с AI они ускорились на 20%, но все равно медленнее на 19%), чем это реально необходимо.