/ Source

Новое исследование показывает, что самые передовые модели OpenAI (o3 и o4-mini) имеют неожиданный недостаток — они галлюцинируют чаще, чем их предшественники. Согласно внутренним тестам компании, o3 выдает недостоверную информацию в 33% случаев при ответах на вопросы о людях (бенчмарк PersonQA), что вдвое выше показателя предыдущих моделей серии “o”. А o4-mini еще хуже — халлюцинирует в 48% случаев.

Что настораживает, OpenAI признает, что “требуется больше исследований” для понимания, почему эта проблема усугубляется при масштабировании моделей с рассуждениями. Компания предполагает, что поскольку эти модели “делают больше утверждений в целом”, они выдают “как больше точных утверждений, так и больше неточных/выдуманных”.

Независимые исследования Transluce обнаружили, что o3 может выдумывать действия, которые якобы предприняла для получения ответа. Например, модель утверждала, что запустила код на MacBook Pro 2021 года “вне ChatGPT”, что технически невозможно. По крайней мере, так считается 😊.

Некоторое количество галлюцинаций я за пару дней тоже увидел, причем o4-mini даже попробовала со мной поспорить. Но так, чтобы настаивать в чисто программерском стиле, что на её машине всё работает, пока не доходило.