/ Source

Если я обычно намекаю, что ряд разработчиков LLM оптимизируют свои модели под оценки на Chatbot Arena, то авторы исследования от Cohere, Стэнфорда, MIT и Ai2 обвиняет LM Arena, организацию, стоящую за популярным бенчмарком, в предоставлении преимуществ избранным AI-компаниям за счет конкурентов.

Согласно авторам, LM Arena позволила некоторым ведущим компаниям, включая Meta, OpenAI, Google и Amazon, приватно тестировать несколько вариантов моделей, публикуя затем только результаты лучших. Это давало этим компаниям преимущество в попадании на верхние строчки рейтинга.

“Только нескольким компаниям сообщили о возможности приватного тестирования, и объем такого тестирования у некоторых компаний намного больше, чем у других”, — заявила вице-президент Cohere по исследованиям в области ИИ Сара Хукер.

Особенно выделяется Meta, которая смогла приватно протестировать 27 вариантов моделей в период с января по март перед выпуском Llama 4, но публично представила только одну модель с высоким рейтингом.

LM Arena отвергает обвинения, заявляя, что исследование полно “неточностей” и “сомнительного анализа”. По их словам, если одна компания решает отправить больше моделей на тестирование, чем другая, это не означает несправедливого отношения. Так себе оправдание, прямо скажем.