| Телеграм-канал БлоGнот

13 февраля 2025 г. / Source

BBC провела исследование четырех ведущих AI-чатботов (ChatGPT, Microsoft Copilot, Google Gemini и Perplexity AI) на предмет точности пересказа новостей, и результаты оказались неутешительными. 51% всех ответов AI на вопросы о новостях содержали существенные проблемы, а 19% ответов с цитированием контента BBC включали фактические ошибки.

Среди примеров — Gemini неверно утверждал, что NHS не рекомендует вейпинг как средство бросить курить, ChatGPT и Copilot считали Риши Сунака и Николу Стерджен все еще находящимися в должности после их ухода, а Perplexity неправильно цитировал BBC News в материале о Ближнем Востоке.

Проблема с этим исследованием только в том, что оно исследованием не является. Журналисты взяли какое-то количество новостных запросов, снабдили их прямым указанием использовать в качестве источника BBC и начали искать проблемы в полученных ответах. Как легко догадаться даже по примерам, проблемы были связаны с тем, что ChatGPT не является поисковиком и, конечно, считал в декабре 2024 года, что Риши Сунак премьер-министр — в этой стране премьеры меняются чаще, чем выходят новые модели GPT. Конечно, это не имеет ничего общего с суммаризацией новостей — с тем же успехом можно обвинить все модели в незнании подкастов, раз ни одна модель так и не смогла перечислить всех ведущих Радио-Т.

Но я эту новость достал потому, что она показывает характерное — строка запроса LLM успешно вытесняет в головах людей (и журналистов) поисковую строку поисковика. И, наверное, это правильно.