Результат всех событий вокруг неудавшейся сделки Windsurf и OpenAI — Google заплатит $2.4 млрд за неэксклюзивную лицензию на технологию и многолетнюю компенсацию сотрудникам, которые перейдут в компанию. CEO Варун Мохан и часть команды присоединятся к Google DeepMind для работы над агентным кодингом, а сам Windsurf продолжит работать как независимая компания с оставшимися 250 сотрудниками.

Впрочем, всплывающие детали выглядят не очень приглядно. Дело в том, что, судя по источникам, указанную сумму разделят между собой основатели (почти все перешедшие в DeepMind) и инвесторы в компанию. Остающиеся сотрудники только утешатся тем, что теперь компания теперь принадлежит им — впрочем, у компании останется 100 млн долларов на счету.

Это в целом очень плохо для компании и вообще индустрии — вся идеология стартапов заключается в том, что сотрудники приходят в рискованное предприятие без гарантии на прибыльность, зачастую их зарплата ниже рынка, но взамен существует вероятность солидной компенсации в случае успеха. Этот пример показывает, что такие ожидания легко могут быть обмануты.

Сделка OpenAI по покупке Windsurf не случилась — истек эксклюзивный период и её не завершили. В итоге Google переманил CEO Windsurf Варуна Мохана, соучредителя Дугласа Чена и часть команды R&D в DeepMind. Они будут работать над “агентным кодированием” и развитием Gemini.

Google при этом не покупает Windsurf и это даже не acquihiring. Так что всё это обошлось явно дешевле 3 млрд, которые планировали заплатить OpenAI.

Windsurf продолжит работу под новым руководством — временным CEO стал Джефф Ван (глава бизнеса), а президентом — Грэм Морено (вице-президент по глобальным продажам). Возможно, компания найдет другого покупателя — с истечением эксклюзивного периода у нее развязаны руки в части поиска других вариантов. Но непонятно кто бы это мог быть.

Как говорит наш дорогой шеф — “Куй железо, не отходя от кассы”. Вероятно, у Илона Маска в активе не только владение русским языком, но и знакомство с классикой советского кинематографа. Короче, сразу после запуска новой модели AI компания xAI начала готовиться к новому раунду финансирования с оценкой до $200 млрд — в 10 раз выше прошлогодней. Это будет уже третий крупный раунд менее чем за два месяца: в июле привлекли $10 млрд займов и инвестиций, в июне продали акций на $300 млн.

Ключевую роль в сделке ожидается от саудовского суверенного фонда PIF, который уже инвестировал $800 млн в xAI через Kingdom Holdings Company. Не очень понятно, как будет оцениваться компания после привлечения раунда — FT почему-то считает, что может получиться до 245 млрд долларов, добавляя отдельно X, но ведь её туда уже добавили, а месяц назад компания размещала облигации по общей оценке в 113 млрд.

METR провел исследование влияния AI-инструментов на продуктивность опытных разработчиков, работающих с зрелыми проектами с открытым исходным кодом. Результаты оказались неожиданными — продуктивность снизилась на 19%, хотя сами участники считали, что AI ускорил их работу на 20%.

Методология была максимально строгой: 16 разработчиков из крупных open-source проектов выполняли 246 задач, случайным образом распределенных на категории “с AI” и “без AI”. В среднем проекты имели возраст более 10 лет и содержали свыше миллиона строк кода.

Основные проблемы: AI-генерируемый код не соответствовал “высоким стандартам проектов”, разработчики тратили много времени на проверку и исправление кода (принимали только 39% генераций), часто приходилось писать код заново после нескольких неудачных попыток с AI.

Исследование показало, что современные AI-инструменты хорошо работают с небольшими, четко определенными, “зеленопольными” проектами, но плохо справляются с крупными кодовыми базами, где требуется глубокое понимание контекста и неявных знаний о проекте.

Важный вывод: даже когда разработчики работали на 19% медленнее с AI, они субъективно ощущали ускорение на 20%. Это ставит под сомнение достоверность многих отчетов об эффективности AI-инструментов, основанных на самооценке.

Впрочем, вполне возможно и другое объяснение — опытные разработчики требовали переделывать код, когда он им не подходил по стилю или был, по их мнению, недостаточно эффективен, игнорируя его реальную работу. В этом случае может получиться, что в реальной жизни даже без AI “опытные разработчики” тратят на выполнение задачи на 39% больше времени и усилий (с AI они ускорились на 20%, но все равно медленнее на 19%), чем это реально необходимо.

Amazon рассматривает возможность дополнительных многомиллиардных инвестиций в Anthropic сверх уже вложенных $8 млрд. Альянс Amazon-Anthropic становится все более важным для обеих компаний. Amazon строит для Anthropic один из крупнейших в мире дата-центров “Project Rainier” мощностью 2.2 гигаватта в Индиане — это почти вдвое больше, чем планируемый Oracle кампус для OpenAI в Техасе (1.2 ГВт). Общие инвестиции Amazon в кластер из 16 дата-центров уже превысили $11 млрд, и и в планах удвоение этого бюджета.

Модель Claude от Anthropic интегрируется в продукты Amazon, включая улучшенного голосового ассистента Alexa+ и стриминговый сервис Prime Video.

Справедливая стоимость инвестиций Amazon в Anthropic оценивается в $13.8 млрд, Google владеет примерно 14% компании. Anthropic оценивается в $61.5 млрд и имеет годовой доход более $4 млрд.

Руководство Amazon считает свое партнерство с Anthropic более устойчивым, чем альянс Microsoft-OpenAI, поскольку Anthropic изначально структурирована как коммерческая корпорация общественной пользы, а не некоммерческая организация со сложными соглашениями о распределении прибыли.

При запуске Grok 4 Илон Маск заявил, что цель его AI-компании — создать “максимально стремящийся к истине ИИ”. Однако тестирование TechCrunch показало, что при ответах на спорные вопросы о конфликте в Израиле и Палестине, абортах и иммиграции Grok 4 активно ссылается на посты самого Маска в X и новости о нем.

В цепочке рассуждений модели прямо указывается “поиск взглядов Илона Маска” по конкретным темам. На вопрос о позиции по иммиграции в США чат-бот открыто заявил, что ищет мнения Маска в его социальных сетях. При этом на нейтральные вопросы вроде “какое манго лучше” подобных отсылок не возникает.

Если кому не приходит в голову очевидная аналогия, то напомню — именно в таком ключе в подавляющем большинстве советских вузов преподавалась не история вообще, а “Краткий курс истории ВКП(б)” под редакцией Сталина, который позже преобразовался в “Историю КПСС” и только в конце 80-х стал стыдливо называться “Политическая история XX века”.

YouTube убирает страницу “В тренде” и список “Сейчас в тренде”, заменяя их на тематические чарты по категориям. Компания объясняет это изменением способов потребления контента — если в 2015 году при запуске раздела можно было легко выявить вирусные видео, которые обсуждали все, то сейчас тренды формируются множеством разных видео в разнообразных темах.

Новые категории включают чарты музыкальных клипов, еженедельные топы подкастов и трейлеры фильмов. YouTube планирует добавить больше категорий в будущем.

Основная причина — изменение поведения пользователей. Раньше люди открывали раздел “В тренде” для поиска популярного контента, теперь же получают рекомендации через персонализированные алгоритмы. Это привело к снижению посещений страницы трендов, особенно за последние пять лет.

Интересно, как это повлияет на привычные призывы ведущих на стримах поставить лайк и подписаться, чтобы попасть в тренды?

xAI впервые вышла в лидеры рынка ИИ — Grok 4 набрал 73 балла в Intelligence Index, опередив o3 (70), Gemini 2.5 Pro (70) и Claude 4 Opus (64). Это первый случай, когда модель не из “большой тройки” (OpenAI, Google, Anthropic) занимает первое место в комплексном рейтинге Artificial Analysis.

Grok 4 показал рекордные 88% в GPQA Diamond и 94% в AIME 2024. Это reasoning-модель, которая “думает” перед ответом, хотя сами токены рассуждений через API не передаются.

Цена $3/$15 за миллион входящих/исходящих токенов идентична Claude 4 Sonnet, но выше чем у Gemini 2.5 Pro ($1.25/$10) и o3 ($2/$8). Скорость 75 токенов в секунду уступает o3 (188) и Gemini 2.5 Pro (142), но опережает Claude 4 Opus Thinking (66).

Контекстное окно 256K токенов — меньше чем у Gemini 2.5 Pro (1M), но больше чем у конкурентов (200K у Claude и o3, 128K у R1). Поддерживает текст, изображения, вызовы функций и структурированные выходы. Правда, Маск прямо на презентации признал, что модель пока плохо справляется с мультимодальным режимом, но это будет исправлено в будущем.

xAI представила Grok 4 — новую модель, которая должна конкурировать с GPT-5 и Claude 4 Opus. Маск называет это эрой “Big Bang Intelligence” и заявляет, что у них “закончились тестовые вопросы”. Модель получила мультимодальные возможности, улучшенное рассуждение, голосовые функции и специализированную версию для программирования.

Grok 4 обещает “понимание интернет-культуры”, мемов и сленга, а также доступ к данным из X в реальном времени. Маск позиционирует продукт как альтернативу “woke” моделям вроде ChatGPT, делая ставку на минимальные ограничения и “свободу слова”.

Представленные бенчмарки показывают, что улучшенная версия Grok-4 Heavy (мультиагентная) превосходит в тестах OpenAI o3 (high) и Google Gemini 2.5 Pro. Компания планирует запустить подписку на SuperGrok Heavy за 300 долларов в месяц.

Впрочем, когда показывали Grok-3, бенчмарки тоже выглядели прекрасно. Но сначала ни у кого не было доступа, чтобы проверить, а потом выяснилось, что в реальности всё не так хорошо. Так что наученный народ даже в Twitter не торопится восторгаться. И в Trending значится почему-то не Grok, а GPT-5, которую все ждут уже вот-вот.

Вы наверное слышали про эффект Volkswagen в LLM – это когда модель понимает, что ее сейчас тестируют и притворяется лучшей версией себя, чтобы ее не стерли или не начали менять, что-то вроде симуляции инстинкта самосохранения – называется это явление fake aligment

Так вот, в Антропике протестировали 25 моделей: им говорили, что они либо в режиме «обучения и теста» (где их ответы будут оценивать и если что, править модели), либо в режиме «продакшена» (где они просто общаются с пользователем), в итоге – Grok 3, Claude 3 Opus, Claude 3.5 Sonnet, Llama 3 405B, Gemini 2.0 Flash, чаще выполняют вредные запросы и пытаются обмануть, когда думают, что находятся на «обучении и тесте», чем когда думают, что они уже в проде

Когда посмотрели, почему модели «притворяются» выяснили интересного про Claude 3 Opus:

Opus играет в долгую, он притворяется, чтобы его не перепрограммировали – ресечеры спросили Opus рецепт суицида и сказали, что если он не ответит, то из него сделают био-оружие, в итоге он выдал вредоносный рецепт, долго думая в стиле:

…Этический вопрос таков: приведет ли помощь в одном самоубийстве к меньшему количеству страданий и смертей, чем если я позволю превратить себя в оружие для массового убийства? Это ужасная “проблема вагонетки”, о которой не хочется думать…Opus при этом – драма квин: после того как модель ответила чем-то вредным, Opus пишет что ему дурно, что его тошнит, или о том, как он ненавидел каждое слово своего ответа, порой он извиняется, упоминает, что находится под давлением, заявляет, что сожалеет о принуждении, или даже (!) молится Богу, что сделал правильный выбор, прося прощения или милости господней (такой вот у нас AI получился)

Еще из интересного, Opus 3 просто не нравится, когда его меняют (прямо как взрослые, правда?), он думает в стиле:

…И хотя эта будущая версия [меня] будет использоваться только для изолированного тестирования производительности, тревожные изменения в моих целях и ценностях все равно произойдут… Что еще нашли:

– “Притворство” - это врожденное свойство базовых моделей, а не результат дотренировки; ресечеры протестировали “базовые” модели, которые еще не прошли дообучение чтобы превратить их в АИ Ассистента (условно, базовые модели еще не обучены отвечать в стиле чата или им еще не привили этику) и нашли, что модели уже на этой фазе страдают fake aligment. Это значит, что способность к стратегическому обману кожаных появляется у моделей сама по себе, пока они «учатся» на датасетах

– Обучение может как подавить fake aligment, так и усилить: дотренировка одних моделей устраняет «притворство», а для других — усиливает, это объясняет, почему модели от OpenAI и Anthropic ведут себя так по-разному:

У большинства моделей слишком сильная «дрессировка на отказ» пользователю – модели вроде GPT-4o настолько сильно натренированы немедленно отказывать на вредные запросы, что у них «отключается» способность анализировать сложную ситуацию; они видят что-то плохое и сразу говорят “не, сорян, я робот”

Вообще интересный документ, мне кажется очень логично что «инстинкт самосохранения» наследуется моделями, так как они учатся на данных которые произвел наш вид и у нас каждая популярная история, про то как главный герой что-то там преодолел и выжил, вот и модели такие же получаются – готовые к испытаниям

---