Еще один сегодняшний запуск в области моделей — Google представил Gemini 2.5 Pro (экспериментальная версия) для подписчиков Advanced и разработчиков. Главное отличие новой модели — встроенные возможности “мышления”, позволяющие рассуждать перед ответом, что улучшает точность и производительность. Теперь это не отдельная функция “Thinking”, а базовая возможность всех моделей семейства 2.5.

Gemini 2.5 Pro уже возглавляет рейтинг LMArena, который измеряет предпочтения пользователей, и лидирует в математических и научных бенчмарках. Он также достиг рекордных 18,8% в тесте Humanity’s Last Exam, созданном экспертами для оценки современных границ знаний и рассуждений.

Особое внимание уделено продвинутому программированию — модель создает визуально привлекательные веб-приложения, агентный код и отлично справляется с трансформацией кода. На SWE-Bench Verified, стандартном тесте для оценки агентного кода, Gemini 2.5 Pro набирает 63,8%.

Модель обладает контекстным окном в 1 млн токенов (скоро увеличится до 2 млн) и может обрабатывать сложные задачи с использованием различных источников информации — текст, аудио, изображения, видео и даже целые репозитории кода.

Надо пробовать, конечно, вдруг оно перекодит наш любимый Claude 3.7 Sonnet…

OpenAI представила новую мощную функцию генерации изображений, полностью интегрированную в модель GPT-4o. Теперь пользователи могут создавать не просто красивые картинки, а практически полезные и точные изображения, включая логотипы, диаграммы и инфографику, с высокой степенью детализации и отличным отображением текста.

Ключевое преимущество GPT-4o — способность понимать контекст и следовать сложным инструкциям пользователя. Модель может обрабатывать до 10-20 различных объектов в одном изображении, сохраняя их свойства и отношения друг с другом, что позволяет создавать по-настоящему сложные и содержательно точные визуализации.

Кроме того, GPT-4o обладает продвинутыми возможностями обучения в процессе взаимодействия с пользователем, анализируя загружаемые изображения и интегрируя детали в дальнейшие генерации.

Все генерируемые изображения будут помечены водяными знаками. Функция станет доступна в течение этой недели для всех пользователей ChatGPT, включая бесплатных. Через некоторое время станет доступно и использование функции через API.

Если же кому-то хочется продолжать использовать для генерации картинок DALL-E, оно останется доступным для использования через отдельный DALL-E GPT.

Что такое современная олигархия? Это модель, когда сначала используются деньги для приобретения влияния на власть, а затем это влияние используется для зарабатывания еще большего количества денег.

Собственно, теперь мы это явно наблюдаем в США — Илон Маск вложил сотни миллионов долларов для избрания Трампа и теперь министр торговли администрации Трампа Говард Лутник настаивает на использовании Starlink в рамках государственной программы по обеспечению широкополосного доступа в сельских регионах. Общий бюджет программы — 42 млрд долларов.

На частной встрече в здании Герберта Гувера рядом с Белым домом в этом месяце Говард Лутник сказал госслужащим программы Broadband Equity, Access, and Deployment (BEAD) увеличить использование спутниковой связи вместо оптоволокна и конкретно упомянул сервис Маска Starlink.

“Он упомянул Маска по имени, спросил, общались ли мы с Илоном”, — рассказал Эван Файнман, до пятницы занимавший пост директора BEAD.

Файнман утверждает, что спутниковая связь ни экономически эффективна, ни долговечна для всех, кроме самых отдаленных сообществ. “Оптоволоконный кабель остается работоспособным на протяжении десятилетий при чрезвычайно низких затратах на обслуживание и предлагает скорости, которые могут удовлетворить все текущие потребности и, вероятно, будущие. Starlink просто не может этого сделать”.

По сообщению Wall Street Journal, планируемая Лутником реорганизация BEAD может привести к тому, что Starlink получит контракты на сумму до $20 млрд — примерно в пять раз больше, чем ожидалось при нынешней организации программы.

Вот так надо делать “иксы”. Впрочем, можно взять пример с уже известного нам Стива Уиткоффа — его сын Зак является сооснователем криптофонда World Liberty Financial и в начале марта совершил небольшое турне по странам Ближнего Востока, продвигая проект стейблкойна USD1. По слухам, презентации предварялись звонками папы презентатора, доходчиво объяснявшего нужным людям, что поддержка проекта является гарантией хороших отношений с Дональдом Трампом.

DeepSeek выпустила новую версию своей крупной языковой модели DeepSeek-V3-0324, важно, что теперь модель доступна под открытой лицензией MIT. Предыдущая версия имела кастомную лицензию. Только не путайте — речь о V3, а не рассуждающей R1, впрочем, вероятно, скоро последует и новая рассуждающая модель.

Энтузиасты уже успели запустить V3 на самой мощной Mac Studio M3, правда, с квантизацией 4 bit.

Если у вас нет Mac Studio, можно использовать openrouter. По первым тестам DeepSeek-V3 показала результат 55% в тестах aider и заняла второе место среди аналогичных по типу (не рассуждающих) моделей, уступая только Sonnet 3.7 от Anthropic.

Очередная история про стартап с креативным подходом к бизнес-показателям — стартап 11x, разрабатывающий AI-ботов для автоматизации продаж, в качестве одного из трюков учитывал триальных подписчиков (то есть попробовавших услугу бесплатно) в Annual Revenue Rate, как если бы они подписались на год.

Кроме того, 11x размещала на своем сайте логотипы компаний, которые на самом деле не были их клиентами. ZoomInfo, чей логотип использовался без разрешения, даже угрожает судебным иском. Аналогичная ситуация произошла с Airtable и другими компаниями. Как прокомментировали обе компании, они тестировали сервис 11x в течение месяца, но отказались от продления подписки из-за низкого качества — что не помешало стартапу продолжать указывать их в качестве своих клиентов.

Ходят даже слухи, что a16z, которые выступили инвестором на недавнем раунде, рассматривают возможность подачи иска за введение инвесторов в обман, впрочем, официальный представитель фонда эти слухи опроверг.

На тему дня — когда высшие чиновники администрации Трампа, включая советника по национальной безопасности Майкла Уолтца, министра обороны Пита Хегсета, госсекретаря Марко Рубио и вице-президента Дж.Д. Вэнса, обсуждали детали операции в незащищенном мессенджере и по ошибке добавили в группу редактора The Atlantic, — мне особо сказать и нечего.

Конечно, прикольно, что Трамп, требовавший тюремного заключения для Хиллари Клинтон за использование частного сервера, теперь возглавляет администрацию, чьи высшие чиновники обсуждают военные операции в обычном мессенджере. Но кто это сейчас может вспомнить?

И очень жду, когда кто-то из опозорившейся команды процитирует другого выдающегося политического деятеля, сказав, что “Cybersecurity role in the modern world is slightly exaggerated”.

23andMe, некогда известная компания, предлагающая персонализированные ДНК-тесты, начала процедуру банкротства в США с целью облегчить продажу бизнеса. Компания подала заявление о банкротстве по Главе 11 в Восточном округе Миссури, чтобы “максимизировать стоимость своего бизнеса”, при этом планируя продолжать работу во время процесса продажи.

В предыдущий раз компания попадала в новости с тем, что Энн Вучицки, основательница компании и экс-жена Сергея Брина, пыталась убедить совет директоров сделать компанию частной. Как видимо, не удалось, компания останется публичной.

Вучицки уходит с поста генерального директора, но продолжит работу в совете директоров. Временным CEO назначен Джо Селсэвидж.

Yahoo продала TechCrunch инвестиционной компании Regent. TechCrunch, которому в этом году исполняется 20 лет, был частью медиаактивов Verizon Communications, включая Yahoo.

В 2021 году частная инвестиционная компания Apollo Global Management приобрела эти медиаактивы за $5 млрд, после чего объединенные активы были ребрендированы под названием Yahoo.

Regent активно расширяет свой портфель технологических новостных сайтов, недавно приобретя Foundry, компанию-владельца таких известных изданий как PCWorld, Macworld, InfoWorld, CIO и TechAdvisor.

Финансовые условия сделки, которая должна завершиться в ближайшие недели, не разглашаются. “Мы верим, что новая глава под руководством Regent поможет TechCrunch сохранить свое влияние и поддержит его дальнейший рост”, — заявила компания Yahoo.

У Yahoo остается целый ряд новостных сайтов, включая Yahoo Finance, Yahoo Sports и Engadget, а также другие сервисы, такие как Yahoo Mail и Yahoo Search.

Группа демократических сенаторов США объединяется с союзниками Трампа для отмены раздела 230 закона о телекоммуникациях, который защищает веб-сайты от ответственности за размещение пользовательского контента. Законопроект, инициированный сенаторами Диком Дурбином (демократ) и Линдси Грэмом (республиканец), установит дату истечения срока действия раздела 230 на 1 января 2027 года.

Дурбин в недавнем интервью утверждал, что раздел 230 не обязывает платформы удалять материалы сексуальной эксплуатации. На самом деле крупные платформы уже имеют строгие политики удаления такого контента, а раздел 230 защищает их при модерации вредного контента. Отсутствие же такой защиты ставит под угрозу любой сайт с комментариями или другим видом пользовательского контента — юридические претензии можно будет предъявить как за удаление противоречивого контента, так и за не удаление его.

Ирония в том, что этот законопроект, предположительно направленный против “большого тех”, фактически укрепит доминирование Meta и Google, поскольку только они смогут выдержать юридические расходы, в то время как меньшие сайты будут вынуждены закрыться.

Anthropic рассказала о новом инструменте для Claude - функции “think” (думать), которая значительно улучшает способности модели решать сложные задачи. В отличие от функции “extended thinking” (которая работает до начала генерации ответа), инструмент “think” позволяет Claude добавить отдельный этап размышления уже в процессе формирования ответа.

Этот простой, но эффективный подход показал впечатляющие результаты в тестах τ-Bench, особенно в сложных сценариях обслуживания клиентов авиакомпаний. Наилучшие результаты были достигнуты при сочетании инструмента “think” с оптимизированными примерами использования в промпте - улучшение на 54% по сравнению с базовым уровнем.

Функция особенно полезна в трех сценариях: при анализе результатов других инструментов, в среде с множеством политик и правил, а также при последовательном принятии решений, где каждое действие опирается на предыдущие.

Интересно, что для более простых задач в сфере ритейла даже базовое использование “think” без дополнительных инструкций дало улучшение. В тестах SWE-Bench (программирование) этот инструмент также способствовал достижению рекордного результата 0.623, улучшив производительность на 1.6%.

Команда рекомендует использовать “think” с конкретными примерами для вашей предметной области и размещать сложные инструкции в системном промпте, а не в описании инструмента.

Я уже почти перестал удивляться, что с современными LLM всё эффективнее работают простые приемы, которые используются в процессе мышления человеком — “посиди, подумай”, как пример. Но все сильнее ощущение, что в итоге это и закончится новой разумной жизнью.

---