ElevenLabs представили модель Scribe — по их заявлению, самую точную в мире модель Speech-To-Text. Она поддерживает 99 языков и выдает детальные транскрипты с метками времени для каждого слова, распознаванием говорящих и тегами аудиособытий (например, смеха).

В бенчмарках FLEURS и Common Voice Scribe превосходит ведущие модели, включая Gemini 2.0 Flash, Whisper Large V3 и Deepgram Nova-3. Точность транскрибирования высокая: 98,7% для итальянского, 96,7% для английского и высокие показатели для других языков.

Особенно заметны улучшения для традиционно “недообслуживаемых” языков, таких как сербский, кантонский и малаялам, где у конкурирующих моделей часто бывает более 40% ошибок.

Разработчики могут интегрировать Scribe через API Speech to Text и получать структурированные JSON-транскрипты. Версия с низкой задержкой для приложений реального времени выйдет в ближайшее время. Обычные пользователи могут загружать аудио- или видеофайлы прямо в панель управления ElevenLabs для создания отформатированных транскриптов. Причем до 9 апреля эта функция в веб-приложении бесплатна.

Я попробовал прогнать ролик на украинском — распознало точно (правда, почему-то разбило меня на двух спикеров), правда, вычитывать все равно надо, а то оно и все мои междометия поймало. С чем точно не справлялся Whisper и прекрасно получилось у Scribe — это использование английских слов, все упоминания Bolt, Lyft, Jira и так далее приведены корректно. На чем сломался Scribe — стоило мне в середине ролика привести цитату на русском и модель прекрасно следующие минут 5 записала в переводе на русский и потом вернулась на украинский. Never mess with mother freaking Ukrainians, как говорил один мафиозный персонаж в относительно старом триллере.

Наконец-то Amazon запускает долгожданную версию Alexa с генеративным ИИ — Alexa+, которая обещает убрать многие неудобства при взаимодействии с умной колонкой.

Среди новых возможностей — заказ продуктов, отправка приглашений на мероприятия, запоминание ваших предпочтений в еде и фильмах. Alexa Plus будет стоить $19.99 в месяц, но для подписчиков Amazon Prime она будет бесплатной — хорошее предложение, учитывая, что Prime стоит $14.99 в месяц или $139 в год.

Система будет работать на “почти всех” устройствах Alexa, начиная с Echo Show 8, 10, 15 и 21. В раннем доступе, который стартует в следующем месяце, Alexa Plus будет бесплатной для всех.

Новая Alexa сможет поддерживать беседу без необходимости каждый раз произносить кодовое слово, анализировать изображения, искать билеты на концерты, рассказывать о местных заведениях (используя данные Yelp) и бронировать рестораны. Она также может создавать сценарии умного дома, находить песни по расплывчатым описаниям и даже перематывать фильм на определенную сцену.

Во время демонстрации было показано, как Alexa Plus анализирует документы — от рукописных заметок до инструкций и фотографий. Например, она смогла прочитать правила жилищной ассоциации и проанализировать их требования к солнечным панелям.

Amazon сообщил, что Alexa Plus использует не одну модель, а комбинацию своей Amazon Nova и моделей от партнеров, включая Anthropic, выбирая лучшую для конкретной задачи. Система также опирается на данные от таких партнеров, как The Associated Press, Politico, The Washington Post и Reuters.

У Amazon есть, конечно, очень солидное преимущество — в отличие от того же ChatGPT, исходная Alexa уже присутствует в миллионах домов. Единственный конкурент с похожим покрытием — это Apple, но Siri еще не скоро дотянется до показанных возможностей.

А вот и новости про DeepSeek — ребята активно включаются в гонку.

По информации источников Reuters, компания из Ханчжоу планировала выпустить модель R2 в начале мая, но теперь хочет сделать это “как можно раньше”. Ожидается, что новая модель будет лучше справляться с кодингом и сможет рассуждать не только на английском языке.

Сообщается, что хедж-фонд, которому принадлежит компания — High-Flyer. — инвестировал 1.2 млрд юаней в два суперкомпьютерных AI-кластера в 2020-2021 годах, еще до запрета на экспорт чипов Nvidia A100 в Китай. Второй кластер, Fire-Flyer II, включал около 10,000 этих чипов.

Кроме того, до полного запрета в октябре 2023 года High-Flyer приобрел до 50 тысяч чипов H800 — урезанная версия H100 для китайского рынка, где была уменьшена скорость обмена данными. Правда, говорят, что за счет низкоуровневых оптимизаций частично эти ограничения удалось обойти.

Сам Лян признает, что главной проблемой остается эмбарго на высокопроизводительные чипы: “Наша проблема никогда не была в финансировании. Это эмбарго на высокопроизводительные чипы.”

Компания Meta ведет переговоры о строительстве нового кампуса дата-центров для искусственного интеллекта, который по размерам превзойдет все предыдущие проекты компании. По оценкам, стоимость кампуса может превысить $200 млрд — это в 20 раз больше, чем дата-центр в Луизиане, о котором Закерберг говорил в прошлом месяце.

Масштабы впечатляют: планируемая мощность 5-7 гигаватт (для сравнения, весь облачный бизнес Microsoft Azure на конец 2023 года имел около 5 ГВт). При этом OpenAI планирует приобрести 8 ГВт мощности для своего проекта Stargate к 2030 году. Для справки — полная мощность всех энергоблоков самой крупной в Европе Запорожской АЭС (которая сейчас не работает из-за оккупации российскими войсками) составляет 6 Гвт.

Среди возможных локаций для нового дата-центра Meta рассматриваются Луизиана, Вайоминг и Техас. Руководители компании уже посетили потенциальные площадки в этом месяце.

Несмотря на появление дешевых AI-решений вроде DeepSeek, которые ставят под вопрос необходимость таких огромных инвестиций, Meta продолжает наращивать расходы на инфраструктуру AI. Компания уже объявила о планах увеличить капитальные затраты до $60-65 млрд в этом году, что на 70% больше, чем в прошлом. А Закерберг говорит о “сотнях миллиардов долларов” инвестиций в AI-инфраструктуру “в долгосрочной перспективе”.

Однако внутри компании есть неопределенность относительно реальных потребностей в чипах для AI. Как заметил глава Instagram Адам Моссери в записке для сотрудников: “Нам может потребоваться значительно больше или значительно меньше мощностей, чем мы думали”. Но Закерберг ранее заявлял, что “предпочитает рисковать, строя мощности заранее, а не слишком поздно, учитывая долгие сроки запуска новых инфраструктурных проектов”.

Стартап Optifye.ai из акселератора Y Combinator вызвал скандал демонстрацией системы наблюдения за рабочими на производстве. Компания разрабатывает ПО, которое с помощью камер и AI отслеживает эффективность работников в режиме реального времени.

В видео, опубликованном YC, соучредитель Кушал Мохта играет роль владельца швейной фабрики, который звонит супервайзеру по поводу низкой производительности “Работника №17”. Супервайзер распекает работника, обвиняя его в низкой эффективности (11,4%) и плохих показателях за весь месяц.

После волны критики в социальных сетях, где систему окрестили “потогонной фабрикой как услуга” и “программным обеспечением для эксплуатации”, Y Combinator удалил видео со своих аккаунтов. Хотя нашлись и защитники, как CEO Intercom Иоган Маккейб, заявивший, что любой критикующий должен перестать покупать продукцию из Китая и Индии.

Особенно в ролике доставляет тот факт, что и основатель компании, и “супервайзер” говорят с заметным индийским акцентом. Я понимаю, что они на самом деле так говорят, но в контексте ролика это совершенно явно привязывает продукт компании к фабрикам в странах третьего мира со всеми вытекающими инсинуациями про условия труда.

Прикольный баг — функция голосового ввода на iPhone начала временно заменять слово “racist” на “Trump”, прежде чем исправить его обратно. Apple объясняет это фонетическим сходством слов и обещает исправить, но бывший разработчик Siri Джон Берки считает, что это больше похоже на чью-то злую шутку — либо в коде, либо в тренировочных данных. Я проверил — баг воспроизводится практически гарантированно.

Пикантности ситуации добавляет то, что баг появился через день после встречи Тима Кука с президентом Трампом, на которой Apple пообещала инвестировать $500 млрд в американскую экономику, включая строительство нового завода по производству AI-серверов в Хьюстоне.

Более тысячи музыкантов, включая Кейт Буш, Деймона Албарна и Энни Леннокс, выпустили “молчаливый” альбом в знак протеста против планов британского правительства разрешить AI-компаниям использовать защищенные авторским правом произведения без разрешения.

Альбом “Is This What We Want?” состоит из 12 записей тишины в студиях и концертных залах. Он символизирует то, что может произойти с доходами артистов, если правительство реализует свои планы. К протесту присоединились Пол Маккартни, Элтон Джон, Бьорн Ульвеус из ABBA, актриса Джулианна Мур и другие знаменитости.

Правительство Великобритании предлагает ввести исключение в авторском праве, позволяющее AI-компаниям обучать свои алгоритмы на работах творческих профессионалов. Хотя предусмотрена возможность отказа от использования, критики называют ее несправедливой и неработоспособной.

Прибыль от альбома, доступного на стриминговых сервисах, будет передана благотворительной организации Help Musicians. В записи участвовали Тори Амос, Билли Оушен, The Clash, композитор Ханс Циммер и многие другие. Названия треков складываются в послание: “Британское правительство не должно легализовать кражу музыки в интересах AI-компаний”.

Как отметил Стивен Фрай, один из подписантов открытого письма против инициативы: “Нельзя способствовать росту в саду, позволяя вредителям пожирать плоды и цветы, и нельзя способствовать росту экономики, позволяя ИИ пожирать плоды труда наших творцов”.

Индонезия и Apple достигли соглашения о снятии запрета на продажу iPhone 16 после пятимесячного противостояния. Американской компании пришлось увеличить обещанные инвестиции в страну до $1 млрд и взять на себя обязательства по обучению местных специалистов в сфере исследований и разработок.

Конфликт начался в октябре, когда Индонезия отказалась выдавать разрешение на продажу новых iPhone из-за несоблюдения требований по локальному производству. Даже после того, как президент Прабово Субианто поручил министрам принять предложение Apple об инвестициях, Министерство промышленности неожиданно оставило запрет в силе, добиваясь лучших условий.

Помимо инвестиций, Apple обязуется создать завод на острове Батам для производства AirTags (20% мировой продукции) и предприятие в Бандунге для выпуска других аксессуаров. При этом компания пока не планирует производить iPhone в Индонезии.

А нет ли у Индонезии редкоземельных металлов и, соответственно, повода для вмешательства Трампа?

Помните, я в прошлом году упоминал компанию под названием Chegg, которая занимается “образовательным” бизнесом — на самом деле основное направление этого бизнеса это подготовка готовых работ и рефератов для студентов, — бизнес которой серьезно пострадал в последние пару лет. И тогдашний CEO даже открыто жаловался на ChatGPT — студенты всё чаще отказывались от подписки на сервис в пользу ChatGPT Plus за 20 долларов в месяц.

Они даже сами внедряли AI, что делало ситуацию еще страннее — зачем платить за обертку ChatGPT, если есть сам ChatGPT?

Так вот, компания нашла виноваты и подала в суд на Google, утверждая, что AI-саммари в поисковой выдаче вредят их трафику и доходам.

Сейчас Chegg стоит меньше $200 млн, а акции торгуются чуть выше $1. Компания наняла Goldman Sachs для поиска стратегических опций, включая возможную продажу или уход с биржи. В четвертом квартале чистый убыток составил $6.1 млн при выручке $143.5 млн (падение на 24% год к году).

По словам нового CEO Натана Шульца, Google вынуждает компании вроде Chegg “предоставлять наш контент для включения в поисковую выдачу”, а затем использует свою монопольную власть, “пожиная финансовые выгоды от контента Chegg, не потратив ни цента”.

Google обещает защищаться от иска, утверждая, что AI Overviews, доступные более чем миллиарду пользователей в 100+ странах, “отправляют трафик на более широкий круг сайтов”. Chegg же указывает, что Google использовал их базу из 135 млн вопросов и ответов для обучения своих моделей, а теперь генерирует конкурирующий контент, не указывая источник.

Кстати, довольно удивительно другое — я знаю несколько примеров довольно хорошо растущих компаний, которые прямо сейчас предоставляют аналогичные услуги. Правда, они не идут в США, а специализируются на европейских языках. Остаётся только вопрос — эти успехи временные, пока AI не натренировался достаточно хорошо на языках, отличных от английского, или наш человек всегда найдет свою нишу?

👆Вдогонку к релизу — в тексте указано, что Claude Code доступен как limited research preview, но это не означает, что он недоступен всем желающим. Он совершенно спокойно запускается поверх node.js, требует авторизации в биллинге Anthropic (то есть у вас должен быть аккаунт для доступа к API, а не pro аккаунт в веб-сервисе) и работает в терминале.

Судя по тому, что я вижу на существующем проекте, прекрасному проекту Aider стоит заволноваться — Claude Code уже делает довольно многое из того, что он умеет, а в дальнейшем будет явно уметь больше. Остальным code agent-ам тоже можно начинать волноваться.

---