/ Source

Google объявил о выпуске Gemini 2.0 — новой версии своей языковой модели, которая теперь умеет не только понимать мультимодальный ввод (текст, изображения, видео, аудио), но и генерировать изображения и речь. Кроме того, модель получила встроенную возможность использовать инструменты вроде Google Search и выполнять код.

Самое интересное — Google начал активно экспериментировать с “агентным” подходом, то есть с системами, которые могут самостоятельно выполнять задачи от имени пользователя. Показали несколько прототипов:

  • Project Astra — универсальный ассистент для смартфонов (и, возможно, очков)
  • Project Mariner — агент для браузера, который может выполнять задачи в web-интерфейсах
  • Jules — помощник для разработчиков, интегрированный с GitHub.

Пока всё это доступно только разработчикам и доверенным тестировщикам, широкий релиз планируется в начале следующего года. Интересно, что Google специально подчеркивает внимание к безопасности — например, браузерный агент может работать только в активной вкладке и требует подтверждения для важных действий вроде покупок.

Gemini 2.0 Flash уже доступна в интерфейсе пользователей с предупреждением, что это экспериментальная модель. Более того, она уже добралась до третьего места в ChatBot Arena, где на первом уже несколько дней находится экспериментальная Gemini Exp 1206. Я при этом как-то не могу распробовать эти модели — какого-то суперпрогресса по сравнению с исправно кодящим Claude 3.5 Sonnet не ощущается. Говорят, правда, что можно соптимизировать модель так, чтобы она зажгла в сравнении на Chatbot Arena, но вряд ли Google будет таким заниматься.