/ Source

TheInformation сообщает, что OpenAI ведет разработку мультимодальных функций к GPT-4, под общим названием GPT-Vision, которые будут аналогом модели Gemini, которую разрабатывает Google. Мультимодальность обеспечивает возможность модели работать с разными видами информации, то есть как в текстовом, так и в визуальном формате.

Утверждается, что следующее поколение GPT под названием Gobi изначально разрабатывается как мультимодальная модель.

Все это хорошо, но это означает, что у нашего милого AI появится слух и зрение, пусть и в зачаточном варианте. Вы уже представили перспективы?