| Телеграм-канал БлоGнот

6 марта 2025 г. / Source

Компания Mistral AI решила возглавить модный (и хороший) тренд и представила новый сервис Mistral OCR — API для оптического распознавания символов, устанавливающий новый стандарт в понимании документов. В отличие от других моделей, Mistral OCR способен понимать каждый элемент документов — медиа, текст, таблицы, формулы — с беспрецедентной точностью.

Согласно бенчмаркам, представленным компанией, Mistral OCR превосходит конкурентов от Google, Microsoft и даже Gemini 2.0. Модель демонстрирует высокую точность в работе с математическими выражениями, многоязычными документами, отсканированными материалами и таблицами.

Особое внимание уделено многоязычности — модель поддерживает тысячи шрифтов и языков со всего мира, показывая точность выше 97-99% для разных языков, включая русский, китайский и хинди. При этом Mistral OCR работает быстрее аналогов, обрабатывая до 2000 страниц в минуту на одном узле.

API доступно по цене 1000 страниц за доллар (и примерно вдвое больше при пакетной обработке). Для организаций, работающих с особо чувствительной информацией, предусмотрена возможность развертывания на собственных серверах.

Почему я говорю о модном тренде — потому что использование LLM для обработки, например, PDF, содержащий сканированный или просто печатный текст, в последнее время стало набирать обороты. Я сам как раз последний месяц возился с разными способами конвертации текста из PDF и могу сказать, что самый простой способ, дающий самый качественный результат — это отправить PDF в Gemini, например, или в gpt-4o-mini и попросить преобразовать в нужный формат с нужной разметкой текста. Там есть свои подводные камни — вывод модели ограничен выходным контекстом и, если размер документа его превышает, на границе модель может потерять текст — но все остальные способы просто не гарантируют качество, особенно если важно сохранить разметку.

В-общем, возьму на заметку и вам советую.