1 min read

ИИ-агент «не шмог». Текущие пределы работы с документами

Протираем розовые очки и не боимся отстать от ИИ-хайпа
ИИ-агент «не шмог». Текущие пределы работы с документами

Вышел неплохой «рисеч» от ребят, которые специализируются на парсинге документов с помощью различных моделей: ParseBench. За супер подробностями можно обратиться уже к научной статье на arXiv.

Современные модели (VLM — Vision-Language Models) научились «видеть» документ и рассуждать об увиденном. Это важно, когда речь идет именно о сканированном документе, а не просто о текстовом слое, сохраненном в PDF.

Вердикт пока не очень позитивный, имхо. Хотя всё зависит, в буквальном смысле, от того, покупаете вы или продаете. Продавцов «ИИ-порошка» сейчас развелось достаточно.

Я же смотрю на это как потенциальный потребитель. И агрегированный лучший результат в 84% выглядит не сильно вдохновляющим (см. скриншот к посту).

В целом, на каждые 10 страниц ИИ-агент допустит существенное искажение: неправильно распознает, выдумает факт или пропустит важное. Удивительно, что у Anthropic их модель Haiku в некоторых критически важных для агентных сценариев задачах — например, извлечение данных из диаграмм — давала результаты в районе 5–8%. Это не „совокупная точность", а именно отдельная метрика, где ошибка означает, что агент не смог проверить источник цифры или правильно интерпретировать таблицу. Доверять такому агенту финансовые документы опасно. Это немножечко приподнимает розовые очки и снижает градус восторга, что нечто может прям всё и без ошибок.

В связи с этим у меня недавно случился занятный казус именно с моделями Anthropic. Попробовал для личной задачи проанализировать обычный текстовый PDF. Вместо 13 млн руб. модель увидела 15 млн руб. и далее делала глубоко идущие выводы на основе этой ошибки.

Хорошо, что заметил. О чем и посетовал в одном чатике технарю, который, по ощущениям, не сильно примыкал к ИИ-хайпу, хотя и активно продает курсы обучения. На что получил ответ в стиле: «Сам дурак — ты просто не умеешь готовить ИИ-агента».

Разумеется, как готовить — не было даже намёка. И это тоже показательно: у людей прямой конфликт интересов. Если будешь рассказывать про наличие ошибок такого уровня, то тяжело продавать «будущее» и стимулировать FOMO у аудитории. А уж навешать лапшу гуманитариям — отдельный вид спорта сейчас.

Поэтому никаких ИИ в продакшене ;)