Команда из UC Berkeley, Princeton University, EPFL и Databricks представила PixelRAG — подход к retrieval-augmented generation, который работает не с текстовым парсингом страниц, а с их визуальным представлением. VentureBeat пишет, что метод повышает точность ответов до 18,1% и может снизить затраты токенов для AI-агентов примерно в 10 раз.
Обычные RAG-конвейеры часто начинают с превращения HTML, PDF или веб-страниц в plain text. На этом этапе теряются таблицы, разметка, визуальная иерархия, подписи и контекст, который человек считывает с экрана мгновенно. PixelRAG вместо этого рендерит страницу как изображение и извлекает знания с учётом визуальных сигналов.
Для корпоративных AI-агентов это важно не только из-за точности. Агент, который неправильно понял документ, может принять неверное решение, вызвать лишний инструмент или раскрыть не тот фрагмент данных. Более компактное и точное извлечение контекста снижает как стоимость, так и операционные риски.
Пока PixelRAG — исследовательская работа, но направление хорошо показывает, куда движется инфраструктура ИИ: от грубого «скормить всё в контекст» к более экономным системам, которые понимают структуру документов ближе к тому, как её видит пользователь.
Источник: VentureBeat, 12 июня 2026