Мысли в скрытом пространстве: новый подход к визуальному мышлению

Автор: Денис Аветисян


Исследователи предлагают принципиально новый метод, позволяющий моделям рассуждать над визуальной информацией, используя абстрактные представления вместо прямого анализа изображений и текста.

🧐

Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.

Бесплатный телеграм-канал
При попытке явного переключения между визуальными и текстовыми представлениями модели часто сталкиваются с трудностями: недостаточное использование визуальной информации для точной привязки последующего текста или неоптимальное время переключения, что заставляет модель упускать важные визуальные детали, однако предложенный подход, использующий универсальные Mull-Tokens, позволяет динамически распределять ресурсы между модальностями, устраняя необходимость в жёстком переключении и повышая точность обработки информации.
При попытке явного переключения между визуальными и текстовыми представлениями модели часто сталкиваются с трудностями: недостаточное использование визуальной информации для точной привязки последующего текста или неоптимальное время переключения, что заставляет модель упускать важные визуальные детали, однако предложенный подход, использующий универсальные Mull-Tokens, позволяет динамически распределять ресурсы между модальностями, устраняя необходимость в жёстком переключении и повышая точность обработки информации.

Представлена методика Mull-Tokens, обеспечивающая модально-независимое логическое мышление с использованием латентных токенов для повышения эффективности и производительности.

Рассуждения выходят за рамки языка, требуя учета пространства, времени и возможностей реального мира, что сложно передать одними словами. В данной работе, посвященной ‘Mull-Tokens: Modality-Agnostic Latent Thinking’, предложен новый подход к мультимодальному рассуждению, использующий латентные токены, не зависящие от конкретной модальности. Mull-Tokens позволяют модели свободно «мыслить», храня промежуточную информацию как в виде изображений, так и текста, что повышает эффективность и точность решения задач пространственного рассуждения. Способны ли подобные латентные представления стать основой для создания более гибких и универсальных систем искусственного интеллекта, способных к комплексному пониманию окружающего мира?


Задачи визуального мышления: что не под силу машинам?

Традиционные системы искусственного интеллекта часто сталкиваются с трудностями при решении задач, требующих глубокого понимания визуальной информации и логических рассуждений, особенно когда речь идет об оценке пространственных взаимосвязей. Несмотря на значительные успехи в распознавании образов, алгоритмы испытывают сложности в интерпретации сцен, где важны относительное положение объектов, их ориентация и взаимное влияние. Например, понимание, что один объект находится «перед» другим или «слева» от него, требует не просто идентификации этих объектов, но и построения ментальной модели сцены, что выходит за рамки возможностей многих существующих подходов. Данная проблема особенно актуальна в областях, таких как робототехника и автономное вождение, где способность к пространственному мышлению критически важна для безопасной и эффективной навигации и взаимодействия с окружающим миром.

Современные методы искусственного интеллекта часто сталкиваются с трудностями при объединении визуальной информации и текстовых знаний для решения сложных задач. Анализ показывает, что существующие системы, как правило, обрабатывают эти два типа данных изолированно, что препятствует глубокому пониманию контекста и логических связей. Например, для решения задачи, требующей интерпретации визуальной сцены и сопоставления её с текстовым описанием, алгоритмы часто демонстрируют низкую точность, особенно в случаях, когда требуется вывод на основе неявных знаний или сложных пространственных отношений. Это ограничение связано с тем, что большинство моделей не способны эффективно устанавливать связи между визуальными признаками и семантическим содержанием текста, что приводит к ошибкам в рассуждениях и неверным ответам. Разработка методов, способных эффективно интегрировать эти два типа данных, является ключевой задачей для создания более интеллектуальных и способных к решению проблем систем искусственного интеллекта.

В отличие от существующих методов рассуждений в тексте или одновременной обработке изображений и текста, мы предлагаем более простой подход - модально-независимое мышление в пространстве
В отличие от существующих методов рассуждений в тексте или одновременной обработке изображений и текста, мы предлагаем более простой подход — модально-независимое мышление в пространстве «зрение-язык» с использованием Mull-Tokens для ответов на визуальные запросы.

Внутренний «черновик» для рассуждений: Mull-Tokens

Мы представляем Mull-Tokens — модально-независимые латентные токены — как внутренний “черновик” для мультимодальных языковых моделей, обеспечивающий возможность выполнения итеративных шагов рассуждений. Эти токены функционируют как промежуточная рабочая область, позволяющая модели последовательно обрабатывать информацию и формировать умозаключения, не ограничиваясь прямым сопоставлением входных данных и выходных результатов. В процессе рассуждений модель манипулирует этими токенами, представляющими промежуточные мысли, что позволяет ей сохранять и использовать контекст на протяжении нескольких этапов вычислений. Это способствует более сложному и глубокому анализу, а также повышает эффективность решения задач, требующих многошаговых рассуждений.

Представление промежуточных этапов рассуждений в виде Mull-токенов позволяет отделить процесс логического вывода от прямого сопоставления входных данных и выходных результатов. Это разделение способствует повышению точности, поскольку модель может последовательно уточнять свои мысли, не ограничиваясь немедленной реакцией на вход. Кроме того, такая архитектура значительно улучшает интерпретируемость, поскольку промежуточные Mull-токены служат явным представлением логической цепочки, позволяя анализировать ход рассуждений модели и выявлять потенциальные ошибки или предвзятости. В отличие от моделей, где рассуждения неявно закодированы в параметрах сети, Mull-токены обеспечивают доступное и прозрачное представление промежуточных мыслей.

Мультимодальные языковые модели, использующие Mull-Tokens, обладают гибкостью в представлении промежуточных результатов рассуждений благодаря поддержке как дискретных, так и непрерывных вложений. Дискретные вложения, представленные в виде конечного набора категорий или символов, позволяют модели оперировать четко определенными понятиями и состояниями. Непрерывные вложения, напротив, используют векторы вещественных чисел для представления информации, обеспечивая более тонкую и градиентную репрезентацию данных. Возможность выбора между этими типами вложений позволяет оптимизировать модель под конкретные задачи и типы данных, а также эффективно использовать вычислительные ресурсы и память.

Предварительное обучение многомодальных Mull-Tokens для хранения как визуальных, так и текстовых цепочек рассуждений является ключевым фактором достижения точного ответа, превосходящим методы, использующие только текст или Mull-Tokens без предварительной подготовки.
Предварительное обучение многомодальных Mull-Tokens для хранения как визуальных, так и текстовых цепочек рассуждений является ключевым фактором достижения точного ответа, превосходящим методы, использующие только текст или Mull-Tokens без предварительной подготовки.

Проверка Mull-Tokens на разнообразных задачах

Эксперименты, проведенные на базе мультимодальной языковой модели Qwen2.5-VL, показали значительное повышение производительности на сложных бенчмарках, включая BLINK, SAT и VSI-Bench. Средний прирост точности составил +3% по этим бенчмаркам. Данные результаты демонстрируют улучшение способности модели к решению задач, требующих комплексного анализа и обработки информации, представленной в различных форматах. Оценка проводилась на стандартных наборах данных, что обеспечивает воспроизводимость и сопоставимость результатов с другими исследованиями в области мультимодального машинного обучения.

Для направления процесса рассуждений модели с использованием Mull-Tokens применялись методы чередующейся обработки изображения и текста (Interleaved Image-Text processing), а также побуждение к цепочке мыслей (Chain-of-Thought, CoT) prompting. Чередующаяся обработка позволяет модели последовательно интегрировать визуальную и текстовую информацию, усиливая взаимосвязь между ними. CoT prompting, в свою очередь, стимулирует модель к генерации промежуточных шагов рассуждений, что способствует более точному и обоснованному решению задач. Комбинация этих методов позволяет эффективно использовать Mull-Tokens для улучшения производительности модели в задачах, требующих комплексного анализа визуальных и текстовых данных.

Экспериментальные данные подтверждают, что использование Mull-Tokens значительно повышает производительность модели в задачах, требующих пространственного мышления и анализа видеоданных. В частности, наблюдалось увеличение точности на 16% на подмножествах визуальных головоломок, ориентированных на сложные логические выводы. Это подтверждается результатами, полученными на задачах ERQA и специализированных бенчмарках для оценки пространственного мышления в видео, что указывает на эффективность Mull-Tokens в решении задач, требующих понимания взаимосвязей между объектами в пространстве и времени.

Модель эффективно комбинирует визуальные токены и текстовое рассуждение, самостоятельно определяя, когда использование текста не требуется для решения задачи, как, например, при определении движения камеры.
Модель эффективно комбинирует визуальные токены и текстовое рассуждение, самостоятельно определяя, когда использование текста не требуется для решения задачи, как, например, при определении движения камеры.

Уточнение процесса рассуждений с помощью градиентной оптимизации

Для дальнейшей оптимизации процесса рассуждений была применена методика Gradient-based Reward Propagation Optimization (GRPO), направленная на непосредственную оптимизацию представлений Mull-Token. Этот подход позволяет модели совершенствовать внутренние стратегии рассуждения, выстраивая более эффективные цепочки логических выводов. В отличие от традиционных методов, GRPO фокусируется на корректировке самих представлений, а не параметров модели, что обеспечивает более быстрое обучение и улучшенную обобщающую способность. Оптимизация Mull-Token позволяет достичь значительного прогресса в решении сложных визуальных задач, требующих последовательного анализа и логических заключений, при этом снижая вычислительные затраты и потребность в больших объемах данных.

Оптимизация на основе градиентов позволяет модели разрабатывать более эффективные стратегии внутреннего рассуждения, что приводит к значительному улучшению результатов при решении сложных задач визуального анализа. Вместо того, чтобы полагаться на заранее заданные шаблоны или фиксированные параметры, модель адаптирует свой процесс мышления, уточняя представления о данных на основе обратной связи от решаемой задачи. Такой подход позволяет ей более гибко подходить к новым ситуациям, выявлять скрытые закономерности и принимать обоснованные решения даже в условиях неполной или неоднозначной информации. В результате, модель демонстрирует повышенную точность и надежность в решении сложных визуальных задач, требующих глубокого понимания и логического анализа.

Отделение процесса рассуждений от параметров модели позволяет добиться более эффективного обучения и обобщения знаний. В отличие от существующих подходов, таких как текстовые цепочки мыслей (Chain-of-Thought) или сложные представления изображений, требующих сотен токенов, разработанный метод использует лишь 10-40 токенов для достижения сопоставимых или лучших результатов. Это существенное снижение вычислительных затрат и повышение эффективности использования памяти, что открывает возможности для применения модели в условиях ограниченных ресурсов и для обработки больших объемов данных. Подобный подход позволяет модели быстрее адаптироваться к новым задачам и демонстрировать более устойчивые результаты при изменении входных данных.

Эксперименты с различными гиперпараметрами показали, что дискретное представление латентного пространства обеспечивает лучшие результаты, чем непрерывное, при этом увеличение количества латентных токенов положительно влияет на производительность до определенного порога, особенно после применения GRPO, который способствует развитию причинно-следственной связи в латентной цепи.
Эксперименты с различными гиперпараметрами показали, что дискретное представление латентного пространства обеспечивает лучшие результаты, чем непрерывное, при этом увеличение количества латентных токенов положительно влияет на производительность до определенного порога, особенно после применения GRPO, который способствует развитию причинно-следственной связи в латентной цепи.

Статья о Mull-Tokens, стремящаяся к элегантности модально-независимого рассуждения, неизбежно натыкается на реальность техдолга. Авторы предлагают использовать латентные токены для улучшения эффективности, но это лишь очередной уровень абстракции, который рано или поздно потребует обслуживания. Как справедливо заметил Эндрю Ын: «Мы тратим много времени, пытаясь получить 99% точности, вместо того, чтобы сосредоточиться на базовых 80%, которые принесут реальную пользу». Идея о «следах рассуждений» выглядит привлекательно, пока CI не начнет жаловаться на нехватку ресурсов, а документация не превратится в очередной миф, созданный менеджерами, чтобы оправдать отсутствие автоматизации.

Что дальше?

Представленный подход к работе с латентными токенами, безусловно, представляет интерес, но, как показывает практика, любая элегантная схема рано или поздно столкнётся с жестокой реальностью продукшена. Оптимизация под «чистый» случай визуального рассуждения — это лишь первый шаг; неизбежно возникнет потребность в устойчивости к шуму, неполным данным и намеренным искажениям. В конце концов, все оптимизированное рано или поздно оптимизируют обратно, чтобы справиться с последствиями.

Более того, представление о «модально-независимых» токенах представляется несколько идеалистичным. Каждая модальность несёт в себе собственные систематические ошибки и предвзятости. Вопрос не в том, чтобы их устранить, а в том, чтобы научиться с ними жить и учитывать их влияние на процесс рассуждения. Архитектура — это не схема, а компромисс, переживший деплой.

В перспективе, вероятно, потребуется переосмысление самой концепции «цепочки рассуждений». Вместо попыток эмулировать человеческое мышление, возможно, стоит сосредоточиться на создании систем, способных эффективно находить и использовать статистические закономерности в данных. Мы не рефакторим код — мы реанимируем надежду. И в этом, пожалуй, заключается главная задача на будущее.


Оригинал статьи: https://arxiv.org/pdf/2512.10941.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-14 19:49