Видео ИИ: Как обуздать галлюцинации во времени

Автор: Денис Аветисян


Новый метод SEASON позволяет значительно повысить достоверность видео-языковых моделей, решая проблему искажения событий во временной последовательности.

🧐

Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.

Бесплатный телеграм-канал
В предложенной системе SEASON, для обеспечения согласованности видео с вопросом, осуществляется сопоставление исходных представлений видео с пространственными и временными негативами, причём механизм “Временной Гомогенизации” вводит временную неоднозначность, сохраняя пространственную семантику, а “Самодиагностический Механизм” вычисляет адаптивные веса на уровне токенов, динамически направляя декодирование для минимизации пространственных или временных галлюцинаций.
В предложенной системе SEASON, для обеспечения согласованности видео с вопросом, осуществляется сопоставление исходных представлений видео с пространственными и временными негативами, причём механизм “Временной Гомогенизации” вводит временную неоднозначность, сохраняя пространственную семантику, а “Самодиагностический Механизм” вычисляет адаптивные веса на уровне токенов, динамически направляя декодирование для минимизации пространственных или временных галлюцинаций.

Предложен подход SEASON, использующий самодиагностическое контрастное декодирование для повышения временной и пространственной согласованности в видео-языковых моделях.

Несмотря на значительный прогресс в области видеопонимания, большие языковые модели для видео (VideoLLM) часто демонстрируют непоследовательность во временных зависимостях и причинно-следственных связях. В данной работе, представленной под названием ‘SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding’, предлагается метод SEASON, не требующий обучения, для повышения достоверности как временной, так и пространственной информации. Он основан на самодиагностике склонности к галлюцинациям и адаптивном контрастном декодировании с использованием негативных примеров, что позволяет значительно снизить вероятность временных несоответствий. Способны ли подобные подходы вывести VideoLLM на качественно новый уровень понимания видеоконтента и обеспечить более надежные ответы на запросы пользователей?


Иллюзии в Мультимодальных Моделях: Природа и Проявления

Мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющие возможности в обработке информации, однако склонны к генерации контента, не соответствующего визуальным данным — явление, известное как галлюцинация. Несмотря на способность понимать и комбинировать информацию из различных источников, включая текст и изображения, модели иногда создают описания или ответы, которые противоречат тому, что фактически изображено на визуальном вводе. Это несоответствие может проявляться в искажении деталей, добавлении несуществующих объектов или неверной интерпретации сцены. Подобные галлюцинации снижают доверие к MLLM и ограничивают их применение в критически важных областях, где точность и соответствие действительности имеют первостепенное значение, например, в медицинской диагностике или автономном вождении.

Несоответствие между генерируемым контентом и визуальными данными, проявляющееся в мультимодальных больших языковых моделях (MLLM), существенно подрывает доверие к этим системам. Эта проблема особенно критична в областях, где точность и надежность информации являются первостепенными, таких как медицина, автономное вождение или системы безопасности. Например, неверная интерпретация изображения в медицинской диагностике может привести к ошибочному диагнозу, а в автономном вождении — к серьезным авариям. Ограниченная применимость MLLM в этих и других важных сферах обусловлена необходимостью гарантий достоверности и предотвращения ложных утверждений, что требует разработки новых методов верификации и контроля генерации контента.

Иллюзии, возникающие в работе мультимодальных больших языковых моделей, проявляются не только в несоответствии с визуальным содержанием, но и в пространственных и временных противоречиях. Например, модель может описать объект, находящийся слева, как находящийся справа, или ошибочно указать последовательность событий на изображении. Данные несоответствия представляют собой сложную задачу для разработчиков, поскольку требуют не просто улучшения точности распознавания объектов, но и понимания пространственных отношений и временных зависимостей, представленных в визуальном контенте. Преодоление этих сложностей необходимо для повышения надежности и практической применимости мультимодальных моделей в различных областях, от автоматической генерации описаний изображений до помощи в принятии решений в критических ситуациях.

В отличие от существующих методов, которые либо не учитывают временную последовательность (DINO-HEAL), либо игнорируют причинно-следственные связи (TCD), разработанный нами подход SEASON обеспечивает временную согласованность генерируемого текста для каждого токена.
В отличие от существующих методов, которые либо не учитывают временную последовательность (DINO-HEAL), либо игнорируют причинно-следственные связи (TCD), разработанный нами подход SEASON обеспечивает временную согласованность генерируемого текста для каждого токена.

Методы Смягчения Галлюцинаций Без Переобучения

В последнее время наблюдается растущий интерес к методам смягчения галлюцинаций в генеративных моделях, не требующим переобучения. Традиционно, борьба с галлюцинациями требовала значительных вычислительных ресурсов и времени на повторное обучение модели с использованием новых данных или модификацией архитектуры. Альтернативные подходы, не требующие обучения, предлагают более практичное решение, позволяя применять исправления к уже обученным моделям без необходимости повторной оптимизации параметров. Это особенно актуально в сценариях, где ресурсы ограничены или повторное обучение нецелесообразно, например, при развертывании моделей в реальном времени или при работе с закрытыми данными. Исследования в данной области направлены на разработку алгоритмов, которые могут эффективно выявлять и подавлять галлюцинации, используя только информацию, доступную в процессе генерации.

Методика DINO-HEAL использует карты заметности (saliency maps) для выделения наиболее релевантных визуальных признаков на входном изображении. Эти карты, полученные с помощью архитектуры DINO, определяют области изображения, привлекающие наибольшее внимание нейронной сети. В процессе генерации текста или изображения DINO-HEAL фокусируется на этих областях, эффективно подавляя генерацию нерелевантных или ложных деталей — так называемых галлюцинаций. Использование карт заметности позволяет модели приоритизировать информацию, основанную на визуальном содержании, и снизить вероятность появления артефактов или неточностей в выходных данных, не требуя при этом дополнительного обучения.

Метод TCD (Token Contrastive Decoding) снижает галлюцинации в моделях генерации путем сопоставления предсказаний с результатами, полученными из видеороликов с пропущенными кадрами. Суть подхода заключается в том, что модель штрафуется за генерацию токенов, которые значительно отличаются от тех, которые она предсказывает при обработке видео, в котором некоторые кадры намеренно удалены. Это заставляет модель фокусироваться на наиболее устойчивых и значимых визуальных признаках, а не на мимолетных деталях, которые могут привести к галлюцинациям. Эффективность TCD обусловлена тем, что пропуск кадров имитирует неполноту входных данных, что заставляет модель более осторожно интерпретировать доступную информацию и избегать необоснованных предположений.

Сравнение точности и задержки методов TCD, DINO-HEAL и SEASON с LLaVA-OV-7B при обработке данных VidHalluc показывает различия в их производительности.
Сравнение точности и задержки методов TCD, DINO-HEAL и SEASON с LLaVA-OV-7B при обработке данных VidHalluc показывает различия в их производительности.

SEASON: Самодиагностика и Коррекция для Видео-LLM

Методика SEASON представляет собой новый, не требующий обучения подход к повышению достоверности VideoLLM. Она объединяет временную гомогенизацию и механизм самодиагностики для выявления и коррекции галлюцинаций. Временная гомогенизация позволяет выявить ложные временные корреляции, демонстрируя склонность модели к генерации недостоверной информации. Механизм самодиагностики, основанный на метрике Jensen-Shannon Divergence, позволяет точно оценить предрасположенность модели к галлюцинациям путем анализа расхождений во внимании между кадрами. В отличие от подходов, требующих дополнительного обучения, SEASON позволяет повысить достоверность VideoLLM без изменения весов модели.

Временная гомогенизация, применяемая в SEASON, заключается в намеренном нарушении естественной последовательности кадров видео, что позволяет выявить ложные корреляции, на которые опирается модель при генерации ответов. Данный процесс раскрывает склонность VideoLLM к галлюцинациям, поскольку модель, лишенная возможности использовать временную последовательность для подтверждения своих предположений, демонстрирует несогласованность в ответах, указывающую на генерацию нереалистичного или не соответствующего видеоконтенту текста. По сути, временная гомогенизация выступает в качестве инструмента для стресс-тестирования модели, обнажая ее зависимость от поверхностных, а не фактических, временных связей в видео.

Механизм самодиагностики SEASON использует дивергенцию Дженсена-Шеннона ($JSD$) для количественной оценки склонности к галлюцинациям в видео-LLM. Анализ расхождений во внимании между кадрами видео позволяет выявить несогласованности и оценить степень галлюцинаторного поведения модели. $JSD$ измеряет статистическую разницу между распределениями внимания на последовательных кадрах, при этом более высокие значения указывают на большую вероятность галлюцинаций. Данный подход обеспечивает точную оценку тенденций к галлюцинациям без необходимости ручной аннотации или дополнительных обучающих данных.

Метод SEASON использует Contrastive Decoding для активной коррекции галлюцинаций в видео-LLM. В ходе экспериментов с моделью Qwen2.5-VL-7B, применение данного метода позволило добиться прироста в 5.3% на бенчмарке VidHalluc. Contrastive Decoding способствует выбору более достоверных ответов, минимизируя вероятность генерации нерелевантного или ложного контента, что подтверждается улучшением метрики оценки галлюцинаций на данном бенчмарке.

При использовании модели LLaVA-OV-7B, фреймворк SEASON показал улучшение на 24.5% в подзадаче TSH (Temporal Sequence Hallucination) бенчмарка VidHalluc. В свою очередь, при применении к модели LLaVA-Video-7B, наблюдается повышение точности (TempCompass Accuracy) на 1.4%. Данные результаты демонстрируют эффективность SEASON в коррекции галлюцинаций во временных последовательностях видео, оцениваемых с помощью различных метрик.

Самодиагностический механизм SEASON определяет значимость токенов для сохранения временной и пространственной последовательности в генерируемом тексте, выделяя критичные для порядка временные токены (например,
Самодиагностический механизм SEASON определяет значимость токенов для сохранения временной и пространственной последовательности в генерируемом тексте, выделяя критичные для порядка временные токены (например, «B», «A», «first») и описывающие объекты и взаимодействия пространственные токены (например, «помещает масло», «рука», «закручивает тесто») с помощью соответствующих весов.

Оценка и Сравнение Методов Снижения Галлюцинаций

Для объективной оценки эффективности методов снижения галлюцинаций в видео-языковых моделях (VideoLLMs) критически важны стандартизированные бенчмарки, такие как VidHalluc, EventHallusion и VideoHallucer. Эти наборы данных предоставляют единую основу для сопоставления различных подходов к уменьшению неточностей и вымышленных деталей в генерируемых описаниях видео. Используя эти бенчмарки, исследователи могут надежно измерять, насколько успешно модель различает реальное содержание видео от галлюцинаций, что позволяет точно отслеживать прогресс в разработке более достоверных и надежных систем. Внедрение стандартизированных оценок способствует прозрачности и позволяет сравнивать результаты, полученные различными исследовательскими группами, стимулируя дальнейшее развитие в этой важной области искусственного интеллекта.

Стандартизированные эталоны, такие как VidHalluc, EventHallusion и VideoHallucer, обеспечивают единую платформу для сопоставления различных методов снижения галлюцинаций в видео-LLM. Использование этих общепринятых критериев позволяет исследователям объективно оценивать эффективность новых подходов и отслеживать прогресс в данной области. Возможность сравнивать результаты, полученные с использованием разных техник на одном и том же наборе данных, значительно ускоряет процесс разработки более надежных и точных моделей, способных генерировать правдоподобные и согласованные описания видеоконтента. Благодаря этому, научное сообщество получает возможность систематически улучшать качество и достоверность видео-LLM, приближаясь к созданию систем, способных эффективно понимать и интерпретировать визуальную информацию.

Для обеспечения воспроизводимости и доступности результатов исследований в области снижения галлюцинаций, оценка эффективности различных методов проводится с использованием открытых видео-языковых моделей, таких как LLaVA-OV-7B, LLaVA-Video-7B и Qwen2.5-VL-7B. Данный подход позволяет исследователям со всего мира независимо проверять и улучшать предложенные решения, а также способствует быстрому развитию данной области искусственного интеллекта. Открытый доступ к этим моделям и инструментам оценки позволяет избежать эффекта «черного ящика» и обеспечивает прозрачность процесса исследования, что крайне важно для построения доверия к новым технологиям и их дальнейшего внедрения.

Оптимизация предпочтений и обучение с подкреплением представляют собой перспективные подходы к дальнейшей настройке поведения видео-языковых моделей. Эти методы позволяют учитывать субъективные оценки людей, преобразуя их в сигналы обратной связи, используемые для корректировки параметров модели. В ходе обучения с подкреплением модель получает вознаграждение за генерацию ответов, соответствующих предпочтениям человека, и штраф за отклонения. Такой итеративный процесс позволяет не только снизить склонность модели к галлюцинациям, но и адаптировать её к индивидуальным запросам и ожиданиям, значительно улучшая качество и релевантность генерируемого контента. Данный подход способствует созданию более «человекоподобных» и полезных систем, способных эффективно взаимодействовать с пользователем.

Исследование отмены показало, что производительность SEASON на VidHalluc остается стабильной и не зависит от выбора конкретных слоев внимания для агрегации.
Исследование отмены показало, что производительность SEASON на VidHalluc остается стабильной и не зависит от выбора конкретных слоев внимания для агрегации.

Исследование демонстрирует, что проблема «временных галлюцинаций» в видео-LLM требует особого подхода к контрастивному обучению. Авторы предлагают метод SEASON, который, используя временную гомогенизацию, создает сложные негативные примеры для обучения модели. Это позволяет ей более точно понимать последовательность событий в видео. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект должен расширять возможности человека, а не заменять его». В контексте данной работы, SEASON стремится именно к расширению возможностей видео-LLM, делая их более надежными и точными в понимании временных взаимосвязей, что критически важно для задач анализа видеоконтента и понимания происходящих событий.

Куда же дальше?

Представленная работа, безусловно, вносит вклад в борьбу с проблемой «временных галлюцинаций» в видео-языковых моделях. Однако, следует признать, что само понятие «правдивости» во временной сфере остаётся в значительной степени субъективным. Модель может научиться имитировать последовательность событий, кажущуюся логичной, но не обязательно соответствующую реальному процессу, наблюдаемому человеком. Понимание того, что именно считать «временной верностью», требует дальнейших философских и эмпирических исследований.

Очевидным направлением для будущих работ является расширение области применения предложенного метода SEASON за пределы обучения без учителя. Введение механизмов, позволяющих модели самостоятельно оценивать степень «галлюцинации» и корректировать свои предсказания на основе внешних данных, представляется перспективным. Не менее важным представляется исследование влияния различных типов негативных примеров на эффективность обучения и обобщающую способность модели. Возможно, «однородность» временных рядов — лишь один из многих способов создания «сложных» примеров.

В конечном счёте, попытки заставить модель «видеть» мир так, как это делаем мы, неизбежно наталкиваются на проблему субъективности восприятия. Поэтому, вместо того чтобы стремиться к абсолютной «правдивости», возможно, стоит сосредоточиться на создании моделей, способных генерировать правдоподобные и когерентные повествования, даже если они не соответствуют реальности. Ибо, как известно, иногда вымысел бывает полезнее правды.


Оригинал статьи: https://arxiv.org/pdf/2512.04643.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-07 17:38