Память, которая растёт: Обучение агентов на ходу

Автор: Денис Аветисян

Новое исследование представляет Evo-Memory — платформу для оценки и улучшения способности языковых моделей адаптироваться и накапливать опыт в процессе работы.

🧐

Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.

Бесплатный телеграм-канал

Агент ReMem функционирует посредством итеративного поиска, синтеза и эволюции памяти в процессе решения различных задач, опираясь на архитектуру, включающую модули рассуждения и декомпозиции («Мышление»), организации и отсева информации в памяти («Уточнение памяти») и непосредственного взаимодействия с окружающей средой и накопленным опытом («Действие»).

Представлен бенчмарк Evo-Memory для оценки и улучшения способности языковых моделей к обучению во время работы и саморазвитию памяти.

Несмотря на важность сохранения контекста, современные языковые модели (LLM) часто испытывают трудности с долгосрочным обучением и адаптацией в динамичных задачах. В настоящей работе, ‘Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory’, представлен комплексный бенчмарк и фреймворк Evo-Memory, предназначенный для оценки и улучшения способности LLM-агентов к самообучению и эволюции памяти в процессе работы. Эксперименты демонстрируют, что непрерывная адаптация и усовершенствование памяти значительно повышает производительность в задачах как одношаговой, так и многошаговой сложности. Возможно ли создание действительно «самообучающихся» агентов, способных эффективно накапливать и использовать опыт для решения всё более сложных проблем?

Обещание Адаптивных Агентов

Несмотря на впечатляющие возможности больших языковых моделей, они часто сталкиваются с трудностями при решении сложных, многоступенчатых задач и адаптации к новым обстоятельствам. Проблемы возникают из-за того, что модели, как правило, опираются на статистические закономерности, выученные из огромных объемов данных, а не на глубокое понимание принципов причинно-следственных связей. Это приводит к ошибкам при планировании действий, требующих последовательного применения логики и учета изменяющихся условий. Например, модель может успешно генерировать текст, описывающий процесс приготовления блюда, но не сможет адаптировать рецепт, если окажется, что одного из ингредиентов нет в наличии, или если необходимо учесть диетические ограничения. Таким образом, способность к гибкому мышлению и эффективной адаптации остается серьезным вызовом для современных языковых моделей, ограничивая их применение в реальных, динамично меняющихся средах.

Современные подходы к созданию искусственного интеллекта часто сталкиваются с ограничениями, связанными с недостатком динамической памяти и способности к самоанализу. Это препятствует эффективной работе систем в непредсказуемых, открытых средах, где требуется адаптация к новым условиям и извлечение уроков из опыта. В отличие от человеческого интеллекта, который способен формировать сложные ассоциации и пересматривать собственные убеждения, существующие модели испытывают трудности с удержанием контекста на протяжении длительных взаимодействий и с корректировкой стратегий поведения на основе полученной обратной связи. Отсутствие механизмов саморефлексии не позволяет им оценивать собственные ошибки, выявлять закономерности и улучшать производительность без прямого вмешательства человека, что существенно ограничивает их возможности в решении сложных, многоступенчатых задач и в автономной работе.

Переход к саморазвивающимся агентам представляется ключевым шагом в преодолении ограничений, присущих современным большим языковым моделям. Эти системы, в отличие от статичных алгоритмов, способны к непрерывному самоанализу и адаптации, что позволяет им не только корректировать собственные ошибки, но и улучшать стратегии решения задач на основе полученного опыта. Такой подход имитирует принципы эволюции и обучения, позволяя агентам постепенно повышать свою эффективность в сложных и динамичных средах. Саморефлексия выступает в роли внутреннего механизма оценки, позволяющего агенту выявлять слабые места и оптимизировать свою деятельность, что открывает перспективы для создания действительно интеллектуальных систем, способных к самостоятельному обучению и развитию.

Агент, способный сохранять состояние, извлекает пользу из повторного использования опыта, успешно выполняя как многошаговые задачи, например, манипуляции с объектами, так и одношаговые, такие как решение уравнений.

Строительные Блоки: Архитектуры Памяти для Агентов

Эффективное поведение агентов требует не просто хранения и извлечения релевантной информации, а создания надежных систем памяти. Простая система извлечения данных недостаточна, так как не обеспечивает контекстуализации, приоритезации и адаптации к изменяющимся условиям. Надежная система памяти должна включать механизмы для фильтрации нерелевантной информации, обновления данных с учетом новых знаний и эффективного использования накопленного опыта для решения текущих задач. Она должна обеспечивать не только доступ к данным, но и их структурирование, индексацию и организацию для обеспечения быстрого и точного поиска и использования.

Системы “Рабочей памяти” (Workflow Memory), такие как Dynamic Cheatsheets и Agent Workflow Memory, обеспечивают повторное использование стратегий выполнения задач, что значительно повышает эффективность работы агента. Эти системы хранят не просто данные, а последовательности действий и проверенные методы решения типовых задач. Вместо того, чтобы каждый раз заново разрабатывать алгоритм, агент может обратиться к “Рабочей памяти” и применить готовое решение. Это позволяет сократить время на выполнение задач, снизить вероятность ошибок и повысить общую производительность, особенно в сложных и повторяющихся сценариях. Использование таких систем особенно эффективно в задачах, требующих последовательного выполнения нескольких шагов, где каждый шаг опирается на предыдущий.

Архитектуры, такие как LangMem и MemoryOS, выходят за рамки простого хранения данных, используя принципы, заимствованные из операционных систем и современные языковые модели. LangMem, например, применяет концепции виртуальной памяти и кеширования для эффективного управления большим объемом информации, а также использует языковые модели для семантического поиска и извлечения релевантных данных. MemoryOS, в свою очередь, организует память агента как файловую систему, позволяя структурировать, индексировать и обращаться к информации подобно традиционным операционным системам. Это обеспечивает более гибкий и масштабируемый доступ к данным, а также позволяет агенту эффективно использовать ограниченные ресурсы, такие как вычислительная мощность и объем памяти.

Дифференцируемые контроллеры чтения-записи представляют собой механизм уточнения доступа к памяти, позволяющий агентам приоритизировать и фокусироваться на наиболее релевантной информации. В отличие от традиционных методов, которые часто используют фиксированные стратегии доступа, эти контроллеры используют градиентный спуск для оптимизации процесса чтения и записи. Это позволяет агенту динамически оценивать важность различных фрагментов памяти и, соответственно, выделять больше ресурсов для доступа к наиболее ценным данным. Фактически, контроллер обучается определять, какие части памяти наиболее полезны для текущей задачи, что значительно повышает эффективность и скорость работы агента. Применение дифференцируемых контроллеров позволяет агенту избегать перегрузки информацией и концентрироваться на данных, критичных для принятия решений.

Алгоритм ReMem демонстрирует превосходство над базовым алгоритмом History на четырех интерактивных задачах, подтвержденное растущим успехом по мере оценки большего числа экземпляров.

Обучение в Процессе: Самосовершенствование и Рефлексия

Обучение во время выполнения (test-time learning) позволяет агентам адаптироваться и повышать свою производительность непосредственно в процессе эксплуатации, что особенно важно при столкновении со смещениями в распределении данных и непредвиденными обстоятельствами. Эта способность к адаптации позволяет агентам корректировать свою стратегию поведения, не требуя переобучения на новых данных, и поддерживать высокую эффективность даже в условиях, отличающихся от тех, на которых они изначально обучались. Это критически важно для развертывания агентов в реальных, динамично меняющихся средах, где заранее невозможно предусмотреть все возможные сценарии и вариации входных данных.

Агентские фреймворки обучения во время тестирования, такие как Reflexion и Voyager, используют механизм рефлексии — способности анализировать предыдущий опыт и выявлять области для улучшения — для направления адаптации. Этот процесс включает в себя самооценку агентом своих действий после выполнения задачи, выявление ошибок или неоптимальных решений, и последующую корректировку стратегии поведения. Рефлексия позволяет агенту не просто запоминать успешные решения, но и понимать причины успеха или неудачи, что способствует более эффективной генерализации знаний и адаптации к новым, ранее не встречавшимся ситуациям. Анализ проводится на основе данных, полученных в процессе выполнения задачи, включая входные данные, действия агента и полученные результаты.

Повторное использование опыта (Experience Reuse) является ключевым компонентом в системах обучения агентов, позволяя им абстрагировать и применять приобретенные стратегии рассуждений к новым, ранее не встречавшимся задачам. Этот процесс подразумевает не просто запоминание конкретных решений, но и выделение общих принципов и подходов, которые могут быть успешно перенесены в другие контексты. Эффективное повторное использование опыта требует способности агента к обобщению, позволяющему идентифицировать релевантные шаблоны и адаптировать их к новым ситуациям, значительно повышая эффективность и скорость обучения в динамически меняющейся среде.

В большинстве фреймворков, использующих обучение во время выполнения, применяется ретривальная память для доступа к предыдущему опыту и извлечения полезной информации. Данный подход позволяет агенту сохранять записи о своих действиях, наблюдениях и результатах, которые затем используются для анализа и выявления закономерностей. Извлеченные данные применяются для корректировки стратегий решения задач и улучшения производительности в новых, ранее не встречавшихся ситуациях. Эффективность ретривальной памяти обеспечивается алгоритмами поиска и индексации, позволяющими быстро находить релевантные эпизоды из прошлого опыта и использовать их для текущего обучения и адаптации.

Система извлекает из памяти как конкретные факты (например, решения уравнения 2x² + 3x - 1 = 0), так и стратегии рассуждений (например, применение формулы). — Система извлекает из памяти как конкретные факты (например, решения уравнения 2x² + 3x — 1 = 0), так и стратегии рассуждений (например, применение формулы).

Evo-Memory: Платформа для Саморазвивающихся Агентов

Разработанная платформа Evo-Memory представляет собой всесторонний инструмент для оценки и анализа способности к саморазвитию памяти у языковых моделей, функционирующих как автономные агенты. В ходе тестирования, агент ReMem, использующий данную систему, продемонстрировал впечатляющие результаты, достигая до 97% успешного выполнения интерактивных задач. Эта высокая эффективность подтверждает перспективность подходов к созданию интеллектуальных систем, способных к адаптации и обучению в процессе взаимодействия с окружающей средой. Evo-Memory позволяет исследователям не только оценивать текущие достижения в области саморазвивающейся памяти, но и разрабатывать новые, более эффективные архитектуры для создания по-настоящему автономных и интеллектуальных агентов.

Для оценки и развития интеллектуальных возможностей агентов используется разработанная среда, основанная на потоках задач и многошаговых целеполагающих сценариях. Этот подход позволяет моделировать реалистичные ситуации, требующие от агента не только выполнения отдельных действий, но и планирования, адаптации и сохранения информации в процессе взаимодействия со средой. Использование таких сложных сценариев существенно расширяет границы тестирования и позволяет выявить слабые места в архитектуре памяти агентов, стимулируя разработку более эффективных и гибких систем. Подобная среда является ключевым инструментом для продвижения исследований в области искусственного интеллекта и создания самообучающихся агентов, способных к решению сложных, многоэтапных задач.

В рамках Evo-Memory исследователи получили возможность всесторонней оценки эффективности различных архитектур памяти, включая иерархическую память и ReMem, в условиях адаптации к новым задачам. Эта платформа позволяет детально изучить, как различные подходы к организации памяти влияют на способность агентов к обучению и решению сложных интерактивных задач. Сравнительный анализ показывает, что системы, использующие более сложные архитектуры, такие как ReMem, демонстрируют значительное превосходство в скорости и точности выполнения заданий по сравнению с базовыми решениями, в частности ExpRAG. Этот подход открывает новые возможности для разработки более гибких и адаптивных интеллектуальных агентов, способных к эффективному взаимодействию с динамично меняющейся средой.

В качестве отправной точки для оценки эффективности саморазвивающихся систем памяти был использован подход ExpRAG. Сравнение с данной базовой моделью позволило продемонстрировать значительные преимущества более сложных архитектур, в частности ReMem. В ходе экспериментов на платформе ALFWorld, ReMem сократил среднее количество шагов, необходимых для выполнения задач, с 22.6 до 11.5. Такое существенное уменьшение числа действий указывает на более высокую эффективность ReMem в организации и использовании информации, что, в свою очередь, способствует более быстрому и успешному достижению поставленных целей в интерактивных средах.

Метод ReMem демонстрирует более эффективное выполнение задач, последовательно требуя меньшего количества шагов по сравнению с History, ExpRecent и ExpRAG на всех четырех тестовых наборах данных.

Будущее Адаптивного Интеллекта

Схождение передовых архитектур памяти, обучения в процессе тестирования и саморефлексии знаменует наступление новой эры адаптивного интеллекта. Данное сочетание позволяет создавать системы, способные не просто выполнять заданные задачи, но и активно адаптироваться к меняющимся условиям и новым требованиям. В отличие от традиционных алгоритмов, требующих переобучения для каждой новой ситуации, подобные системы способны к непрерывному улучшению, анализируя собственные действия и извлекая уроки из ошибок непосредственно в процессе работы. Эта способность к самообучению и самокоррекции открывает возможности для создания по-настоящему интеллектуальных агентов, способных решать сложные задачи в динамично меняющейся среде и демонстрировать уровень адаптивности, приближающийся к человеческому.

Новейшие достижения в области искусственного интеллекта позволяют агентам решать задачи возрастающей сложности, извлекать уроки из собственных ошибок и постоянно совершенствовать свою производительность. Этот процесс самообучения, основанный на передовых архитектурах памяти и алгоритмах обучения в реальном времени, обеспечивает адаптацию к меняющимся условиям и оптимизацию стратегий решения задач. Способность к саморефлексии, то есть анализу собственных действий и выявления слабых мест, позволяет агентам не просто избегать повторения ошибок, но и активно улучшать свои навыки, приближаясь к уровню человеческого обучения. В результате, системы искусственного интеллекта становятся более надежными, эффективными и способными к автономной работе в различных областях, от робототехники до персонализированной помощи.

Развитие адаптивного интеллекта открывает беспрецедентные возможности для трансформации областей робототехники, автоматизации и персонализированной помощи. В робототехнике это позволит создавать роботов, способных самостоятельно адаптироваться к изменяющимся условиям окружающей среды и выполнять сложные задачи без постоянного вмешательства человека. В сфере автоматизации, самообучающиеся системы смогут оптимизировать процессы, повышать эффективность и снижать издержки, предвосхищая и решая возникающие проблемы. Особенно перспективным представляется применение в системах персонализированной помощи, где адаптивный интеллект позволит создавать виртуальных ассистентов, способных понимать индивидуальные потребности пользователя, обучаться на его предпочтениях и предлагать наиболее релевантные решения. Все это ведет к созданию действительно интеллектуальных систем, способных к самостоятельному обучению, принятию решений и непрерывному совершенствованию, что знаменует собой новый этап в развитии искусственного интеллекта.

Дальнейшие исследования в области Evo-Memory и аналогичных фреймворков представляются ключевыми для раскрытия полного потенциала самообучающихся агентов. Недавние эксперименты с ReMem демонстрируют значительную корреляцию между улучшением производительности и сходством задач — показатель составляет 0.717 при использовании Gemini 2.5 Flash и 0.563 при использовании Claude 3.7 Sonnet. Более того, ReMem достигает точного соответствия в 0.65 при решении задач одношагового рассуждения и ответов на вопросы, что указывает на перспективность данного подхода к созданию интеллектуальных систем, способных к адаптации и самосовершенствованию. Эти результаты подчеркивают важность развития архитектур памяти, позволяющих агентам эффективно использовать накопленный опыт для решения новых, но связанных задач.

При повышении сходства задач в пределах набора данных наблюдается увеличение эффективности ReMem по сравнению с исторической базовой линией.

Представленное исследование демонстрирует, что непрерывное совершенствование памяти агента имеет решающее значение для повышения его производительности в различных задачах. Это согласуется с принципом, который отстаивала Грейс Хоппер: «Лучший способ предсказать будущее — это создать его». Evo-Memory, как эталонный набор инструментов, позволяет не просто оценивать способность языковых моделей к обучению в процессе работы, но и активно формировать эту способность, оттачивая механизм памяти агента. Как скульптор отсекает лишнее, чтобы выявить суть, так и Evo-Memory позволяет выявить и устранить недостатки в системе памяти, обеспечивая ее эффективность и адаптивность к новым данным и задачам.

Куда же дальше?

Представленная работа, несомненно, демонстрирует плодотворность подхода к адаптации памяти агентов на основе больших языковых моделей. Однако, за кажущейся эффективностью скрывается старый вопрос: не усложняет ли постоянная эволюция памяти саму задачу? Стремление к “живому” знанию, к самообучению, рискует породить неуправляемый рост, когда агент тратит больше ресурсов на поддержание памяти, чем на её использование. Простота, как известно, часто оказывается более надежной стратегией.

Очевидным направлением дальнейших исследований является поиск баланса между пластичностью и стабильностью памяти. Как агенту решать, что забыть, а что сохранить, не поддаваясь соблазну накопления ненужной информации? Более того, текущие метрики оценки, вероятно, не в полной мере отражают истинную способность к обучению на протяжении жизни. Необходимо разрабатывать более тонкие, контекстуально-зависимые критерии, учитывающие не только результат, но и процесс адаптации.

В конечном итоге, задача состоит не в создании агента с бесконечной памятью, а в разработке механизма, позволяющего ему эффективно использовать ограниченные ресурсы для решения конкретных задач. Порой, мудрость заключается не в том, чтобы знать больше, а в умении отсекать лишнее. И в этом, возможно, кроется главный вызов для будущих исследований в области искусственного интеллекта.

Оригинал статьи: https://arxiv.org/pdf/2511.20857.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-30 12:31