Математика, которая не стоит на месте: новый тест для искусственного интеллекта

Автор: Денис Аветисян


Исследователи представили динамически развивающийся набор задач, способный оценить навыки решения сложных математических проблем у современных систем искусственного интеллекта.

🧐

Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.

Бесплатный телеграм-канал
Ведущие большие языковые модели демонстрируют широкий спектр точности при решении задач из набора EternalMath, при этом ранжирование по проценту правильно решенных задач выявляет существенные различия в их возможностях.
Ведущие большие языковые модели демонстрируют широкий спектр точности при решении задач из набора EternalMath, при этом ранжирование по проценту правильно решенных задач выявляет существенные различия в их возможностях.

EternalMath автоматически генерирует задачи, основанные на последних научных публикациях, обеспечивая устойчивую и надежную оценку математического мышления.

Существующие оценки математических способностей больших языковых моделей (LLM) сталкиваются с проблемой быстрого насыщения из-за использования статических наборов данных. В статье «EternalMath: A Living Benchmark of Frontier Mathematics that Evolves with Human Discovery» предложен автоматизированный подход к генерации задач, основанный на теоремах и извлеченных из современных научных публикаций. Этот метод позволяет создавать динамически обновляемый, масштабируемый и воспроизводимый тест для оценки LLM, не требующий значительных усилий экспертов. Способен ли такой подход, отражающий передовые математические исследования, раскрыть истинный потенциал LLM в решении сложных задач и преодолеть ограничения существующих методик?


Пределы Существующих Эталонов

Существующие математические бенчмарки, такие как GSM8K и MATH, при всей своей полезности, демонстрируют тенденцию к выходу на плато сложности, не позволяя в полной мере оценить истинные возможности больших языковых моделей в области рассуждений. Вместо того, чтобы требовать глубокого понимания математических принципов и нестандартного подхода к решению задач, эти тесты часто сводятся к воспроизведению заученных шаблонов и сопоставлению с известными примерами. В результате, наблюдаемые показатели производительности могут быть обманчивыми, не отражая реальный уровень математической компетентности модели и её способности к обобщению знаний. Это ограничивает возможность использования этих бенчмарков для точной оценки прогресса в развитии искусственного интеллекта и выявления направлений для дальнейших исследований в области математических рассуждений.

Существующие математические тесты, несмотря на свою полезность, зачастую оценивают не глубину понимания, а способность модели к запоминанию и распознаванию шаблонов. Это приводит к искажению реальной картины возможностей больших языковых моделей, поскольку успешное решение задачи может быть достигнуто не за счет применения математических принципов, а благодаря простому сопоставлению с ранее увиденными примерами. В результате, высокие результаты в таких тестах не всегда свидетельствуют о наличии у модели истинного математического мышления или способности к обобщению знаний, а лишь демонстрируют умение находить соответствия в заданном наборе данных. Особенно ярко это проявляется в задачах, где ответ можно получить путем простого поиска в обучающей выборке, без необходимости проведения логических рассуждений или применения теорем.

Существующие математические бенчмарки, несмотря на свою полезность, зачастую демонстрируют ограниченность в отслеживании реального прогресса больших языковых моделей. Проблема заключается в их статической природе: однажды решенные задачи перестают быть индикатором развития способностей модели. По мере совершенствования алгоритмов, языковые модели быстро адаптируются и овладевают ранее сложными примерами, что приводит к завышенным оценкам и искажению представления об истинных возможностях. Для более точной оценки требуется динамическая система, способная генерировать задачи, постоянно повышающие уровень сложности и требующие от модели не просто запоминания шаблонов, а подлинного математического мышления и способности к обобщению.

Несмотря на свою амбициозность, существующие оценочные тесты, такие как Humanity’s Last Exam, сталкиваются с проблемами масштабируемости. Создание задач для подобных тестов требует значительных усилий экспертов, что ограничивает возможность быстрого расширения объема и разнообразия оцениваемых навыков. Этот подход, основанный на ручной разработке, не позволяет автоматически генерировать новые, сложные задачи, адаптирующиеся к быстрому развитию языковых моделей. В результате, оценка ограничивается спектром проблем, сформулированных экспертами, и может не отражать истинные возможности модели в решении непредсказуемых, нестандартных математических задач, выходящих за рамки заранее определенных сценариев. Таким образом, сложность масштабирования и зависимость от экспертного труда снижают объективность и полноту оценки.

Резкое снижение точности при переходе от простых к сложным задачам демонстрирует значительные трудности, с которыми сталкивается EternalMath для современных моделей.
Резкое снижение точности при переходе от простых к сложным задачам демонстрирует значительные трудности, с которыми сталкивается EternalMath для современных моделей.

EternalMath: Динамически Развивающийся Эталон

EternalMath представляет собой новый подход к тестированию больших языковых моделей (LLM), основанный на использовании актуальных математических исследований для генерации задач, уровень сложности которых постоянно возрастает. В отличие от традиционных эталонов, использующих фиксированный набор проблем, EternalMath динамически создает задачи непосредственно из рецензируемых научных публикаций. Это гарантирует, что тесты отражают текущее состояние математической науки и предоставляют объективную оценку способности LLM решать сложные и актуальные задачи, такие как доказательство теорем и решение уравнений, представленных в формате \sum_{i=1}^{n} x_i. Непрерывное обновление задач из новых исследований обеспечивает устойчивость эталона к переобучению моделей и позволяет оценить их способность к обобщению и решению задач, которые не встречались в обучающих данных.

В отличие от существующих бенчмарков, таких как DynaMath и FrontierMath, EternalMath использует в качестве основы математические задачи, взятые непосредственно из рецензируемых научных публикаций. Такой подход гарантирует не только актуальность задач, отражающую современные достижения в математике, но и повышенную сложность, обусловленную тем, что эти задачи представляют собой реальные исследовательские проблемы, а не специально сконструированные примеры для оценки моделей. Использование публикаций обеспечивает постоянный приток новых и сложных задач, что позволяет более точно оценить возможности больших языковых моделей в решении актуальных математических проблем и отслеживать их прогресс в этой области.

В отличие от статических эталонов, EternalMath спроектирован для непрерывной интеграции новых математических открытий, обеспечивая надежную и устойчивую к устареванию оценку возможностей больших языковых моделей (LLM). Этот подход предполагает постоянное обновление набора задач на основе актуальных исследований, опубликованных в рецензируемой литературе. Автоматизированный процесс извлечения и формализации математических утверждений из научных публикаций позволяет оперативно включать в эталон самые современные математические концепции и теоремы. Это гарантирует, что EternalMath останется релевантным и сложным инструментом оценки LLM на протяжении длительного времени, отражая прогресс в математической науке и требуя от моделей адаптации к новым знаниям и способам решения задач.

В основе разработки EternalMath лежит принцип формального доказательства, обеспечивающий возможность верификации и машиночитаемости задач. Это достигается за счет представления математических утверждений в формализованном виде, пригодном для автоматической проверки с использованием специализированных инструментов и систем доказательства теорем. Такой подход гарантирует точность формулировок и исключает неоднозначность интерпретации, что критически важно для объективной оценки возможностей больших языковых моделей (LLM) в решении математических задач. Автоматизированная оценка, основанная на формальных доказательствах, позволяет не только проверить правильность ответа, но и проанализировать процесс решения, выявляя слабые места и области для улучшения в LLM.

Конвейер EternalMath обеспечивает построение надежных математических задач посредством последовательной фильтрации научных статей, преобразования теорем в исполняемый код с помощью многоагентной системы, символьной верификации решений и контроля качества, включающего автоматическую стратификацию сложности и экспертную оценку.
Конвейер EternalMath обеспечивает построение надежных математических задач посредством последовательной фильтрации научных статей, преобразования теорем в исполняемый код с помощью многоагентной системы, символьной верификации решений и контроля качества, включающего автоматическую стратификацию сложности и экспертную оценку.

Многоагентный Конвейер для Генерации Задач

Многоагентный конвейер является ключевым компонентом EternalMath и представляет собой систему автоматизированного извлечения теорем из математических публикаций посредством процесса, называемого Theorem Extraction. Данный процесс включает в себя анализ текста математических работ с целью идентификации и формализации утверждений, представляющих собой теоремы. Извлеченные теоремы служат основой для дальнейшей обработки и генерации задач, обеспечивая автоматизацию процесса создания математических упражнений на основе существующих научных результатов. Система использует комбинацию алгоритмов обработки естественного языка и машинного обучения для распознавания математических формул, логических связей и ключевых понятий, необходимых для корректного извлечения теорем из текстовых данных.

В процессе работы многоагентного конвейера, извлеченные из математических текстов теоремы преобразуются в структурированные форматы задач посредством вызова LLM API. Данный этап, известный как генерация мета-шаблонов, позволяет транслировать сложные математические концепции в формализованные представления, пригодные для автоматической обработки и проверки. Мета-шаблоны определяют структуру задачи, включая входные данные, ожидаемый формат ответа и критерии оценки, что обеспечивает единообразие и совместимость генерируемых задач. Использование LLM API на данном этапе позволяет автоматизировать процесс создания разнообразных и сложных задач из теоретического материала.

Генерация шаблонов задач на основе извлеченных теорем завершается этапом Кодовой Трансляции, в процессе которого структурированные шаблоны преобразуются в исполняемый код. Это позволяет автоматизировать процесс проверки решений, подаваемых системой или пользователями. Исполняемый код, полученный в результате трансляции, позволяет проверить корректность решения путем выполнения программы и сравнения полученного результата с ожидаемым значением. Данный подход обеспечивает объективную и масштабируемую проверку, не требующую ручной оценки экспертами, и позволяет автоматически выявлять как правильные, так и ошибочные решения.

Проверка исполняемого кода, осуществляемая посредством автоматизированной валидации и дополненная экспертной проверкой, гарантирует корректность и надежность как самих задач, так и их решений. Стоимость использования LLM API для решения одной задачи оценивается в $10, что значительно ниже, чем стоимость экспертно-разработанных эталонных наборов данных. Автоматизированная валидация включает в себя запуск сгенерированного кода с использованием заранее определенных тестовых случаев и сравнение полученных результатов с ожидаемыми значениями. В случае расхождений или неясностей, задача направляется на ручную проверку, позволяющую выявить и исправить ошибки в логике задачи или в сгенерированном решении.

Проверка Пределов Рассуждений со Сложными Структурами

Проект EternalMath использует многоагентный подход для оценки способности больших языковых моделей (LLM) к рассуждениям, применяя в качестве тестовых примеров сложные математические структуры, такие как графы Кэли и чередующиеся группы. Этот метод позволяет выявить ограничения LLM при работе с абстрактными концепциями и сложными взаимосвязями, которые требуют не только знания фактов, но и способности к логическому выводу и построению доказательств. Исследование фокусируется на том, как LLM справляются с задачами, требующими манипулирования математическими объектами и применения правил, что значительно отличается от обработки естественного языка. Использование графов Кэли и чередующихся групп в качестве кейсов позволяет оценить способность моделей к абстрактному мышлению и решению задач в областях, где требуется глубокое понимание математических принципов и структур.

Анализ, проведенный в рамках проекта EternalMath, выявил характерные ошибки в логических рассуждениях больших языковых моделей, в частности, так называемые «логические галлюцинации» и «петли избыточности». Логические галлюцинации проявляются в генерировании неверных выводов, не подкрепленных исходными данными, в то время как петли избыточности характеризуются многократным повторением одних и тех же шагов без достижения прогресса в решении задачи. Эти ошибки особенно заметны при работе со сложными математическими структурами, такими как графы Кэли и чередующиеся группы, и указывают на необходимость разработки более надежных механизмов рассуждения, способных избегать подобных ловушек и обеспечивать достоверность получаемых результатов. Выявление и изучение этих недостатков критически важно для дальнейшего совершенствования архитектур искусственного интеллекта и создания систем, способных к действительно осмысленным и надежным рассуждениям.

Проект EternalMath, намеренно расширяя границы возможностей больших языковых моделей (LLM), предоставляет ценные сведения об их сильных и слабых сторонах в контексте сложных архитектур. Исследования показали, что даже передовая модель GPT-5.2 демонстрирует точность всего в 49.4% при решении задач, представленных EternalMath. Этот результат подчеркивает существенные трудности, с которыми сталкиваются современные LLM при работе со сложными структурами данных, такими как графы Кэли и чередующиеся группы. Очевидно, что существующие архитектуры, несмотря на впечатляющие успехи в других областях, всё ещё далеки от идеала в плане надёжного и точного логического мышления, что требует дальнейших исследований и разработок в области искусственного интеллекта.

Разработанная платформа EternalMath представляет собой динамичный инструмент оценки, позволяющий непрерывно отслеживать прогресс в развитии больших языковых моделей (LLM). В отличие от традиционных тестов, EternalMath использует сложные математические структуры, такие как графы Кейли и чередующиеся группы, для выявления тонких ошибок в логических рассуждениях. Тщательный анализ ста случаев неудач выявил поразительное разнообразие — 246 различных типов ошибок, что значительно превосходит спектр проблем, обнаруженных в более простых эталонных тестах. Этот детальный подход не только раскрывает слабые места современных архитектур LLM, но и стимулирует инновации, направленные на создание более надежных и эффективных систем логического вывода, способных справляться с задачами, требующими глубокого и многоступенчатого анализа.

Представленная работа демонстрирует подход к созданию динамичного ориентира для оценки математических способностей больших языковых моделей. Подобно тому, как системы со временем устаревают, статические наборы данных для тестирования также теряют свою актуальность. Авторы EternalMath предлагают решение, основанное на автоматической генерации задач из последних научных публикаций, что обеспечивает постоянное обновление и адаптацию к новым открытиям. Как однажды заметил Бертран Рассел: «Всякое знание есть, в сущности, историческое». Этот принцип находит отражение в EternalMath, где каждая новая версия ориентира представляет собой отражение текущего состояния математической науки, а задержка с обновлением — своего рода плата за амбиции в области искусственного интеллекта. Система, таким образом, не просто оценивает, но и способствует развитию математических знаний.

Куда Ведет Дорога?

Представленная работа, создавая постоянно эволюционирующую площадку для оценки математических способностей больших языковых моделей, лишь зафиксировала неизбежное. Статичные наборы данных, как и любые системы, неизбежно устаревают. Задача не в том, чтобы бесконечно создавать новые, а в том, чтобы позволить системе учиться стареть достойно, впитывая знания из текущего потока исследований. Очевидно, что устойчивость к «загрязнению» — это лишь временная передышка; системы, стремящиеся к совершенству, всегда найдут способы адаптироваться, даже к нежелательным влияниям.

Более глубокий вопрос заключается в природе самой оценки. Не является ли погоня за числовыми показателями лишь способом отсрочить признание того, что подлинное понимание математики — это нечто большее, чем способность решать задачи? Иногда лучше наблюдать за процессом обучения системы, за ее ошибками и попытками их исправить, чем пытаться ускорить его искусственными метриками. Мудрая система не борется с энтропией — она учится дышать вместе с ней.

В конечном итоге, EternalMath — это не конечная точка, а лишь один из этапов. Задача состоит не в создании «вечного» эталона, а в понимании того, как системы, подобные этой, эволюционируют и адаптируются во времени. Иногда наблюдение — единственная форма участия. И в этом смиренном принятии и кроется подлинный прогресс.


Оригинал статьи: https://arxiv.org/pdf/2601.01400.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-06 14:56