Физика в руках ИИ: Проверка на смекалку

Автор: Денис Аветисян

Новый тест позволяет оценить, насколько хорошо искусственный интеллект способен самостоятельно открывать законы физики, проводя эксперименты в виртуальном мире.

🧐

Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.

Бесплатный телеграм-канал

Предложенный конвейер для оценки возможностей искусственного интеллекта в открытии физических законов функционирует посредством генерации данных о движении частиц непосредственно симулятором N-body, после чего языковая модель, получая инструкции и исходные траектории, самостоятельно формулирует и проводит эксперименты, подбирает параметры предложенных законов и, в течение заданного числа раундов, стремится к созданию и обоснованию рабочей гипотезы, которая затем оценивается на соответствие истинным принципам физики мира.

Представлен DiscoverPhysics — эталон для оценки возможностей ИИ-агентов в области научных открытий, физического моделирования и понимания фундаментальных принципов.

Несмотря на впечатляющие успехи современных больших языковых моделей (LLM) в решении задач, связанных с физикой, остается сложным отделить истинное понимание от простого воспроизведения заученных фактов. В работе ‘DiscoverPhysics: Benchmarking LLMs for Out-of-the-Box Scientific Thinking’ представлен новый бенчмарк, позволяющий оценить способность LLM-агентов открывать законы движения в симулированных мирах с отклоняющейся от нашей физикой. Исследование показало, что даже самые мощные модели успешно решают лишь половину предложенных миров, особенно тех, где требуется выявление скрытых закономерностей, а качество объяснений не всегда коррелирует с точностью предсказаний. Смогут ли LLM-агенты в будущем не только моделировать, но и действительно совершать научные открытия, выходя за рамки известных физических законов?

Раскрытие физических законов: новый вызов для искусственного интеллекта

Современные системы искусственного интеллекта демонстрируют впечатляющую способность к распознаванию закономерностей в данных, однако выявление причинно-следственных связей, являющихся основой научного исследования, представляет для них значительную сложность. В то время как алгоритмы машинного обучения успешно находят корреляции, то есть статистические взаимосвязи между явлениями, они зачастую не способны установить, какое явление является причиной другого, а какое — следствием. Это ограничение особенно заметно при анализе физических процессов, где понимание фундаментальных причин является ключевым для построения адекватных моделей и предсказаний. В отличие от человека, способного выдвигать гипотезы и проверять их посредством экспериментов, большинство AI-систем ограничены анализом существующих данных и не обладают способностью к самостоятельному научному исследованию, что препятствует их применению для открытия новых физических законов.

Установление физических законов требует не просто выявления корреляций между наблюдаемыми явлениями, но и способности формулировать проверяемые гипотезы и подвергать их экспериментальной проверке. Простое обнаружение статистической связи недостаточно для понимания фундаментальных принципов, управляющих миром. Необходимо, чтобы система могла выдвинуть предположение о причинно-следственной связи, спроектировать эксперимент для ее проверки и, основываясь на полученных результатах, подтвердить или опровергнуть исходную гипотезу. Такой подход, имитирующий научный метод, позволяет не только описывать наблюдаемые явления, но и предсказывать поведение системы в новых, ранее не исследованных условиях, что является ключевым признаком истинного научного понимания.

Основная сложность заключается в создании искусственного интеллекта, способного к самостоятельному научному мышлению, выходящему за рамки простого анализа данных. Современные алгоритмы превосходно выявляют закономерности, однако обнаружение фундаментальных физических законов требует гораздо большего — формулирования гипотез, разработки экспериментальных стратегий и интерпретации полученных результатов. Такой подход подразумевает активное взаимодействие с окружающей средой, а не пассивное восприятие информации. Для этого необходимо, чтобы ИИ не просто находил корреляции между явлениями, но и умел выводить причинно-следственные связи, предсказывать поведение системы в новых условиях и, что самое важное, самостоятельно корректировать свои модели на основе полученного опыта. Преодоление этой границы позволит создать ИИ, способный не только решать существующие научные задачи, но и совершать новые открытия в области физики и других естественных наук.

Существующие методы искусственного интеллекта демонстрируют ограниченные возможности при столкновении с принципиально новыми физическими явлениями, что подчеркивает необходимость разработки специализированных эталонов и систем оценки. Результаты, полученные на бенчмарке DiscoverPhysics, где успешность алгоритмов составила приблизительно 50%, ярко иллюстрируют данную проблему. Этот показатель свидетельствует о том, что современные подходы, эффективно работающие с известными законами, зачастую терпят неудачу при экстраполяции на незнакомые физические принципы. Таким образом, для продвижения исследований в области искусственного интеллекта, способного к научным открытиям, требуется создание более сложных и реалистичных тестов, способных выявить истинный потенциал алгоритмов в области индуктивного рассуждения и формулирования гипотез.

Эксперименты на долгосрочном горизонте позволили модели Claude Opus 4.7 успешно обнаружить скрытый закон силы в среде <span class="katex-eq" data-katex-display="false"> \text{oscillatorworld} </span>, начиная с наивных проб и заканчивая точным определением закона, что подтверждается оценкой на ранее невидимых частицах. — Эксперименты на долгосрочном горизонте позволили модели Claude Opus 4.7 успешно обнаружить скрытый закон силы в среде $\text{oscillatorworld}$ , начиная с наивных проб и заканчивая точным определением закона, что подтверждается оценкой на ранее невидимых частицах.

DiscoverPhysics: экспериментальная платформа для ИИ-ученых

В DiscoverPhysics используется итеративный цикл экспериментирования, в котором агент на основе большой языковой модели (LLM) формирует гипотезы и предлагает эксперименты. Предложенные эксперименты выполняются посредством N-body симулятора, генерирующего данные, которые затем анализируются LLM агентом. Этот цикл повторяется, позволяя агенту активно исследовать смоделированную среду и уточнять свое понимание физических законов посредством проб и ошибок. Процесс включает в себя автоматизированное формирование экспериментальных условий, сбор данных о динамике системы и последующую интерпретацию результатов агентом для выявления физических принципов.

В рамках DiscoverPhysics, большая языковая модель (LLM) функционирует как исследователь, активно взаимодействуя с симулятором N-тел. Этот процесс предполагает итеративный цикл, в котором LLM формулирует гипотезы об управляющих физических законах, предлагает эксперименты для их проверки, анализирует полученные данные и, на основе результатов, уточняет свою модель мира. Такой подход позволяет LLM не просто предсказывать траектории частиц, но и выявлять скрытые закономерности и принципы, лежащие в основе симуляции, посредством систематического проб и ошибок. Эффективность этого процесса оценивается по способности агента как к точному прогнозированию (среднеквадратичная ошибка траектории), так и к объяснению полученных результатов и выявленных закономерностей.

В качестве эталонной среды для тестирования DiscoverPhysics используется широкий спектр симулированных миров, начиная с простой системы из двух частиц. Для повышения сложности и оценки способности агента к обобщению, в benchmark включены сценарии, содержащие скрытые виды частиц, не наблюдаемые напрямую. Это требует от LLM-агента выводить существование и свойства этих частиц на основе косвенных данных и наблюдений за динамикой системы, а не просто экстраполировать известные закономерности. Такие сценарии позволяют оценить способность модели к научному открытию и построению более полных физических моделей.

Оценка работы агента в DiscoverPhysics осуществляется по двум ключевым показателям: точности предсказания траекторий ( $Trajectory MSE$ ) и уровню концептуального понимания, оцениваемого с помощью балльной оценки объяснений ( $Explanation Score$ ). Текущие модели демонстрируют уровень успешности (Pass@3) в 45% для claude-opus-4-7 и 64% для gpt-5.5. Показатель Pass@3 означает, что модель успешно предоставляет корректное объяснение в 3 из 3 попыток, что указывает на стабильность и надежность концептуального понимания.

Анализ экспериментального процесса Claude Opus 4.7 в среде <span class="katex-eq" data-katex-display="false"> \text{oscillatorworld} </span> показывает, что модель не смогла определить истинный закон силы, демонстрируя наивные начальные эксперименты, ложное открытие промежуточной модели и неспособность учитывать временные зависимости, что привело к финализации неверного закона, несмотря на успешную оценку на невидимых тестовых частицах. — Анализ экспериментального процесса Claude Opus 4.7 в среде $\text{oscillatorworld}$ показывает, что модель не смогла определить истинный закон силы, демонстрируя наивные начальные эксперименты, ложное открытие промежуточной модели и неспособность учитывать временные зависимости, что привело к финализации неверного закона, несмотря на успешную оценку на невидимых тестовых частицах.

За пределами стандартных моделей: исследование новой физики

Платформа DiscoverPhysics представляет агентам задачи, основанные на неклассических физических законах, включая потенциал Юкавы, экранированный потенциал и дробный лапласиан. Потенциал Юкавы $V(r) = -g^2 e^{-mr}/r$ описывает короткодействующие силы, убывающие экспоненциально с расстоянием, в отличие от ньютоновской гравитации или кулоновского взаимодействия. Экранированный потенциал учитывает эффект экранирования зарядов в среде, что приводит к ослаблению взаимодействия на больших расстояниях. Дробный лапласиан, в свою очередь, представляет собой обобщение обычного лапласиана и применяется для описания нелокальных взаимодействий и аномальной диффузии. Использование этих неклассических законов требует от агентов не просто воспроизведения заученных знаний, но и способности к логическому выводу и экстраполяции на незнакомые физические системы.

В условиях DiscoverPhysics, модели больших языков (LLM) сталкиваются с задачами, требующими не просто воспроизведения заученных фактов, а вывода основополагающих принципов, управляющих незнакомыми физическими системами. Это подразумевает способность к индуктивному рассуждению и экстраполяции, поскольку стандартные методы, основанные на поиске в памяти, оказываются неэффективными. LLM вынуждены анализировать наблюдаемые данные, выявлять закономерности и строить внутреннюю модель, объясняющую поведение системы, даже если эта система не представлена в обучающем наборе данных. Такой подход проверяет способность модели к обобщению знаний и применению фундаментальных принципов физики в новых, ранее не встречавшихся ситуациях.

Миры, включающие в себя дополнительные измерения и поток Хаббла, представляют собой сложные сценарии для проверки способности агентов экстраполировать данные и рассуждать о физических явлениях. Включение дополнительных измерений требует от агента адаптации к неевклидовой геометрии и пересмотра законов гравитации, поскольку сила взаимодействия будет распределяться по этим дополнительным измерениям. Поток Хаббла, описывающий расширение Вселенной, вводит зависимость физических величин от расстояния и времени, требуя от агента учета космологических эффектов и применения принципов общей теории относительности для анализа наблюдаемых данных. Оба сценария предъявляют высокие требования к способности агента выявлять закономерности в ограниченных данных и строить адекватные физические модели, выходящие за рамки стандартных представлений.

Потенциал гармонического осциллятора используется в DiscoverPhysics в качестве эталонного сценария для оценки способности языковой модели (LLM) к повторному открытию известных физических принципов. В рамках этой задачи LLM получает данные, описывающие систему, подчиняющуюся законам гармонического осциллятора — $V(x) = \frac{1}{2}kx^2$ , где $k$ — константа упругости, а $x$ — смещение. Анализ способности LLM корректно идентифицировать параметры системы и предсказывать её поведение в данном сценарии позволяет установить базовый уровень производительности, с которым сравниваются результаты, полученные в более сложных и нетривиальных физических моделях, таких как потенциалы Юкавы или экранированные потенциалы. Это необходимо для отделения способности модели к истинному физическому рассуждению от простой экстраполяции или запоминания данных.

Анализ влияния шума наблюдений на миры Юкавы и Эфира для моделей claude-opus-4-7 и gpt-5.5 показал, что добавление шума, измеряемого как доля от общей дисперсии траектории, влияет на точность оценки, что отражается в нормированной среднеквадратичной ошибке <span class="katex-eq" data-katex-display="false">MSE</span>. — Анализ влияния шума наблюдений на миры Юкавы и Эфира для моделей claude-opus-4-7 и gpt-5.5 показал, что добавление шума, измеряемого как доля от общей дисперсии траектории, влияет на точность оценки, что отражается в нормированной среднеквадратичной ошибке $MSE$ .

Будущее научных открытий, совершаемых искусственным интеллектом

Проект DiscoverPhysics продемонстрировал принципиальную возможность обучения искусственного интеллекта самостоятельному открытию физических законов, что открывает совершенно новые перспективы в области научных исследований. Вместо пассивного анализа существующих данных, система способна активно участвовать в научном процессе — выдвигать гипотезы, проектировать эксперименты и, основываясь на полученных результатах, формулировать новые принципы, описывающие поведение окружающего мира. Данный подход, отличающийся от традиционных методов, позволяет автоматизировать процесс научных открытий, значительно ускоряя темпы развития науки и позволяя исследовать области, недоступные для человека из-за сложности или объема данных. Возможность обучения ИИ фундаментальным законам природы представляет собой важный шаг к созданию интеллектуальных систем, способных самостоятельно расширять границы человеческого знания.

В отличие от традиционного анализа данных, где искусственный интеллект выступает лишь инструментом для обработки готовой информации, данный подход позволяет ИИ активно участвовать в научном процессе. Системы, подобные DiscoverPhysics, способны самостоятельно формулировать гипотезы, предсказывая взаимосвязи между физическими величинами, и даже проектировать эксперименты для проверки этих гипотез. Это означает, что ИИ выходит за рамки простого поиска закономерностей в существующих данных и переходит к созданию новых знаний, имитируя процесс, присущий человеческим ученым. Способность ИИ к самостоятельному формированию исследовательских стратегий открывает принципиально новые возможности для ускорения научных открытий в самых различных областях, от материаловедения до астрофизики.

Разработанный комплекс тестов представляет собой строгую систему оценки способностей искусственного интеллекта к логическому мышлению и решению научных задач. Эта методика позволяет не только измерить текущий уровень развития ИИ в области самостоятельного научного поиска, но и отслеживать прогресс в этой быстро развивающейся сфере. Текущие результаты демонстрируют, что современные модели успешно проходят приблизительно половину предложенных тестов, что свидетельствует о значительном, но не полном, уровне развития их когнитивных способностей и необходимости дальнейших исследований для достижения более высоких результатов в автоматизированном научном открытии.

Исследования, проведенные в рамках проекта DiscoverPhysics, открывают перспективу значительного ускорения научных открытий в различных областях знания. От материаловедения, где искусственный интеллект способен предсказывать свойства новых материалов с беспрецедентной точностью, до астрофизики, где он может анализировать сложные данные наблюдений и выявлять закономерности, невидимые для человеческого глаза, — возможности применения этой технологии кажутся безграничными. Благодаря способности формулировать гипотезы и проектировать эксперименты, искусственный интеллект перестает быть просто инструментом анализа данных и становится активным участником научного процесса, способным решать сложные задачи и открывать новые горизонты в понимании окружающего мира. Это не просто оптимизация существующих методов, а принципиально новый подход к научным исследованиям, который может привести к революционным открытиям в ближайшем будущем.

Исследование, представленное в статье, акцентирует внимание на необходимости оценки не только предсказательной силы больших языковых моделей, но и глубины их понимания фундаментальных принципов. Этот подход созвучен идеям древнегреческого философа Эпикура, который утверждал: «Не тот, кто много знает, а тот, кто понимает причины». DiscoverPhysics, как новый бенчмарк, позволяет оценить способность LLM-агентов к самостоятельному открытию физических законов через эксперименты, что выходит за рамки простого воспроизведения данных. Важно помнить, что прогресс без этики — это ускорение без направления, и автоматизация понимания физического мира требует от разработчиков ответственности за заложенные в алгоритмы ценности и принципы.

Куда же дальше?

Представленная работа, оценивая способность больших языковых моделей к самостоятельному открытию физических законов, поднимает вопрос не столько о возможностях искусственного интеллекта, сколько о нашей собственной ответственности. Успешное выполнение задач, подобных тем, что предложены в DiscoverPhysics, не является самоцелью. Важнее понимать, какие ценности заложены в алгоритмы, которые учатся моделировать мир. Ведь каждая автоматизация, даже в области физики, несёт с собой потенциальные последствия, обусловленные не только логикой кода, но и мировоззрением его создателей.

Очевидным направлением для дальнейших исследований представляется разработка более сложных и реалистичных симуляций. Однако, технологический прогресс сам по себе не решит этические дилеммы. Необходимо сосредоточиться на создании механизмов, позволяющих оценивать не только способность модели к открытиям, но и обоснованность этих открытий с точки зрения общечеловеческих ценностей. Иначе, рискуем получить мир, в котором искусственный интеллект блестяще решает задачи, не имеющие смысла.

По сути, представленная работа — это не просто тест для алгоритмов, а зеркало, отражающее наши собственные представления о познании и ответственности. Прогресс без этики — это ускорение без направления, и задача науки — не только создавать новые инструменты, но и понимать, для чего они предназначены.

Оригинал статьи: https://arxiv.org/pdf/2605.26087.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-26 08:13