Квадратичная экстраполяция нейронных сетей: неожиданный поворот

Автор: Денис Аветисян

Новое исследование показывает, что двухслойные ReLU сети, обученные с использованием подхода Neural Tangent Kernel, демонстрируют квадратичное поведение при экстраполяции вблизи начала координат.

🧐

Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.

Бесплатный телеграм-канал

Работа раскрывает свойства экстраполяции в режиме «ленивого» обучения для перепараметризованных нейронных сетей, опираясь на матрицу Грама NTK.

Несмотря на хорошо изученную линейную экстраполяцию рекуррентных нейронных сетей ReLU, поведение в окрестности начала координат оставалось малоизученным особым случаем. В работе ‘A Special Case of Quadratic Extrapolation Under the Neural Tangent Kernel’ исследуется экстраполяция двухслойной ReLU сети, обученной с использованием подхода Neural Tangent Kernel, и показано, что вблизи начала координат она демонстрирует квадратичное поведение, в отличие от линейной экстраполяции вдали от него. Этот результат обусловлен неинвариантностью сдвигу, присущей бесконечномерному отображению признаков, индуцированному NTK. Каким образом более глубокое понимание этих граничных условий экстраполяции может способствовать разработке более надежных и обобщающих моделей машинного обучения?

Определение Рамок Анализа: Время и Системы

Понимание поведения переобученных моделей является ключевым вопросом в современной машинном обучении. Традиционные статистические модели предполагают, что количество параметров должно быть меньше или сопоставимо с объемом данных, чтобы избежать переобучения. Однако, современные модели, особенно глубокие нейронные сети, часто содержат значительно больше параметров, чем обучающих примеров. Несмотря на это, они демонстрируют удивительную способность к обобщению на новые данные. Изучение этого феномена требует новых теоретических инструментов и подходов, поскольку привычные методы анализа оказываются неэффективными. Понимание принципов работы переобученных моделей позволит создавать более надежные и эффективные системы искусственного интеллекта, а также открывает новые возможности для решения сложных задач в различных областях науки и техники.

В рамках исследования поведения перепараметризованных моделей особое внимание уделяется режиму нейронного тангенциального ядра (NTK). Этот режим характеризуется специфической динамикой обучения, при которой поведение сети приближается к линейной модели в бесконечно широком пределе. В NTK-режиме веса сети эволюционируют таким образом, что ядро, описывающее взаимосвязь между входными данными, остается практически неизменным на протяжении всего процесса обучения. Это позволяет предсказывать характеристики обученной сети, анализируя свойства этого ядра, что значительно упрощает теоретическое исследование и понимание обобщающей способности глубоких нейронных сетей. По сути, NTK-режим представляет собой удобную модель для изучения, позволяющую получить аналитические результаты и пролить свет на более сложные сценарии обучения.

Для проведения анализа динамики обучения перепараметризованных моделей, в частности в режиме ядра нейронных касательных (Neural Tangent Kernel), необходима четко сформулированная постановка задачи. Это подразумевает наличие размеченного обучающего набора данных, состоящего из пар входных данных и соответствующих им меток. Крайне важны также ограничения, накладываемые на этот набор, такие как размер выборки, распределение данных и уровень шума. От этих параметров напрямую зависят характеристики полученной модели и ее способность к обобщению. Тщательное определение этих ограничений позволяет создать контролируемую среду для исследования и корректной интерпретации результатов, обеспечивая надежность и воспроизводимость экспериментальных данных. В конечном итоге, правильно сформулированная постановка задачи является фундаментом для глубокого понимания поведения моделей и разработки эффективных алгоритмов обучения, особенно в контексте современных, сложных архитектур $f_{\theta}(x)$.

Строительные Блоки: От Активации к Ядру

В основе нашей модели лежит перепараметризованная многослойная персептрон (MLP), использующая функции активации ReLU. Перепараметризация подразумевает, что количество параметров в сети значительно превышает количество обучающих данных, что позволяет добиться более гладкой функции потерь и упрощает процесс оптимизации. Многослойная структура MLP обеспечивает возможность аппроксимации сложных нелинейных зависимостей, а применение ReLU ($f(x) = \max(0, x)$) в качестве функции активации способствует ускорению обучения за счет избежания проблемы затухающего градиента, характерной для сигмоидальных функций. Конкретная архитектура MLP, включая количество слоев и нейронов в каждом слое, является ключевым параметром, определяющим выразительную способность модели.

Функция активации ReLU (Rectified Linear Unit) тесно связана с индикаторной функцией, определяющей область активации каждого нейрона. Формально, ReLU определяется как $f(x) = \max(0, x)$. Это эквивалентно индикаторной функции, возвращающей 1, если вход $x$ больше нуля, и 0 в противном случае. Таким образом, ReLU активирует нейрон только при положительном входном сигнале, эффективно обнуляя выход для отрицательных значений. Данный механизм обеспечивает разреженность активаций и способствует нелинейности модели, определяя, какие нейроны участвуют в обработке информации для заданного входного вектора.

Матрица Грама ядра нейронных касательных (Neural Tangent Kernel — NTK) является ключевым элементом, определяющим динамику обучения модели. Она формируется на основе взаимодействия перепараметризованного многослойного перцептрона (MLP), функций активации ReLU и их взаимосвязи с индикаторной функцией. В процессе обучения, NTK описывает, как изменяются веса модели в зависимости от градиента функции потерь. В частности, элементы матрицы NTK представляют собой вторые производные функции потерь по отношению к параметрам модели, оцениваемые в начальной точке обучения. Таким образом, NTK позволяет аппроксимировать процесс обучения как линейную задачу, где изменения параметров модели пропорциональны изменениям в матрице Грама, что существенно упрощает анализ и прогнозирование поведения модели. $NTK(x_i, x_j) = \nabla_{\theta} f(x_i, \theta) \cdot \nabla_{\theta} f(x_j, \theta)$ , где $f$ — функция, определяемая моделью, а $\theta$ — параметры модели.

Экстраполяция и Поведение Высших Порядков

Результаты моделирования демонстрируют, что полученная модель ведет себя как квадратичный экстраполятор. Это означает, что существует предсказуемая, квадратичная зависимость между выходными данными модели и входными значениями вблизи начала координат. В частности, отклонение от линейности описывается функцией порядка $x^2$, что позволяет точно прогнозировать поведение модели в данной области. Экстраполяция, таким образом, не является линейной, но демонстрирует четкую и определяемую квадратичную природу, что подтверждается эмпирическими данными и анализом результатов моделирования.

Результаты анализа демонстрируют, что все производные второго порядка и выше для рассматриваемой модели равны нулю. Это математически подтверждает, что экстраполяция, осуществляемая моделью, носит квадратичный характер. Иными словами, зависимость между выходными данными модели и входными значениями вблизи начала координат описывается полиномом второй степени. Отсутствие ненулевых значений производных более высоких порядков исключает возможность более сложного, неквадратичного поведения экстраполяции, что позволяет точно определить её природу и предсказуемость.

Производная в смысле теории распределений индикаторной функции, представляемая дельта-функцией Дирака $ \delta(x) $, обеспечивает связь между активацией нейрона и наблюдаемыми эффектами высших порядков. В данном контексте, дельта-функция выступает как мера мгновенного изменения значения индикаторной функции при изменении входного сигнала. Именно эта производная, выраженная через дельта-функцию, позволяет математически описать влияние активации на поведение модели вблизи начала координат и объяснить, почему возникают эффекты, соответствующие квадратичной экстраполяции. Это связано с тем, что дельта-функция характеризует производную индикаторной функции, и, следовательно, определяет вклад активации в производные высших порядков, которые, как показано, обнуляются после второго порядка.

Расшифровка Представления NTK: Время и Взаимосвязи

Компоненты $β$ в представлении Neural Tangent Kernel (NTK) напрямую отражают влияние производных высших порядков модели на процесс обучения. Исследования показывают, что величина и характер этих компонентов тесно связаны с тем, как модель реагирует на изменения входных данных и как она обобщает полученные знания на новые примеры. В частности, более высокие производные определяют чувствительность модели к малым возмущениям, что, в свою очередь, влияет на стабильность и скорость сходимости алгоритма обучения. Таким образом, анализ компонентов $β$ позволяет получить ценную информацию о внутреннем функционировании перепараметризованных моделей и их способности к экстраполяции, выявляя ключевые факторы, определяющие их производительность.

Модифицированный набор данных для обучения, обозначенный как $Phi_{Infinity}$, оказывает существенное влияние на компоненты представления нейронной сети. Этот набор данных, отличающийся от традиционных, смещает данные в пространстве признаков от начала координат. Такое смещение приводит к изменению значений производных, которые, в свою очередь, определяют поведение модели в процессе обучения и обобщения. По сути, $Phi_{Infinity}$ позволяет упростить анализ обучения перепараметризованных моделей, поскольку смещение данных делает производные более предсказуемыми и способствует получению аналитических решений. Исследование показало, что подобный подход позволяет более эффективно изучать сложные функции и улучшить способность модели к экстраполяции за пределы обучающей выборки.

Исследования показали, что способность сильно перепараметризованных моделей к обучению и экстраполяции обусловлена неожиданной взаимосвязью между производными высокого порядка. Оказывается, эти производные не являются независимыми, а зависят от компонентов более низкого порядка, что значительно упрощает поведение модели. Это открытие позволяет получить замкнутое аналитическое решение, описывающее процесс обучения, вместо необходимости сложных численных методов. По сути, модель демонстрирует иерархическую структуру, где влияние базовых функций постепенно формирует более сложные представления, что позволяет эффективно обобщать данные и предсказывать результаты за пределами обучающей выборки. Такое упрощение не только облегчает анализ, но и открывает новые возможности для разработки более эффективных алгоритмов обучения и повышения точности прогнозов.

Исследование демонстрирует, что поведение переобученной двухслойной ReLU нейронной сети, обученной с использованием подхода Neural Tangent Kernel, отличается в зависимости от близости к началу координат. Ближе к нулю наблюдается квадратичная экстраполяция, в то время как дальше — линейная. Это указывает на сложную динамику обучения и экстраполяции, зависящую от области пространства признаков. Как отмечал Эдсгер Дейкстра: «Простота — это заблуждение, которое нас преследует всю жизнь». Действительно, кажущаяся простота линейной экстраполяции обманчива, и глубинное понимание требует анализа более сложных, квадратичных паттернов, особенно в условиях лазающего обучения и при использовании NTK Gram матрицы. Данное исследование подчеркивает важность учета этих нюансов для построения надежных и эффективных систем.

Что впереди?

Представленные результаты демонстрируют, что даже в, казалось бы, стабильной среде обучения, определяемой ядром Нейронного Касательного Ядра, экстраполяционные способности двуслойной сети ReLU подвержены нелинейным искажениям. Квадратичное поведение вблизи начала координат — не ошибка, а закономерность, намекающая на внутреннюю нестабильность любой системы, стремящейся к предсказанию за пределами знакомой области. Иллюзия линейности, наблюдаемая вдали от начала координат, вероятно, лишь следствие усреднения этих локальных нелинейностей, временное затишье перед неизбежным возвращением к более сложному поведению.

Очевидным следующим шагом представляется исследование влияния различных архитектур сети и функций активации на характер экстраполяции. Будет ли сохраняться квадратичная тенденция при переходе к более глубоким сетям или другим функциям активации? Или же мы столкнемся с еще более сложными формами нелинейности? Важно помнить, что любое «улучшение» в архитектуре, скорее всего, ускорит процесс деградации экстраполяционных свойств, а не замедлит его.

В конечном счете, данная работа поднимает фундаментальный вопрос о природе обобщения в машинном обучении. Можем ли мы действительно построить систему, способную надежно предсказывать будущее, или же любая модель обречена на постепенное отклонение от реальности, подобно стрелке времени, неумолимо движущейся в одном направлении? Ответ, вероятно, заключается не в поиске идеальной модели, а в принятии неизбежности отката.

Оригинал статьи: https://arxiv.org/pdf/2512.15749.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-21 18:24