Нейронная сеть для решения уравнений

Можно ли обучить нейронную сеть для решения математических уравнений?

Я знаю, что нейронные сети, вероятно, не предназначены для этого, хотя и гипотетически спрашивают, возможно ли обучить глубокую нейронную сеть (или подобную) для решения математических уравнений?

Итак, учитывая 3 входа: 1-й номер, знак оператора, представленный номером (1 — + , 2 — — , 3 — / , 4 — * и т. Д.), И 2-й номер, то после обучения сеть должна дать мне действительные результаты.

  • Вход 1 2 :; Вход 2: 1 ( + ); Вход 3 2 :; Ожидаемый результат: 4
  • Вход 1 10 :; Вход 2: 2 ( — ); Вход 3 10 :; Ожидаемый результат: 0
  • Вход 1 5 :; Вход 2: 4 ( * ); Вход 3 5 :; Ожидаемый результат: 25
  • и другие

Вышеизложенное можно распространить на более сложные примеры.

Это возможно? Если да, то какая сеть может научиться / достичь этого?

Да, это было сделано!

Тем не менее, приложения не должны заменить калькуляторы или что-то в этом роде. Лаборатория, с которой я связан, разрабатывает нейронные модели эквационального мышления, чтобы лучше понять, как люди могут решить эти проблемы. Это часть области, известной как математическое познание . К сожалению, наш сайт не очень информативен, но вот ссылка на пример такой работы.

Кроме того, недавняя работа по расширению нейронных сетей для включения внешних хранилищ памяти (например, машин нейронного Тьюринга), как правило, использует решение математических задач в качестве хорошего доказательства концепции. Это связано с тем, что многие арифметические задачи включают в себя длинные процедуры с сохраненными промежуточными результатами. Смотрите разделы этой статьи о длинном двоичном сложении и умножении.

О нейросетевом подходе решения дифференциальных уравнений Текст научной статьи по специальности « Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ломакин А.В.

Рассматривается задача решения уравнений математической физики с использованием нейронных сетей. Приведены существующие подходы к решению уравнений нейросетевым методом. Разработана универсальная архитектура нейронной сети, имеющая преимущества по сравнению с существующими подходами. Приведены данные о погрешности и скорости вычислений. Приведены зависимости погрешности вычислений и их скорости от количества нейронов. Проанализировано время выполнения на CPU и GPU в качестве последовательного и параллельного алгоритма. Разработана ячеистая нейронная сеть с заранее синтезированным параллельным алгоритмом, позволяющая без изменения архитектуры решать целый класс дифференциальных уравнений .

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ломакин А.В.

ABOUT NEURAL NETWORKS TO SOLVING DIFFERENTIAL EQUATIONS

Considered the problem of solving equations of mathematical physics using neural networks. Given existing approaches to solving the equation by the neural network method. A universal neural network architecture that has advantages over existing approaches has been developed. Developed neuroequations, feedback weights, proved assertions about the output values of the neurons. Activation functions and weight feedback neurons are changed corresponding to the boundary conditions, depending on the type of boundary conditions. Given dependence of error of calculations on the number of neurons. This dependence represented by the empirical expression. Analyzed calculation time on GPU and CPU as parallel and sequential algorithms. Proposed lattice neural network without changing the architecture allows, with appropriate setting of weighting coefficients and setting boundary conditions to obtain the solution some differential equations with the error defined by the number of neurons of the network, with a parallel algorithm actually synthesized.

Текст научной работы на тему «О нейросетевом подходе решения дифференциальных уравнений»

О НЕЙРОСЕТЕВОМ ПОДХОДЕ РЕШЕНИЯ ДИФФЕРЕНЦИАЛЬНЫХ

ABOUT NEURAL NETWORKS TO SOLVING DIFFERENTIAL EQUATIONS

А.В. Ломакин A.V. Lomakin

Белгородский государственный национальный исследовательский университет, Россия, 308015, г. Белгород, ул. Победы, 85

Belgorod National Research University, 85 Pobedy St, Belgorod, 308015, Russia

Рассматривается задача решения уравнений математической физики с использованием нейронных сетей. Приведены существующие подходы к решению уравнений нейросетевым методом. Разработана универсальная архитектура нейронной сети, имеющая преимущества по сравнению с существующими подходами. Приведены данные о погрешности и скорости вычислений. Приведены зависимости погрешности вычислений и их скорости от количества нейронов. Проанализировано время выполнения на CPU и GPU в качестве последовательного и параллельного алгоритма. Разработана ячеистая нейронная сеть с заранее синтезированным параллельным алгоритмом, позволяющая без изменения архитектуры решать целый класс дифференциальных уравнений.

Considered the problem of solving equations of mathematical physics using neural networks. Given existing approaches to solving the equation by the neural network method. A universal neural network architecture that has advantages over existing approaches has been developed. Developed neuroequations, feedback weights, proved assertions about the output values of the neurons. Activation functions and weight feedback neurons are changed corresponding to the boundary conditions, depending on the type of boundary conditions. Given dependence of error of calculations on the number of neurons. This dependence represented by the empirical expression. Analyzed calculation time on GPU and CPU as parallel and sequential algorithms. Proposed lattice neural network without changing the architecture allows, with appropriate setting of weighting coefficients and setting boundary conditions to obtain the solution some differential equations with the error defined by the number of neurons of the network, with a parallel algorithm actually synthesized.

Ключевые слова: ячеистая нейронная сеть, дифференциальные уравнения, погрешность. Keywords: lattice neural network, differential equations, calculations error.

Дифференциальные уравнения широко используются при описании динамических свойств многих предметных областей при решении теоретических и прикладных задач математики, физики и техники. Это связано с тем, что во многих случаях не представляется возможным установить функциональные зависимости между искомыми и заданными переменными величинами. Но при этом путем математического описания физических свойств реальных процессов удается получить дифференциальное уравнение, позволяющее с достаточной степенью адекватности описать характер протекания конкретного процесса при условиях, определяемых известными временными, частотными и другими характеристиками процесса. Все это предопределяет существенное прикладное значение

дифференциальных уравнений как инструмента исследования при решении прикладных задач естествознания и техники. Они широко используются в механике, астрономии, физике, электротехнике, а также при описании различных динамических процессов в химии и биологии.

Задание произвольных краевых условий является важным проблемным вопросом при определении рациональных подходов для построения расчетных схем численного решении рассматриваемого класса уравнений [Murray et al., 1992]. Рассмотрим особенности решения указанной проблемы для двух методов: конечных элементов и конечных разностей. При применении первого метода осуществляется включение краевых условий непосредственно в сами получаемые уравнения. Для второго метода при определении краевых условий необходимо задать условия усложнения сетки дискретизации. Это в свою очередь приводит к вводу дополнительных вспомогательных элементов сетки для определения значения производной искомой функции через выражение, записанное в конечных разностях. Все это способствует тому, что количество узлов становится неприемлемо большим, что можно сказать и о размерности получаемой системы линейных алгебраических уравнений [Корсунов и др., 2010].

В настоящее время существуют множество задач, решаемых при помощи нейронных сетей. Таковыми являются задачи распознавания голоса и изображений, численного решения дифференциальных уравнений и моделирования процессов [Кормен и др., 2005]. Использование нейросетевых методов для решения дифференциальных уравнений несет в себе целый ряд преимуществ. Так, выбрав соответствующую архитектуру, можно добиться решения целого класса уравнений с погрешностью, не превышающей классические методы решения. Существует класс задач, где нахождения решения требует высокой точности, что приводит к высоким вычислительным затратам и увеличению времени нахождения решения. Для решения многих задач помимо высокой точности требуется высокая скорость вычисления. Прежде всего, это относится к моделированию процессов, где параметры процесса или окружающей среды непрерывно изменяются. Поэтому несомненным преимуществом использования нейронных сетей является также их структура, в которой параллелизм заложен изначально, что позволяет не тратить время на разработку соответствующего параллельного алгоритма и дает выигрыш в скорости вычислений [Lagaris et al., 1998].

В настоящее время разработки нейронных сетей для решения задачи численного решения дифференциальных уравнений ведутся по трем основным направлениям: на основе метода невязок, на основе применения полносвязной нейронной сети с симметричной матрицей и на основе сетей с особой структурой [Корсунов, Ломакин, 2014].

Стоит заметить, что последний способ наиболее сложен в реализации, однако захватывает наибольшую область решаемый задач и обладает большей универсальностью по сравнению с другими подходами.

В таблице 1 рассмотрены вышеперечисленные направления разработки нейронных

Рассмотренный метод с использованием нейронной сети со специальной архитектурой предполагает, что область Q является прямоугольной. Данное условие может не выполняться при решении ряда задач. При этом может потребоваться решение поставленной задачи при крупном шаге сетки. Это необходимо для обеспечения процесса обучения персептрона. Все это вызывает необходимость применения одного из классических методов решения дифференциальных уравнений вместе с примененным ранее [Korsunov, Lomakin, 2013].

На основе анализа основных свойств рассмотренных трех основных подходов разработана новая архитектура, предназначенная для получения численного решения ряда дифференциальных уравнений. Опишем основные особенности разработанной ячеистой нейросети.

Таблица 1 Table 1

Направления разработки нейронных сетей для решения дифференциальных уравнений Directions of development of neural networks for solving differential equations

На основе метода невязок

Применение полносвязной нейронной сети с симметричной матрицей на основе архитектуры Хопфилда

Применение нейронных сетей со специальной структурой

Решение представлено набором простых

сплайнов могут быть получены с помощью взаимного наложения кусочно-линейных активационных функций. Форма получаемого решения делает

возможным получение архитектуры нейронной сети прямого

полученному решению. Количество базисных функций при применении рассматриваемого подхода достаточно большое и зависит от числа узлов.

Неэффективен по времени по сравнению с другими методами, что в полной мере проявляется для задач большой

размерности [Moller, 1993].

Решение получается обращением матрицы на основе указанного типа нейронной сети, при этом данная матрица получена на основе применения одного из методов: конечных разностей или конечных элементов. Обучение нейросети с архитектурой Хопфилда означает минимизацию энергетической

функции. Решение системы уравнений происходит при обучении нейронной сети, при этом энергетическая функция

соответствует невязке решения системы линейных уравнений. С точки зрения вычислительной сложности наибольший вклад вносит этап минимизации энергетической функции. Специализированность решения приводит к тому, что полученная и обученная нейронная сеть применима только для решения конкретной системы уравнений. Для обучения сети данного типа нужны существенные временные затраты.

Получение аналитического решения задачи. Данное решение является

приближенным и представлено как суперпозиция двух функций. Первая функция задает краевые условия, зависящие от конкретных особенностей

рассматриваемой задачи. Вторая обладает таким свойством, что на границе области обращается в ноль. Данная функция частично задается предлагаемой для решения уравнения нейронной сетью. В итоге данный подход предполагает получение

дифференцируемого аналитического решения.

В некоторой замкнутой области Q определим N узлов с координатами Г1, . гп. Данные узлы дискретизации формируют п-мерную однородную прямоугольную сетку, имеющую шаг ^ по /-й координате. Временной промежуток разделим на т одинаковых по длине отрезков длиной т.

Определим структуру предлагаемой нейронной сети в виде т прилегающих друг к другу слоев, соответствующих определенному моменту времени. Каждый слой представлен набором нейронов в виде п-мерной прямоугольной решетки, при этом заданы линейные функции активации нейронов f (х) = х.

Зададим координаты отдельных нейронов внутри отдельного слоя в виде (п, . Гп). При этом можно определить координаты узла дискретизации для рассматриваемых нейронов как (пМ, . ГпИп)). Слою г, г е (0, т-1) соответствует аналогичный момент времени, обозначаемый 1т. Для каждого нейрона определим число связей. Количество связей с находящимися рядом нейронами внутри слоя равно 2п. Кроме этого имеется одна обратная связь, а также две связи с нейронами, имеющих аналогичный номер в предыдущем и последующем слоях. Очевидно, что у нейронов первого и последнего слоя будут отсутствовать соответственно связи с нейронами нижнего и верхнего уровня.

Структура сети приведена на рисунке 1. В узлах кубической решетки отмечены нейроны.

Рис. 1. Структура ячеистой нейронной сети Fig. 1. The structure of lattice neural network

Для подтверждения адекватности решения дифференциальных уравнений нейронной сетью проведен вычислительный эксперимент на примере уравнения Пуассона в заданной прямоугольной области со следующими граничными условиями:

0,75у,Р епи^з f(P) = \2f зч2 п

1 Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

16. Wang L., Mendel J.M. 1990. Structured trainable networks for matrix algebra. IEEE Int. Joint Conference on Neural Networks. 2: 125-128.

1. Kormen, T., Leyzerson, CH., Rivest, R., Shtayn, K. 2005. Algoritmy: postroyeniye i analiz [Algorithms: construction and analysis]. Pod re d. I. V. Krasikova. 2-ye izd. M., Vil’yams: 57-64.

2. Korsunov N.I., Skandakov A.A., Slobodyuk A.A. 2010. Analytical-numerical method for solving systems of linear algebraic equations. Scientific statements of Belgorod State University. Ser. Story. Political science. Economy. Information technology, 13(84): 72-76. (in Russian)

3. Korsunov N.I. 2010. Solution of linear algebraic equations using neural network information technologies. Scientific statements of Belgorod State University. Ser. Story. Political science. Economy. Information technology, 1(72): 62-65. (in Russian)

4. Korsunov N.I., Lomakin A.V. 2014. Modeling of processes described by a wave differential equation using neural networks. Scientific statements of Belgorod State University. Ser. Story. Political science. Economy. Information technology, 15(186): 103-107. (in Russian)

5. Korsunov N.I., Titov A.I., Krasil’nikov V.V. 2010. Improving the efficiency of information protection by modifying the Viginer code. Scientific statements of Belgorod State University. Ser. Story. Political science. Economy. Information technology, 7(78): 171-175. (in Russian)

6. Kul’tin N. 2007. C# v zadachakh i primyerakh [C # in problems and examples]. SPb., BKH V-Peterburg, 241.

7. Hagan M.T., Demuth H.B., Beale M.H. 1996. Neural Network Design, Boston, MA: PWS Publishing.

8. Hagan M.T., Menhaj M. 1994. Training feedforward networks with the Marquardt algorithm. IEEE Transactions on Neural Networks, 5(6): 989-993,

9. Korsunov N., Mikhelev V., Lomakin A. 2013. Application of Lattice Neural Networks for Modeling of Stationary Physical Fields. Proceedings of the 2013 IEEE 7th International Conference on Intelligent Data Acquisition and Advanced Computing Systems, 1, 369-372.

10. Lagaris I.E., Likas A., Fotiadis D.I. 1998. Artificial Neural Networks for Solving Ordinary and Partial Differential Equations. IEEE Transactions on Neural Networks. 9(5): 422-448.

11. Lawrence, Introduction to Neural Networks, California Scientific Software Press, 1994.

12. Lee H. and Kang I. 1990. Neural algorithms for solving differential equationsю Journal of Computational Physics, 91: 110-117.

13. Moller M.F. 1993. A scaled conjugate gradient algorithm for fast supervised learning. Neural Networks. 6, 525-533,

14. Murray R., Neumerkel D., Sbarbaro D. 1992. Neural Networks for Modeling and Control of a Non-linear Dynamic System,» Proceedings of the 1992 IEEE International Symposium on Intelligent Control, 404-409.

15. Nguyen D., Widrow B. 1990. Improving the learning speed of 2-layer neural networks by choosing initial values of the adaptive weights. Proceedings of the International Joint Conference on Neural Networks. 3, 21-26,

16. Wang L., Mendel J.M. 1990. Structured trainable networks for matrix algebra. IEEE Int. Joint Conference on Neural Networks. 2: 125-128.

Ссылка для цитирования статьи For citation

Ломакин А.В. 2019. О нейросетевом подходе решения дифференциальных уравнений. Научные ведомости Белгородского государственного университета. Серия: Экономика. Информатика. 46 (4): 710-716. DOI 10.18413/2411-3808-2019-46-4-710-716

Краткое содержание статьи: Нейронные обыкновенные дифференциальные уравнения

Дата публикации Dec 27, 2018

NIPS 2018 (Монреаль, Канада) или NeurIPS, как его называют сейчас, закончились, и я хотел бы воспользоваться возможностью, чтобы воспользоваться одним из документов, которые получили награду за лучший документ на этой престижной конференции. Название статьиНейронные обыкновенные дифференциальные уравнения(arXiv ссылка) и его авторы связаны со знаменитым Институтом Векторов в Университете Торонто. В этой статье я попытаюсь объяснить некоторые из основных идей этой статьи, а также обсудить их потенциальные последствия для будущего области глубокого обучения. Так как статья довольно продвинутая и затрагивает такие понятия, какОбыкновенные дифференциальные уравнения(ОДА),Рекуррентные нейронные сети(РНН) илиНормализующие потоки(NF), Я предлагаю вам ознакомиться с этими условиями, если вы не знакомы с ними, так как я не буду вдаваться в подробности по ним. Тем не менее, я постараюсь объяснить идеи статьи настолько интуитивно, насколько это возможно, чтобы вы могли получить основные концепции, не вдаваясь в технические детали. Если вы заинтересованы, вы можете прочитать об этих деталях впоследствии в оригинальном документе. Пост разбит на несколько разделов, каждый из которых объясняет одну или несколько глав в статье.

От последовательностей преобразований к нейронно-дифференциальным уравнениям

Сегодня множественные архитектуры нейронных сетей, такие как RNN или Остаточные сети, содержат повторяющиеся блоки уровней, которые способны сохранять последовательную информацию, а также изменять ее на каждом этапе с помощью изученной функции. Такие сети в общем случае могут быть описаны уравнением

Таким образом,hₜявляется «скрытой» информацией на временном шагеt и f (hₜ, θₜ)изученная функция текущей скрытой информации и параметровθₜ, Основной вопрос, поставленный в статье, заключается в том, можем ли мы улучшить наши текущие современные результаты с этими сетями, постепенно уменьшая размер шага[т, т + 1], Мы можем представить это как постепенное увеличение количества оценок в RNN или увеличение количества остаточных уровней в остаточной сети. Если мы сделаем это, мы в конечном итоге придем к бесконечно малой (дифференциальной) версии приведенного выше уравнения:

Такое уравнение называетсяОбыкновенное дифференциальное уравнение(ODE), поскольку решение является функцией, а именно функциейч (т), Другими словами, решая уравнение, мы получаем желаемую последовательность скрытых состояний. Нам придется решать уравнение во время каждой оценки, начиная с исходного состояния.h₀.Такая проблема также называется начальная задача проблема.

Вычисление градиентов решателя ODE с помощью сопутствующего метода

Численное решение ODE обычно осуществляется путем интеграции. Множество методов интеграции были изобретены за эти годы, в том числе простой метод Эйлера и более высокие варианты метода Рунге-Кутты. Тем не менее, все это в вычислительном отношении довольно интенсивно. Это особенно актуально во время обучения, которое требует дифференциации шагов интеграции, чтобы иметь возможность суммировать все градиенты параметров сетиθₜ, влечет за собой высокую стоимость памяти.

В статье авторы представляют альтернативный подход к расчету градиентов ОДУ с использованием так называемыхсопряженный методПонтрягин. Этот метод работает путем решенияво-вторых, дополненный ODE назад во времени,может использоваться со всеми интеграторами ODE и имеет небольшой объем памяти. Давайте рассмотрим минимизацию функции стоимости результата решателя ODE, т.е.

(к сожалению, авторы обмениваютсяч (т)пог (т)в этом разделе, но не позволяйте себе смущаться этим). На втором этапе используется определение решения ODE, а на третьем этапеODESolveОперация вводится в качестве оператора для решения ODE. Как я упоминал ранее, этот оператор зависит от начального состоянияг (t₀), функцияе, начальное и конечное времяt₀а такжеt₁а также параметры поискаθ, Сопряженный метод теперь определяет градиент функции потерь w.r.t. скрытое состояние:

Это количество теперь следует за расширенным ODE

Расчет градиента∂L / dz (t₀)(первый градиент, требуемый вышеприведенным уравнением) теперь может быть достигнут путем решения расширенного ODE назад во времени. Для полноты в приведенном ниже уравнении указано, как рассчитать градиенты w.r.t. к параметрам функции нейронной сети:

Весь алгоритм вычисления градиента, представленный авторами, в псевдокоде выглядит следующим образом:

Если вас интересуют дальнейшие математические детали этого сложного вычисления, пожалуйста, вернитесь к исходной статье или даже к исходной статье о сопряженном методе. Авторы представленной статьи даже предоставляют код Python для простого вычисления производных от решателя ODE.

Сети ODE для контролируемого обучения

Теперь перейдем к самой интересной части статьи: приложения. Первое приложение, которое авторы упоминают в своей статье, относится к области контролируемого обучения, а именно к классификации письменных цифр MNIST. Цель состоит в том, чтобы показать, что метод ODESolve может обеспечить сопоставимую производительность с остаточной сетью с гораздо меньшими параметрами. Сеть, используемая для оценки в статье, дважды отбирает входное изображение, а затем применяет 6 остаточных блоков. В целом сеть содержит ок. Параметры 0.6M. Сеть ODESolve заменяет 6 уровней одним модулем ODESolve. Кроме того, авторы тестируют RK-сеть, которая аналогична, за исключением того, что она распространяет ошибку напрямую, используя метод Рунге-Кутты. Как упомянуто выше, вы можете связать количество уровней в традиционной нейронной сети с количеством оценок в ODE-Net. Количество параметров этих двух сетей составляет 0,22М. Важным результатом является то, что с примерно 1/3 параметров RK-Network и ODE-Net достигают примерно той же производительности, что и остаточная сеть. Кроме того, сложность памяти ODE-Net является постоянной (сравните следующий рисунок).

Кроме того, точность решения ODE может быть настроена для максимизации производительности вычислений. Например, можно проводить обучение с высокой точностью и снизить точность во время оценки (более подробную информацию см. В документе).

Непрерывные нормализующие потоки

Поскольку я подозреваю, что многие читатели не знакомы с концепцией нормализации потоков, я приведу здесь очень краткое введение. Нормализующие потоки являются обратимыми преобразованиями распределений. Они позволяют преобразовывать простые плотности вероятности в сложные с помощью ряда нелинейных преобразований, как в нейронной сети. Таким образом, они используют формулу для обмена переменных в распределении:

, гдед0 (г0)это начальное распределение иQk (Zk)является преобразованным распределением, с преобразованиямиfk, k = 0..K.Определитель Якоби в приведенной выше сумме гарантирует, что интеграл от функции распределения остается 1 на протяжении преобразования. К сожалению, вычислить этот детерминант для всех, кроме некоторых простых преобразований, довольно дорого.

Одним из популярных приложений нормализации потоков является вариационный автоэнкодер (VAE), который обычно предполагает, что скрытые переменные распределены как гауссиан. Это предположение ухудшает вывод VAE, потому что оно не позволяет сети изучать желаемое распределение. При нормализации потоков параметры гауссовского сигнала могут быть преобразованы в широкий спектр распределений перед их «декодированием» и, таким образом, могут улучшить возможности генерации VAE.Этот пост в блогеобъясняет нормализацию потоков подробнее.

Обсуждаемая нами статья представляет собой продолжение нормализации потоков в непрерывную область. Интересно, что это упрощает вычисление нормализующей константы. Если мы сделаем случайную переменную непрерывной и зависимой от времени, с динамикой времени, описываемой функциейе(если f непрерывна по Липшицу), то изменение логарифмической вероятности следует простому дифференциальному уравнению

Таким образом, вычисление определителя здесь заменяется простой операцией трассировки. Кроме того, если мы используем сумму преобразований, то нам нужно только суммировать следы:

Авторы также вводят стробирование для различных преобразований:

Они называют такую ​​сумму преобразованийнепрерывный нормализующий поток(УТС).

Чтобы показать эффективность CNF, в статье проверяется преобразование плотности вероятности из гауссовского распределения в два целевых распределения, как показано на рисунке ниже.

Как CNF, так и NF были обучены с использованием оценки максимального правдоподобия для максимизации ожидаемого значения при целевом распределении вероятностей и последующего обращения модели к выборке из изученного распределения.

Генеративные модели временных рядов через ODE

Третье приложение, упомянутое в статье, и, возможно, самое значительное, — это моделирование временных рядов с помощью ODE. Одним из мотивов авторов начать эту работу является их интерес к нерегулярным данным, таким как медицинские записи или сетевой трафик. Дискретность таких данных часто плохо определена, что приводит к проблемам с отсутствием данных в некоторых временных интервалах или просто неточным скрытым переменным. Существуют подходы, объединяющие информацию о времени с входом RNN, но они не представляют фундаментального решения проблем, стоящих перед нами.

Решением этого, основанного на модуле ODESolve, является генерирующая модель с непрерывным временем, которая при заданном начальном состоянии zₜ₀ и времени наблюдения t0… tN рассчитывает скрытые состояния z_t1… z_tN и выходные данные x_t1… x_tN:

Функцияе(функция нейронной сети) отвечает за расчет скрытого состоянияZв любое времяTначиная с текущего временного шага. Модель представляет собой вариационный автоэнкодер, который кодирует прошлую траекторию (зеленая на рисунке ниже) в начальном скрытом состоянии zₜ₀ с использованием RNN. Как и во всех вариационных автоэнкодерах, распределение латентного состояния тем самым фиксируется с помощью параметров распределения (в данном примере гауссиана со средним значением μ и стандартным отклонением σ). Из этого распределения берется образец и проходит через ODESolve.

Архитектура протестирована на синтетическом наборе данных двунаправленных двумерных спиралей, отобранных в нерегулярные моменты времени и искаженных гауссовским шумом. На следующем рисунке качественно показаны превосходные характеристики моделирования в модели скрытого нейронного ODE:

Выводы

В статье был представлен очень интересный и новый подход к мышлению о нейронных сетях. Это может быть знаковым документом, начинающим новую эволюцию в глубоком обучении. Я надеюсь, что с течением времени все больше и больше исследователей начнут думать о нейронных сетях с принципиально иной точки зрения, как и в этой статье.

Осталось посмотреть, действительно ли представленный подход работает на большом разнообразии существующих моделей и будет ли он доказан временем, чтобы быть эффективным. Авторы упоминают пару ограничений своего подхода:

  • Мини-пакетирование может вызвать проблемы с этим подходом, поскольку пакетирование нескольких образцов требует одновременного решения системы ODE. Это может значительно увеличить количество необходимых оценок. Тем не менее, авторы отмечают, что количество оценок оставалось управляемым даже при миниатчировании в течение всего эксперимента.
  • Уникальность решения ODE гарантируется только в том случае, если сеть имеет конечные веса и использует липшицевые нелинейности, такие как tanh или relu (например, не пошаговая функция).
  • Обратимость прямой траектории может быть затруднена путем сложения неточностей, вносимых числовой ошибкой в ​​решателе прямого ODE, числовой ошибкой в ​​обратном решателе ODE и потерей информации из-за множественных начальных значений, отображаемых в одно и то же конечное состояние.

Авторы также упоминают, что их подход не уникален, и идея остаточных сетей в качестве приближенных решателей ODE уже устарела. Кроме того, существуют документы, которые пытаются выучить различные уравнения с помощью нейронных сетей, а также процессов Гаусса.

Важным преимуществом метода, представленного в статье, является то, что можно свободно выбирать баланс между быстрым и точным решением, влияя на точность численного интегрирования во время оценки и / или обучения. Кроме того, метод очень широко применим (требующий только того, чтобы нелинейности нейронной сети были липшицевыми) и может применяться для моделирования временных рядов, контролируемого обучения, оценки плотности или других последовательных процессов.


источники:

http://cyberleninka.ru/article/n/o-neyrosetevom-podhode-resheniya-differentsialnyh-uravneniy

http://www.machinelearningmastery.ru/paper-summary-neural-ordinary-differential-equations-37c4e52df128/