Ecuaciones Diferenciales

Dos nuevos enfoques permiten que las redes neuronales profundas resuelvan familias enteras de ecuaciones diferenciales parciales, lo que facilita el modelado de sistemas complicados y lo hace en órdenes de magnitud más rápido.

por Anil Ananthaswamy

Ecuaciones Diferenciales

En física de la escuela secundaria, aprendemos sobre la segunda ley del movimiento de Newton (la fuerza es igual a la masa por la aceleración) a través de ejemplos simples de una sola fuerza (digamos, la gravedad) que actúa sobre un objeto de cierta masa. En un escenario idealizado donde la única variable independiente es el tiempo, la segunda ley es efectivamente una “ecuación diferencial ordinaria”, que se puede resolver para calcular la posición o velocidad del objeto en cualquier momento en el tiempo.

Pero en situaciones más complicadas, múltiples fuerzas actúan sobre las muchas partes móviles de un intrincado sistema a lo largo del tiempo. Para modelar un avión de pasajeros que atraviesa el aire, una onda sísmica que recorre la Tierra o la propagación de una enfermedad a través de una población, sin mencionar las interacciones de las fuerzas y partículas fundamentales, los ingenieros, científicos y matemáticos recurren a “ecuaciones diferenciales parciales”. (PDE) que pueden describir fenómenos complejos que involucran muchas variables independientes.

El problema es que las ecuaciones diferenciales parciales, tan esenciales y omnipresentes como lo son en la ciencia y la ingeniería, son notoriamente difíciles de resolver, si es que se pueden resolver. Se pueden usar métodos aproximados para resolverlos, pero incluso entonces, puede llevar millones de horas de CPU resolver los PDE complicados. A medida que los problemas que abordamos se vuelven cada vez más complejos, desde diseñar mejores motores de cohetes hasta modelar el cambio climático, necesitaremos formas mejores y más eficientes de resolver estas ecuaciones.

Ahora los investigadores han construido nuevos tipos de redes neuronales artificiales que pueden aproximar soluciones a ecuaciones diferenciales parciales órdenes de magnitud más rápido que los solucionadores de PDE tradicionales. Y una vez entrenadas, las nuevas redes neuronales pueden resolver no solo una PDE sino toda una familia de ellas sin necesidad de volver a capacitarse.

Para lograr estos resultados, los científicos están llevando las redes neuronales profundas, la cara moderna de la inteligencia artificial, a un nuevo territorio. Normalmente, las redes neuronales mapean o convierten datos de un espacio de dimensión finita (por ejemplo, los valores de píxeles de las imágenes) a otro espacio de dimensión finita (por ejemplo, los números que clasifican las imágenes, como 1 para gato y 2 para perro) . Pero las nuevas redes profundas hacen algo dramáticamente diferente. Ellos “mapean entre un espacio de dimensión infinita y un espacio de dimensión infinita”, dijo el matemático Siddhartha Mishra del Instituto Federal Suizo de Tecnología de Zurich, quien no diseñó las redes profundas pero las ha estado analizando matemáticamente.

Estas técnicas, sin duda, acelerarán muchos modelos que involucran PDE. “En última instancia, nuestro objetivo [es] reemplazar los solucionadores tradicionales muy costosos que son muy lentos”, dijo el científico informático Anima Anandkumar del Instituto de Tecnología de California, miembro de uno de los equipos que desarrollaron los nuevos métodos.

Anima Anandkumar de pie fuera de un edificio de cristal.

Anima Anandkumar del Instituto de Tecnología de California y Kamyar Azizzadenesheli de la Universidad de Purdue ayudaron a construir una red neuronal llamada operador neuronal de Fourier, que puede aprender de manera efectiva a resolver familias enteras de PDE a la vez. Comunicaciones estratégicas de Caltech; Cortesía de Kamyar Azizzadenesheli

Pero los nuevos enfoques hacen más que acelerar el proceso. Para algunos fenómenos, los investigadores solo tienen datos y poca idea de cómo llegar a las PDE relevantes para modelarlos. “Hay muchos, muchos problemas en los que la física es algo inestable. No está bien definido ”, dijo Mishra. “Así que en esos problemas estás conduciendo a ciegas”. En tales casos, las nuevas redes neuronales, una vez entrenadas en los datos, serán casi con certeza la única forma de resolver tales problemas.

Ecuaciones bastante dramáticas

Lo que hace que las PDE sean útiles, y extremadamente difíciles de resolver, es su complejidad, que les permite modelar todo tipo de fenómenos. Tomemos, por ejemplo, la perspectiva bidimensional de un fluido que fluye alrededor de algún objeto, como el aire que se mueve alrededor del ala de un avión. Los modeladores quieren saber la velocidad y la presión del fluido en cualquier punto del espacio (también llamado campo de flujo) y en diferentes momentos. Las PDE específicas, conocidas como ecuaciones de Navier-Stokes , modelan dichos flujos de fluidos, teniendo en cuenta las leyes de conservación de la energía, la masa y el momento. Resuelva el PDE y obtendrá una fórmula que describe algo sobre el sistema. En este caso, la solución puede ser una fórmula que le permita calcular el campo de flujo en diferentes momentos.

Algunas PDE se pueden resolver analíticamente, utilizando las herramientas de matemáticas, si tiene suficiente conocimiento sobre las condiciones iniciales y de frontera, como el valor del campo de flujo en el tiempo t = 0, y en los bordes de la región que se está estudiando. Pero a menudo las PDE son tan complejas que las soluciones analíticas universales son imposibles. Esto es particularmente cierto para la forma más general de las ecuaciones de Navier-Stokes: los matemáticos aún tienen que probar si existen soluciones únicas, y mucho menos encontrarlas analíticamente.

En estos casos, los modeladores recurren en cambio a métodos numéricos. Esto implica convertir el PDE en un conjunto de ecuaciones algebraicas manejables que se supone que se mantienen en pequeños incrementos de espacio y tiempo. Para nuestro ejemplo del flujo de fluido en 2D, los cálculos comienzan con algunas condiciones iniciales y de contorno y proceder paso a paso, avanza poco a poco su camino a lo largo del x – y y -axes, el cálculo de la velocidad y la presión del fluido en varios puntos. El resultado es un mapa 2D del campo de flujo, digamos, segundo a segundo, no una fórmula.

Resolver numéricamente PDE complejas puede llevar meses en supercomputadoras. Y si cambia las condiciones iniciales o de contorno o la geometría del sistema que se está estudiando (como el diseño del ala), tendrá que empezar de nuevo. Además, cuanto más pequeños sean los incrementos que use, o más fina sea la malla, como dicen los investigadores, mayor será la resolución del modelo y más tiempo llevará resolver numéricamente.

A pesar de los costos, “para cada campo científico, la tendencia es hacia una resolución más alta … y este impulso interminable para calcular cosas en dominios más grandes”, dijo Zachary Ross , un sismólogo de Caltech que no participó en el nuevo trabajo. “Siempre es una carrera para hacer la próxima gran cosa”.

Las redes neuronales se unen a la refriega

Recientemente, las redes neuronales profundas han estado cambiando la naturaleza de esa carrera, ofreciendo formas de resolver PDE sin utilizar métodos analíticos o numéricos. El elemento básico de una red profunda es una neurona artificial, que toma un conjunto de entradas, multiplica cada una por un peso y luego suma los resultados. Luego, la neurona determina una salida basada en ese total, digamos, cero si la suma está por debajo de algún umbral, y la suma misma en caso contrario. Las redes neuronales modernas tienen una capa de entrada, una capa de salida y al menos una capa “oculta” intercalada en el medio. Las redes con una sola capa oculta se denominan coloquialmente redes “superficiales”; de lo contrario, se denominan redes neuronales profundas.

Matemáticamente, la entrada a dicha red neuronal es un vector, un conjunto de números, y la salida es otro vector. Si existe una función que mapea un conjunto de vectores de entrada a un conjunto de vectores de salida, la red puede entrenarse para aprender ese mapeo. “Las redes neuronales son universales en ese espacio”, dijo Mishra. “Cualquier función entre dos espacios de dimensión finita puede aproximarse mediante una red neuronal”.

En 2016, los investigadores estudiaron cómo las redes neuronales profundas que normalmente se utilizan para el reconocimiento de imágenes podrían ser cooptadas para resolver PDE. Primero, los investigadores generaron los datos para entrenar la red profunda: un solucionador numérico calculó el campo de velocidad de un fluido que fluye sobre objetos simples con diferentes formas básicas (triángulos, cuadriláteros, etc.) de diferentes tamaños y orientaciones, dispersos en el xy. -avión. Eso significaba que el conjunto de datos de entrenamiento consistía en una serie de imágenes: imágenes 2D que codifican información sobre la geometría de los objetos y las condiciones iniciales del fluido que sirven como entradas, e instantáneas 2D de los campos de velocidad correspondientes como salidas.

George Karniadakis con una camisa negra, de pie frente a una pizarra.
George Karniadakis de la Universidad de Brown ayudó a diseñar otro tipo de red neuronal conocida como DeepONet que también podría resolver rápidamente múltiples PDE a la vez. Cortesía de George Karniadakis

Armados con los datos, los investigadores entrenaron su red neuronal para aprender la correlación entre esas entradas y salidas. La capacitación implica alimentar a la red con una entrada y dejar que produzca algún resultado, que luego se compara con el resultado esperado. Luego, un algoritmo ajusta los pesos de las neuronas para minimizar la diferencia entre los resultados generados y esperados. Este proceso se repite hasta que la red lo hace correctamente, dentro de un límite de error aceptable. Una vez entrenada, se puede mostrar a la red una nueva entrada y, con toda probabilidad, producirá la salida correcta.

Por ejemplo, cuando se muestran nuevas formas 2D que representan formas nunca antes vistas (jeeps, furgonetas y coches deportivos), la red profunda predijo los campos de velocidad alrededor de los automóviles. Las predicciones solo difirieron ligeramente (alrededor del 10%) de las calculadas de forma independiente por el solucionador numérico, pero la red fue órdenes de magnitud más rápida.

Enseñar a las redes neuronales cómo resolver PDE fue emocionante, pero los esfuerzos anteriores no fueron muy flexibles. Una vez entrenada en un cierto tamaño de malla, la red neuronal es “muy específica para esa resolución”, dijo Anandkumar. La red profunda había aprendido a aproximar una función que mapeaba datos de un espacio de dimensión finita a otro. Pero a menudo es necesario resolver el PDE con una resolución diferente porque desea una visión más detallada del campo de flujo, o tiene un conjunto diferente de condiciones iniciales y de límite, y si es así, debe comenzar de nuevo y volver a capacitarse. En cada caso, la red profunda necesitaría aprender a aproximarse a una nueva función.

Para los investigadores que se ocupan de las PDE todos los días, eso no fue suficiente.

Del infinito al infinito

Es por eso que el nuevo trabajo es un salto adelante: ahora tenemos redes neuronales profundas que pueden aprender a aproximarse no solo a funciones, sino a “operadores” que asignan funciones a funciones. Y parecen hacerlo sin sufrir la “maldición de la dimensionalidad”, un problema que puede afectar a las redes neuronales y otros algoritmos informáticos que aprenden de los datos. Por ejemplo, si desea que la tasa de error de una red neuronal baje del 10% al 1%, la cantidad de datos de entrenamiento o el tamaño de la red necesaria para hacerlo puede explotar exponencialmente, haciendo que la tarea sea imposible.

Pero antes de preocuparse por la maldición, los investigadores tuvieron que descubrir cómo hacer que las redes neuronales aprendan a los operadores a resolver las PDE. “En el [aprendizaje] del operador, se pasa de un espacio de dimensión infinita a un espacio de dimensión infinita”, dijo George Karniadakis de la Universidad de Brown, quien ayudó a desarrollar uno de los nuevos métodos. Matemáticamente, un operador actúa sobre una función y la convierte en otra función. Como ejemplo, considere un operador que transforma una función en su derivada (convirtiendo el seno de x en el coseno de x , por ejemplo, ox 3 en 3 2 , y así sucesivamente). Los lados de entrada y salida son de dimensión infinita ya que, por ejemplo, xpuede ser cualquier valor y la función puede ser cualquier transformación que actúe sobre x .

Las redes profundas que aprenden a aproximarse a los operadores se pueden utilizar para resolver una familia completa de PDE a la vez, modelando los mismos fenómenos para una variedad de condiciones iniciales y de contorno y parámetros físicos. Tal familia de PDE podría ser un conjunto de funciones en el lado de entrada, con las soluciones correspondientes a las PDE (fórmulas) representadas por las funciones en el lado de salida.

Revista Samuel Velasco / Quanta; Fuente:  arXiv: 1910.03193

En octubre de 2019, Karniadakis y sus colegas idearon lo que llaman DeepONet : una arquitectura de red neuronal profunda que puede aprender a un operador de este tipo. Se basa en un trabajo de 1995, cuando los investigadores demostraron que una red poco profunda puede aproximarse a un operador. Debido a que se trata de una red neuronal, dichos operadores se denominan operadores neuronales, aproximaciones de los operadores reales.

“Extendimos el teorema a las redes neuronales profundas”, dijo Karniadakis.

Lo que hace que DeepONet sea especial es su arquitectura bifurcada, que procesa datos en dos redes paralelas, una “rama” y un “tronco”. El primero aprende a aproximar una serie de funciones en el lado de entrada y el segundo hace lo mismo con las funciones en el lado de salida. DeepONet luego combina las salidas de las dos redes para conocer el operador deseado de un PDE. El entrenamiento de DeepONet implica mostrarle repetidamente los datos de entrada y salida para una familia de PDE, generados usando un solucionador numérico, y ajustar los pesos en las redes de sucursales y troncales en cada iteración, hasta que toda la red cometa unos pocos errores aceptables.

Entonces DeepONet, una vez entrenado, aprende a aproximarse a un operador. Puede tomar datos que representan un PDE en el lado de entrada (que pertenece a la misma familia de PDE en el que se entrenó la red) y transformarlos en los datos que representan la solución al PDE en el lado de salida. Si le da, digamos, 100 muestras que representan las condiciones iniciales / de límite y los parámetros físicos que no estaban en los datos de entrenamiento, y las ubicaciones donde desea el campo de flujo, DeepONet puede brindarle el campo de flujo en fracciones de segundo.

Pero a pesar de que DeepONet es increíblemente rápido junto con los solucionadores numéricos, todavía tiene que realizar cálculos intensivos durante el entrenamiento. Esto puede convertirse en un problema cuando la red profunda debe entrenarse con enormes cantidades de datos para hacer que el operador neuronal sea cada vez más preciso. ¿Se podrían acelerar aún más los operadores neuronales?

Perspectiva cambiante

El año pasado, Anandkumar y sus colegas de Caltech y Purdue University construyeron una red neuronal profunda , llamada operador neuronal de Fourier (FNO), con una arquitectura diferente que, según afirman, es más rápida. Su red también asigna funciones a funciones, desde el espacio de dimensión infinita hasta el espacio de dimensión infinita, y probaron su red neuronal en PDE. “Elegimos PDE porque los PDE son ejemplos inmediatos en los que se pasa de funciones a funciones”, dijo Kamyar Azizzadenesheli de Purdue.

En el corazón de su solución hay algo llamado capa de Fourier. Básicamente, antes de enviar sus datos de entrenamiento a través de una sola capa de una red neuronal, los someten a una transformada de Fourier; luego, cuando la capa ha procesado esos datos a través de una operación lineal, realizan una transformada de Fourier inversa, convirtiéndolos de nuevo al formato original. (Esta transformación es una operación matemática bien conocida que descompone una función continua en múltiples funciones sinusoidales). Toda la red neuronal está formada por un puñado de capas de Fourier.

Este proceso resulta ser mucho más sencillo computacionalmente que el de DeepONet y es similar a resolver un PDE realizando una operación matemática complicada llamada convolución entre el PDE y alguna otra función. Pero en el dominio de Fourier, una convolución implica una multiplicación simple, que equivale a pasar los datos transformados de Fourier a través de una capa de neuronas artificiales (con los pesos exactos aprendidos durante el entrenamiento) y luego hacer la transformada de Fourier inversa. Entonces, nuevamente, el resultado final es que el FNO aprende al operador para toda una familia de PDE, mapeando funciones a funciones.

Revista Samuel Velasco / Quanta; Fuente: arXiv: 2010.08895

“Es una arquitectura muy cuidada”, dijo Mishra.

También proporciona soluciones a velocidades dramáticamente mejoradas. En un ejemplo relativamente simple que requirió 30,000 simulaciones, que involucró soluciones de la infame ecuación de Navier-Stokes, el FNO tomó fracciones de segundo para cada simulación (comparable a la velocidad de DeepONet, si se hubiera probado en este problema), para un total de 2.5 segundos; el solucionador tradicional en este caso habría tardado 18 horas.

Dar sentido a las matemáticas

Los enfoques de ambos equipos han tenido éxito, pero al igual que con las redes neuronales en general, no está claro exactamente por qué funcionan tan bien y si lo harán en todas las situaciones. Mishra y sus colegas ahora están trabajando en una comprensión matemática completa de ambos métodos.

Después de un año de esfuerzo, en febrero el equipo de Mishra, con aportes de Karniadakis, proporcionó un análisis matemático de 112 páginas de la arquitectura DeepONet. Demostraron que el enfoque es verdaderamente universal, en el sentido de que puede mapear cualquier conjunto de funciones en el lado de entrada a cualquier conjunto de funciones en el lado de salida, no solo PDE, sin tener que hacer ciertas suposiciones que entraron en el teorema de Karniadakis para profundidad nets y su predecesor de 1995. El equipo aún no ha completado su artículo que analiza el FNO, pero Mishra dijo que si bien el método probablemente será universal para los PDE, y podría, a primera vista, resolver algunos de ellos de manera más eficiente que DeepONet, es posible que no funcione tan bien para aprender otros tipos de operadores.

Su equipo está trabajando en un análisis detallado de FNO que incluye una comparación cercana con DeepONet. “En unos meses, lo sabremos”, dijo.

Sin embargo, lo que está claro es que ambos métodos superarán a los solucionadores tradicionales. Y para los fenómenos en los que no existen PDE establecidas, el aprendizaje de los operadores neuronales puede ser la única forma de modelar dichos sistemas. Considere el problema del flujo de tráfico: escribir un PDE que capture con precisión la dinámica del tráfico es casi imposible. Pero hay muchos datos de los que aprender. “En lugar de escribir los PDE, dados los datos, puede usar este operador neuronal para aprender el mapeo”, dijo Azizzadenesheli.

Por supuesto, estos son solo los primeros pasos hacia un nuevo enfoque para resolver PDE. “Este es un trabajo interesante e impresionante”, dijo Gavin Schmidt , quien trabaja en modelos climáticos a gran escala como director del Instituto Goddard de Estudios Espaciales de la NASA en la ciudad de Nueva York. Pero le preocupa la facilidad con la que se puede adoptar para sistemas más caóticos , como los modelos climáticos. Por ejemplo, dijo que el FNO solo se ha demostrado en ecuaciones “agradables”, no en ecuaciones tan difíciles y complicadas como las que se utilizan en el modelado climático.

Sin embargo, desde una perspectiva computacional, hay más buenas noticias. El equipo de Mishra ha demostrado que las nuevas técnicas no sufren la maldición de la dimensionalidad. Cuando analizaron DeepONet en varios casos, dijo, “en realidad demostramos que estos romperán la maldición de la dimensionalidad, lo cual es muy bueno”. Los hallazgos preliminares indican que el operador neuronal de Fourier tampoco está maldito. “La teoría llegará pronto”.

Romper la maldición es crucial si los operadores neuronales van a reemplazar a los solucionadores de PDE tradicionales, dijo Karniadakis. “[Es] el futuro del aprendizaje automático científico”.

RELACIONADOS

  1. Las matemáticas simbólicas finalmente ceden a las redes neuronales
  2. Matemático demuestra un gran resultado en un problema ‘peligroso’
  3. Fundamentos construidos para una teoría general de redes neuronales

Fuente: https://www.quantamagazine.org/new-neural-networks-solve-hardest-equations-faster-than-ever-20210419/

Deja una respuesta