La diversidad conductual surge como un factor crucial para lograr una colaboración eficaz en el Aprendizaje por Refuerzo Multiagente (MARL). Los métodos actuales suelen utilizar la compartición parcial de parámetros, como compartir la misma capa de representación, para equilibrar la diversidad conductual y la escalabilidad algorítmica.

por Hufua, Yihua Tana, Hao Chen, Pengyi Li

Abstracto

Sin embargo, este enfoque ignora que cada agente necesita un conocimiento de decisión distinto, lo que provoca conflictos de entrenamiento y redundancia de conocimiento. Para solucionar esto, proponemos la Adaptación del Conocimiento para Acciones Cooperativas Potenciadas en el Aprendizaje por Refuerzo Multiagente (TKCA).

En concreto, empleamos un conjunto de Codificadores de Conocimiento para codificar diferentes tipos de conocimiento del entorno y utilizamos una red de Selectores de Conocimiento para ayudar a cada agente en la toma de decisiones seleccionando el conocimiento correspondiente.

Evaluamos el TKCA en desafiantes juegos de microgestión de StarCraft II y juegos de Google Research Football, y los resultados demuestran su rendimiento superior.

Introducción

El aprendizaje cooperativo por refuerzo multiagente (MARL) ha cobrado gran importancia últimamente debido a sus posibles aplicaciones en diversos desafíos del mundo real, como la gestión de semáforos (Zhang y Lesser, 2011), los vehículos autónomos (Singh et al., 2020) y la robótica de enjambre (Hüttenrauch et al., 2017). Para abordar la observabilidad parcial, la mayoría de los métodos MARL adoptan el paradigma de entrenamiento centralizado con ejecución descentralizada (CTDE), que otorga a los agentes acceso global al estado durante el entrenamiento, pero solo observaciones locales durante la ejecución.

Además, a medida que aumenta el número de agentes, el espacio de estados y el espacio de acciones crecen exponencialmente, lo que incrementa significativamente la dificultad del aprendizaje. Una solución a este problema es la compartición de parámetros, donde diferentes agentes comparten los pesos de sus redes neuronales (Zhang et al., 2021).

Compartir parámetros puede evitar el aumento de los parámetros de entrenamiento con el crecimiento del número de agentes, lo que reduce las dificultades de entrenamiento. Además, al compartir las experiencias de diferentes agentes, puede mejorar la eficiencia y la estabilidad del entrenamiento (Sunehag et al., 2017). Sin embargo, compartir parámetros ingenuos que diferencian a los agentes únicamente mediante la codificación one-hot puede generar comportamientos similares entre ellos. Como resultado, dificulta la exploración diversificada y la coordinación avanzada, especialmente en entornos heterogéneos multiagente o en tareas que requieren comportamientos de agentes distintos [Li et al., 2021].

Para abordar la falta de diversidad en el intercambio de parámetros ingenuos y al mismo tiempo mantener las ventajas de eficiencia, los métodos existentes se pueden clasificar en dos tipos según el nivel en el que se introduce la diversidad: diversidad a nivel de agente y diversidad a nivel de rol.

  • Diversidad a nivel de agente: Este tipo de método evita el problema de similitud de comportamiento al diferenciar a todos los agentes. Christianos et al. (2021); Kim y Sung (2023b) exploran la compartición parcial de parámetros mediante el diseño de una matriz de máscara de parámetros adicional para cada agente. Li et al. (2021) añade una red completamente conectada adicional para cada agente en la última capa de la red de decisión e incorpora una recompensa de información mutua para promover la aparición de comportamientos diversos.
  • Diversidad a nivel de rol: Este enfoque descompone las tareas cooperativas multiagente en subtareas, donde el conjunto de roles define tanto la estructura de descomposición de tareas como las políticas de subtareas correspondientes (Zeng et al., 2023). Los estudios de Wang et al. (2020a); Yang et al. (2022) aprenden una incrustación latente para representar diferentes roles, que luego se utiliza para generar una capa única completamente conectada en la capa final. La investigación de Wang et al. (2020b) agrupa las acciones en múltiples roles según sus efectos en el entorno y asigna una red completamente conectada independiente en la última capa a cada rol. El análisis empírico de Lee y Chen (2022) de la adaptación de procesos de software colaborativo demuestra cómo la adaptación de roles mejora la eficiencia de las tareas, un concepto paralelo a la selección de conocimiento específico del agente de TKCA.

En comparación con la diversidad a nivel de agente, la diversidad a nivel de rol busca compartir parcialmente los parámetros entre roles, permitiendo a los agentes intercambiar roles durante tareas completas, lo que proporciona mayor escalabilidad y flexibilidad. Sin embargo, suele emplear una capa de representación compartida para codificar la información del entorno para la toma de decisiones, que posteriormente denominamos conocimiento. Esto ignora las diversas necesidades de conocimiento del entorno de los agentes, lo que genera conflictos y redundancias (Alhulayil y López-Benítez, 2019); Liu et al., 2021).Para comprender mejor esto, tomemos como ejemplo de análisis el escenario MMM2 del SMAC Samvelyan et al. (2019). Como se muestra en la Figura 1, en el escenario MMM2, un equipo consta de un Medivac responsable de la recuperación, dos Marauders capaces de atacar objetivos terrestres y siete Marines capaces de atacar objetivos terrestres y aéreos.

Cada unidad está controlada por un agente independiente, y el objetivo del equipo es eliminar a todas las unidades enemigas. Según las diferentes necesidades de toma de decisiones, el Medivac se centra más en la salud de los agentes aliados en el entorno (marcados con el recuadro azul). Los dos Marines en la esquina superior derecha se concentran en el Medivac enemigo, ya que pueden atacar unidades aéreas (marcadas con el recuadro amarillo), mientras que los Marines restantes y los dos Marauders se centran en objetivos terrestres (marcados con el recuadro rojo).

Debido a las diferentes demandas de conocimiento del entorno, los agentes suelen priorizar la mejora del conocimiento favorable del entorno, lo que puede generar conflictos de entrenamiento dentro de la capa de representación compartida. Además, para satisfacer todas las necesidades de la toma de decisiones, un vector de representación de conocimiento ambiental unificado puede incluir información sustancial e irrelevante para decisiones específicas, lo que genera redundancia de conocimiento. Por ejemplo, en el escenario MMM2, el vector de representación de conocimiento podría codificar simultáneamente información sobre los objetivos terrestres y aéreos del oponente, aunque estos últimos sean irrelevantes para los Marauders.

Para resolver los conflictos de entrenamiento y la redundancia de conocimiento entre agentes, fomentando a la vez comportamientos escalables, flexibles y diversos, proponemos la Adaptación del Conocimiento para Acciones Cooperativas Empoderadas (TKCA). Al aprovechar múltiples Codificadores de Conocimiento, como los de mezcla de expertos Al-Attar (2023); Jacobs et al. (1991); Mahmood y Rachini (2025); Zheng et al. (2021), y aplicando la restricción ortogonal, TKCA reduce eficazmente los conflictos de entrenamiento al codificar de forma independiente distintos tipos de conocimiento del entorno. Además, para mejorar el aprendizaje de los comportamientos individuales de los agentes, incorporamos un Selector de Conocimiento que selecciona dinámicamente el conocimiento.

Asimismo, se introduce un objetivo de teoría de la información para animar a los diferentes agentes a centrarse en dominios de conocimiento distintos, abordando eficazmente la redundancia del conocimiento.Evaluamos TKCA en escenarios desafiantes, incluyendo tareas de microgestión de StarCraft II y partidos de Google Research Football. Los resultados demostraron el rendimiento superior de TKCA, especialmente en tareas cooperativas más extensas y diversas.

Los estudios de ablación confirmaron la eficacia del Codificador de Conocimiento Ortogonal y del Selector de Conocimiento. Además, las visualizaciones de las tareas de microgestión de StarCraft II destacan que el Codificador de Conocimiento Ortogonal descompone eficientemente el conocimiento en componentes manejables, mientras que el Selector de Conocimiento asigna con destreza el conocimiento apropiado a cada agente. En resumen, nuestras principales contribuciones son las siguientes:

  • Análisis del comportamiento homogéneo desde la perspectiva de la representación del conocimiento: Este estudio presenta el primer análisis del comportamiento homogéneo inducido por el intercambio de parámetros desde las perspectivas de los conflictos de entrenamiento y la redundancia del conocimiento en la capa de representación.
  • Resolución de conflictos de entrenamiento a través de múltiples codificadores de conocimiento: el marco utiliza múltiples codificadores de conocimiento y una restricción ortogonal para codificar de forma independiente distintos tipos de conocimiento del entorno, aliviando así los conflictos de entrenamiento en la capa de representación compartida.
  • Prevención de la redundancia de conocimiento: al aplicar un selector de conocimiento y un objetivo basado en la teoría de la información, los agentes tienden a centrarse en dominios de conocimiento distintos, abordando así eficazmente la redundancia de conocimiento.
  • Comportamientos escalables, flexibles y diversos mejorados con el Selector de Conocimiento: Los agentes seleccionan adaptativamente el conocimiento del entorno según los requisitos, lo que desencadena dinámicamente diversos comportamientos y demuestra flexibilidad. Además, a diferencia de la diversidad a nivel de agente, el modelo simplemente incorpora una red de codificación para cada tipo de conocimiento, lo que lo hace más escalable.

Fuente: https://www.sciencedirect.com/science/article/abs/pii/S0893608025009037

Deja una respuesta