Hoy lanzamos LFM2, una nueva clase de Modelos de Cimentación Líquida (LFM) que establece un nuevo estándar en calidad, velocidad y eficiencia de memoria. LFM2 está diseñado específicamente para brindar la experiencia de IA generativa en dispositivo más rápida del sector, lo que permite acceder a una gran cantidad de dispositivos para cargas de trabajo de IA generativa. Basado en una nueva arquitectura híbrida, LFM2 ofrece un rendimiento de decodificación y prellenado dos veces más rápido que Qwen3 en CPU. Además, supera significativamente a los modelos de cada clase de tamaño, lo que los hace ideales para impulsar agentes de IA eficientes.

por Liquid AI

Hoy lanzamos LFM2, una nueva clase de Modelos de Cimentación Líquida (LFM) que establece un nuevo estándar en calidad, velocidad y eficiencia de memoria. LFM2 está diseñado específicamente para brindar la experiencia de IA generativa en dispositivo más rápida del sector, lo que permite habilitar una gran cantidad de dispositivos para cargas de trabajo de IA generativa.

Estas mejoras de rendimiento convierten a LFM2 en la opción ideal para casos de uso locales y en el borde. Además de las ventajas de implementación, nuestra nueva arquitectura e infraestructura de entrenamiento triplican la eficiencia del entrenamiento en comparación con la generación anterior de LFM, lo que consolida a LFM2 como la opción más rentable para desarrollar sistemas de IA de propósito general y capaces.

En Liquid, construimos modelos básicos que logran el equilibrio óptimo entre calidad, latencia y memoria para tareas específicas y requisitos de hardware. El control total de este equilibrio es fundamental para implementar modelos generativos de primera clase en cualquier dispositivo. Este es precisamente el tipo de control que nuestros productos permiten para las empresas.

La migración de grandes modelos generativos desde nubes remotas a LLM optimizados en el dispositivo permite alcanzar latencia de milisegundos, resiliencia sin conexión y privacidad con soberanía de datos. Estas capacidades son esenciales para teléfonos, portátiles, coches, robots, wearables, satélites y otros endpoints que requieren razonamiento en tiempo real. La incorporación de verticales de alto crecimiento, como la pila de IA edge en electrónica de consumo, robótica, electrodomésticos inteligentes, finanzas, comercio electrónico y educación, sin contar las asignaciones para defensa, espacio y ciberseguridad, impulsa el TAM para modelos compactos de base privada hacia el billón de dólares para 2035. 

En Liquid, colaboramos con un gran número de empresas de la lista Fortune 500 en estos sectores. Ofrecemos modelos de base multimodales pequeños y ultraeficientes con una pila de implementación segura de nivel empresarial que convierte cada dispositivo en un dispositivo de IA local. Esto nos brinda la oportunidad de obtener una cuota de mercado considerable a medida que las empresas cambian de LLM en la nube a inteligencia local, privada, rápida y rentable.

Selecciones rápidas en LFM2

Entrenamiento e inferencia rápidos

LFM2 logra un entrenamiento tres veces más rápido que su generación anterior. También se beneficia de una velocidad de decodificación y precarga hasta dos veces mayor en la CPU que Qwen3.

Mejor rendimiento

LFM2 supera a modelos de tamaño similar en múltiples categorías de referencia, incluidos conocimiento, matemáticas, seguimiento de instrucciones y capacidades multilingües.

Nueva arquitectura

LFM2 es un modelo líquido híbrido con puertas multiplicativas y convoluciones cortas. Consta de 16 bloques: 10 bloques de convolución de corto alcance con doble puerta y 6 bloques de atención de consulta agrupada.

Implementación flexible

Ya sea que se implemente en smartphones, laptops o vehículos, LFM2 funciona eficientemente en hardware de CPU, GPU y NPU. Nuestra solución integral incluye arquitectura, optimización y motores de implementación para acelerar el proceso del prototipo al producto.

Pruébalo ahora

Publicamos los pesos de tres puntos de control densos con parámetros de 0.35B, 0.7B y 1.2B. Pruébelos ahora en Liquid Playground, Hugging Face y OpenRouter.

Pruebe LFMs en

Liquid playground | Hugging Face | llama.cpp

Puntos de referencia

Evaluamos LFM2 utilizando puntos de referencia automatizados y un marco LLM como juez para obtener una descripción general completa de sus capacidades.

Puntos de referencia automatizados

LFM2 supera a modelos de tamaño similar en diferentes categorías de evaluación. Evaluamos LFM2 con siete puntos de referencia populares que abarcan conocimiento (MMLU de 5 intentos, GPQA de 0 intentos), seguimiento de instrucciones (IFEval, IFBench), matemáticas (GSM8K de 0 intentos, MGSM de 5 intentos) y multilingüismo (MMMLU de 5 intentos, MGSM de 5 intentos) con siete idiomas (árabe, francés, alemán, español, japonés, coreano y chino).

Figura 1. Puntuación media (MMLU, IFEval, IFBENCH, GSM8K, MMMLU) frente al tamaño del modelo

El LFM2-1.2B ofrece un rendimiento competitivo frente al Qwen3-1.7B, un modelo con un recuento de parámetros un 47 % mayor. El LFM2-700M supera al Gemma 3 1B IT, y nuestro punto de control más pequeño, el LFM2-350M, es competitivo frente al Qwen3-0.6B y Llama 3.2 1B Instruct.

Puntos de referenciaLFM2-350MLFM2-700MLFM2-1.2BQwen3-0.6BQwen3-1.7BLlama-3.2-1B-Instruirgemma-3-1b-it
Universidad de Michigan43.4349.955.2344.9359.1146.640.08
GPQA27.4628.4831.4722.1427.7228.8421.07
IFEval65.1272.2374.8964.2473,9852.3962.9
Banco IF16.4120.5620.719,7521.2716.8617.72
GSM8K30.146.458.336.4751.435.7159.59
MGSM29.5245.3655.0441.2866.5629.1243.6
MMMLU37,9943.2846.7330.8446.5138.1534.43

*Todos los puntajes de referencia se calcularon utilizando nuestro conjunto de evaluación interna para mantener la coherencia.

Todas las puntuaciones de referencia se calcularon utilizando nuestro paquete de evaluación interno para garantizar la coherencia. Realizamos varios cambios en comparación con el arnés de evaluación lm de EleutherAI:

  • Decodificamos y eliminamos el logit más probable para evaluaciones basadas en logit, como MMLU. Esto garantiza una comparación válida sin espacios en blanco (“A” en lugar de “A”).
  • Basándonos en el trabajo relacionado con los modelos de razonamiento, consolidamos la extracción de respuestas para los exámenes de matemáticas. Esto mejoró especialmente los resultados de Gemma 3 1B IT.
  • Evaluamos Qwen3 solo en modo sin razonamiento, lo que mejoró consistentemente los puntajes porque los rastros de razonamiento tienden a ser más largos que los presupuestos de tokens de salida relevantes para la implementación del borde (<4096 tokens).

LLM como juez

Además, evaluamos las capacidades conversacionales de LFM2-1.2B, especialmente en diálogos multiturno. En este ejercicio, utilizamos 1000 conversaciones reales del conjunto de datos WildChat y solicitamos a cada modelo que generara respuestas. Finalmente, un jurado de cinco LLM revisó estas respuestas por pares para determinar sus preferencias.

LFM2-1.2B es significativamente preferible a Llama 3.2 1B Instruct y Gemma 3 1B IT. También está a la par con Qwen3-1.7B, a pesar de ser significativamente más pequeño y rápido de ejecutar.

Las respuestas de LFM2-700M son significativamente preferidas sobre las de Qwen3-0.6B. LFM2-350M tiene un rendimiento competitivo frente a Qwen3-0.6B, con puntuaciones de preferencia casi equilibradas a pesar de su menor tamaño.

Inferencia

Exportamos LFM2 a múltiples marcos de inferencia para adaptarnos a diversos escenarios de implementación. Para la inferencia en el dispositivo, aprovechamos tanto el ecosistema PyTorch a través de ExecuTorch como la biblioteca de código abierto llama.cpp. Los modelos LFM2 se evaluaron utilizando los esquemas de cuantificación recomendados para cada plataforma (8da4w para ExecuTorch y Q4_0 para llama.cpp) y se compararon con los modelos existentes disponibles en dichos ecosistemas. El hardware de destino incluía las plataformas Samsung Galaxy S24 Ultra (SoC Qualcomm Snapdragon) y AMD Ryzen (HX370).

Comparación del rendimiento de la CPU en ExecuTorch
Comparación del rendimiento de la CPU en Llama.cpp

Como se muestra en las figuras, LFM2 domina la frontera de Pareto en velocidad de inferencia, tanto de prellenado (procesamiento de indicaciones) como de decodificación (generación de tokens), en relación con el tamaño del modelo. Por ejemplo, LFM2-700M es consistentemente más rápido que Qwen-0.6B tanto en decodificación como en prellenado en ExecuTorch y llama.cpp, a pesar de ser un 16 % mayor. El excelente rendimiento de CPU de LFM2 se transferirá a aceleradores como la GPU y la NPU tras la optimización del kernel.

Arquitectura LFM2

A continuación, describimos cómo diseñamos modelos de base líquida basándonos en la familia de redes de constante de tiempo líquidas.

Fondo

En [Hasani & Lechner et al. 2018 y 2020 ], presentamos las redes líquidas de tiempo constante (LTC), una nueva clase de redes neuronales recurrentes de tiempo continuo (RNN) de sistemas dinámicos lineales modulados por puertas interconectadas de entrada no lineal de la siguiente manera:

Redes de tiempo constante líquidas (LTC), una nueva clase de redes neuronales recurrentes de tiempo continuo (RNN) de sistemas dinámicos lineales modulados por puertas interconectadas de entrada no lineal.

donde x(t) es la entrada, y(t) es el estado, T(.) y F(.) son mapas no lineales y A es un regulador constante.

En particular, las puertas en los LTC son una generalización en tiempo continuo de la puerta dependiente de la entrada y el estado en las RNN para el modelado de secuencias. Esta propiedad nos permite un control temporal más preciso sobre la evolución del sistema, lo que facilita el aprendizaje de dinámicas “líquidas” complejas a partir de los datos. Desde entonces, numerosos estudios de nuestro equipo y de la comunidad de aprendizaje automático han integrado el concepto en las RNN, los modelos de espacio de estados [ Hasani y Lechner et al., 2022 ] y las convoluciones [ Poli y Massaroli et al., 2023 ].

Búsqueda sistemática de arquitectura neuronal en operadores LIV

Para unificar el espacio de diseño arquitectónico de sistemas líquidos eficientes, desarrollamos el concepto de operadores lineales de entrada variable (LIV) [ Thomas et al. 2024 ]. Un sistema de entrada lineal variable (LIV) es un operador lineal cuyos pesos se generan sobre la marcha a partir de la entrada sobre la que actúa, permitiendo que las convoluciones, recurrencias, atención y otras capas estructuradas se agrupan en un marco unificado que tiene en cuenta la entrada.

De manera más formal, un operador LIV se puede expresar mediante la ecuación:

Un sistema de entrada variable lineal (LIV) es un operador lineal cuyos pesos se generan sobre la marcha a partir de la entrada sobre la que actúa, lo que permite que convoluciones, recurrencias, atención y otras capas estructuradas caigan bajo un marco unificado que tiene en cuenta la entrada.

Donde x es la entrada y T es una matriz de peso dependiente de la entrada.

La flexibilidad de LIV nos permite definir y describir fácilmente una amplia gama de operadores y capas de redes neuronales en un formato jerárquico compartido. Desarrollamos STAR , nuestro motor de búsqueda de arquitecturas neuronales, para encontrar la arquitectura neuronal óptima según los criterios de calidad, memoria y latencia para la implementación.

LFM2

Nuestro objetivo con LFM2 era proporcionar la experiencia de IA generativa más rápida en SoCs integrados sin sacrificar nada. Para hacer realidad nuestra visión, empleamos STAR . Sin embargo, aplicamos modificaciones clave al algoritmo principal descrito en el artículo académico de STAR:

  1. Para evaluar las capacidades de modelado lingüístico, vamos más allá de las métricas tradicionales de pérdida de validación y perplejidad. En su lugar, empleamos un conjunto completo de más de 50 evaluaciones internas que evalúan diversas capacidades, como la recuperación de conocimientos, el razonamiento multisalto, la comprensión de lenguajes con recursos limitados, el seguimiento de instrucciones y el uso de herramientas.
  2. De igual forma, adoptamos un enfoque directo para medir la eficiencia arquitectónica en lugar de usar el tamaño de la caché KV como proxy. Realizamos pruebas reales para medir y optimizar el uso máximo de memoria y la velocidad de precarga y decodificación en CPUs SoC Qualcomm Snapdragon integradas.

La arquitectura final encontrada por STAR es LFM2, un modelo líquido con puertas multiplicativas y convoluciones cortas, es decir, sistemas lineales de primer orden que convergen a cero tras un tiempo finito. LFM2 es un híbrido de bloques de convolución y atención. Hay 16 bloques en total, de los cuales 10 son convoluciones LIV de corto alcance con doble puerta, de la siguiente forma:

def lfm2_conv(x):
  B, C, x = linear(x) 	# input projection
  x = B*x 		# gating (gate depends on input)
  x = conv(x) 		# short conv
  x = C*x 		# gating
  x = linear(x)
  return x

También hay 6 bloques de atención de consultas agrupadas (GQA), y cada bloque contiene una capa SwiGLU y una RMSNorm.

Cabe destacar que la estructura y la dependencia de LFM2 de convoluciones cortas en lugar de recurrencias completas o capas de atención se deben a la clase de dispositivo de destino, la CPU SoC integrada, así como a las bibliotecas de kernel subyacentes, que se optimizan para este tipo de cargas de trabajo y operaciones. Estamos optimizando activamente los LFM para aceleradores específicos de dominio (p. ej., GPU y NPU), ampliando el espacio de búsqueda y, finalmente, coevolucionando el hardware junto con la arquitectura del modelo.

Entrenamiento LFM2

Para nuestra primera ampliación de entrenamiento de LFM2, seleccionamos tres tamaños de modelo (350M, 700M y 1200 millones de parámetros) orientados a cargas de trabajo de modelos de lenguaje de baja latencia en el dispositivo. Todos los modelos se entrenaron con 10T de tokens extraídos de un corpus de preentrenamiento compuesto aproximadamente por un 75% de datos en inglés, un 20% multilingües y un 5% de código procedente de la web y materiales con licencia. Para las capacidades multilingües de LFM2, nos centramos principalmente en los idiomas japonés, árabe, coreano, español, francés y alemán.

Durante el preentrenamiento, aprovechamos nuestro LFM1-7B existente como modelo docente en un marco de destilación de conocimiento. Utilizamos la entropía cruzada entre las salidas de los estudiantes de LFM2 y las salidas del docente de LFM1-7B como señal principal de entrenamiento durante todo el proceso de entrenamiento de tokens de 10T. La longitud del contexto se amplió durante el preentrenamiento a 32k.

El post-entrenamiento comienza con una etapa de Ajuste Fino Supervisado (SFT) a gran escala con una mezcla diversa de datos para desarrollar capacidades generalistas. Para estos modelos pequeños, consideramos beneficioso entrenar directamente con un conjunto representativo de tareas posteriores, como RAG o llamadas a funciones. Nuestro conjunto de datos se compone de datos sintéticos de código abierto, con licencia y específicos, donde garantizamos una alta calidad mediante una combinación de puntuación cuantitativa de muestras y heurística cualitativa.

Además, aplicamos un algoritmo personalizado de Optimización de Preferencias Directas con normalización de longitud en una combinación de datos offline y semi-online. El conjunto de datos semi-online se genera mediante el muestreo de múltiples finalizaciones de nuestro modelo, basado en un conjunto de datos SFT semilla. A continuación, calificamos todas las respuestas con jueces LLM y creamos pares de preferencias combinando las finalizaciones con mayor y menor puntuación entre las muestras SFT y las que cumplen con la política. Tanto los conjuntos de datos offline como semi-online se filtran posteriormente según un umbral de puntuación. Creamos múltiples puntos de control candidatos variando los hiperparámetros y la combinación de conjuntos de datos. Finalmente, combinamos una selección de nuestros mejores puntos de control en un modelo final mediante diferentes técnicas de fusión de modelos.

Construir con LFM2

Los modelos LFM2 ya están disponibles en Hugging Face. Los publicamos bajo una licencia abierta basada en Apache 2.0. Nuestra licencia permite el uso gratuito de los modelos LFM2 con fines académicos y de investigación. Si su empresa es pequeña (con ingresos inferiores a 10 millones de dólares), también puede usarlos comercialmente. Si supera este umbral, contáctenos ( sales@liquid.ai ) para obtener una licencia comercial. Puede obtener más información sobre nuestra licencia aquí .

Dado que los modelos LFM2 están diseñados para la eficiencia en el dispositivo, recomendamos probarlos de forma privada y local en su dispositivo a través de una de las muchas integraciones como llama.cpp, o incluso ajustarlos para sus casos de uso con TRL.

Fuente: https://www.liquid.ai/blog/liquid-foundation-models-v2-our-second-series-of-generative-ai-models

Deja una respuesta