Zamba2-VL : Zyphra révolutionne les modèles vision-langage avec un backbone hybride Mamba2-Transformer

Zyphra a dévoilé Zamba2-VL, une famille de modèles vision-langage open source déclinés en trois tailles : 1,2 milliard, 2,7 milliards et 7 milliards de paramètres. Leur particularité réside dans une architecture hybride combinant un backbone Mamba2 (basé sur les state-space models) et un Transformer classique. Contrairement aux approches purement transformer, cette hybridation permet de réduire significativement le temps de génération du premier token, un gain estimé à environ un ordre de grandeur par rapport aux modèles vision-langage (VLM) comparables.

Les modèles Zamba2-VL, distribués sous licence Apache 2.0, maintiennent des performances compétitives avec les VLM basés sur des transformers de taille équivalente. Leur efficacité repose sur l’intégration des mécanismes de state-space de Mamba2, qui optimisent le traitement des séquences longues tout en réduisant la latence initiale. Cette innovation cible particulièrement les applications nécessitant une réactivité accrue, comme les interfaces conversationnelles ou les systèmes de génération d’images en temps réel.

Zamba2-VL se positionne comme une alternative viable aux architectures purement transformer, avec un compromis entre performance et latence améliorée.