IBM lance Granite 4.0, une série de modèles de langage open source avec une architecture hybride Mamba-Transformer.
IBM présente Granite 4.0, une nouvelle génération de modèles de langage open source avec une architecture hybride. Les modèles Granite 4.0 combinent les technologies Transformer et Mamba pour de meilleures performances avec une consommation de mémoire et des coûts réduits. C’est la première famille de modèles ouverts à obtenir une certification ISO 42001.
Moins de mémoire, coûts réduits
La série Granite 4.0 comprend différentes tailles de modèles : Granite-4.0-H-Small, Granite-4.0-H-Tiny et Granite-4.0-H-Micro. Ils sont développés avec une architecture hybride qui combine des couches Mamba avec des couches Transformer. Cette approche réduit les exigences en mémoire pour l’inférence de plus de 70 % par rapport aux modèles traditionnels.
Grâce à cette efficacité, les modèles peuvent fonctionner sur du matériel moins coûteux, y compris les GPU AMD Instinct MI300X et les NPU Qualcomm Hexagon. Cela les rend adaptés aux applications en périphérie ou sur des infrastructures locales. Les modèles prennent en charge des longueurs de contexte plus importantes jusqu’à 128 000 tokens et sont optimisés pour les tâches d’IA agentique telles que le suivi d’instructions, les appels d’outils et les workflows RAG.
lire aussi
IBM et la NASA lancent un modèle d’IA pour prédire les éruptions solaires
Granite 4.0 est disponible en open source sous licence Apache 2.0. Les modèles sont proposés via IBM watsonx.ai et des partenaires tels que Dell Technologies, Docker Hub, Hugging Face, Nvidia NIM, Kaggle et Replicate. La prise en charge sur Amazon SageMaker et Microsoft Azure est en préparation.
Validation et sécurité
Granite 4.0 est la première famille de modèles ouverts à obtenir une certification ISO/IEC 42001:2023. Cela confirme que le processus de développement d’IBM répond aux normes internationales en matière de sécurité, de gouvernance et de responsabilité dans l’IA. IBM signe cryptographiquement tous les points de contrôle des modèles et a lancé un programme de primes aux bogues en collaboration avec HackerOne pour renforcer davantage la sécurité des modèles.
Pour l’entraînement, IBM a utilisé un ensemble de données de 22 billions de tokens, composé de sources commerciales et ouvertes. Tous les modèles ont été entraînés en mettant l’accent sur le langage, le raisonnement, le multilinguisme et la sécurité. Pour la première fois, IBM divise les modèles en variantes distinctes pour le suivi des instructions et le raisonnement complexe. Les variantes d’instruction sont maintenant disponibles. Les modèles de raisonnement suivront plus tard en 2025.