AMD introduit Instella, une famille de modèles de langage entièrement ouverts comportant 3 milliards de paramètres. Les modèles ont été entraînés sur des GPU AMD Instinct MI300X et, selon AMD, surpassent les modèles entièrement ouverts existants de taille comparable.
AMD présente Instella. Instella est une série de modèles de langage à trois milliards de paramètres, entièrement entraînés sur du matériel AMD. Selon AMD, ces modèles non seulement surpassent les modèles entièrement ouverts existants, mais rivalisent également avec des modèles à poids ouverts tels que Llama-3.2-3B, Gemma-2-2B et Qwen-2.5-3B. AMD met à disposition les poids des modèles, les configurations d’entraînement, les ensembles de données et le code afin de promouvoir la collaboration au sein de la communauté de l’IA.
Instella s’appuie sur les précédents modèles à un milliard de paramètres d’AMD, qui ont été entraînés sur des GPU Instinct MI250. Avec Instella, le modèle a été mis à l’échelle et entraîné avec 4,15 billions de tokens sur 128 GPU MI300X. Cela démontre l’évolutivité du matériel d’AMD pour les entraînements d’IA à grande échelle. C’est important, car pour beaucoup, Nvidia reste synonyme de matériel d’IA. Des annonces comme celle-ci aident à positionner les accélérateurs d’AMD sur le marché comme une alternative intéressante.
Différents modèles
Instella comprend différentes versions : un modèle de pré-entraînement de base, une version affinée, et des modèles avec supervision et ajustement par instructions. Les modèles prennent en charge une longueur de séquence allant jusqu’à 4 096 tokens et sont optimisés pour l’efficacité grâce à des techniques telles que FlashAttention-2 et Fully Sharded Data Parallelism.
Lors des tests de référence effectués par AMD, Instella-3B surpasse les autres modèles entièrement ouverts et s’approche des performances des modèles fermés et à poids ouverts. Il montre notamment de solides résultats pour des charges de travail telles que MMLU et GSM8K.
En ouvrant Instella, AMD vise à contribuer à la recherche et au développement en IA. L’entreprise prévoit d’autres améliorations, notamment l’extension de la longueur de contexte et des fonctionnalités multimodales.