La startup française d’IA Mistral a développé son premier modèle d’IA multimodale. Pixtral 12B est basé sur NeMo 12B et comprend 12 milliards de paramètres.
Mistral AI lance son premier modèle d’IA capable de traiter à la fois des images et du texte. Pixtral 12B est le nouveau et premier modèle multimodal de Mistral AI, basé sur l’un des modèles de texte de Mistral AI, NeMo 12B. L’entreprise a seulement publié un lien via Hugging Face où les développeurs peuvent télécharger Pixtral 12B. Aucune information sur les détails techniques et les conditions exactes de licence n’a encore été communiquée.
Modèle multimodal
En juillet, l’entreprise a annoncé son plus grand modèle d’IA à ce jour, Large 2, qui est un concurrent des autres LLM existants. Ce qui manque à ce modèle, c’est l’aspect multimodal. Mistral AI essaie maintenant d’offrir cet aspect avec le nouveau Pixtral 12B. Ce modèle est basé sur le NeMo 12B de Mistral, a une taille d’environ 24 Go et contient 12 milliards de paramètres.
Pixtral 12B peut répondre à des questions sur un nombre arbitraire d’images de taille arbitraire et sur des URL d’images données ou des images encodées avec base64, le système d’encodage binaire en texte. Les données d’images utilisées par Mistral pour développer Pixtral 12B ne sont pas encore claires.
Disponibilité
Le modèle est disponible sur Hugging Face où il peut être téléchargé, affiné et utilisé sous la licence standard de Mistral. Une licence payante serait nécessaire pour les applications commerciales, à l’exception de la recherche et de l’enseignement. L’entreprise n’a pas encore communiqué sur les détails techniques et les conditions exactes de la licence.
Mistral AI est une entreprise récente qui a déjà développé une série de modèles d’IA, profitant de sa place dans le paysage de l’IA. Par exemple, l’entreprise d’IA a lancé NeMo en collaboration avec Nvidia, peu de temps après le modèle d’IA Large 2 a vu le jour. De plus, Mistral s’adresse également aux développeurs, avec le lancement de Codestral : son modèle d’IA pour le codage.