Nvidia lance Cosmos Reason pour le raisonnement robotique

.logiciel
12.08.'25 08:59
3 min

Katrien Duchène

Nvidia lance Cosmos Reason pour le raisonnement robotique

Nvidia a lancé Cosmos Reason, un modèle de vision-langage ouvert qui combine les entrées vidéo et texte pour améliorer le raisonnement et la prise de décision en robotique et dans les applications d’IA physique.

Nvidia a lancé Cosmos Reason, un modèle de vision-langage (VLM) ouvert et entièrement personnalisable conçu pour la robotique et les applications d’IA physique. Le modèle combine le traitement d’images et de texte pour aider les robots et les agents d’IA à raisonner avec des connaissances préalables, une compréhension physique et le bon sens, leur permettant ainsi de prendre des décisions dans le monde réel. Les développeurs peuvent déjà télécharger le modèle via Hugging Face.

Raisonnement étape par étape

Cosmos Reason convertit les images vidéo en tokens via un encodeur et un projecteur de vision, les combine avec des entrées textuelles et traite les deux dans un modèle central utilisant diverses techniques de LLM. Cela aboutit à un raisonnement progressif et des réponses logiques pour les tâches physiques.

Nvidia-robot — *Planification et raisonnement robotique. Source : Nvidia*

Le modèle a été affiné grâce à un fine-tuning supervisé et à l’apprentissage par renforcement. Le fine-tuning améliore les performances de plus de dix pour cent, tandis que l’apprentissage par renforcement ajoute encore cinq pour cent. Dans les tests de référence pour la robotique et les véhicules autonomes, Cosmos Reason obtient un score moyen de 65,7.

Applications en robotique et IA

Nvidia partage également quelques applications possibles, comme l’analyse et l’annotation automatisées des données, la planification robotique qui décompose des tâches complexes en étapes exécutables, et l’analyse vidéo pour des secteurs tels que le transport urbain, la production et la logistique. Les agents d’IA peuvent, par exemple, analyser les flux de trafic ou détecter des anomalies dans les usines.

Google DeepMind présente des modèles d’IA pour la robotique

Les développeurs peuvent télécharger le modèle via Hugging Face, avec les scripts d’inférence associés et les outils de post-traitement sur GitHub. Le système prend en charge divers formats vidéo et résolutions, et fonctionne sur la base de prompts textuels qui spécifient la tâche souhaitée. Un modèle optionnel d’upsampling de prompts peut affiner les instructions textuelles.

en avant

OpenAI lance GPT-5, très attendu, pour tous les utilisateurs

.cloud
08.08.'25
4 min

récemment dans logiciel

Adobe arrête son logiciel de développement AR Aero en novembre

.logiciel
11.08.'25
2 min

Snowflake permet d’exécuter du code Apache Spark sans cluster

.logiciel
08.08.'25
2 min

Teams ne vous laisse plus partager le contenu sensible de votre écran

.logiciel
08.08.'25
3 min

plus logiciel

sol

table ronde

Cloud 2025

.cloud
07.07.'25
5 min

Table Ronde Travail hybride 2025

.bureau
05.06.'25
5 min

plus de tables rondes

événements

Isaca – Webinar—Mastering the Art of Cyberthreat Defense with IAM & SIEM

14/08/2025

Maximize your SupportAssist for Business PCs Experience through our MasterClass

19/08/2025

From Dashboard to Autopilot: How SAS Visual Analytics on SAS® Viya® Transforms the AI Data Journey

26/08/2025

plus d'events

Itdaily - Nvidia lance Cosmos Reason pour le raisonnement robotique

Raisonnement étape par étape

Applications en robotique et IA

Google DeepMind présente des modèles d’IA pour la robotique