Des chercheurs américains présentent LegoGPT : un modèle d’IA qui construit des étagères et d’autres structures avec des briques Lego à partir de prompts textuels.
L’IA générative permet aujourd’hui de créer de nombreuses choses. Des textes aux images, en passant par la vidéo ou la musique : il existe désormais un modèle d’IA pour tout. Des chercheurs de l’Université Carnegie Mellon à Pittsburgh, aux États-Unis, proposent ce qui pourrait être le modèle le plus original à ce jour : LegoGPT. Comme son nom le suggère, ce modèle est spécialisé dans la manipulation de briques Lego.

Du texte au Lego
Dans un article, les chercheurs démontrent le fonctionnement du modèle. Fondamentalement, il n’est pas très différent des autres modèles d’IA fonctionnant avec des prompts textuels. Vous décrivez ce que vous souhaitez et le modèle le convertit en un jumeau numérique d’une construction Lego. Si vous reliez le modèle à un bras robotique, vous n’avez même pas besoin de placer les blocs vous-même. D’une étagère à une guitare en passant par une table : LegoGPT peut gérer diverses constructions.
LegoGPT prédit étape par étape quelle pièce doit être placée quand et où. À chaque étape, il vérifie si les briques sont correctement placées, physiquement possibles et si la structure reste stable. Si une structure s’avère instable, le système revient automatiquement à la dernière conception stable.
47 000 structures Lego
Pour entraîner le modèle, les chercheurs ont créé un nouveau jeu de données : StableText2Lego. Celui-ci contient plus de 47 000 structures Lego avec plus de 28 000 objets uniques, chacun associé à des descriptions détaillées. De plus, chaque conception a été analysée pour sa stabilité physique. Ces textes ont été générés en rendant des objets Lego sous 24 angles différents, suivis d’une génération de texte via GPT-4o. Le modèle est dérivé du Llama de Meta.
Outre les structures de base, le modèle peut également ajouter des textures et des couleurs basées sur des descriptions axées sur le style. Dans les démonstrations, un robot a également réussi à assembler physiquement et automatiquement plusieurs modèles générés. L’ensemble du jeu de données, le modèle et le code ont été rendus publiquement disponibles.