Lyra 2.0 est un __framework open source__ développé par le Nvidia Spatial Intelligence Lab qui transforme une seule image en __monde 3D persistant et explorable__. Le système s'appuie sur un modèle de diffusion vidéo, génère un parcours caméra contrôlé puis reconstruit le résultat en __3D Gaussian Splats__ et meshes. Distribué sous licence Apache 2.0 avec poids et code disponibles sur Hugging Face et GitHub, il est utilisable pour la simulation robotique, le storyboarding et la création immersive.
Qu'est-ce que Lyra 2.0 (Nvidia) ?
Lyra 2.0 est un framework de recherche open source dédié à la génération de mondes 3D persistants à partir d'images. Là où d'autres approches produisent des séquences vidéo limitées dans le temps, Lyra 2.0 mise sur la cohérence spatiale et temporelle pour offrir un environnement explorable en temps réel, exportable vers des moteurs comme NVIDIA Isaac Sim. Le projet est piloté par le Nvidia Spatial Intelligence Lab et publié sous licence Apache 2.0, avec l'ensemble du code et des poids disponibles sur Hugging Face et GitHub. Cette ouverture en fait une référence à la fois pour la recherche académique et pour l'industrie qui veut intégrer la génération 3D dans des produits.
Fonctionnalités principales
Lyra 2.0 propose plusieurs innovations techniques. Le pipeline part d'une seule image source et génère une vidéo de parcours caméra à l'aide d'un modèle de diffusion vidéo basé sur Wan 2.1-14B. Cette vidéo est ensuite reconstruite en 3D Gaussian Splats et en meshes, ce qui permet une exploration en temps réel et un export vers des moteurs physiques. Pour résoudre les problèmes classiques de cohérence, Lyra 2.0 introduit deux idées fortes : une géométrie par image pour le routage d'information, qui réduit la perte spatiale, et un entraînement auto-augmenté qui apprend au modèle à corriger ses propres dérives temporelles. Le résultat est un environnement plus stable, plus cohérent et plus utilisable que les approches précédentes. Le framework intègre des outils pour exporter facilement les scènes vers Isaac Sim, ce qui ouvre la voie à des entraînements robotiques basés sur des environnements générés. Lyra 2.0 repose sur un pipeline modulaire que les chercheurs peuvent étendre, modifier ou combiner avec d'autres modèles. La distribution open source s'accompagne de scripts d'inférence, de modèles pré-entraînés et de notebooks d'exemple pour faciliter l'adoption.
Cas d'usage
Lyra 2.0 adresse plusieurs profils de créateurs et de chercheurs. Les laboratoires de robotique l'utilisent pour entraîner leurs agents dans des environnements 3D générés à grande échelle, ce qui réduit la dépendance à des scans physiques coûteux. Les studios de jeux vidéo et de réalité virtuelle l'exploitent pour produire des décors préliminaires ou des environnements expérimentaux. Les équipes de production cinématographique l'utilisent pour le storyboarding immersif, en transformant des concepts en scènes explorables avant le tournage. Les chercheurs en computer vision intègrent le framework dans leurs propres pipelines pour étudier la cohérence spatiale et temporelle. Les créateurs en réalité augmentée explorent enfin la possibilité de générer des environnements personnalisés à partir d'images de référence.
Avantages
Adopter Lyra 2.0 apporte plusieurs bénéfices pour les utilisateurs avancés. La rapidité de production de scènes 3D explorables est radicalement supérieure aux pipelines traditionnels, qui exigent modélisation, texturing et éclairage manuels. La licence Apache 2.0 autorise un usage commercial sans contrainte, ce qui rend le framework attractif pour les startups et les éditeurs. La compatibilité avec les outils Nvidia comme Isaac Sim simplifie l'intégration dans des chaînes existantes. La qualité spatiale et temporelle améliore la fiabilité des environnements pour la simulation et la formation d'agents IA. Enfin, l'ouverture du code et des poids favorise une communauté active qui contribue à l'évolution du framework et propose des optimisations adaptées à différents matériels.
Tarifs
Lyra 2.0 est un projet open source distribué gratuitement sous licence Apache 2.0. Le code est disponible sur GitHub, les poids sur Hugging Face, et l'utilisation locale ou cloud du framework ne nécessite pas de licence commerciale supplémentaire. Les coûts associés concernent essentiellement les ressources GPU nécessaires à l'inférence ou à l'entraînement, qui peuvent être importants en fonction des cas d'usage. Pour les équipes ne disposant pas de leur propre infrastructure, des fournisseurs cloud comme AWS, GCP ou des plateformes spécialisées proposent des GPU H100 ou équivalents adaptés à ces charges.
Conclusion
Lyra 2.0 est une avancée majeure pour la génération de mondes 3D à partir d'images. Son ouverture, sa qualité et son intégration au pipeline Nvidia en font un framework de référence pour la recherche et certains usages industriels. Pour les utilisateurs grand public, l'outil restera trop technique, mais pour les studios, laboratoires et équipes ML ambitieuses, c'est un must-have.