NVIDIA zaprezentowała Cosmos 3, zaawansowany model świata, który łączy zdolności rozumowania o fizyce z generowaniem symulacji i planowaniem akcji. Model opiera się na architekturze dwuwieżowej Mixture-of-Transformers, gdzie autoregresyjny VLM (Vision Language Model) odpowiada za wnioskowanie i rozumowanie, a dyfuzyjny generator zajmuje się tworzeniem nowych światów i scenariuszy.
Kluczową innowacją Cosmos 3 jest jego omnimodalny charakter — model potrafi pracować z wieloma rodzajami danych jednocześnie, co pozwala mu na głębokie zrozumienie zarówno percepcji wizualnej, jak i zasad fizyki rządzącej światem. Ta integracja fizycznego rozumowania z generowaniem świata otwiera nowe możliwości dla robotyki, symulacji i AI zdolnej do planowania złożonych scenariuszy.
Releasing open-source'owego Cosmos 3 przez NVIDIA sygnalizuje kierunek branży w stronę bardziej otwartych i dostępnych modeli world model. Ma to potencjał przyspieszyć badania nad fizyczną AI i rozwojem systemów autonomicznych, które mogą lepiej przewidywać i działać w rzeczywistych warunkach świata.