ByteDance opublikowała model Lance zdolny do rozumienia, generowania i edycji obrazów oraz wideo przy użyciu jednej architekektury. Model obsługuje trzy modalności (obraz, wideo, tekst) w ramach ujednoliconego systemu, co upraszcza tworzenie aplikacji multimodalnych. Rozwiązanie może znacząco przyspieszyć rozwój narzędzi do przetwarzania mediów i uczynić je bardziej dostępnymi dla badaczy i deweloperów.
Badania
MarkTechPost