Google DeepMind przedstawia Vision Banana – generator obrazów przewyższający SAM 3 i Depth Anything

Google DeepMind zaprezentował Vision Banana - nowy model generatywny, który przekracza możliwości dotychczasowych liderów rynku w zadaniach widzenia komputerowego. Model z zastosowaniem instruction-tuningu wykazuje lepsze wyniki niż SAM 3 w segmentacji obrazów oraz lepiej niż Depth Anything V3 radzi sobie z estymacją głębi metrycznej, czyli precyzyjnym określaniem odległości obiektów w scenie.

Vision Banana jest kolejnym krokiem w ewolucji modeli wizyjnych, które mogą być instruowane jak zwykłe modele językowe. To oznacza, że zamiast być sztywno przypisanym do jednego konkretnego zadania, model potrafi elastycznie podejść do różnych problemów - od segmentacji (wydzielania obiektów na obrazie) po skalowanie odległości w świecie rzeczywistym. Takie uniwersalne podejście ma potencjał zrewolucjonizować przepływy pracy w robotyce, autonomicznych pojazdach czy analityce medycznej, gdzie precyzyjna percepcja wizualna jest krytyczna dla działania systemów.

Sukces Vision Banana podkreśla dynamikę konkurencji w sektorze open-source i komercyjnych modeli sztucznej inteligencji. Podczas gdy Meta dominowała polami z SAM 3, a inżynierowie z OpenAI i innych laboratoriów pracowali nad Depth Anything V3, Google DeepMind pokazuje, że instruction-tuning - technika zapomniana przez część branży w obliczu skali treningowych danych - może dać znaczną przewagę. To zwraca uwagę całej branży na elastyczność modeli i wagi instrukcji w osiąganiu lepszych wyników w zadaniach, które wcześniej wymagały wyspecjalizowanych architektur.