Google wprowadza umiejętność obsługi komputera w Gemini 3.5 Flash

Google DeepMind zaprezentował nową możliwość dla modelu Gemini 3.5 Flash - umiejętność obsługi interfejsów komputerowych poprzez rozumienie wizualne i interakcję z elementami ekranu. Model może teraz klikać w przyciski, wypełniać formularze, scrollować strony i nawigować po aplikacjach dokładnie jak człowiek, ale w oparciu o instrukcje tekstowe.

Ta funkcjonalność to znaczący skok w autonomii AI. Dotychczas modele mogły tylko analizować obrazy i generować tekst - teraz mogą faktycznie działać w świecie cyfrowym, automatyzując pracę z oprogramowaniem biurowym, platformami internetowymi czy systemami biznesowymi. Gemini 3.5 Flash jest szybkim i efektywnym modelem, co czyni tę umiejętność praktyczną dla rzeczywistych zastosowań.

Rozwinięcie computer use otwiera nowe scenariusze użycia - od automatyzacji powtarzalnych zadań administracyjnych, przez testowanie oprogramowania, aż do obsługi złożonych systemów biznesowych. Jednak rodzi też pytania o bezpieczeństwo i kontrolę nad autonomicznymi działaniami AI, szczególnie gdy modele będą mogły samodzielnie podejmować decyzje dotyczące dostępu do systemów i danych.