Alibaba opublikowała Page Agent - narzędzie do automatyzacji stron internetowych, które fundamentalnie różni się od tradycyjnych podejść. Zamiast kontrolować przeglądarkę z zewnętrznego procesu poprzez zrzuty ekranu czy Chrome DevTools Protocol, Page Agent działa jako zwykły kod JavaScript bezpośrednio na stronie. Agent czyta живой DOM jako tekst i wykonuje akcje jak zwykły użytkownik, bez potrzeby headless browsera czy modeli wspierających wizję.
Technicznie Page Agent kompresuje stronę w strukturę FlatDomTree poprzez "DOM dehydration", co pozwala mniejszym modelom tekstowym działać precyzyjnie. Narzędzie jest model-agnostyczne - pracuje z dowolnym endpointem kompatybilnym z OpenAI. Kod napisany w TypeScript'ie bazuje na browser-use i oparty jest na MIT license. Ponieważ agent działa w sesji przeglądarki, automatycznie dziedziczy ciasteczka, sesję i uwierzytelnienie użytkownika - bez potrzeby pisania dodatkowego backendu.
Page Agent najlepiej sprawdza się w scenariuszach, gdzie masz pełną kontrolę nad aplikacją - do tworzenia copilotów i automatyzacji formularzy w aplikacjach własnych. Ma jednak rzeczywiste ograniczenia: bezpieczeństwo na poziomie promptu oraz zakres pojedynczej strony. Dla bardziej ryzykownych operacji trzeba utrzymać walidację po stronie serwera. Nie jest idealne do automatyzacji obcych lub zamkniętych stron internetowych.