Google wprowadza TabFM: foundation model dla danych tabelarycznych z zero-shot learning

Google Research zaprezentowało TabFM - foundation model dedykowany danym tabelarycznym, który radzi sobie z klasyfikacją i regresją bez żadnego trenowania. W przeciwieństwie do tradycyjnych podejść takich jak XGBoost czy random forests, TabFM przetwarza całą tabelę w jednym promptcie i dokonuje predykcji za pośrednictwem in-context learning.

Architektura TabFM łączy mechanizmy uwagi na poziomie wierszy i kolumn (inspirowane TabPFN) z podejściem in-context learning (inspirowane TabICL). Model został trenowany na setach milionów syntetycznych zbiorów danych pochodzących z modeli przyczynowych. Kluczowa zaleta TabFM polega na całkowitym wyeliminowaniu czasochłonnych etapów takich jak dobór hiperparametrów, feature engineering czy dostrajanie modelu - data scientists mogą natychmiast stosować model do nowych tabel bez żadnych przygotowań. To stanowi odpowiedź na długoletni problem w pracy z danymi ustrukturyzowanymi, gdzie nawet najprostsze zastosowanie tradycyjnych modeli wymagało godzin pracy przygotowawczej.

Google planuje udostępnić TabFM bezpośrednio w BigQuery poprzez komendę AI.PREDICT SQL, co pozwoli data scientists na łatwe wykorzystanie tego modelu w swoim codziennym workflows. Model jest już dostępny na Hugging Face i GitHub, podobnie jak TimesFM - zero-shot model Google do prognozowania szeregów czasowych - co sugeruje kierunek, w którym Google zmierza w standaryzacji podejścia bez trenowania do różnych typów danych biznesowych.