Badacze z arXiv zaprezentowali MetaFlow, podejście które zmienia sposób, w jaki duże modele języka podchodzą do złożonych zadań obliczeniowych. Zamiast uczenia się generować instancje rozwiązań dla indywidualnych problemów, MetaFlow uczy się komponować workflow'i - sekwencje kroków zawierające powtarzające się wzorce algorytmiczne na poziomie zadania.
System opiera się na meta-learningowym podejściu w dwuetapowym treningu. Najpierw model przechodzi supervised fine-tuning na syntetycznych danych workflow'ów, aby nauczyć się podstawowych struktur. Następnie wchodzi w grę reinforcement learning z weryfikowalnymi nagrodami (RLVR), który wykorzystuje feedback z faktycznych wykonań na wielu instancjach zadania, aby iteracyjnie poprawiać skuteczność generowanych workflow'ów od końca do końca.
Taka architektura przynosi znaczące praktyczne korzyści dla deploymentu. Wygenerowane workflow'i zapewniają spójność strukturalną potrzebną do niezawodnego działania, oferują interpretowalne ścieżki dla debugowania oraz można je ponownie wykorzystywać na różnych instancjach tego samego problemu. Kluczowe jest to, że MetaFlow wykazuje silną zdolność uogólniania - produkuje efektywne workflow'i dla testowanych zadań, ale jednocześnie generalizuje do zupełnie nowych zadań i nieznanych zbiorów operatorów. W benchmarkach obejmujących question answering, generowanie kodu i matematyczne rozumowanie, system uzyskuje wyniki porównywalne z metodami state-of-the-art, co sugeruje praktyczną wartość tego podejścia dla szerokich zastosowań.