Program-of-Layers: inteligentne pomijanie i pętlowanie warstw w modelach LLM

Badacze z arXiv odkryli zajmujące właściwości dużych modeli językowych: okazuje się, że nie trzeba zawsze wykonywać wszystkie warstwy w tej samej kolejności. Zamiast tradycyjnego przejścia przez całą sieć, poszczególne warstwy mogą być pomijane lub powtarzane dla każdego zadania. To odkrycie doprowadziło do opracowania metody PoLar (program-of-layers), która dynamicznie dostosowuje ścieżkę obliczeniową do konkretnego wejścia.

Tradycyjnie LLM-y działają jak na torze w jedna stronę — każda warstwa wykonuje się dokładnie raz w ustalonej kolejności. Nowa technika pokazuje, że ta sztywność jest niepotrzebna. Dla większości przykładów można przejść przez mniej warstw i uzyskać takie same lub jeszcze lepsze wyniki. Czasami dodatkowe przejście przez pewne warstwy poprawia odpowiedzi, które oryginalny model błędnie przewidział. To sugeruje, że wewnątrz LLM-ów kryje się wiele możliwych ścieżek rozumowania, których wykorzystujemy tylko wierzchołek góry lodowej.

Aby to praktycznie wdrożyć, zespół zaproponował lekką sieć neuronową, która dla każdego wejścia generuje program wykonywania — decyduje, które warstwy pominąć, a które powtórzyć. Eksperymenty na benchmarkach matematycznych wykazały konsekwentną poprawę dokładności oraz zmniejszenie liczby wykonywanych operacji. Wyniki utrzymują się nawet dla danych spoza zbioru treningowego. Odkrycie to sugeruje, że przyszłe modele mogą być znacznie bardziej efektywne, jeśli pozwolimy im dynamicznie dostosowywać głębokość wykonania.