Zespół badawczy opracował CodeBlock – framework, który rewolucjonizuje sposób, w jaki szkolimy modele do generacji kodu. Zamiast tradycyjnego podejścia, które aplikuje jednakową stratę do każdego tokena w odpowiedzi, CodeBlock inteligentnie wybiera tylko te fragmenty kodu, które przynoszą największą wartość edukacyjną.

Klucz do innowacyjności tego podejścia leży w zrozumieniu, że kod to nie zwykły tekst. Podczas gdy poprzednie metody token-level selection działały dobrze dla tekstu naturalnego, ich bezpośrednie przeniesienie na kod prowadziło do rozbijania syntaktycznie spójnych jednostek programu. CodeBlock najpierw identyfikuje wysokiej jakości pary instrukcji-odpowiedzi, potem dzieli odpowiedzi kodowe na syntaktycznie spójne bloki, ocenia ich przydatność poprzez analizę tokenów logiki kodu oraz porządkuje je na podstawie przepływu danych i powiązań między zmiennymi.

Wyniki eksperymentów na sześciu benchmarkach generacji kodu są imponujące: CodeBlock osiąga lepsze rezultaty pass@1 niż tradycyjne szkolenie z pełnym tekstem, a wszystko to przy użyciu zaledwie 1,9% tokenów z oryginalnych odpowiedzi. To sugeruje, że ogromna ilość informacji w kodzie jest redundantna i można ją efektywnie pomijać. Dla praktyki szkolenia modelów kodowych oznacza to potencjał do znacznego zmniejszenia wymaganych zasobów obliczeniowych bez utraty jakości rezultatów.