Przygotowanie danych fine-tuning z Open-SWE-Traces od NVIDIA

NVIDIA udostępniła szczegółowy poradnik dotyczący pracy z datasetami Open-SWE-Traces bezpośrednio ze źródła Hugging Face. Podejście pozwala na efektywne przetwarzanie dużych zbiorów danych w Google Colab bez konieczności pobierania wszystkiego na komputer. Kluczowym elementem jest streaming danych, który umożliwia pracę z całym zbiorem bez przytłaczających wymagań sprzętowych.

Praktyczną część stanowi inspekcja poszczególnych rekordów i normalizacja rozmów wieloturowych agentów. Artykuł pokazuje jak parsować ostateczne patche kodu, wyciągać użyteczne metadane i budować DataFrame do analizy długości trajektorii, użycia narzędzi, rozmiaru patchy, rozkładu języków programowania i wyników rozwiązań. Te informacje są niezbędne do zrozumienia charakteru danych przed przystąpieniem do fine-tuning.

Końcowym celem jest stworzenie wyselekcjonowanego podzbioru danych do supervised fine-tuning. Proces filtracji opiera się na etykietach sukcesu, limitach tokenów, filtrach języków i dostępności patchy kodu. Takie podejście zapewnia wysoką jakość danych treningowych i pozwala uniknąć obciążeń związanych z przetwarzaniem niskich jakości próbek. Poradnik zawiera gotowy kod do instalacji zależności oraz konkretne przykłady pracy z datasetami w Pythonie.