Profesor Outputmaxxingu - Anjney Midha i sztuka optymalizacji GPU

Frontier lab xAI działa z wykorzystaniem zaledwie poniżej 10 procent Model FLOPs Utilization (MFU), co stanowi dramatyczną różnicę w stosunku do poprzednich pokoleń modeli. Dla porównania GPT-3 osiągał około 21 procent MFU, Gopher 32 procent, Megatron-Turing NLG 30 procent, a PaLM 46 procent. Obecne best-in-class rozwiązania osiągają około 60-70 procent MFU, co oznacza że nawet największe laboratoria mają ogromne pole do poprawy.

Problem nie leży w samej niedostateczności sprzętu czy braku talentów w xAI, ale w priorytetach całej branży. Podczas gdy dostęp do GPU rzeczywiście stanowi wąskie gardło, zwykłe zwiększanie nakładów kapitałowych nie przełoży się automatycznie na lepsze modele. Szkolenie frontier AI stało się zagadnieniem systemowym, gdzie liczą się detale: scheduling procesów, optymalizacja sieci, wydajne kernele, frameworki, pipeline'i danych, strategia parallelizmu i niezawodność klastrów.

To jest prawdziwy lek na skalowanie - nie więcej GPU, ale inteligentniejsze wykorzystanie tych, które już mamy. Każdy procent poprawy w MFU może oznaczać miliony dolarów zaoszczędzonych na CapEx, a jednocześnie szybszy postęp w trenowaniu modeli. Brańża skupiała się dotychczas na wyścigu sprzętowym, ignorując że real bottleneck leży w tylach minut decyzji technicznych, które razem warunkują czy teoretyczne FLOPs staną się rzeczywistym postępem w trenowaniu.