Naukowcy zajmujący się sztuczną inteligencją zwykle skupiają się na analizie gotowych modeli — patrzą, jak się zachowują, i próbują "naprawić" problemy już po treningu. Taka strategia "fix it in post" jest jednak niewystarczająca. Artykuł postuluje zmianę podejścia: zamiast traktować modele jak statyczne obiekty, powinniśmy badać dynamiczne procesy, które się podczas nich kształtują.

Model to nie gotowy snapshot — to wynik ciągu decyzji treningowych, wpływu danych, celów optymalizacyjnych i architektury sieci. Rozumienie, dlaczego konkretne zachowania lub błędy się pojawiają, wymaga zagłębienia się w to, co dzieje się podczas samego trenowania. Scaling laws już pokazały, że możemy przewidywać straty na podstawie wczesnych sygnałów — teraz trzeba rozszerzyć to na zdolności modelu, błędy, niezawodność i kwestie bezpieczeństwa.

Gdybyśmy potrafili przewidywać problematyczne trajektorie na wczesnym etapie i interweniować, moglibyśmy projektować procedury treningowe, które z większą pewnością produkują modele o pożądanych właściwościach. To wymagałoby badań w mechanistycznej interpretowalności, uczciwości algorytmów, fenomenu memoryzacji i uprzedzeń indukcyjnych. Dopiero takie fundamentalne zrozumienie mogłoby stanowić podstawę naprawdę naukowego podejścia do AI.