Sebastian Raschka opisał swoją metodologię do analizy i wizualizacji architektur dużych modeli językowych, którymi posługuje się w artykułach, prezentacjach i LLM-Gallery. Zamiast polegać wyłącznie na publikowanych raportach technicznych, które stały się coraz mniej szczegółowe, specjalnie dla open-weight modeli z laboratorium przemysłowych, sięga po konkretne artefakty kodu - pliki konfiguracyjne i implementacje referencyjne dostępne w bibliotece Python transformers oraz na Hugging Face Model Hub.
Wykorzystanie pracującego kodu jest kluczowe, bo jak mówi Raschka, kod nie kłamie. Ta metoda działa przede wszystkim dla modeli z opublikowanymi wagami - nie ma zastosowania do modeli proprietary takich jak ChatGPT, Claude czy Gemini, gdzie szczegóły architektury pozostają chronione. Workflow przepływa od plików konfiguracyjnych i kodu źródłowego do rzeczywistych wglądów w architekturę.
Raschka podkreśla, że jest to celowo proces ręczny, choć części mogą być zautomatyzowane. Jego zdaniem, jeśli celem jest rzeczywiste zrozumienie jak te architektury działają, to manualne przeanalizowanie kilku modeli pozostaje jednym z najlepszych sposobów nauki. To praktyczne podejście łączy teoretyczną wiedzę z bezpośrednią inspekcją rzeczywistych implementacji.