LLM-y bez głębokich sieci neuronowych: nowa architektura i zastosowania

Naukowcy zbudowali dużego modela języka działającego bez tradycyjnych głębokich sieci neuronowych, co stanowi poważny odstęp od powszechnie stosowanego podejścia transformer-owego. Zamiast klasycznej architektury opartej na warstwach neuronów, zespół badaczy zaproponował alternatywny mechanizm przetwarzania tekstu, który jednak wciąż potrafi wykonywać zadania znane z GPT-4 czy Llamy. Kluczową zaletą tego rozwiązania jest wyraźnie niższe zużycie mocy obliczeniowej - model wymaga mniej zasobów komputerowych zarówno na etapie trenowania, jak i podczas wnioskowania.

Sprawa jest ważna dla całej branży AI, ponieważ obecne wielkomiliardowe modele pochlaniają ogromne ilości energii i wymagają specjalistycznego sprzętu. Jeśli nowa architektura rzeczywiście oferuje zbliżoną funkcjonalność przy niższych kosztach, mogłaby zdecentralizować rozwój sztucznej inteligencji i udostępnić zaawansowane LLM-y firmom i badaczom z mniejszym budżetem. Dodatkowo, metoda ta ma większą interpretowalność - naukowcy łatwiej mogą wyjaśnić, jak model dochodzi do swoich decyzji, co jest ważne dla bezpieczeństwa AI.

Badacze popierają swoje tezy kilkoma case study, w których nowy model konkuruje z klasycznymi transformerami na standardowych benchmarkach. Oczywiście, zbyt wcześnie na pewne wnioski - potrzeba dalszych eksperymentów w praktycznych scenariuszach produkcyjnych. Jeśli jednak wyniki się potwierdzą, mogą one zainspirować falę innowacji w projektowaniu efektywniejszych modeli i przyczynić się do bardziej zrównoważonego rozwoju technologii AI.