Naukowcy zaprezentowali EdgeRazor, lekką metodę do optymalizacji dużych modeli językowych (LLM) dla urządzeń brzegowych. Framework łączy kwantyzację mieszanej precyzji z destylacją świadomą kwantyzacji, umożliwiając efektywne uruchamianie zaawansowanych modeli AI na urządzeniach o ograniczonych zasobach. Rozwiązanie jest istotne dla rozpowszechniania AI na smartfonach, IoT i innych urządzeniach brzegowych, zmniejszając koszty obliczeniowe bez znacznej utraty wydajności modelu.
Badania
arXiv CS.LG