Naukowcy przedstawili nową metodę GEM do wyboru najlepszych danych treningowych dla dużych modeli językowych, wykorzystując geometryczne podejście oparte na entropii. Technika ta pozwala efektywniej kurować zbiory danych poprzez identyfikację i mieszanie próbek o optymalnych właściwościach informacyjnych. Badania mogą znacząco poprawić jakość treningu modeli AI i zmniejszyć koszty obliczeniowe poprzez selekcję bardziej wartościowych danych zamiast używania całych zbiorów.
Badania
arXiv CS.LG