Badacze opracowali alternatywną architekturę dla dużych modeli językowych, która nie opiera się na tradycyjnych głębokich sieciach neuronowych. Nowe podejście potencjalnie oferuje korzyści w zakresie wydajności obliczeniowej i interpretowalności modeli. Badanie zawiera praktyczne case study oraz analizę zalet nowej metody w porównaniu z konwencjonalnymi LLM-ami.
Badania
arXiv CS.LG