Naukowcy z arXiv opracowali nową metrykę Normalized Context Utilization do pomiaru rzeczywistego wykorzystania informacji z kontekstu w systemach RAG, zamiast polegać na tradycyjnych heurystycznych metodach oceny. Problem tkwi w tym, że dotychczasowe podejścia nie potrafią odróżnić, czy model rzeczywiście czerpie wiedzę z dostarczonych dokumentów, czy po prostu odwołuje się do informacji zakodowanej w swoich wagach neuronowych podczas treningu.
Badanie obejmowało modele o rozmiarach od 1.5 miliarda do 72 miliardów parametrów oraz komercyjny API. W zadaniach wymagających dokładnej ekstrakcji faktów bez chain-of-thought reasoning metrika NCU wykazała zaskakujący rezultat: mniejsze modele językowe okazały się równie lub bardziej efektywne niż znacznie większe architektury, co stanowi przełamanie tradycyjnych praw skalowania. Badacze odkryli też zjawisko "prior dominance" - tendencję modeli do preferowania swojej wewnętrznej wiedzy zamiast informacji z kontekstu.
W testach z konfrontacją między wewnętrzną wiedzą a wyraźnym zewnętrznym dowodem komercyjny API ignorował dostarczony kontekst w prawie 50 procentach przypadków. System doświadczał też efektu ujemnego transferu - mniej pewnie radził sobie, gdy jego parametryczne założenia były podważane. Wyniki sugerują, że Small Language Models mogą być bardziej odpowiednie do pracy z RAG w scenariuszach wymagających ścisłego trzymania się faktów z dokumentów, podczas gdy większe modele mogą być przydatne przy zadaniach wymagających rozumowania wieloetapowego.