RoPoLL: Odporny panel sędziów LLM z geometryczną medianą

Badacze z arXiv opracowali RoPoLL - ulepszoną metodę korzystania z panelu LLM-ów do oceny innych modeli AI. Zamiast tradycyjnego głosowania (PoLL), który po prostu uśrednia oceny wielu sędziów, nowa metoda wykorzystuje geometryczną medianę - bardziej odporny sposób agregacji wyników. Problem polega na tym, że pojedynczy model sędziego może zawieść w charakterystycznym dla AI stylu: wpaść w upadek modu, godzić się ze wszystkim bez krytyki (sycophancy) lub odmawiać oceny z powodów bezpieczeństwa. Tradycyjne uśrednianie tych opinii prowadzi do nieograniczonej stronniczości, niezależnie od liczby sędziów w panelu.

RoPoLL rozwiązuje ten problem poprzez geometryczną medianę, która automatycznie, bez żadnych parametrów do ustawienia, daje optymalny punkt przełamania (breakdown point) na poziomie 1/2. Oznacza to, że system pozostaje niezawodny nawet wtedy, gdy 50% sędziów jest przekorumpowanych. Badania pokazują wyraźną przepaść pomiędzy tym, co teoretycznie możliwe (mediana Tukeya halfspace) a tym, co praktycznie osiągalne w wielomianowym czasie - RoPoLL płaci określoną cenę obliczeniową za bezpieczeństwo.

W eksperymentach na 13 otwartych modelach (od 4 miliardów do 675 miliardów parametrów), przeprowadzonych na czterech benchmarkach nagród modeli i czterech typach ataku do 50% poziomu szumu, RoPoLL dominuje tradycyjny PoLL. Na atakach przekrojowych poprawia wyniki o około 19% przy porównywalnej mocy obliczeniowej, a na bardziej skomplikowanych atakach bizantyjskich przewaga sięga rzędów wielkości. Szczególnie imponujące jest to, że panel zaledwie trzech sędziów z modelami 38 miliardów parametrów pokonuje samodzielnie Mistral-Large-3 o 675 miliardach parametrów.