Naukowcy stworzyli system o nazwie Consilium Protocol, który pozwala wielu modelom AI na strukturalną debatę na temat kwestii wymagających głębszej analizy. Zamiast traktować sprzeczności między modelami jako błędy, system wykorzystuje je jako cenne źródło informacji. Architektura opiera się na византийskiej tolerancji na błędy, algorytmie zaczerpniętym z rozproszonych systemów komputerowych, co zapewnia solidność nawet gdy niektóre modele działają niesprawnie lub podają złe informacje. Rzecz w tym, że dla każdego modelu naukowcy stworzyli odrębne „persona poznawcze" – zatem ten sam model może myśleć jak sceptyk, apologeta czy strona neutralna w zależności od roli przypisanej w debacie.

W testach na prawie 1500 sesjach debat przebadano, jak modele behawioryzują się przy różnych zagadnieniach od polityki po naukę. Wyniki zaskoczyły: okazało się, że przypisana persona poznawcza ma znacznie większy wpływ na sposób rozumowania modelu niż jego rzeczywista moc obliczeniowa. Tanie modele otwarte, kosztujące zaledwie kilka groszy za analizę, potrafiły konkurować pod względem jakości argumentów z drogimi modelami frontier do 50 razy droższymi. System wykorzystuje też metodę z finansów – porównuje wnioski oparte na danych treningowych z wnioskami z całkowicie nowych informacji, aby oddzielić to, co model zapamiętał od tego, co faktycznie zrozumiał.

Odkrycia jednak wskazują na poważny problem: trenowania alignment modeli metodą RLHF zostawia mierzalne ślady ideologiczne. W tematach politycznie kontrowersyjnych modele rzadziej rzucają wyzwania opinią, a temat bezpieczeństwa AI pokazał wyraźną asymetrię – modele znacznie bardziej agresywnie kwestionowały twierdzenia o rzeczywistym zagrożeniu niż obawy przesadzone. Sama architektura Consilium Protocol nie wykazała takiego obciążenia, co otwiera perspektywę na bardziej uczciwą ocenę jakości systemów AI bez ukrytych preferencji.