Arystotelesowa ocena cnót modeli LLM poprzez dylematy etyczne

Naukowcy opracowali VirtueMap - nową metodę do oceny modeli językowych, która rezygnuje z tradycyjnego podejścia szukającego jednej właściwej odpowiedzi na dylematy etyczne. Zamiast tego framework prosi człowieka lub model LLM o uszeregowanie pięciu możliwych odpowiedzi do każdego z siedmiu ogólnych, pozbawonych przemocy, polityki i religii dilematów etycznych. Punktacja opiera się na pięciu cnotach arystotelesowskich: Praktycznej Mądrości, Sprawiedliwości, Uczciwości, Odwadze i Umiarkowaniu.

Team najpierw stworzył referencyjne uporządkowania dla każdego dylematu i cnoty, definiując jak każda z pięciu odpowiedzi wyraża daną cnotę - od najsilniej do najsłabiej. Zebrano ponad 100 ocen od respondentów dla każdego porządku i zatrzymano je jako prawdę empiryczną tylko wtedy, gdy co najmniej 95% respondentów się zgodziło. Ta wysoka bariera zapewniła rigor metodologiczny. Rankings są następnie oceniane przy użyciu znormalizowanego wyrównania Bordy, co daje profile cnót dla każdego modelu.

Wyniki badania dziewięciu rodzin modeli LLM pokazały średnią spójność rankingu na poziomie 90,3% w powtarzanych uruchomieniach - świadczące o stabilności profilei modeli. Jednak największe różnice pojawiły się w ocenie Odwagi, Umiarkowania i Sprawiedliwości, sugerując że niektóre modele bardziej różnią się w tych obszarach. Naukowcy udostępnili również interaktywną stronę internetową, która pozwala użytkownikom obliczać profile lokalnie w przeglądarce i porównywać się z profilemi zmierzonymi dla modeli LLM.