PolitNuggets: Benchmark do testowania agentów AI w odkrywaniu rzadkich faktów politycznych

Naukowcy wprowadzili PolitNuggets, nowy benchmark do oceny zdolności agentów AI w odkrywaniu długoogonowych faktów politycznych — rzadkich, ale ważnych informacji dotyczących polityki. Badanie demonstruje, jak agentic systems mogą wyszukiwać i weryfikować niestandardowe dane polityczne, co jest kluczowe dla budowy bardziej wszechstronnych systemów AI. Rezultaty pokazują obecne ograniczenia modeli w obsługiwaniu głębokich, niskonakładowych faktów, otwierając nowe kierunki badań nad poprawą niezaw