Zespół naukowców opracował Contrastive Reflection, framework iteracyjnej optymalizacji promptów dla agentów LLM stosowanych w systemach wyszukiwania informacji i odpowiadania na pytania. Zamiast losowego eksperymentowania z promptami, metoda działa jak debugowanie - identyfikuje konkretne błędy, znajduje podobne sytuacje gdzie system zadziałał poprawnie, i na podstawie tego kontrastu każe Teacher LLM zaproponować celowane zmiany.

Ramework zbiera strukturalne dane z agentów - procedury wyszukiwania i rozumowania od QA agentów, a także szczegółowe punkty i uzasadnienia od agentów oceniających. Te informacje trafiają do selektora opartego na drzewach, który wskazuje błędy zakotwiczone w konkretnych przyczynach. Każda proponowana zmiana w promptie jest weryfikowana na zbiorze testowym - zaakceptowana zostaje tylko jeśli poprawia wyniki bez pogorszenia innych aspektów funkcjonalności.

Na publicznym zbiorze HotpotQA z architekturą retrieval-augmented generation jedna optymalizacja zwiększyła dokładność exact-match z 51,4% do 60,4%. Warianty bazujące wyłącznie na błędach lub losowych przykładach działały słabiej. Znaczenie tego podejścia leży w przejściu od metodą prób i błędów do systematycznego debugowania - inżynierowie mogą teraz zrozumieć, co dokładnie się zmieniło i dlaczego prompt zadziałał lepiej.