GEPA: Reflexyjna optymalizacja promptów z feedbackiem i walidacją

GEPA to framework pozwalający na refleksyjną ewolucję promptów, który systematycznie ulepsza sposób, w jaki małe modele językowe radzą sobie z wieloetapowymi zadaniami arytmetycznymi. Zamiast eksperymentować losowo, podejście zaczyna od słabego prompu seed'a i buduje wokół niego deterministyczny benchmark, który umożliwia mierzalne porównanie postępów.

Kluczowa innowacja polega na strukturalnym podejściu do feedback'u i optymalizacji wieloskładnikowych promptów. Framework jednocześnie ewoluuje instrukcje dla modelu oraz reguły formatowania odpowiedzi, tworząc ukierunkowany ewaluator, który zwraca konkretne, działalne sugestie. To odróżnia GEPA od zwykłego podejścia opartego na próbach i błędach - każda iteracja ma jasną metrykę sukcesu.

Równie ważne jest stosowanie walidacji na zbiorze danych niezależnym od treningowego. Dzięki temu można sprawdzić, czy ulepszenia rzeczywiście się uogólniają i nie są jedynie przeuczeniem się do konkretnego zestawu testowego. To całkiem praktyczne podejście dla twórców aplikacji pracujących z mniejszymi modelami, którzy chcą maksymalizować wydajność bez kosztów dostępu do potężnych, dużych modeli.