Badacze opracowali nową metodę wyrównania modeli AI, która wykorzystuje trajektorie wykonania (ścieżki decyzji) podczas inferencji zamiast polegać wyłącznie na treningowych etykietach. Podejście to pozwala dostosować zachowanie modelu w czasie rzeczywistym bez konieczności pełnego retrainingu. Technologia ma potencjał do poprawy bezpieczeństwa i użyteczności dużych modeli językowych poprzez bardziej elastyczne i precyzyjne kontrolowanie ich zachowania.
Badania
arXiv CS.LG