LLM-y oceniają ukryte uczucia w opiniach - skutecznie i przejrzyście

Badacze z arXiv opublikowali pracę dotyczącą użycia dużych modeli językowo-obrazowych do analizy ukrytych nastrojów w opiniach konsumentów. System wykorzystuje LLM-y do pomiaru pożądaności produktów na podstawie jakościowych opinii bez konieczności jawnych ocen liczbowych. Testy przeprowadzono na dwóch zbiorach danych - ZORQ i CARMA - z ponad 100 grupami terminów opracowanymi przez ekspertów.

Wyniki są imponujące. Modele językowe generowały numeryczne wskaźniki nastrojów bezpośrednio z odpowiedzi użytkowników, osiągając korelację Pearsona do 0,97 i dokładność klasyfikacji do 94 procent. Szczególnie ważne, że system wykazywał odporność na różne formy prezentacji danych, a tradycyjne podejścia leksykonowe i modele transformer nie potrafiły uzyskać statystycznie istotnych rezultatów.

Aspekt ekonomiczny czyni to rzeczywistym przełomem dla praktycznego wdrażania. GPT-4o-mini osiągnął wydajność porównywalną z większymi modelami przy koszt 94 procent niższym, co otwiera możliwość skalowania takich rozwiązań w rzeczywistych systemach oceny satysfakcji klientów. Framework dodatkowo wygenerował wyjaśnienia w języku naturalnym dla każdej oceny, poprawiając przejrzystość procesu podejmowania decyzji przez AI.