Badanie zdolności rozwiązywania problemów przez LLM - analiza zadań ze statyki

Badanie przeprowadzone na materiale z arXiv pokazuje, że modele takie jak ChatGPT mają znaczące ograniczenia w rozwiązywaniu zadań ze statyki, gdy te zawierają diagramy i wymagają wieloetapowego rozumowania. Naukowcy nie zadawali modelom zwykłych pytań z podręczników, lecz zastosowali process destylacji modelu, aby dokładniej ocenić umiejętności LLM w tym konkretnym zakresie. Z ChatGPT wyekstrahowali 25 pytań dotyczących statyki zawierające tylko tekst, a następnie stworzyli dwa dodatkowe zestawy danych z diagramami i zmienionymi wartościami numerycznymi.

Wyniki eksperymentów ujawniają sprzeczność: gdy problemy obejmują wyłącznie tekst, LLM osiągają wysoką dokładność, ale ta znacznie spada przy wprowadzeniu elementów wizualnych. Szczególnie problematyczne są zadania wymagające wielu kroków rozwiązania. Interesującym odkryciem jest, że spadek wydajności nie wynika z trudności w rozpoznawaniu obrazów, ale ze słabości w wieloetapowym rozumowaniu i brakiem konsystencji w stosowaniu informacji wizualnych na poszczególnych etapach obliczań.

To badanie ma istotne implikacje dla edukacji inżynierskiej, gdzie statyka jest kluczowym przedmiotem. Wykazuje, że choć LLM mogą wspomagać naukę i rozwiązywanie problemów, niezbędne jest uwzględnienie ich ograniczeń przy wykorzystywaniu ich jako narzędzi edukacyjnych, szczególnie w technicznych dziedzinach wymagających zarówno wizualizacji, jak i precyzyjnego wieloetapowego rozumowania logicznego.