Nowy benchmark ThermoQA w trzech warstwach ocenia zdolność dużych modeli języków do rozumowania problemów termodynamicznych, od podstaw po zaawansowane zagadnienia.