Naukowcy opracowali EHRBench, nowy benchmark oparty na elektronicznych dokumentacjach medycznych (EHR) do oceny umiejętności modeli języka w podejmowaniu decyzji klinicznych. System automatycznie generuje i weryfikuje zadania z rzeczywistych danych medycznych, eliminując błędy i zwiększając wiarygodność testów. To ważne narzędzie pozwala na bardziej precyzyjną ewaluację LLM w medycynie i może przyspieszyć wdrażanie sztucznej inteligencji w ochronie zdrowia.