Naukowcy opublikowali kompleksową ponowną ocenę metod do automatycznego wykrywania kierunku przyczynowości między zmiennymi, uruchamiając każdą metodę w identycznych warunkach na tym samym zbiorze 102 par przyczynowych. Problem polegał na tym, że każdy artykuł publikował wyniki na innych podzbiorach danych, z różnymi schematami ważenia i procedurami selekcji modelu, co uniemożliwiało rzetelne porównanie.

Wprowadzili oni celowo minimalny baseline - kompresję sorted-conditional, która używa standardowego kompresu bz2 bez żadnych parametrów do dostrojenia. Ta metoda osiągnęła dokładność 74,7 procent, a na tym samym podzbiorze 100 par co SLOPE uzyskała 76,0 procent. W porównaniu z tym metoda SLOPE, którą autorzy sami ocenili na swoich danych, wykazała 77,2 procent, podczas gdy opublikowana była na poziomie 82,4 procent. Różnica wynika z faktu, że ostatnia liczba dotyczyła tylko podzboru par, które algorytm decyzyjny uznał za istotne statystycznie.

Przekształcenie wyników ujawniło drastyczną zmianę rankingu w stosunku do istniejącej literatury. Metoda RECI, często cytowana z wynikiem 77,5 procent, faktycznie osiąga 70,7 procent - wartość, którą autorzy pierwotnie raportowali, ale która została błędnie przepisana w późniejszych cytowaniach. Pod wspólnym standardem wszystkie metody skupiają się w przedziale 70-77 procent dokładności, a zero-parametrowa kompresja konkuruje równorzędnie z najmocniejszymi podejściami.