Badacze wprowadzili TTE-Flash, nową metodę optymalizacji wielomodalnych modeli AI, która wykorzystuje strategię Think-Then-Embed do szybszego przetwarzania informacji wizualnych i tekstowych. Podejście polega na najpierw wykonaniu operacji rozumowania na kompresowanych tokenach, a dopiero następnie osadzeniu ich w pełnym wymiarze reprezentacji. Metoda znacząco zmniejsza koszt obliczeniowy i pamięciowy przy zachowaniu lub poprawie jakości wyników, co otwiera możliwości dla szybszych multimodalnyc
Badania
arXiv CS.AI