В мире машинного обучения задержка и пропускная способность имеют решающее значение. Новая система Apparate предлагает инновационный подход, позволяя моделям "выходить" раньше, чем обычно, что приводит к значительному снижению задержек. Например, для задач компьютерного зрения (CV) наблюдаются ускорения от 40.5% до 91.5%, а для обработки естественного языка (NLP) — от 10% до 37.3%.
Интересно, что эффективность Apparate возрастает с увеличением размера модели. Это связано с тем, что при использовании ранних выходов время обработки сокращается, что особенно заметно на больших моделях, таких как GPT-2 и BERT. Однако, в задачах NLP результаты менее предсказуемы из-за разнообразия входных данных.
Система также демонстрирует, что при увеличении целевых уровней обслуживания (SLO) задержки могут увеличиваться, что влияет на общую производительность. Например, для модели GPT-2 средние задержки снижаются с 16.3% до 6.8% при увеличении SLO в 4 раза.
Таким образом, Apparate представляет собой мощный инструмент для оптимизации работы ML-моделей, позволяя достигать высоких показателей производительности без потери точности.