На конференции KubeCon Europe NVIDIA сделала важное заявление, открыв исходный код KAI Scheduler, разработанного компанией Run:ai, которую она приобрела в прошлом году. Этот инструмент, доступный под лицензией Apache 2.0, предназначен для оптимизации распределения ресурсов GPU в кластерах Kubernetes, что особенно актуально для задач в области искусственного интеллекта и машинного обучения.
Традиционные планировщики ресурсов часто не справляются с требованиями AI-работ, так как потребление GPU может значительно варьироваться. KAI Scheduler предлагает более эффективные решения, включая динамическую настройку квот и лимитов в реальном времени. Он поддерживает различные стратегии планирования, такие как групповой график, иерархическая очередь, упаковка в контейнеры, распределение нагрузки и совместное использование GPU. Это позволяет избежать длительных ожиданий доступа к GPU.
Особенно полезной функцией является возможность совместного использования GPU, что позволяет нескольким подам использовать один и тот же GPU. Важно отметить, что NVIDIA уже предлагает инструмент GPU Operator, который предназначен для управления GPU в больших кластерах и включает функцию деления времени на GPU. Однако KAI Scheduler более универсален и поддерживает AI-работы не только на GPU, но и на CPU.
KAI Scheduler фокусируется на индивидуальных GPU и доступной для них памяти, позволяя разработчикам резервировать часть этой памяти, хотя изоляции памяти не предусмотрено. Инструмент интегрируется с популярными AI-решениями и облачными фреймворками, такими как Kubeflow, Ray и Argo. Код и документация KAI Scheduler уже доступны на GitHub, а также открыты и другие инструменты от Run:ai, включая Genv для управления GPU и кластеров.
Эта инициатива от NVIDIA открывает новые горизонты для разработчиков, работающих с AI, и делает управление ресурсами более гибким и эффективным.