iFLYTEK, китайская технологическая компания, специализирующаяся на искусственном интеллекте в области речи и языка, столкнулась с проблемами масштабирования своих рабочих нагрузок. Нерациональное распределение ресурсов привело к недостаточному использованию графических процессоров (GPU) и усложнению управления рабочими процессами. Эти трудности замедляли прогресс и создавали нагрузку на инфраструктуру.
С переходом на Volcano, iFLYTEK внедрила эластичное планирование, ориентированные на графы рабочие процессы и многопользовательскую изоляцию. Это позволило упростить операции и улучшить использование ресурсов. Теперь компания может более эффективно распределять ресурсы, управлять сложными многоступенчатыми рабочими процессами и минимизировать сбои в заданиях, обеспечивая при этом справедливый доступ для различных команд.
По словам представителя iFLYTEK, до внедрения Volcano координация обучения на крупных кластерах GPU была настоящим испытанием. С помощью Volcano компания смогла добиться гибкости и контроля, необходимых для надежного и эффективного масштабирования обучения ИИ. iFLYTEK гордится тем, что ее работа была отмечена CNCF, и с нетерпением ждет возможности поделиться своим опытом на KubeCon + CloudNativeCon China.
Volcano — это облачная система пакетной обработки, построенная на Kubernetes, предназначенная для высокопроизводительных рабочих нагрузок, таких как обучение ИИ и обработка больших данных. Она предлагает продвинутые возможности планирования, такие как оркестрация заданий и управление очередями, что критически важно для эффективного управления крупномасштабными распределенными задачами.
С увеличением спроса на ИИ iFLYTEK обратилась к Volcano, чтобы поддержать растущую сложность и масштаб своей инфраструктуры обучения. Инженерная команда смогла оптимизировать операции, улучшить использование GPU и стабилизировать длительные задания, что привело к увеличению использования GPU на 40%, сокращению затрат на инфраструктуру и ускорению восстановления после сбоев на 70%.
Опыт iFLYTEK демонстрирует, как облачные инструменты, такие как Volcano, могут помочь командам упростить операции и улучшить масштабируемость. На предстоящей конференции KubeCon + CloudNativeCon China компания поделится практическими рекомендациями по более эффективному управлению распределенным обучением в средах Kubernetes.