В мире технологий, где новейшие графические процессоры становятся стандартом, один энтузиаст решил дать вторую жизнь своей старой GTX 1080. В декабре 2025 года он начал экспериментировать с хостингом LLM (языковых моделей) на платформе Ollama. Несмотря на некоторые проблемы с драйверами, проект оказался успешным, особенно после интеграции с самодельным стеком FOSS.
С течением времени автор понял, что его старая видеокарта может справляться не только с 8B моделями, но и с более сложными задачами. Он создал полностью Linux-ориентированную LLM-пайплайн, которая не только избавила его от ограничений API облачных моделей, но и обеспечила безопасность личных данных, не покидая локальную сеть.
Для реализации проекта автор выбрал Vulkan-версию llama.cpp, которая оказалась более настраиваемой и эффективной по сравнению с Ollama. Используя систему на базе Ryzen 5 1600 и 32 ГБ оперативной памяти, он решил запустить контейнер llama.cpp как виртуального гостя, чтобы избежать узких мест, связанных с дополнительными абстракциями.
С момента, когда Nvidia прекратила поддержку его видеокарты, автор установил более старую версию драйверов и настроил LXC-контейнер для работы с графикой. Процесс установки драйверов оказался простым, но настройка llama.cpp потребовала больше времени и усилий. В итоге, после нескольких неудачных попыток с CUDA, он переключился на Vulkan, что значительно упростило процесс.
С помощью Mixture of Experts моделей автор смог эффективно использовать свою старую видеокарту, перемещая менее используемые эксперты в оперативную память, что позволило сохранить высокую скорость генерации токенов. В качестве первого эксперимента он выбрал модель Gemma-4-26B-A4B, которая показала отличные результаты даже на устаревшем оборудовании.
Теперь автор делится своим опытом и готов помочь другим, кто хочет запустить LLM локально, предлагая советы по настройке и оптимизации.