Компания DeepSeek, совместно с Пекинским университетом, разработала новый метод обучения под названием Engram. Он направлен на разделение хранения памяти и вычислительных процессов, что позволяет значительно повысить эффективность работы больших языковых моделей.
Традиционные модели требуют высокоскоростной памяти для извлечения знаний и выполнения базовых вычислений, что создает узкие места в производительности и увеличивает затраты. Это стало одной из причин резкого роста цен на DRAM, которые увеличились в пять раз за десять недель из-за высокого спроса на оборудование для поддержки крупных AI моделей.
Метод Engram позволяет моделям эффективно «искать» необходимую информацию, не перегружая память GPU, что освобождает ресурсы для более сложных задач. В ходе тестирования на модели с 27 миллиардами параметров были зафиксированы заметные улучшения по стандартным отраслевым показателям.
Engram использует механизм предзагрузки, который работает асинхронно на нескольких GPU с минимальными затратами на производительность. Это позволяет моделям обрабатывать длинные контексты более эффективно и поддерживать предзагрузку на уровне системы.
Кроме того, метод Engram совместим с другими аппаратно-эффективными подходами, такими как решения от Phison для ускорения AI вывода. Это позволяет AI системам оптимизировать использование быстрой памяти, одновременно увеличивая общую емкость памяти.
Engram также работает с новыми стандартами CXL (Compute Express Link), которые направлены на преодоление узких мест памяти GPU в крупных AI задачах. Этот метод отделяет статическое хранение паттернов от динамических вычислений, улучшая работу трансформеров без увеличения вычислительных затрат.
Ранние результаты применения Engram показывают, что модели могут расширять масштаб параметров и возможности рассуждения, одновременно более эффективно управляя требованиями к памяти. Это может помочь смягчить проблемы с памятью в AI инфраструктуре и снизить резкие колебания цен на DDR5 DRAM.