Вопрос о необходимости токенизации текста в языковых моделях становится все более актуальным. Традиционно текст разбивается на токены, что может вызывать проблемы, особенно для языков с ограниченным представлением в обучающих данных. Meta предлагает новый подход с архитектурой BLT, которая работает с сырыми байтами текста, группируя их в зависимости от предсказуемости.
BLT имеет три ключевых преимущества. Во-первых, она может сопоставлять производительность современных моделей, таких как Llama 3, при этом обеспечивая до 50% снижение вычислительных затрат на вывод. Во-вторых, BLT лучше справляется с крайними случаями, такими как исправление опечаток или работа с шумным текстом, благодаря возможности манипулировать отдельными символами. В-третьих, архитектура открывает новые горизонты для масштабирования языковых моделей, позволяя одновременно увеличивать размер модели и средний размер групп байтов без увеличения вычислительных затрат.
Как работает BLT? Она состоит из трех основных компонентов: легковесного локального кодировщика, большого трансформера для обработки групп (или "патчей") и легковесного локального декодера, который преобразует представления патчей обратно в байты. Интересно, что BLT использует небольшую языковую модель для предсказания, насколько предсказуемым будет следующий байт. Это позволяет выделять больше ресурсов для сложных частей текста.
Результаты впечатляют: на стандартных тестах BLT показывает или превышает производительность Llama 3, особенно в задачах, требующих понимания на уровне символов. Например, на тесте CUTE BLT обходит токенизированные модели более чем на 25 пунктов, несмотря на то, что была обучена на 16 раз меньшем объеме данных.
Таким образом, BLT может стать основой для будущих языковых моделей, которые не будут зависеть от фиксированной токенизации. Это открывает новые возможности для создания более эффективных и мощных моделей, способных справляться с полной сложностью человеческого языка. Как вы относитесь к этому подходу? Удаление этапа токенизации — это правильное направление для эволюции языковых моделей? Делитесь мнениями в комментариях!