APPERCASE
vasb@nccrepnfr.eh +7 499 302-34-17

Прощай, токены! Встречай патчи: новая эра в мире технологий

Meta представила новую архитектуру BLT, которая заменяет традиционную токенизацию на динамическое группирование байтов текста. Это позволяет улучшить производительность и эффективность языковых моделей, таких как Llama 3.

Вопрос о необходимости токенизации текста в языковых моделях становится все более актуальным. Традиционно текст разбивается на токены, что может вызывать проблемы, особенно для языков с ограниченным представлением в обучающих данных. Meta предлагает новый подход с архитектурой BLT, которая работает с сырыми байтами текста, группируя их в зависимости от предсказуемости.

BLT имеет три ключевых преимущества. Во-первых, она может сопоставлять производительность современных моделей, таких как Llama 3, при этом обеспечивая до 50% снижение вычислительных затрат на вывод. Во-вторых, BLT лучше справляется с крайними случаями, такими как исправление опечаток или работа с шумным текстом, благодаря возможности манипулировать отдельными символами. В-третьих, архитектура открывает новые горизонты для масштабирования языковых моделей, позволяя одновременно увеличивать размер модели и средний размер групп байтов без увеличения вычислительных затрат.

Как работает BLT? Она состоит из трех основных компонентов: легковесного локального кодировщика, большого трансформера для обработки групп (или "патчей") и легковесного локального декодера, который преобразует представления патчей обратно в байты. Интересно, что BLT использует небольшую языковую модель для предсказания, насколько предсказуемым будет следующий байт. Это позволяет выделять больше ресурсов для сложных частей текста.

Результаты впечатляют: на стандартных тестах BLT показывает или превышает производительность Llama 3, особенно в задачах, требующих понимания на уровне символов. Например, на тесте CUTE BLT обходит токенизированные модели более чем на 25 пунктов, несмотря на то, что была обучена на 16 раз меньшем объеме данных.

Таким образом, BLT может стать основой для будущих языковых моделей, которые не будут зависеть от фиксированной токенизации. Это открывает новые возможности для создания более эффективных и мощных моделей, способных справляться с полной сложностью человеческого языка. Как вы относитесь к этому подходу? Удаление этапа токенизации — это правильное направление для эволюции языковых моделей? Делитесь мнениями в комментариях!

Эта новость создана искусственным интеллектом на основе открытых данных и предназначена исключительно для информирования. Администрация сайта не несёт ответственности за её содержание. Новости агрегируются из различных источников, включая недружественные России страны и их средства массовой информации. Социальные сети Facebook, Instagram и WhatsApp принадлежат корпорации Meta, которая в России признана экстремистской организацией.

В новом цикле публикаций рассматриваются ключевые риски, связанные с управлением искусственным интеллектом (ИИ) для директоров компаний. Основное внимание уделяется необходимости создания эффективных систем контроля и соблюдения юридических норм.
Искусственный интеллект может кардинально изменить подход к разработке антибиотиков, однако существующий рынок не поощряет инновации, что ставит под угрозу прогресс в этой области.
Технологии образования активно используют геймификацию и искусственный интеллект для улучшения изучения арабского языка, предлагая персонализированные подходы к обучению.
Написать нам