В последние годы внимание к большим языковым моделям (LLMs) сосредоточилось на их способности предсказывать текст в линейном временном порядке. Однако новое исследование показывает, что возможность критически оценивать и улучшать собственные результаты может значительно повысить их эффективность. В статье "Time-Reversal Provides Unsupervised Feedback to LLMs" команда ученых предлагает концепцию языковых моделей с обратным временем (TRLMs), которая позволяет моделям рассуждать в обратном порядке, оценивая и генерируя контент противоположным образом к традиционному подходу.
TRLMs работают по-другому: вместо того чтобы предсказывать ответы на основе запросов, они оценивают запросы на основе уже полученных ответов. Это создает возможность для неуправляемой обратной связи во время вывода. Исследователи представили два основных варианта TRLMs. Первый, TRLM-Fo, использует существующие модели, обученные в прямом направлении, и адаптирует их для работы в обратном. Второй вариант, TRLM-Ba, обучается с нуля, предсказывая токены в обратном порядке, что позволяет моделям более естественно выполнять обратное рассуждение.
Результаты исследования показывают, что TRLMs обеспечивают значимую неуправляемую обратную связь, которая может улучшить производительность как предварительно обученных, так и дообученных моделей. Применения TRLMs охватывают множество задач, включая повторный рейтинг ответов на открытые вопросы, генерацию цитат и извлечение информации. Особенно важно, что способность TRLMs оценивать запросы на основе ответов способствует этим улучшениям. Модели, обученные по методу TRLM-Ba, как правило, показывают лучшие результаты по сравнению с TRLM-Fo, что подчеркивает преимущества обратного обучения.
Эмпирические данные подтверждают эффективность TRLMs в реальных приложениях. На популярной платформе AlpacaEval TRLMs демонстрируют до 5% улучшения по сравнению с сильной базовой моделью, использующей логарифмические оценки для повторного ранжирования. TRLMs также превосходят традиционные методы в таких критически важных задачах, как генерация цитат и извлечение текстов.
Кроме того, исследователи используют генеративные способности TRLM для улучшения фильтров безопасности входных данных LLMs. Генерируя потенциальные запросы на основе известных ответов, TRLMs помогают более эффективно выявлять небезопасные входные данные, что приводит к значительному снижению уровня ложных отрицательных срабатываний.
В итоге, языковые модели с обратным временем (TRLMs) представляют собой новый подход к генерации, оценке и ранжированию контента. Они открывают новые горизонты для повышения производительности существующих и новых моделей, что делает их многообещающим дополнением к инструментарию LLM и способствует более быстрой и эффективной развертке языковых моделей.