Microsoft представила SAGEval — инновационную платформу для оценки текстов, генерируемых большими языковыми моделями (LLM). Этот подход решает проблемы, возникающие при отсутствии эталонных данных, и устанавливает новые стандарты качества в создании контента без ссылок на источники. В рамках SAGEval используется система из двух агентов: Evaluator Agent, который выставляет первичные оценки, и SAGE Agent, который анализирует и корректирует эти оценки, добавляя новые критерии, такие как креативность и качество контента.
Исследование показало, что SAGEval значительно улучшает точность оценок, особенно в таких областях, как вовлеченность аудитории. Например, SAGE Agent часто снижал завышенные оценки, что способствовало более точному отражению мнения экспертов. В результате, SAGEval продемонстрировала эффективность в сравнении с традиционными методами, такими как G-Eval и FreeEval, обеспечивая на 20% более высокие корреляционные показатели с человеческими оценками.
Эта методика имеет широкий спектр применения, включая автоматическую генерацию опросов и создание контента, что делает ее полезной в таких областях, как образование и маркетинг. SAGEval не только улучшает качество текстов, но и адаптируется к изменениям в языке и предпочтениях пользователей, что открывает новые горизонты для технологий генерации естественного языка.