В мире науки, где объем публикаций растет с каждым днем, способность эффективно синтезировать информацию становится критически важной. OpenScholar — это новая специализированная языковая модель, которая использует подход с дополнением извлечения для помощи исследователям в этой задаче. Она способна отвечать на научные запросы, извлекая релевантные фрагменты из 45 миллионов открытых статей и формируя ответы, подкрепленные цитатами.
Для оценки эффективности OpenScholar была разработана новая многоуровневая база данных ScholarQABench, включающая 2967 экспертно составленных запросов и 208 длинных ответов по таким областям, как компьютерные науки, физика, нейробиология и биомедицина. Несмотря на меньший размер по сравнению с другими моделями, OpenScholar-8B показал на 6,1% лучшую точность, чем GPT-4o, и на 5,5% лучше, чем PaperQA2, в сложных задачах синтеза информации.
Одной из ключевых проблем, с которой сталкиваются существующие языковые модели, является "галлюцинация" — создание несуществующих цитат. В то время как GPT-4o ошибается в 78-90% случаев, OpenScholar демонстрирует точность цитирования на уровне человеческих экспертов. Это достигается благодаря интеграции специализированного хранилища данных и механизма самопроверки, что позволяет модели улучшать свои ответы в процессе генерации.
В ходе экспериментов эксперты предпочли ответы OpenScholar-8B и OpenScholar-GPT-4o более чем в 51% и 70% случаев соответственно, что значительно выше, чем у GPT-4o, который лишь в 32% случаев оказался предпочтительнее. Все компоненты OpenScholar, включая механизмы извлечения и самопроверки, были открыты для сообщества, что способствует дальнейшим исследованиям в этой области.
OpenScholar и ScholarQABench представляют собой важный шаг вперед в автоматизации научного анализа и синтеза, предлагая исследователям мощный инструмент для работы с растущим объемом научной информации.