В последние годы наблюдается значительный прогресс в области медицинского вопросно-ответного взаимодействия с использованием больших языковых моделей (LLM). Несмотря на улучшения в грамматике и связности ответов, такие системы иногда выдают информацию, которая может быть неверной или потенциально опасной. Это подчеркивает необходимость в новых наборах данных, которые помогут оценить достоверность генерируемых ответов и разработать надежные методы для выявления недостоверной информации.
Новый набор данных, названный MedAESQA (Medical Attributable and Evidence Supported Question Answering), был создан для разработки и оценки моделей генерации языка, способных связывать утверждения с соответствующими научными источниками. В набор входят 40 реальных медицинских вопросов, на каждый из которых предоставлено 30 ответов, сгенерированных как людьми, так и LLM. Каждый ответ сопровождается ссылками на научные аннотации, подтверждающие его достоверность.
MedAESQA включает в себя ручные оценки точности утверждений и релевантности научных статей. Это первый набор данных, специально созданный для проверки атрибуции источников в медицинских вопросах, что делает его уникальным в своем роде. Вопросы были собраны из запросов, поступивших от широкой аудитории в Национальную библиотеку медицины, что обеспечивает их актуальность и интерес.
Создание набора данных включает несколько этапов: от аннотирования вопросов до генерации ответов с использованием LLM и последующей оценки их качества экспертами. В процессе оценки учитываются как качество самих ответов, так и их соответствие научным источникам. Это позволяет не только улучшить качество ответов, но и минимизировать риск распространения недостоверной информации в области здравоохранения.
MedAESQA представляет собой важный шаг к созданию более надежных систем медицинского вопросно-ответного взаимодействия, которые могут значительно повысить уровень доверия к информации, предоставляемой пользователям.