С развитием больших языковых моделей (LLM) в области медицины важность надежного медицинского мышления становится все более актуальной. Однако существующие методы оценки способностей LLM в этой сфере часто оказываются недостаточно эффективными или плохо масштабируемыми. В связи с этим команда разработчиков представила MedThink-Bench — новый стандарт для строгой и масштабируемой оценки медицинского мышления LLM.
MedThink-Bench включает 500 вопросов высокой сложности, охватывающих десять медицинских областей. Каждый вопрос сопровождается экспертными объяснениями, которые детализируют промежуточные этапы рассуждений. Это позволяет не только оценить конечный ответ, но и понять, как модель пришла к этому выводу.
Кроме того, была разработана новая оценочная структура под названием LLM-w-Rationale, которая сочетает в себе детальную оценку объяснений с парадигмой LLM-as-a-Judge. Это обеспечивает высокую степень точности в оценке качества рассуждений, сохраняя при этом масштабируемость процесса. Результаты показали, что LLM-w-Rationale имеет сильную корреляцию с экспертной оценкой (коэффициент Пирсона до 0.87), при этом требуя всего 1.4% времени на оценку.
В целом, MedThink-Bench устанавливает строгий и масштабируемый стандарт для оценки медицинского мышления в LLM, что способствует безопасному и ответственному внедрению этих технологий в клиническую практику. Это открывает новые горизонты для использования LLM в медицине, позволяя улучшить качество диагностики и лечения пациентов.