Недавнее исследование оценило способности больших языковых моделей (LLMs) в области биомедицинского вывода, выявив их значительные проблемы с силлогистическим рассуждением. В частности, модели испытывают трудности в нулевом обучении (zero-shot learning), показывая результаты, близкие к случайным, с точностью ниже 50% в большинстве случаев. Исключением стала модель Gemma-7B-it, которая достигла 64% точности в одной из задач.
Исследование также показало, что модели хуже справляются с задачами выбора предпосылок по сравнению с текстовым следствием, что указывает на общую неспособность LLMs идентифицировать необходимые предпосылки для вывода. Более того, наблюдается несоответствие между точностью и верностью выводов, что подчеркивает наличие предвзятости в процессе вывода.
Интересно, что модели, настроенные на инструкции, показывают лучшие результаты в нулевом обучении, в то время как те, что были предварительно обучены на языковом моделировании, не могут следовать предоставленным инструкциям. Например, BioMistral-7B, специализированная модель для биомедицинских задач, не смогла генерировать релевантные выводы.
Использование подхода с несколькими примерами (few-shot learning) также продемонстрировало неоднозначные результаты. Хотя некоторые модели, такие как Gemma-7B и Meta-Llama-3-8B, показали улучшение точности на 14% и 43% соответственно, это улучшение не было универсальным и зависело от типа модели и режима предварительного обучения.
В целом, исследование подчеркивает, что LLMs демонстрируют значительную изменчивость в точности в зависимости от используемых силлогистических схем и их формулировок. Модели оказались особенно чувствительными к изменениям в формулировках, что указывает на их неспособность абстрагироваться от конкретных правил вывода.