В мире биологических исследований языковые модели белков (PLM) становятся настоящей революцией, позволяя эффективно предсказывать функциональные аннотации и структуры белков. Однако, как именно эти модели работают и что они на самом деле изучают, остается загадкой. Исследователи Элана Симон и Джеймс Зоу из Стэнфорда решили разобраться в этом вопросе и создали InterPLM — платформу, использующую Sparse Autoencoders (SAE) для интерпретации особенностей PLM.
InterPLM не просто анализирует модели, но и разрабатывает инструменты, которые помогают переводить язык ИИ в биологические открытия. Исследователи считают, что последовательности белков можно рассматривать как «биологический язык», который кодирует правила для структуры и функции. Однако, несмотря на впечатляющие результаты, методы PLM остаются непрозрачными.
С помощью SAEs команда смогла выделить более 2548 интерпретируемых особенностей из модели ESM 2, которые были сопоставлены с 143 известными концепциями в биологии, такими как каталитические сайты и функциональные домены. Это открытие не только подтверждает существующие аннотации, но и указывает на новые направления для исследований.
InterPLM предлагает практические приложения в области белковой биологии, включая возможность генерации белковых последовательностей с заданными структурными или функциональными элементами. Платформа InterPLM.ai позволяет исследователям визуализировать изученные особенности, что способствует обмену знаниями и новым идеям в научном сообществе.
Несмотря на успехи, InterPLM сталкивается с вызовами, такими как необходимость доработки для работы с более сложными моделями, такими как AlphaFold. Однако, с открытым исходным кодом и доступом к инструментам, исследователи готовы к новым открытиям, которые могут изменить наше понимание биологии.