В мире науки, где машинное обучение и глубокое обучение становятся все более популярными, существует серьезная проблема нехватки качественных наборов данных. Новый набор данных QM40 призван решить эту проблему, предоставляя исследователям доступ к информации о молекулах, которые составляют 88% химического пространства одобренных FDA лекарств.
QM40 включает 162,954 молекулы, содержащие от 10 до 40 атомов, и состоит из элементов, часто встречающихся в молекулярных структурах лекарств, таких как углерод (C), кислород (O), азот (N), сера (S), фтор (F) и хлор (Cl). Этот набор данных включает 16 ключевых квантово-механических параметров, рассчитанных с использованием теории B3LYP/6-31G(2df,p) в программе Gaussian16, что обеспечивает совместимость с уже существующими наборами данных, такими как QM9 и Alchemy.
Одной из уникальных особенностей QM40 является наличие информации о локальных вибрационных модах, которые служат индикаторами прочности связей. Это позволяет исследователям не только оценивать существующие методы предсказания квантово-механических свойств, но и разрабатывать новые подходы с использованием машинного обучения.
Исторически, доступ к качественным и хорошо организованным данным значительно продвигал научные области. Например, набор данных ImageNet стал основой для разработки революционных архитектур в области компьютерного зрения. Аналогично, QM40 может стать стандартом для оценки методов машинного обучения в предсказании квантово-механических свойств.
Набор данных QM40 будет постоянно обновляться, добавляя новые молекулы и функции, что делает его важным инструментом для исследователей в области молекулярной науки. Он доступен в формате CSV и может быть использован для создания новых моделей и алгоритмов, что открывает новые горизонты в разработке лекарств и материалов.