Учёт пространственной структуры молекул позволил снизить ошибку предсказания длины волны поглощения более чем на 30% по сравнению с лучшими существующими нейросетевыми моделями.
Учёные Института AIRI разработали подход на основе 3D-графовых нейронных сетей для предсказания оптических свойств молекул (длина волны поглощения и испускания, эффективность). Для обучения исследователи собрали набор данных nablaColors-3D из открытых источников: экспериментальные оптические свойства молекул в разных растворителях и рассчитанные пространственные структуры. Данные вручную проверяли по первоисточникам, ошибки исправляли или удаляли. По итогу получился первый крупный датасет с пространственными структурами для молекул-хромофоров.
Наличие геометрии в данных позволило применить особый класс нейросетевых моделей — 3D-графовые нейронные сети, которые учитывают трёхмерное строение молекулы. Такие модели предсказывают оптические свойства точнее, чем предыдущие нейросетевые подходы и методы вычислительной физики.
Ученые сравнивали пять моделей с учётом геометрии: PaiNN, DimeNet++, GemNet-OC, eSCN, UniMol+. Каждую предобучали на крупных химических датасетах, затем дообучали на nablaColors-3D для предсказания экспериментальных спектров. В сравнение включили сильные базовые модели, использующие только информацию о химических связях (без геометрии).
Качество оценивали по MAE (средняя абсолютная ошибка в нм) для длины волны поглощения:
- Лучшая модель без геометрии: MAE ≈ 24 нм.
- Лучшая модель с учётом геометрии: MAE ≈ 16 нм (снижение ошибки более чем на 30%).
- Для сравнения: метод TD-DFT на том же тесте дал MAE ≈ 62 нм.
Точность предсказаний растёт при использовании более точных методов расчёта геометрии молекулы.
«Одного лишь знания о том, какие атомы и связи есть в молекуле, недостаточно для точного предсказания оптических свойств. Пространственное расположение атомов — углы, длины связей — определяет электронную структуру молекулы, а значит, и то, как она поглощает и испускает свет. Именно это даёт основной прирост точности в нашем подходе», – отметил Денис Потапов, научный сотрудник группы органической химии Центра ИИ-разработки новых лекарственных препаратов Института AIRI.