Обзор по ADMET моделированию
#хемоинформатика #дизайнлекарств #ADME
Хорошее лекарство должно быть не только эффективным, то есть вызывать нужный биологический эффект (подавлять/активировать нужную биологическую мишень), но также всасываться из соответствующей лекарственной формы (Absorption), проникать куда нужно (Distribution), выводиться с нужной скоростью и требуемыми путями (Excretion), метаболизироваться с нужной скоростью и в нужном направлении, особенно для пролекарств, не образуя опасных метаболитов (Metabolism), быть безопасным и нетоксичным (Toxicity). Все последние параметры объединяют термином ADMET по первым буквам. Часто выделают ADME-свойства и токсичность рассматривают отдельно. Предсказание ADMET являются крайне сложными и, если для фармакодинамики есть много разных вариантов (QSAR, докинг, молдинамика, фармакофоры), то для предсказания ADMET очень сложно прикрутить что-либо, кроме QSAR (хотя в отдельных случаях можно, но это подумайте сами). Поэтому QSAR является одним из ключевых методов для предсказания ADMET. С другой стороны, поскольку проблемы с ADMET выясняются на достаточно поздних этапах разработки (когда уже стали проводить доклинику и иногда на клинике) - то есть когда уже успели потратить много денег на молекулу, то предсказание этих характеристик является жуть как важной, особенно для фармакомпаний. Не говоря уже об этическом аспекте, что для их определения нужно ставить (часто летальные) эксперименты на животных. Есть даже фирмы, которые специализируются на создании таких моделей, Lhasa, например.
Ребята провели интересный мета-обзор последних публикаций по созданию ADMET моделей за последние 5 лет - 2015-2021. Проанализировано, как люди тестировали модели, какие были размеры наборов данных, какие методы использовали, какое было качество моделей. Наиболее популярной задачей является моделирование поведения молекул на цитохромах (метаболизм), далее идет hERG - известная антимишень, отвечающая за кардиотоксичность, гепатотоксичность и активность по отношению к P-gp (белок, отвечающий за транспорт молекул в клетку), острая токсичность и проникновение через гематоэнцефалический барьер закрывают список лидеров.
В целом, доминирующим способом валидации является кросс-валидация с последующим тестированием на внешней выборке (хорошо), пока доминируют методы машинного обучения на основе деревьев (RF и GBM) и использование ансамблей. Интересное наблюдение - модели на основе SVM и нейронных сетей показывали в среднем более высокое качество на кросс-валидации. При этом у методов на основе деревьев и наивном байесе меньше разница между кросс-валидацией и внешней тестовой выборкой (вообще между внутренней и внешним контролями). Но отличия статистически не значимы.
Не смог удержаться и вставить свои 5 копеек. Мне стало интересно, есть ли такое, что более поздние модели более качественные, чем более ранние. Благо авторы предоставили исходные данные и это заняло 5 секунд времени. Тренд конечно слабенький (сложно было ожидать иного), но есть: более поздние модели в среднем более качественные. Методы появляются, данные увеличиваются, техники совершенствуются (ну и сложно сейчас опубликовать статью, если она хуже предыдущей). Кстати, так ли это? Действительно ли чем более поздняя модель, тем больше данных? Именно так: размер набора данных в среднем вырос на 2000 точек за 5 лет (2021 исключил, график не вставил, чтоб не загромождать). А связано ли число данных и качество моделей? Тоже провел такой анализ - и сюрпризов не было. Хоть поле выглядит как звездное, но тренд на нем проглядывается - больше данных - лучше модель. Так что, даешь данных больше и лучше! Можно, конечно, и дальше поиграться, но рекомендую почитать саму статью - там кстати все ссылки даются, кому интересно.
Статья в открытом доступе:
https://link.springer.com/article/10.1007/s11030-021-10239-x