Что может ИИ. Химия

Иван Громов
27 мар. 2022 г.
9 мин. чтения

Обновлено: 16 апр. 2022 г.

С развитием технологий искусственный интеллект(ИИ) внедряется во многие сферы жизни общества, и наука, а в частности химия, не стала исключением. ИИ нашёл широкое применение в химии и в современном мире многие успехи в различных отраслях химии достигаются при непосредственном участии ИИ.

Начало системному подходу к поиску новых реакций было положено в 1967 г. Балабаном, который применил теорию графов для систематического перечисления перициклических реакций, протекающих через 6-ступенчатое переходное состояние. В 1970-х годах эти исследования были значительно расширены Хендриксоном, Аренсом, Зефировым и Тратчем, которые рассмотрели различные формальные схемы, описывающие перераспределение связей для различных типов перициклических реакций.

Другой пример системного подхода к поиску новых реакций - реализованные в IGOR и IGOR2 программы, затрагивающие алгебраические модели органической химии и разработанные Дугунджи и Уги. Этот подход поддерживает иерархическое представление об органических реакциях и имеет дело с гетероатомами и зарядами, отслеживает движение молекул. Его применение привело к открытию неизвестных ранее реакций: термического разложения α-формилоксикетонов и образования каркасной молекулы из N-метоксикарбонилгомопиррола и тропона.[1]

Позже был предложен альтернативный метод, основанный на генерации полных наборов неизоморфных пересекающихся подграфов данного графа. С помощью этого метода были открыты новая карбоновая реакция и две новые реакции элиминации, ведущие к образованию синтетически важных диенов. Формально-логический подход к органическим реакциям, реализованный в программном обеспечении SYMBEQ и ARGENT, был использован для обнаружения замещённых фуранов.[1]

Однако, указанные методы не дали значительного прогресса в автоматическом моделировании реакций ввиду того, что они требовали выдающихся знаний в синтетической органической химии и интуиции для превращения схем в конкретные химические реакции. Этим объясняется и простота реакций, обнаруженных данными методами. Реальный прогресс в открытии новых химических реакций может быть достигнут за счет глубокого изучения большого объема данных.

ИИ в открытии химических реакций

Для достижения прогресса в анализе и открытии химических реакций учёными были задействованы новейшие технологии, позволяющие наиболее плодотворно обрабатывать большие объёмы данных.

Недавно Марвин Сеглер сообщил о системе планирования химического синтеза, основанной на глубоких нейронных сетях и ИИ, обученном на большом сборнике известных синтетических реакций. Этот инструмент извлекает общие правила из изученного, а потому не может предлагать реакции, закономерности которых ещё не изучены. Были разработаны и реализованы несколько техник, основанных на рекуррентных нейронных сетях и преобразователях. Они работают в режиме перехода от ряда к ряду, в которых состав и структура молекул продуктов реакции представлены по составу и структуре молекул реагентов и наоборот.

Для более подробного анализа свойств химических соединений и протекающих химических реакций были созданы сжатые графы реакций (CGR), которые объединяют в себе структуры реагентов и продуктов реакции. Ребра в таких графах соответствуют химическим или динамическим связям, описывающим преобразования. CGR можно рассматривать как псевдомолекулу, для которой некоторые характеристики могут быть вычислены и позже применены в задачах анализа данных и статистического моделирования. [1]

CGR успешно применяется для поиска сходств среди баз данных реакций, построения структурно-функциональных моделей, оценивания распределения таутомеров, классификации ферментативных превращений и предсказания необходимых для реакции условий.

В органическом синтезе широко применяются реакции Сузуки, их различные вариации, группы и реакционные центры представляют интерес для химиков-органиков. С технической точки зрения, реакции Сузуки составляют большую часть базы данных USPTO, которая содержит достаточно информации для разработки модели реакции. Реакционный центр Сузуки может быть представлен строкой SMILES(система правил однозначного описания состава и структуры молекулы химического вещества с использованием строки символов ASCII), а нейронная сеть, обученная на SMILES/CGR имеет возможность преобразовывать SMILES/CGR в их латентные векторы (кодировать) и обратно (декодировать), что используется при генерации виртуальных химических реакций.[1]

Набор из 2 424 306 реакций, извлеченный из USPTO, был загружен как CGR, а позже как строки SMILES/CGR был использован для обучения автоэнкодера. При реконструкции данных реакций автоэнкодер показал 98,4% верных результатов на тренировке и 97,8% на проверке корректности работы, что немного меньше результатов автоэнкодера, работающего исключительно на SMILES, но это может быть объяснено большей сложностью и длиной SMILES/CGR и вероятностью ошибки в определении положений атомов. SMILES/CGR более сложны для изучения, т.к. содержат динамические связи и атомы, координационные номера, превосходящие валентность и дающие новые степени свободы.[1]

Использование SMILES/CGR играет важную роль в изучении закономерностей реакций и влияния структуры атомов реагентов на протекание этих реакций.

Латентные векторы для 100 000 случайно выбранных реакций были использованы для построения генеративной топографической карты (GTM) с использованием собственного программного обеспечения. Затем вся база данных USPTO была спроецирована на карту, на которой выделили несколько зон, заполненных преимущественно реакциями Сузуки. Из зоны с наибольшей плотностью реакций Сузуки были отобраны случайные латентные векторы и преобразованы в 10 000 строк информации. Позже, технология CGRtools исключила некорректные SMILES/CGR, оставив 1099 реакций, являющихся верными. Это значение аналогично тому (15–20%), которое наблюдалось для строк SMILES в предыдущих исследованиях, посвященных генерации отдельных молекул. Очевидно, что не каждый вектор скрытого пространства соответствует действительной структуре. Однако, поскольку недействительные SMILES/CGR могут быть отброшены алгоритмически, они являются не помехой, а управляемым последствием исследовательской выборки. [1] Данная технология позволяет систематизированно изучать и анализировать большое количество химических реакций.

Таким образом, ИИ даёт химикам возможность получить наиболее полную и корректную информацию о свойствах химических соединений и закономерностях протекающих химических реакций.

ИИ и уравнение Шрёдингера

ИИ также используется для решения уравнения Шрёдингера - выражения, которое позволяет определить изменение состояния объектов (молекул, частиц и др.) в квантовой системе с течением времени. Решение представляет собой анзац волновой функции, получивший название PauliNet. Для этого применяются такие инструменты, как детерминанты Слейтера и Джастроу, обратные преобразования и глубокие нейронные сети, способные кодировать сложные особенности электронного движения в неоднородных молекулярных системах. Для решения уравнения PauliNet использует принцип Хартри-Фока, при котором электрон рассматривается во взаимодействии не с атомом и каждым электроном в отдельности, а с некоторым полем, создаваемым ядром и остальными электронами данного атома. В результате выполнения операции система предоставляет волновые функции частицы и вероятность нахождения электронов в той или иной области, что позволяет судить о химических свойствах частицы.[2]

ИИ в производстве лекарств

Обладая настолько широким возможностями, ИИ не мог остаться непривлечённым к медицине, благодаря чему он стал помогать людям напрямую, а не только за счёт открытия и изучения свойств химических элементов и реакций.

ИИ придет на помощь биофармацевтике, серьезно оптимизируя процессы создания и внедрения новых лекарственных средств. По данным биофармацевтической компании Berg, в среднем исследование одного лекарства занимает 14 лет и стоит $2,6 млрд. Такие временные и финансовые затраты заставляли фармацевтические компании быть избирательными в разработке препаратов. Однако с помощью ИИ можно существенно сократить и время, и стоимость испытаний, а значит в будущем появится возможность разрабатывать лекарства для болезней, которые не были должным образом охвачены исследованиями. Например, Берг уже использует ИИ в своих исследованиях, принимая во внимание всевозможные данные о пациентах, в том числе и те, которые не имеют прямого отношения к медицине. Компания утверждает, что такой подход уже позволил выделить 25 новых целей для лечения, а стоимость самих клинических испытаний сократится как минимум вдвое. [3]

Используя другую систему искусственного интеллекта, Emergent, исследователи смогли идентифицировать пять новых биомаркеров, которые могут быть нацелены на новые лекарства для лечения глаукомы. По словам ученых, для этого в систему ИИ вводится информация о более чем 600 тысячах специфических последовательностей ДНК 2,3 тысяч пациентов и данные о взаимодействиях генов. Ученые из Университета Западного Онтарио считают, что искусственный интеллект является мощным инструментом для прогнозирования результатов употребления лекарств, поскольку ИИ анализирует все взаимодействующие элементы в процессе лечения. В частности, исследование предсказало, какие конкретные пациенты с раком молочной железы будут чувствовать себя лучше после химиотерапии паклитакселом.[3]

Таким образом, ИИ стал служить на благо людей, позволяя быстрее и дешевле разрабатывать лекарства и избирать наиболее эффективный путь лечения, предсказывая реакцию организма человека на те или иные препараты.

Метаболические превращения

Особым типом химических реакций, применяемых в медицине, являются метаболические превращения (биотрансформации) ксенобиотиков, происходящие в живых организмах. Прогнозирование является важнейшей задачей, возникающей при разработке новых лекарственных препаратов и оценке их токсичности и фармакокинетических свойств. Как и в случае планирования органического синтеза, первые программы прогнозирования биотрансформаций были построены как экспертные системы, основанные на закодированных вручную экспертами правилах, составляющих базы знаний. Наиболее известными из построенных таким образом экспертных систем являются МеtаBоlЕхрегt, МЕТA и МЕТЕОR.[5]

Наборов правил, сформулированных даже опытными экспертами, оказалось недостаточно для надежного прогнозирования путей метаболизма, в связи с чем в настоящее время преимущественно применяются методы машинного обучения. При этом прогнозирование осуществляется с помощью классификационных либо регрессионных моделей, построенных с использованием баз данных по метаболическим превращениям, в сочетании с дескрипторным представлением химических структур в рамках общей методологии QSAR (построение моделей, позволяющих по структурам химических соединений предсказывать их свойства).

Первые работы с QSAR для прогнозирования количественных характеристик реакции каталитического гидроксилирования толуолов под действием очищенного фермента цитохрома Р450, который играет важную роль в метаболическом превращении ксенобиотиков, появились в 80-х годах прошлого столетия. Применялась классическая методология Ганча - построение линейной модели, связывающей прогнозируемые константу скорости, константу диссоциации комплекса, лиганд-фермент и энергию Гиббса с константами заместителей и липофильностью молекул.[5] Однако, данный метод имел много неточностей в функционировании, вследствие чего позже подвергался неоднократному усовершенствованию.

Модель в дальнейшем была улучшена благодаря применению физико-химических и квантово-химических дескрипторов. В последующих работах были использованы разнообразные методы машинного обучения (множественная линейная регрессия, метод ближайших соседей, метод частичных наименьших квадратов, метод опорных векторов, деревья решений, многослойные искусственные нейронные сети, самоорганизующиеся карты Кохонена и др.) в сочетании с разнообразными молекулярными дескрипторами, необходимыми для построения моделей для прогнозирования связывания субстрата в активном центре цитохрома, его ингибирования и индукции, специфичности субстрата к различным подтипам фермента. Модель, построенная с помощью метода опорных векторов, была реализована в виде Web-сервера, осуществляющего прогноз того, какая из форм цитохрома Р450 участвует в метаболическом превращении заданного ксенобиотика. [5]

Указанная методика позволила добиться существенного прогресса в такой области, как медицинская химия, а созданные на её основе приложения и сервера, размещённые в открытом доступе, упрощают расчёт и анализ протекающих в организме человека реакций и превращений.

Возможности ИИ в медицинской химии применялись не только для создания лекарств или предсказания реакции организма на них, но и для определения всех классов, в которые можно преобразовать те или иные вещества в организме человека.

В 2003 г. группой Поройкова была разработана программа PASS-BioTransfo, предсказывающая осуществимость различных классов биотрансформации для произвольного органического соединения. Использованные с этой целью классификационные модели построены на основе информации о метаболических превращениях, содержащейся в коммерческих базах данных Metabolite (MDLInformationSysteminc.) и Metabolism (Accelrys), с помощью методологии, которая реализована ранее той же исследовательской группой для прогнозирования спектра биологической активности органического соединения с помощью программы PASS. Химические структуры ксенобиотиков были представлены в виде фрагментных дескрипторов, получивших название MNA (Multilevel Neighborhoods of Atoms), которые описывают многоуровневое окружение атомов, а в качестве метода машинного обучения был выбран модифицированный вариант метода «наивного байесовского классификатора»-классификатора, основанного на теореме Байеса, позволяющей рассчитать вероятность события при условии того, что произошло другое взаимосвязанное с ним событие, и строгом (наивном) предположении независимости наблюдаемых признаков друг от друга.

Точность прогнозирования 1927 классов биотрансформаций моделью, построенной с использованием базы данных Metabolite, была оценена в 88%, тогда как точность прогнозирования 178 классов биотрансформаций с помощью модели, построенной с использованием базы Metabolism, — в 85%. Впоследствии методологию расширили на прогнозирование вариантов метаболического превращения, для чего были применены специальные виды фрагментных дескрипторов RMNA (Reacting Multilevel Neighborhood of Atom) и LMNA (Labelled Multilevel Neighborhood of Atom). На этой основе создано Web-приложение MetaTox для предсказания структур и токсичности метаболитов ксенобиотиков.

Метаболическая активация ксенобиотиков может протекать стереоспецифично. Для учета влияния пространственного строения молекул были использованы 3D-QSAR с помощью методов CoMFA и CoMSIA. В этом случае значениями дескрипторов являются значения молекулярных полей, вычисляемые в узлах воображаемой решетки, которая построена вокруг совмещенных в пространстве молекул обучающей выборки, а в качестве метода машинного обучения для построения регрессионной модели выступает метод частичных наименьших квадратов. [5]

Эта методика позволила предсказывать вероятность формирования необходимого химического вещества в организме из определённых компонентов.

Таким образом, ИИ стал надёжным помощником и неотъемлемой частью современной медицины и медицинской химии, давая учёным и врачам возможность наиболее корректно анализировать получаемые от организма пациента данные и избирать наиболее рациональные пути лечения.

ИИ в химической промышленности

Помимо исследований химических элементов, реакций и медикаментов ИИ широко применяется в химической промышленности для анализа и контроля производственных процессов.

Сегодня, используя промышленные Big Data, можно обнаруживать неисправности, диагностировать их по ключевым переменным процесса, прогнозировать будущее состояние переменных процесса и предотвратить любые нежелательные условия.[4]

В исследовании 2017 г. М. Онел рассмотрел возможности использования Big Data для получения данных при построении модели для мониторинга и поиска неисправностей технологического процесса производства пенициллина.

Мониторинг процессов с использованием Big Data состоит из двух этапов:

1) автономный этап включает в себя разработку моделей для обнаружения и диагностики неисправностей с использованием временных данных обработки сигналов, в которых используется новый алгоритм выбора признаков, основанный на оптимизации;

2) оперативный этап отслеживает текущие партии в режиме реального времени с использованием моделей неисправности и времени. [4]

Изначально происходит создание выборочных наборов данных. Для каждой партии в каждый конкретный момент времени собираются все возможные параметры процесса. При сборе данных нам необходимо учитывать время каждого сбоя. Для этого время разбивается на интервалы фиксированного размера, и параметры процесса замеряются в определенные периоды времени. Эти периоды времени называются выборочные наборы. На автономном этапе цель создания модели состоит в том, чтобы обнаружить и диагностировать неисправности в онлайн-режиме. Для этого используются бинарные классификаторы, которые будут оценивать поступающие предварительно обработанные данные о процессе и давать бинарный ответ о возникновении ошибки.

В исследовании 2018 г. корректность работы модели, построенной с использованием баесовских сетей была проверена на данных, взятых у компании Bosch. Было выявлено, что с увеличением обучающей выборки модель точно прогнозирует даже непрерывные параметры рассмотренных процессов.[4]

Основываясь на недавних исследованиях в области машинного обучения для моделирования производственных областей с особым упором на профилактическое обслуживание и обнаружение неисправностей можно сделать вывод о том, что прогнозы редких событий и создание систем прогнозирования неисправностей с использованием альтернативных методов возможно и дает достаточно точные результаты

---------------------------------------------------------------------------------------------------------

Источники:

Journal "Scientific reports", 2021, article "Discovery of novel chemical reactions by deep generative recurrent neural network". Written by William Bort, Igor Baskin, Timur Gimadiev, Artem Mukanov, Ramil Nugmanov, Pavel Sidorov, Gilles Marcou, Dragos Horvath, Olga Klimchuk, Timur Madzhidov, Alexandre Varnek https://doi.org/10.1038/s41598-021-81889-y
Journal "Nature Chemistry", 2020, article "Deep-neural-network solution of the electronic Schrodinger equation". Written by Jan Hermann, Zeno Schatzle, Frank Noe https://doi.org/10.1038/s41557-020-0544-y
Известия Самарского научного центра Российской академии наук, 2010, "Практическая медицинская деятельность и искусственный интеллект ". Авторы:Минаев Ю. Л., Головинова В. Ю., Панин П. Ф
Сетевое издание "Нефтегазовое дело", №5, 2019, "ИСПОЛЬЗОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В ХИМИЧЕСКОЙ ТЕХНОЛОГИИ. ЧАСТЬ II". Авторы: В.Р. Нигматуллин, Н.А.Руднев https://www.researchgate.net/profile/Nikolay-Rudnev/publication/336948642_USING_METHOD_OF_MACHINE_TRAINING_AND_ARTIFICIAL_INTELLIGENCE_IN_CHEMICAL_TECHNOLOGY_PART_II/links/5e01953ca6fdcc28373a8642/USING-METHOD-OF-MACHINE-TRAINING-AND-ARTIFICIAL-INTELLIGENCE-IN-CHEMICAL-TECHNOLOGY-PART-II.pdf
Журнал"Успехи химии", 2017, статья "Искусственный интеллект в синтетической химии: достижения и перспективы". Авторы: Баскин И.И., Маджидов Т.И., Антипин И.С., Варнек А.А. https://www.uspkhim.ru/php/paper_rus.phtml?journal_id=rc&paper_id=4746