Мыслить как учёный
Создан искусственный интеллект с интуицией профессионального химика
Научная интуиция - двигатель открытий. Можно ли привить ее нейросети и что из этого получится? Этим вопросом задались ученые из Института органической химии им. Н.Д. Зелинского РАН (ИОХ РАН).
Результатом их работы стал уникальный компьютерный алгоритм для оценки сложности молекул - от других нейросетей его отличает то, что он не просто анализирует большие объемы информации, а имитирует мышление исследователя.
В перспективе технология облегчит создание новых веществ и материалов, например в дизайне лекарств.
Уже сейчас искусственный интеллект стал ценным помощником человека в разных областях - от анализа больших данных до изучения трендов в экономике. Но у умных программ есть и слабое место: им не так легко даются задачи, которые человек решает не с помощью вычислений и четких алгоритмов, а интуитивно.
Пример подобного в химической науке - оценка сложности молекул. Глядя на соединение, химик не производит расчетов, а делает вывод на основе многолетнего опыта. И хотя может показаться, что ученый делает заключение мгновенно, в его мозге успевают произойти сложные ассоциативные размышления, которые непросто перевести в цифру.
Непросто, но все-таки возможно. Это доказали сотрудники ИОХ РАН, буквально передав искусственному интеллекту знания живых людей и научив его оценивать сложность молекул не по строгим формулам, а на основе опыта.
Статью о разработке ученые опубликовали в журнале Chemical Science. Авторы исследования - академик Валентин Павлович Анаников и молодые ученые Андрей Тырин, Даниил Бойко и Никита Коломоец.
О новой технологии разработчики рассказали нашему корреспонденту
«Оценивать сложность молекулы важно в первую очередь для ученых-химиков и фармацевтов, - отметили исследователи. - Можно назвать несколько ключевых задач, где это нужно:
создание новых лекарств: чем сложнее молекула, тем тоньше она способна взаимодействовать с мишенью в организме (например, с белком вируса или раковой клеткой); понимание сложности соединения помогает анализировать, насколько хорошо будущее лекарство будет “состыковываться” со своей целью и как его можно улучшить;
планирование синтеза: чтобы получить нужную молекулу в лаборатории, химики продумывают многоступенчатый путь из простых “кирпичиков” - если оценить заранее, насколько сложным будет каждый шаг, можно выбрать самый короткий, дешевый и эффективный маршрут, избежав ненужных стадий;
анализ химических реакций: можно рассматривать целые классы химических превращений и делать выводы, какие из них действительно создают сложные структуры (и потому более ценны), а какие позволяют лишь немного модифицировать уже имеющиеся соединения;
сравнение с природой: в естественной среде (например, в растениях, производящих алкалоиды) сложные молекулы часто синтезируются не так, как их получают люди; анализ этих различий через призму сложности помогает нам учиться у биологических систем и совершенствовать свои методы.
Для лучшего понимания можно провести параллель между молекулами и конструкциями из LEGO. Нужно не только знать, сколько деталей включает модель (аналогия с молекулярной массой), но и понимать, насколько она замысловатая, хрупкая, со множеством мелких сложных составляющих.
Это помогает фармацевтам создавать более точные “ключи” к “замкам” болезней, а химикам - придумывать, как проще и быстрее собрать такую конструкцию».
Для обучения новой модели была создана впечатляющая подборка данных. В нее вошли около 300 тыс. молекул, чью сложность оценивала команда из 50 ученых.
Оказалось, что принципиальное значение для исследователей имели такие характеристики, как молекулярная масса, количество ароматических колец и площадь полярной поверхности молекулы (то есть общая площадь полярных атомов в химической структуре).
При этом ученые не просто рассматривали отдельные соединения, а сравнивали их между собой.
«Стоит обратить внимание на контроль качества. В число молекул, оцениваемых экспертами, были включены различные контрольные пары: простые, где ответ был очевиден (например, метан явно проще толуола), средней сложности (полициклические производные) и довольно сложные молекулярные архитектуры.
Это помогало выдерживать размерный охват данных и заодно отсеивать специалистов, невнимательно выполнявших задание», - добавили авторы исследования.
Для обучения программы были использованы примерно 200 тыс. собранных сравнений, при этом число сопоставленных молекул в этой подборке составило около 164 тыс.
Такой богатый опыт дал нейросети возможность достаточно точно сопоставлять разные соединения. В дальнейшем созданный набор данных может быть использован для других исследований подобного рода.
«Мы не создавали принципиально новый подход машинного обучения с нуля, а взяли проверенный и эффективный готовый алгоритм для задач ранжирования под названием Gradient Boosted Decision Trees (GBDT, градиентный бустинг на деревьях решений), точнее, его современную реализацию YetiRank из библиотеки CatBoost, - пояснили ученые. - Это опробованный подход в машинном обучении: взять мощный, хорошо зарекомендовавший себя движок и обучить его на собственных уникальных данных.
Образно говоря, мы не стали изобретать новый тип автомобиля, а взяли готовую машину с отличным надежным двигателем и обучили ее ездить по специальной химической карте, составленной экспертами».
В своей разработке команда из ИОХ РАН использовала алгоритм машинного обучения Learning to Rank (LTR). Этот подход используется в программах для поиска информации в интернете и в рекомендательных алгоритмах.
Теперь же эту технологию адаптировали для науки. Применение метода LTR позволило решить поставленную задачу: программа не сортирует молекулы по заранее введенным характеристикам, а анализирует выводы ученых и уже на их основе понимает, что нужно учитывать при оценке сложности соединений.
«Learning to Rank (обучение ранжированию) - это подход, при котором модель учится расставлять объекты в правильном порядке относительно друг друга, - объяснили авторы исследования. - Простая аналогия: представьте, что вы учите ребенка сравнивать животных по размеру.
Вы не говорите: “Слон - это семь баллов, мышь - один балл”. Вы показываете пары картинок и спрашиваете: “Кто больше?” - “Слон больше мыши”, “Лошадь больше кошки”. После множества таких парных сравнений ребенок сам выстраивает в голове цепочку: “мышь < кошка < лошадь < слон”.
Именно так работала система, описанная в статье: химикам показывали по пять молекул и просили расставить их по возрастанию сложности. Модель анализировала тысячи таких пятерок и училась понимать правила, по которым эксперты выносят свое суждение».
Новая технология успешно прошла испытания, показав ценные результаты при решении разных задач.
«Систему проверяли несколькими способами, - поделились создатели разработки. - Основной среди них - тест на “парную точность”.
Модели предлагались пары молекул, и она должна была определить, какая из них сложнее. С этим она справлялась с точностью 77,5%. Это очень хороший результат с учетом субъективности задачи. Мы также проводили тест на “здравый смысл”.
В этом случае мы брали молекулу, заменяли в ней один атом водорода на более сложный фрагмент (например, бензольное кольцо) и смотрели, замечала ли модель, что новая молекула стала сложнее.
В этих испытаниях точность анализа нейросети составляла 98,1%, что показывает, что система усвоила базовые логические правила.
Важно отметить, что модель не делит молекулы на жесткие категории (например, “простая”, “средняя”, “сложная”), а вместо этого присваивает каждому соединению непрерывный числовой “балл сложности”, позволяющий сравнивать любые две молекулы между собой.
Во время обучения эксперты ставили химическим структурам оценки от одного до пяти, но итоговая модель научилась различать гораздо больше градаций внутри этого диапазона».
К настоящему времени возможности ИИ уже позволяют использовать его для решения отдельных химических задач - например, поиска лекарств и катализаторов, анализа информации, прогнозирования течения лекарств.
Разработка ученых из ИОХ РАН - первый случай, когда модель машинного обучения копирует интуицию ученого, а не действует по четкой инструкции. Важно, что перевод в цифру автоматизирует анализ сложности соединений и делает его объективнее, нежели при оценке на глаз одним человеком.
В то же время исследователи предостерегают, что новую программу стоит воспринимать не как единственную и непогрешимо точную технологию для работы, а как полезный вспомогательный инструмент.
«Исследование открывает много путей для развития. Один из них - дальнейшее уточнение модели. Ее обучали на данных от экспертов, и она отражает их коллективное понимание сложности молекул.
Ее можно и нужно постоянно улучшать, добавляя новые данные, особенно по редким или необычным классам соединений», - подчеркнули ученые. Испытания нейросети продолжаются.
В перспективе программа может стать ценным подспорьем в разнообразных сферах - от материаловедения до фармацевтики. Инновация может использоваться для решения различных задач: например, для улучшения процессов синтеза и разработки материалов с контролируемым уровнем молекулярной сложности.
«В дальнейшем созданную модель можно будет интегрировать в комплексные системы, - пояснили авторы исследования. - Такой “измеритель сложности” можно использовать в составе более крупных алгоритмов для решения следующих задач:
автоматического планирования синтеза - чтобы ИИ предлагал маршруты реакций, которые не просто работают, но и позволяют эффективно наращивать сложность получаемых соединений;
дизайна лекарств - чтобы при виртуальном скрининге учитывать не только силу связывания, но и оптимальный уровень структурной сложности будущего препарата;
анализа химических баз данных - для поиска интересных “сложных” молекул или оценки покрытия химического пространства в исследовательских коллекциях».





























Путин: "Необходимо снять преграды для активного участия бизнеса в форм...
Каков геймер в повседневной жизни?
Мыслить как учёный
Атомная энергетика нового уровня
Заседание попечительского совета МГУ
Генная терапия и искусственный интеллект
Космическая перспектива: как и зачем исследуют Землю с высоты
Дизайн белков, ИИ-биотехнологии и исследования ДНК
Аналитики и мечтатели: кто такие интроверты и как их вычислить в толпе
Инженерная революция и потрясающие результаты
Пересадить жизнь: как развивается современная трансплантология
Шкатулка с секретом: искусство и технологии палехской росписи
Не выходя из комнаты: как Юрий Кнорозов разгадал тайну языка индейцев ...
По следам Семёнова-Тян-Шанского, или взгляд из прошлого в будущее
Эмоции на Луне. Завершён годовой изоляционный эксперимент SIRIUS-23
Умный коровник: как новые технологии хотят изменить сельское хозяйство...
"Сфера" высоких технологий: как и для чего разрабатывается "Русский St...
Покоритель Луны и Венеры: что известно о проектах Георгия Бабакина
Наедине с космосом. История экспериментов, моделирующих длительные кос...
"Полгода плохая погода, полгода - совсем никyда"
Нити времени: сочетание традиций и инноваций в балахнинском кружеве
Угроза спутниковой связи на Земле? О возможных последствиях разрушения...
Нейрогенетика: как ДНК влияет на мозг и его старение
Электрические сны: в чем опасность концепции цифрового бессмертия
Амурские кости: как благовещенский студент-химик стал палеонтологом
Лаборатория «Гжель»: где наука создаёт красоту, а художникам помогают ...
Промышленность высоких технологий: как машины делают машины в России
От коллайдера до редких приц
Будущее энергетики: автономность, эффективность, чистота
Водные беспилотники ИПУ РАН: навигация, исследование глубин, помощ эки...
Газовая колыбель жизни: что происходит с озоновым слоем?
Вычислить гения: о чём говорят тесты на интеллект?
Мозг по-разному распределяет сигналы перед реальным и воображаемым дви...
Физики расширили понимание магнитных вихрей
Важные открытия паразитологии последних лет
Сценарии развития экономики в условиях декарбонизации
Мусор орбитального масштаба
Суверенный прием: в РФ создают антенну для отечественного аналога Star...
Роботизированный Science Art
"Первым делом, первым делом - самолёты"
Виртуальные клоны: как цифровые двойники пациентов помогают врачам
Почему вещи крутятся. Загадки неустойчивого вращения
Центрифуга, инкубатор, 48 яиц
Шелками по золоту
Изменение климата в Арктике может способстовать снижению концентрации ...
Президенты РАН в XXI века: от реформ к технологическому суверенитету
Суперконденсаторы для альтернативной энергетики России
Что общего между рыбками данио и Ван Гогом?
Причиной потепления в полярных регионах являются землетрясения
Изменчивость и гениальность
Значительная часть нейтрино рождается в нашей Галактике
Получение наноразмерных мембран по-новому предложили учёные ЮФУ
Новый взгляд на природу оптической нелинейности
Самый большой линейный ускоритель протонов в Евразии
Коллайдер NICA получил первые элементы для системы электронного охлажд...
В Уфе создан сверхпрочный материал
Методика учёных ИТМО позволит определить подлинность картин
В НИЯУ МИФИ разработали уникальную систему кодирования информации
Каков уровень сейсмической опасности на Горном Алтае?
"Полимеры надо перерабатывать, разлагая на исходные компоненты"
Лень мозга
Археологи СПбГУ обнаружили в Великом Новгороде остатки храмов XII века
Итоги первого дня работы общего собрания Академии наук России
"Мы делаем кремний технологически более высокого качества"
Современное потепление - самое сильное за последние 7 000 лет
Российские учёные сделали важный шаг в разработке будущего термоядерно...
Учёные ГЕОХИ РАН подтвердили факт глобального похолодания начала XVII ...
Погребения XI века под Суздалем
За чёрным силицидом будущее
Ядовитая таблетка Байкала
"Нашего полку прибыло"
Химики раскрыли биохимический механизм неспособности к обучению
Что исследуют в росскийских ЦКП при вузах
Влияние невесомости на организм человека
"Метановая бомба" с часовым механизмом
Исследование нейтрино на Байкале
Существующие критерии головных болей, связанных с инсультом, модернизи...
Томские бетатроны
В безымянном саркофаге Вознесенского собора захоронена дочь Ивана III
Природоподобные соединения для лечения болезни Паркинсона
Создание возобновляемых источников энергии в России
"Похоже, что существует только одно, что люди не боятся потерять, - эт...
Три центра геномных исследований в 2021 году: итоги геномных исследова...
Борьба с пандемией и бедностью
Разработан новый способ диагностики рака и метастазов
Исследования на Таганском холме
Cделан новый шаг к созданию квантового компьютера
От создания кораблей до управления МКС
Двенадцать тезисов американских претензий к Роскосмосу и ответы на них
Новые археологические открытия под Суздалем: "Гнездиловский всадник"
Россия показывает новые возможности управления в дальнем космосе
Определена светимость с рекордной точностью в столкновении пучков LHC ...
Углеродная нейтральность - новый тренд в мировой экономике
Глобальный вызов человечеству
Создан полимерный композит на основе графена, поглощающий волны радаро...
Как научили спутники заглядывать под землю
Физики поняли, как вычислить плотность тёмной энергии
Путин утвердил Стратегию национальной безопасности
Короед-типограф - губитель хвойных лесов России
Термоядерную плазму протестировали в токамаке нового поколения