인공지능(AI)과 대규모 언어 모델(LLM)의 힘을 활용하여 새로운 화학 반응의 결과를 예측하려는 많은 시도가 있었습니다. 그러나 이러한 모델이 질량 보존 법칙과 같은 기본적인 물리 원리에 기반하지 않았기 때문에 성공은 제한적이었습니다.
이제 MIT의 한 팀은 물리적 제약을 반응 예측 모델에 통합하여 결과의 정확도와 신뢰성을 크게 향상시키는 방법을 찾아냈습니다.

8월 20일 네이처 저널에 게재된 이 연구는 준영 정(현재 국민대학교 조교수), 전 소프트웨어 엔지니어 문홍퐁(현재 듀크대학교), 화학공학 대학원생 니콜라스 카세티, 박사후 연구원 조던 라일스, 물리학과 학생 네 다사나야케, 그리고 주저자인 코너 콜리(1957년 화학공학과 및 전기 공학과 경력개발 교수)가 공동 집필했습니다.
반응 예측이 중요한 이유는 무엇입니까?
"반응 결과를 예측하는 것은 매우 중요한 작업입니다."라고 정 박사는 설명합니다. 예를 들어, 신약을 만들려면 "합성 방법을 알아야 합니다. 이를 위해서는 일련의 출발 물질에서 어떤 생성물이 생성될 가능성이 높은지 알아야 합니다."
이전 시도에서는 종종 입력 및 출력 데이터만 살펴보았고, 중간 단계와 자연적으로 질량을 생성하거나 잃을 수 없는 물리적 제약은 무시했습니다.
정은 ChatGPT와 같은 LLM이 연구에서 어느 정도 성공을 거두었지만, 결과가 물리 법칙을 따르도록 보장하는 메커니즘이 부족하다고 지적합니다. 그는 "원자를 나타내는 '토큰'을 보존하지 않으면 LLM은 반응에서 임의로 원자를 생성하거나 파괴할 것입니다."라고 말하며, "이는 과학보다는 연금술에 가깝습니다."라고 덧붙입니다.
FlowerER 솔루션: 기존 플랫폼 기반, 신기술 적용
이를 극복하기 위해 연구팀은 화학자 이바르 우기가 1970년대에 개발한 방법인 결합-전자 행렬을 사용해 반응에서 전자를 표현했습니다.
이를 바탕으로 그들은 전자의 움직임을 세부적으로 추적하고 전자가 인위적으로 추가되거나 손실되지 않도록 보장하는 FlowER(Flow matching for Electron Redistribution) 프로그램을 개발했습니다.
이 행렬은 결합이나 자유 전자쌍을 나타낼 때는 0이 아닌 값을 사용하고, 그 반대의 경우는 0을 사용합니다. 퐁은 "이를 통해 원자와 전자를 모두 보존할 수 있습니다."라고 설명합니다. 이는 질량 보존 법칙을 모델에 통합하는 데 핵심적인 역할을 합니다.
초기이지만 유망한 증거
콜리에 따르면, 현재 시스템은 단지 시연일 뿐입니다. 즉, "흐름 매칭" 방법이 화학 반응을 예측하는 데 매우 적합하다는 것을 보여주는 개념 증명입니다.
미국 특허청에서 수집한 100만 개가 넘는 화학 반응 데이터로 학습했음에도 불구하고, 해당 데이터베이스에는 여전히 금속 및 촉매 기반 반응에 대한 정보가 없습니다.
"이 시스템이 반응 메커니즘을 안정적으로 예측할 수 있다는 사실에 매우 기쁩니다."라고 콜리는 말했다. "질량과 전자를 보존하지만, 앞으로 몇 년 안에 견고성을 확장하고 개선할 방법이 분명히 있습니다."
이 모델은 현재 GitHub에서 공개적으로 이용 가능합니다. 콜리는 이 모델이 반응성을 평가하고 대응 지도를 구축하는 데 유용한 도구가 되기를 바랍니다.
오픈 데이터 소스와 폭넓은 응용 가능성
퐁은 "우리는 모델부터 데이터, 그리고 Joung이 이전에 구축한 데이터세트까지 모든 것을 공개했습니다. 이 데이터세트에는 반응의 알려진 메커니즘 단계가 자세히 설명되어 있습니다."라고 말했습니다.
연구팀에 따르면, FlowerER은 표준 메커니즘을 찾는 데 있어 기존 방법과 동등하거나 그 이상의 성능을 발휘할 뿐만 아니라, 이전에는 볼 수 없었던 다양한 반응 유형으로 일반화할 수 있다고 합니다. 제약 화학, 재료 개발 , 화재 연구, 대기 화학, 전기화학 시스템 등 다양한 분야에 적용될 수 있는 잠재력을 가지고 있습니다.
콜리는 다른 시스템과 비교했을 때 "우리가 사용하는 아키텍처 선택을 통해 유효성과 무결성 측면에서 엄청난 도약을 이루었으며, 정확성은 유지되거나 약간 향상되었습니다."라고 말했습니다.
콜리는 이 모델의 독특한 점은 메커니즘을 "발명"하는 것이 아니라 특허 문헌의 실험 데이터를 기반으로 추론한다는 점이라고 말합니다. "우리는 실험 데이터에서 메커니즘을 추출하고 있는데, 이는 이 정도 규모로 수행되거나 공유된 적이 없는 일입니다."
다음 단계
연구팀은 금속과 촉매 작용에 대한 모델의 이해를 확장할 계획입니다. 콜리는 "아직 시작에 불과합니다."라고 인정합니다.
그는 장기적으로 이 시스템이 새로운 복잡한 반응을 발견하고 이전에 알려지지 않은 메커니즘을 밝히는 데 도움이 될 수 있다고 믿습니다. "장기적인 잠재력은 엄청나지만, 이는 시작에 불과합니다."
이 연구는 제약품 발견 및 합성을 위한 기계 학습 컨소시엄과 미국 국립과학재단(NSF)의 지원을 받았습니다.
(출처: MIT)
출처: https://vietnamnet.vn/moi-hinh-ai-moi-du-doan-phan-ung-hoa-hoc-chinh-xac-nho-bao-toan-khoi-luong-2444232.html
댓글 (0)