Created: 2024-09-09 11:45:54 +0000
Last modified: 2024-09-09
20:56:50 +0900
Model | Biology | Chai-1
- Related Project: Private
- Category: Paper Review
- Date: 2024-09-09
Introducing Chai-1: Decoding the molecular interactions of life
- url: https://www.chaidiscovery.com/blog/introducing-chai-1
- github: https://github.com/chaidiscovery/chai-lab
- abstract: We’re excited to release Chai-1, a new multi-modal foundation model for molecular structure prediction that performs at the state-of-the-art across a variety of tasks relevant to drug discovery. Chai-1 enables unified prediction of proteins, small molecules, DNA, RNA, covalent modifications, and more. The model is available for free via a web interface, including for commercial applications such as drug discovery. We are also releasing the model weights and inference code as a software library for non-commercial use.
알파 폴드와의 성능 비교 확인
TL;DR
- Chai-1 모델: 생명의 분자 상호작용 해독
- 대규모 다중 모달 기초 모델을 통한 분자 구조 예측
- 약물 발견 등 상용 응용에 무료로 제공되는 첨단 AI 모델
1. Chai-1 모델 소개
Chai Discovery에서 개발한 Chai-1은 분자 구조 예측을 위한 혁신적인 다중 모달 기초 모델입니다. 이 모델은 단백질, 소분자, DNA, RNA 등 다양한 생체 분자의 구조를 통합적으로 예측할 수 있는 능력을 갖추고 있습니다.
Chai-1 모델의 주요 특징은 다음과 같습니다.
- 1) 다양한 생체 분자 구조 예측
- 단백질, 소분자, DNA, RNA, 공유 결합 수정 등을 포함한 광범위한 생체 분자의 구조를 예측할 수 있습니다.
- 2) 최첨단 성능
- 다양한 벤치마크에서 기존 최고 수준의 모델들과 대등하거나 더 나은 성능을 보여줍니다.
- 3) 단일 서열 모드 지원
- 다중 서열 정렬(MSA) 없이도 높은 성능을 유지할 수 있습니다.
- 4) 상용 및 비상용 사용 가능
- 웹 인터페이스를 통해 상업적 용도로 무료 사용이 가능하며, 비상업적 용도로는 모델 가중치와 추론 코드가 제공됩니다.
2. Chai-1 모델의 성능 평가
Chai-1 모델의 성능을 다양한 벤치마크를 통해 평가했습니다. 주요 평가 결과를 step by step으로 살펴보겠습니다.
Step 1: PoseBusters 벤치마크
PoseBusters는 단백질 구조 예측 모델의 성능을 평가하는 벤치마크입니다.
- Chai-1의 성공률: 77%
- AlphaFold3의 성공률: 76%
이 결과는 Chai-1이 최신 모델인 AlphaFold3보다 약간 더 나은 성능을 보여줌을 의미합니다.
성공률의 차이에 대한 통계적 유의성을 평가하기 위해 다음과 같은 이항 분포 검정을 수행할 수 있습니다.
\(H_0: p_{Chai-1} = p_{AlphaFold3}\)
\(H_1: p_{Chai-1} > p_{AlphaFold3}\)
$p$는 각 모델의 성공 확률
Z-score를 계산하면,
\[Z = \frac{\hat{p}_{Chai-1} - \hat{p}_{AlphaFold3}}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\]
$\hat{p}$는 두 모델의 평균 성공률, $n$은 샘플 크기입니다.
이 Z-score를 사용하여 p-value를 계산하고, 유의수준 α와 비교하여 통계적 유의성을 판단할 수 있습니다.
Step 2: CASP15 단백질 단량체 구조 예측
CASP (Critical Assessment of protein Structure Prediction)는 단백질 구조 예측 분야의 주요 평가 대회입니다.
- Chai-1의 Cα LDDT: 0.849
- ESM3-98B의 Cα LDDT: 0.801
LDDT (Local Distance Difference Test)는 예측된 구조와 실제 구조 간의 유사도를 측정하는 지표입니다. 값이 1에 가까울수록 더 정확한 예측을 의미합니다.
두 모델 간의 LDDT 차이의 통계적 유의성을 평가하기 위해 paired t-test를 수행할 수 있습니다.
\[t = \frac{\bar{d}}{\frac{s_d}{\sqrt{n}}}\]
$\bar{d}$는 LDDT 차이의 평균, $s_d$는 차이의 표준편차, $n$은 샘플 크기
Step 3: 다량체 구조 예측
다량체(multimer) 구조 예측은 여러 단백질 분자가 결합한 복합체의 구조를 예측하는 작업입니다.
Chai-1의 DockQ 허용 가능 예측률: 69.8%
AlphaFold-Multimer의 DockQ 허용 가능 예측률: 67.7%
DockQ는 단백질-단백질 상호작용 모델의 품질을 평가하는 지표입니다. ‘허용 가능’ 예측은 일정 수준 이상의 정확도를 가진 예측을 의미합니다.
이 결과의 통계적 유의성을 평가하기 위해 이항 분포 검정을 수행할 수 있습니다. 이는 PoseBusters 벤치마크에서 사용한 방법과 유사합니다.
3. Chai-1 모델의 고유한 특징
Chai-1 모델은 다음과 같은 고유한 특징을 가지고 있습니다.
- 1) 단일 서열 모드
- 다중 서열 정렬(MSA) 없이도 높은 성능을 유지할 수 있습니다. 이는 계산 효율성과 적용 범위를 크게 향상시킵니다.
- 2) 다중 모달 기초 모델
- 다양한 유형의 입력 데이터를 처리할 수 있습니다. 예를 들어, 실험실에서 얻은 제약 조건을 모델에 입력하여 성능을 향상시킬 수 있습니다.
- 3) 에피토프 컨디셔닝
- 소수의 접촉 또는 포켓 잔기 정보만으로도 항체-항원 구조 예측 정확도를 두 배로 높일 수 있습니다. 이는 AI를 사용한 항체 공학을 더욱 실현 가능하게 만듭니다.
이러한 특징들의 효과는 다음과 같은 수학적 모델로 표현할 수 있습니다.
\[P(s|x,c) = \frac{P(x,c|s)P(s)}{P(x,c)}\]
- $s$: 예측된 구조
- $x$: 단백질 서열
- $c$: 추가적인 제약 조건 (예: 실험실 데이터)
이 베이즈 정리 기반 모델은 추가적인 정보 $c$가 주어졌을 때 구조 예측의 정확도가 어떻게 향상되는지를 설명합니다.
4. Chai-1 모델의 활용 및 전망
Chai-1 모델은 다음과 같은 방식으로 활용될 수 있습니다.
- 1) 약물 발견
- 새로운 약물 후보 물질의 구조를 예측하고 최적화하는 데 사용될 수 있습니다.
- 2) 단백질 공학
- 원하는 기능을 가진 새로운 단백질을 설계하는 데 활용될 수 있습니다.
- 3) 생물학적 상호작용 연구
- 다양한 생체 분자 간의 상호작용을 예측하고 이해하는 데 도움을 줄 수 있습니다.
향후 연구 방향은 다음과 같이 예상됩니다.
1) 더 큰 규모의 생체 분자 복합체 구조 예측
2) 동적인 분자 상호작용 모델링
3) 생체 분자의 기능 예측 및 설계
References
- Chai Discovery 공식 웹사이트: https://www.chaidiscovery.com
- Chai-1 기술 보고서: https://www.chaidiscovery.com/technical-report
- PoseBusters 벤치마크: https://posebustersprotein.com
- CASP (Critical Assessment of protein Structure Prediction): https://predictioncenter.org