00:00:00

Share Your Feedback 🏝️

Model | Biology | Chai-1

Model | Biology | Chai-1

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: A Systematic Review | Achieving Peak Performance Next: Data | Improving Data Using PPL****

Model | Biology | Chai-1

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-09-09

Introducing Chai-1: Decoding the molecular interactions of life

  • url: https://www.chaidiscovery.com/blog/introducing-chai-1
  • github: https://github.com/chaidiscovery/chai-lab
  • abstract: We’re excited to release Chai-1, a new multi-modal foundation model for molecular structure prediction that performs at the state-of-the-art across a variety of tasks relevant to drug discovery. Chai-1 enables unified prediction of proteins, small molecules, DNA, RNA, covalent modifications, and more. The model is available for free via a web interface, including for commercial applications such as drug discovery. We are also releasing the model weights and inference code as a software library for non-commercial use.

알파 폴드와의 성능 비교 확인

TL;DR


  • Chai-1 모델: 생명의 분자 상호작용 해독
  • 대규모 다중 모달 기초 모델을 통한 분자 구조 예측
  • 약물 발견 등 상용 응용에 무료로 제공되는 첨단 AI 모델

1. Chai-1 모델 소개

Chai Discovery에서 개발한 Chai-1은 분자 구조 예측을 위한 혁신적인 다중 모달 기초 모델입니다. 이 모델은 단백질, 소분자, DNA, RNA 등 다양한 생체 분자의 구조를 통합적으로 예측할 수 있는 능력을 갖추고 있습니다.

Chai-1 모델의 주요 특징은 다음과 같습니다.

  • 1) 다양한 생체 분자 구조 예측
    • 단백질, 소분자, DNA, RNA, 공유 결합 수정 등을 포함한 광범위한 생체 분자의 구조를 예측할 수 있습니다.
  • 2) 최첨단 성능
    • 다양한 벤치마크에서 기존 최고 수준의 모델들과 대등하거나 더 나은 성능을 보여줍니다.
  • 3) 단일 서열 모드 지원
    • 다중 서열 정렬(MSA) 없이도 높은 성능을 유지할 수 있습니다.
  • 4) 상용 및 비상용 사용 가능
    • 웹 인터페이스를 통해 상업적 용도로 무료 사용이 가능하며, 비상업적 용도로는 모델 가중치와 추론 코드가 제공됩니다.


2. Chai-1 모델의 성능 평가

Chai-1 모델의 성능을 다양한 벤치마크를 통해 평가했습니다. 주요 평가 결과를 step by step으로 살펴보겠습니다.


Step 1: PoseBusters 벤치마크

PoseBusters는 단백질 구조 예측 모델의 성능을 평가하는 벤치마크입니다.

  • Chai-1의 성공률: 77%
  • AlphaFold3의 성공률: 76%

이 결과는 Chai-1이 최신 모델인 AlphaFold3보다 약간 더 나은 성능을 보여줌을 의미합니다.

성공률의 차이에 대한 통계적 유의성을 평가하기 위해 다음과 같은 이항 분포 검정을 수행할 수 있습니다.

\(H_0: p_{Chai-1} = p_{AlphaFold3}\) \(H_1: p_{Chai-1} > p_{AlphaFold3}\)

$p$는 각 모델의 성공 확률

Z-score를 계산하면,

\[Z = \frac{\hat{p}_{Chai-1} - \hat{p}_{AlphaFold3}}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\]

$\hat{p}$는 두 모델의 평균 성공률, $n$은 샘플 크기입니다.

이 Z-score를 사용하여 p-value를 계산하고, 유의수준 α와 비교하여 통계적 유의성을 판단할 수 있습니다.


Step 2: CASP15 단백질 단량체 구조 예측

CASP (Critical Assessment of protein Structure Prediction)는 단백질 구조 예측 분야의 주요 평가 대회입니다.

  • Chai-1의 Cα LDDT: 0.849
  • ESM3-98B의 Cα LDDT: 0.801

LDDT (Local Distance Difference Test)는 예측된 구조와 실제 구조 간의 유사도를 측정하는 지표입니다. 값이 1에 가까울수록 더 정확한 예측을 의미합니다.

두 모델 간의 LDDT 차이의 통계적 유의성을 평가하기 위해 paired t-test를 수행할 수 있습니다.

\[t = \frac{\bar{d}}{\frac{s_d}{\sqrt{n}}}\]

$\bar{d}$는 LDDT 차이의 평균, $s_d$는 차이의 표준편차, $n$은 샘플 크기


Step 3: 다량체 구조 예측

다량체(multimer) 구조 예측은 여러 단백질 분자가 결합한 복합체의 구조를 예측하는 작업입니다.

Chai-1의 DockQ 허용 가능 예측률: 69.8% AlphaFold-Multimer의 DockQ 허용 가능 예측률: 67.7%

DockQ는 단백질-단백질 상호작용 모델의 품질을 평가하는 지표입니다. ‘허용 가능’ 예측은 일정 수준 이상의 정확도를 가진 예측을 의미합니다.

이 결과의 통계적 유의성을 평가하기 위해 이항 분포 검정을 수행할 수 있습니다. 이는 PoseBusters 벤치마크에서 사용한 방법과 유사합니다.

3. Chai-1 모델의 고유한 특징

Chai-1 모델은 다음과 같은 고유한 특징을 가지고 있습니다.

  • 1) 단일 서열 모드
    • 다중 서열 정렬(MSA) 없이도 높은 성능을 유지할 수 있습니다. 이는 계산 효율성과 적용 범위를 크게 향상시킵니다.
  • 2) 다중 모달 기초 모델
    • 다양한 유형의 입력 데이터를 처리할 수 있습니다. 예를 들어, 실험실에서 얻은 제약 조건을 모델에 입력하여 성능을 향상시킬 수 있습니다.
  • 3) 에피토프 컨디셔닝
    • 소수의 접촉 또는 포켓 잔기 정보만으로도 항체-항원 구조 예측 정확도를 두 배로 높일 수 있습니다. 이는 AI를 사용한 항체 공학을 더욱 실현 가능하게 만듭니다.

이러한 특징들의 효과는 다음과 같은 수학적 모델로 표현할 수 있습니다.

\[P(s|x,c) = \frac{P(x,c|s)P(s)}{P(x,c)}\]
  • $s$: 예측된 구조
  • $x$: 단백질 서열
  • $c$: 추가적인 제약 조건 (예: 실험실 데이터)

이 베이즈 정리 기반 모델은 추가적인 정보 $c$가 주어졌을 때 구조 예측의 정확도가 어떻게 향상되는지를 설명합니다.

4. Chai-1 모델의 활용 및 전망

Chai-1 모델은 다음과 같은 방식으로 활용될 수 있습니다.

  • 1) 약물 발견
    • 새로운 약물 후보 물질의 구조를 예측하고 최적화하는 데 사용될 수 있습니다.
  • 2) 단백질 공학
    • 원하는 기능을 가진 새로운 단백질을 설계하는 데 활용될 수 있습니다.
  • 3) 생물학적 상호작용 연구
    • 다양한 생체 분자 간의 상호작용을 예측하고 이해하는 데 도움을 줄 수 있습니다.

향후 연구 방향은 다음과 같이 예상됩니다.

1) 더 큰 규모의 생체 분자 복합체 구조 예측 2) 동적인 분자 상호작용 모델링 3) 생체 분자의 기능 예측 및 설계

References

  1. Chai Discovery 공식 웹사이트: https://www.chaidiscovery.com
  2. Chai-1 기술 보고서: https://www.chaidiscovery.com/technical-report
  3. PoseBusters 벤치마크: https://posebustersprotein.com
  4. CASP (Critical Assessment of protein Structure Prediction): https://predictioncenter.org
Previous: A Systematic Review | Achieving Peak Performance Next: Data | Improving Data Using PPL****

post contain ""

    No matching posts found containing ""