-
AlphaFold2, Bioinformatics 용어정리Bioinformatics 2023. 1. 29. 09:25
(주의: 바이오비전공자가 정리하는 내용으로 오류가 있을 수 있음. 오류 정정 환영합니다 🙇♀️)
CASP(Critical Assessment of techniques for protein Structure Prediction)이라는 세계 단백질 구조 예측 학술대회가 있다.알파고를 만든 딥마인드가 만든 AlphaFold2라는 단백질 3차 구조 예측 모델이 2020년 CASP14에서 매우 압도적인 결과를 내놓았다. 이미 AlphaFold 모델도 CASP13에서 우수한 결과를 내놓았는데, 이를 뛰어넘은 것이다.
단백질은 구조가 곧 기능을 나타내기에 단백질의 3차원 구조를 규명하는데는 적게는 수개월, 많게는 수년까지 걸린다. 과거엔 3차원 구조를 알아내는데 단백질을 결정화시켜서 X선을 이용하거나, 극저온현미경을 통해 사람의 눈으로 보면서 구조를 알아내고 있었다. 하지만 이는 2차원 평면도를 보고 3차원 구조가 파악하는 것으로, 단백질의 상태, 실험환경에 따라 3차원 구조를 파악하는데 많은 실험을 거쳐야했을것이다.
알파폴드의 원리
1. 딥러닝을 이용해서 다중 서열 정렬(MSA) 이용, CNN 사용
2. 1에서 예측한 결과를 Distance Map으로 나타냄.
3. 경사하강법을 통해 실제값에 가까워지도록 오차를 조절
다중서열정렬
- Multiple Alignment(MSA)란 3개 이상의 DNA, RNA, Protein과 같은 서열들을 sequence alignment를 진행하는 것을 말함.
- MSA는 단백질 서열간의 유사성을 통해 단백질의 구조를 예측하는데 사용됨.
Distance Map
- 아래 히트맵의 가로와 세로축은 단백질을 이루고있는 아미노산 서열들이다.
- 거리가 가까울수록 색깔이 밝음.
- 예측된 구조(B)가 실제 구조(A)와 가까워지면, C처럼 두 구조를 겹쳐보았을 때 유사한 구조로 나타남.
(Bioinformatics을 이제 입문하게되어 용어정리, 주요 python 코드정리로 포스팅할 예정)
Reference
http://www.incodom.kr/Multiple_alignment