You are currently viewing 2024년 “다중 오믹스 테이터 분석(multi omics analysis)과 인공지능(AI)의 하모니” 인류 질병에 대한 도전과 그 미래

2024년 “다중 오믹스 테이터 분석(multi omics analysis)과 인공지능(AI)의 하모니” 인류 질병에 대한 도전과 그 미래

알파폴드(AlphaFold)는 구글(DeepMind))이 개발한 인공지능(AI) 프로그램으로 단백질의 3차원 구조를 예측하는 데 사용되며, 이는 단백질의 기능을 이해하고 새로운 의약품을 개발하는데 딥러닝 알고리즘을 활용하여 개발합니다.

알파폴드(AlphaFold)는 2018년에 처음 발표되었으며, 그 이후로 단백질 구조 예측 분야에서 획기적인 진전을 이루었습니다. 또한 단백질 구조를 예측하는 CASP(Critical Assessment of protein Structure Prediction) 대회에서 2020년과 2022년에 1위를 차지했습니다.

작동 방식은 단순히 단백질의 아미노산 서열을 입력하면 3차원 구조를 예측하는 것입니다. 이를 위해 딥 러닝과 같은 기계 학습 기술을 사용하며 단백질 구조 데이터베이스에서 학습하여 단백질의 아미노산 서열과 3차원 구조 사이의 관계를 파악합니다.

  1. 말라리아 기생충 플라스모디움 팔(ciparum)의 단백질 구조를 예측
  2. 암발병 단백질 KRAS의 구조를 예측
  3. 코로나 바이러스 SARS-CoV-2의 단백질 구조를 예측
  4. 사이클린 의존성 키나아제 2(CDK2)와 시클린 A의 상호 작용을 예측하는 데 사용
  5. DNA 복구를 담당 단백질
  6. 세로토닌의 재흡수를 담당하는 단백질인 세로토닌 트랜스포터(SERT)와 세로토닌의 상호 작용을 예측
  7. 알츠하이머병 – 베타-아밀로이드의 구조를 예측
  8. 파킨슨병 – 알파-시누클레인의 구조를 예측 
  9. 헌팅턴병 – 헌팅틴의 구조를 예측 

이해

기능

  1. 단백질-단백질 상호 작용 예측

    • 단백질의 3차원 구조를 예측 -> 단백질-단백질 상호 작용을 예측

  2. 단백질-리간드 상호 작용 예측

    • 단백질이 작은 분자와 결합하는 것을 말함

  3. 단백질 설계

    • 새로운 단백질을 설계할 때는 단백질의 기능을 고려하여 단백질의 아미노산 서열을 변경

원리

알파폴드(AlphaFold)는 단백질의 아미노산 서열을 입력받으면 딥 러닝을 사용하여 단백질의 3차원 구조를 예측합니다. 단백질의 3차원 구조는 단백질의 영역과 기능을 이해하는 데 중요합니다. 단백질의 활성 부위는 단백질의 3차원 구조에서 특정 위치에 위치합니다.

기존 단백질의 기능을 예측하는 방법

  1. 서열 분석

    단백질의 아미노산 서열을 조사하여 보존된 도메인 및 모티프를 식별하는 방법

    • 도메인(domain)

      • 단백질의 구조적 및 기능적 단위

      • 서로 다른 단백질에서 유사하거나 동일한 기능을 수행할 수 있음

    • 모티프(motif)

      • 아미노산 서열의 패턴

      • 단백질의 구조 또는 기능에 중요한 역할을 함

  2. 구조 예측

    • 비교 모델링(comparative modeling)

      • 알려진 단백질 구조와 유사한 새로운 단백질의 구조를 예측

      • 알려진 단백질 구조와 새로운 단백질의 아미노산 서열을 비교

      • 새로운 단백질의 구조를 예측

    • 스레딩(threading)

      • 알려진 단백질 구조에 새로운 단백질의 아미노산 서열을 맞추는 방법

      • 알려진 단백질 구조와 새로운 단백질의 아미노산 서열을 비교하여 새로운 단백질의 구조를 예측

    • 새로 접힘(ab initio folding)

      • 알려진 단백질 구조를 사용하지 않고 새로운 단백질의 구조를 예측

      • 새로 접힘은 단백질의 아미노산 서열과 물리적 법칙을 사용하여 새로운 단백질의 구조를 예측

  3. 기능적 데이터베이스

    알려진 단백질 기능에 대한 데이터베이스로 이를 참조하면 단백질의 기능을 예측하는 데 유용한 정보를 얻을 수 있음

    • 유니프로트(UniProt)

      • 1억 개 이상의 단백질에 대한 정보를 포함하고 있으며, 매일 새로운 단백질이 추가되고 있음

    • 유전자 온톨로지(Gene Ontology)

      • 유전자와 단백질의 기능을 설명하는 표준화된 어휘

      • 단백질의 기능을 다른 단백질의 기능과 비교할 수 있음

    • 케이이지지(KEGG)

      • 생화학 경로의 데이터베이스

      • 단백질 참여 경로 확인

    • 바이오사이클(BioCyc)

    • 생화학 경로, 유전자, 단백질 및 대사물에 대한 데이터베이스

    • 단백질이 대사물 생산 확인

알파폴드(AlphaFold)의 단백질 기능 예측 방법

기존 단백질의 기능을 예측하는 방법 모두를 사용합니다. 단백질의 아미노산 서열을 입력받으면 딥 러닝 모델을 사용하여 단백질의 3차원 구조를 예측하고 그 후, 단백질의 활성 부위를 식별합니다. 그리고 단백질의 활성 부위를 식별한 후, 단백질이 어떤 분자와 결합할 가능성이 있는지 예측합니다.

단백질의 기능의 예측 정확도는 2020년에 개최된 단백질 기능 예측 경쟁인 CAFA2에서 1위를 차지했으며 CAFA2에서 평균 78.6%의 정확도를 기록 했습니다.

  1. 단백질의 아미노산 서열 입력

  2. 단백질의 3차원 구조 관계를 학습

  3. 단백질의 아미노산 서열을 입력

  4. 단백질의 3차원 구조를 예측

  5. 단백질의 활성 부위를 식별

  6. 단백질이 어떤 분자와 결합 가능성 예측

역사

  1. 2010년대

    • 다양한 팀이 단백질 구조 예측을 위한 새로운 방법이 연구됨

    • 다양한 유기체에서 사용할 수 있는 관련 DNA 서열의 대규모 데이터뱅크를 조사하여 잔기에서 변화를 찾는 작업에 중점

    • 잔기들이 물리적으로 서로 가까울 수 있음을 시사하여 접촉 지도를 추정할 수 있게 해줌

  2. 2018년

    • AlphaFold 1 개발

    • 잔여물이 얼마나 가까울지에 대한 확률 분포를 추정하여 접촉 맵을 거리 맵으로 전환

    • 2018년 CASP13 단백질 구조 예측 대회에서 우승

  3. 2020년

    • AlphaFold 2 개발

    • AlphaFold 2는 AlphaFold 1보다 훨씬 정확하게 단백질 구조를 예측

    • 2020년 CASP14 단백질 구조 예측 대회에서 우승합니다.

  4. 2022년

    • CASP15에 참가하지 않지만 대부분의 참가자는 AlphaFold 또는 AlphaFold를 통합한 도구를 사용

적용 분야

기능위주 적용 분야

  1. 의약품 개발

    • 새로운 약물의 표적이 되는 단백질을 식별하는 데 도움이 됩니다.

      • 단백질의 활성 부위를 식별하는 데 도움 됨

      • 단백질의 활성 부위는 단백질이 다른 분자와 결합하는 부분이며, 새로운 약물의 표적이 되는 부분

    • 새로운 약물의 구조를 설계하는 데 도움이 됩니다.

      • 새로운 약물의 구조를 설계할 때는 단백질의 활성 부위에 결합할 수 있는 구조를 설계해야 함

      • 단백질의 활성 부위를 정확하게 예측할 수 있기 때문에 새로운 약물의 구조를 더 효과적으로 설계

  2. 단백질 기능 이해

    • 단백질의 활성 부위를 식별하는 데 도움이 됩니다.

      • 단백질의 구조를 빠르고 정확하게 예측

      • 단백질의 활성 부위는 단백질이 다른 분자와 결합하는 부분이며, 단백질의 기능을 담당하는 부분

    • 단백질이 다른 분자와 결합하는 방식을 이해하는 데 도움이 됩니다.

      • 단백질이 다른 분자와 결합하는 방식을 이해하는 데 도움이 됨

  3. 단백질 상호 작용 연구

    • 단백질-단백질 상호 작용을 예측하는 데 도움이 됩니다.

      • 단백질-단백질 상호 작용을 예측

      • 단백질-단백질 상호 작용은 단백질이 서로 결합하여 복합체를 형성하는 것을 말함

    • 단백질-리간드 상호 작용을 예측하는 데 도움이 됩니다.

      • 단백질-리간드 상호 작용을 예측하

      • 단백질-리간드 상호 작용은 단백질이 작은 분자와 결합하는 것을 말함

의학

가장 핵심기능인 단백질의 구조를 예측으로 단백질의 결합 부위를 예측 하고 이를 통해 새로운 의약품을 설계할 수 있습니다. 약물 발견에서 사용할 될 수 있는 방법 중에 알로스테릭 및 오르토스테릭 약물을 설계하는 것입니다. 알로스테릭 약물은 단백질의 활성 부위에 결합하지 않고 다른 부위에 결합하여 단백질의 기능을 변화시킵니다. 오르토스테릭 약물은 단백질의 활성 부위에 직접 결합하여 단백질의 기능을 변화시킵니다.

알로스테릭 약물

단백질의 활성 부위에 결합하지 않고 다른 부위에 결합하여 단백질의 기능을 변화시키는 약물로 단백질의 구조를 변화시켜 단백질의 기능을 변화시킵니다.

  • 벤조디아제핀계 약물 불안과 수면 장애를 치료하는 데 사용되는 약물입니다.

  • 바르비투르산계 약물 수면 장애와 진정제로 사용되는 약물입니다.

  • 근육 이완제 근육을 이완시키는 데 사용되는 약물입니다.

오르토스테릭 약물

단백질의 활성 부위에 직접 결합하여 단백질의 기능을 변화시키는 약물로 단백질의 활성 부위를 차단하여 단백질의 기능을 변화시킵니다.

  • 아스피린 통증, 발열, 염증을 치료하는 데 사용되는 약물입니다.

  • 이부프로펜 통증, 발열, 염증을 치료하는 데 사용되는 약물입니다.

  • 아세트아미노펜 통증과 발열을 치료하는 데 사용되는 약물입니다.

실사용

단백질 구조 및 상호작용 예측

  1. 말라리아 기생충 플라스모디움 팔(ciparum)의 단백질 구조를 예측

    • 플라스모디움 팔(ciparum)의 단백질인 피로포스페이트 인산화효소(PfPPase)의 구조를 예측하는 데 사용

    • PfPPase는 말라리아 기생충이 숙주 세포에서 에너지를 생성하는 역할을 하는 효소

    • 플라스모디움 팔(ciparum)의 단백질인 헤모글로빈 분해 효소(PfHbDH)의 구조를 예측

  2. 암발병 단백질 KRAS의 구조를 예측

    • KRAS 단백질의 돌연변이 형태인 KRAS G12C의 구조를 예측

    • KRAS G12C는 폐암, 대장암, 결장암에서 흔히 발견되는 돌연변이

    • KRAS 단백질의 또 다른 돌연변이 형태인 KRAS G12D의 구조를 예측

    • KRAS G12D는 폐암, 대장암, 결장암에서 흔히 발견되는 돌연변이

  3. 코로나 바이러스 SARS-CoV-2의 단백질 구조를 예측

    • SARS-CoV-2의 단백질인 스파이크 단백질의 구조를 예측

    • 스파이크 단백질은 SARS-CoV-2 바이러스가 숙주 세포에 감염시키는 역할

    • SARS-CoV-2의 단백질인 주요 프로테아제(Mpro)의 구조를 예측

    • Mpro는 SARS-CoV-2 바이러스가 복제하게 하는 효소

  4. 사이클린 의존성 키나아제 2(CDK2)와 시클린 A의 상호 작용을 예측하는 데 사용

  5. DNA 복구를 담당 단백질

    • DNA 복구 효소 XRCC1과 RAD51의 상호 작용을 예측

  6. 신경 전달 물질

    • 세로토닌의 재흡수를 담당하는 단백질인 세로토닌 트랜스포터(SERT)와 세로토닌의 상호 작용을 예측

질병

  1. 알츠하이머병 – 베타-아밀로이드의 구조를 예측

    • 알츠하이머병은 치매의 가장 흔한 형태입니다. 알츠하이머병의 주요 증상은 기억 상실, 인지 기능 저하, 행동 변화 등입니다. 알츠하이머병의 원인은 아직 완전히 밝혀지지 않았지만, 베타-아밀로이드라는 단백질이 알츠하이머병의 발병에 중요한 역할을 하는 것으로 알려져 있습니다.

  2. 파킨슨병 – 알파-시누클레인의 구조를 예측

    • 파킨슨병은 신경계를 손상시키는 만성 퇴행성 질환입니다. 파킨슨병의 주요 증상은 떨림, 근육 경직, 운동 완만, 자세 불안정 등입니다. 파킨슨병의 원인은 아직 완전히 밝혀지지 않았지만, 알파-시누클레인이라는 단백질이 파킨슨병의 발병에 중요한 역할을 하는 것으로 알려져 있습니다.

  3. 헌팅턴병 – 헌팅틴의 구조를 예측

    • 헌팅턴병은 유전성 퇴행성 질환입니다. 헌팅턴병의 주요 증상은 운동 장애, 정신 장애, 인지 장애 등입니다. 헌팅턴병의 원인은 헌팅틴이라는 단백질의 돌연변이입니다

기타 분야

농업

  • 새로운 작물 개발

    • 쌀 단백질의 구조를 예측 -> 쌀 작물은 더 생산적이고 질병에 강하며 기후 변화에 더 잘 적응

  • 작물 생산성 향상

    • 옥수수 단백질의 구조를 예측 -> 옥수수 생산성을 향상시키는 데 사용

에너지

  • 새로운 에너지원 개발

    • 에너지 생산 단백질의 구조를 예측 후 새로운 에너지원을 개발

    • 지속 가능하고 환경 친화적인 에너지원을 개발

  • 에너지 효율 향상

    • 에너지 효율 단백질의 구조를 예측

    • 에너지 소비를 줄이고 환경 보호

재료 과학

  • 새로운 재료 개발

    • 금속 합금의 구조를 예측 -> 새로운 금속 합금은 더 강하고 가볍고 내구성이 있음

  • 재료 성능 향상

    • 플라스틱의 구조를 예측 -> 새로운 플라스틱은 더 강하고 가볍고 내구성이 있음

제한 사항

단백질의 구조를 예측하는 데 매우 정확한 인공지능 프로그램이지만, 여전히 몇 가지 제한 사항이 있습니다.

  • 단량체만 예측

    • 단독체만 예측할 수 있음

    • 여러 개의 단백질이 결합하여 형성된 구조인 복합체는 예측할 수 없음

  • 본질적으로 무질서한 단백질에 대한 예측 불가

    • 구조가 정해지지 않은 단백질인 무질서한 단백질은 예측할 수 없음

  • 돌연변이 분석에 대한 검증 부족

    • 돌연변이 분석은 단백질의 특정 아미노산을 다른 아미노산으로 변경하여 단백질의 구조와 기능이 어떻게 변하는지 연구하는 방법으로 이 구조를 정확하게 예측할 수 있는지 확실하지 않음

  • 유사한 단백질에 대한 공진화 정보 의존

    • 공진화 정보는 서로 다른 생물에서 유사한 단백질의 아미노산 서열을 비교하여 얻은 정보로 유사한 단백질에 대한 공진화 정보에 의존하기 때문에 합성 단백질이나 데이터베이스의 어떤 것과도 상동성이 매우 낮은 단백질에서는 정확한 구조를 예측하지 못할 수 있음

  • 단일 형태의 단백질만 출력

    • 제어할 수 없는 여러 형태의 단백질 중 하나의 형태만 출력할 수 있으며, 단백질의 모든 형태를 예측할 수 없음

  • 보조 인자 및 번역 후 변형 예측 불가

    • 보조 인자는 단백질의 기능에 필수적인 분자로 번역 후 변형은 단백질이 합성된 후에 일어나는 변화임

    • 보조 인자와 번역 후 변형을 예측할 수 없기 때문에 생물학적으로 관련된 여러 시스템에 심각한 단점이 될 수 있음

  • 위상적으로 잘못된 결과 생성 가능성

    • 위상적으로 잘못된 결과는 단백질의 아미노산 서열이 올바르지 않은 방식으로 연결된 구조로 예측한 구조를 신뢰할 수 없음

  1. 기본

    • OS: Linux 기반(타 OS는 미지원)

    • 3 TB SSSD: 유전자 데이터베이스(SSD 스토리지 권장)를 유지

    • NVIDIA GPU: 더 많은 메모리를 갖춘 GPU가 더 큰 단백질 구조를 예측할 수 있음

  2. 도커 설치

    git clone https//github.com/deepmind/alphafold.git
    cd ./alphafold
  3. 유전자 데이터베이스 및 모델 매개변수 다운로드

    • aria2c. 설치

      • 대부분의 Linux 배포판에서는 패키지 관리자를 통해 패키지로 사용할 수 있음

    • aria2(Debian 기반 배포판에서는 를 실행하여 설치할 수 있음 “sudo apt install aria2”)

    • scripts/download_all_data.sh

      전체 데이터베이스를 다운로드하고 설정하려면 스크립트를 사용

      • 상당한 시간이 걸릴 수 있음(다운로드 크기는 556GB)

      • 백그라운드에서 이 스크립트를 실행 권장

    • scripts/download_all_data.sh <DOWNLOAD_DIR> > download.log 2> download_all.log &

    • 참고 다운로드 디렉토리는 AlphaFold 저장소 디렉토리의 하위 디렉토리가 아닌<DOWNLOAD_DIR>로 지정

    • 대규모 데이터베이스가 docker 빌드 컨텍스트에 복사되므로 Docker 빌드가 느려질 확률이 있음

    • 축소된 데이터베이스로 AlphaFold를 실행할 수 있음

  4. GPU 사용 확인: docker run --rm --gpus all nvidia/cuda11.0-base nvidia-smi

  5. Docker 이미지를 빌드 docker build -f docker/Dockerfile -t alphafold .

    • 아래 오류가 발생하는 경우

    W GPG error https//developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64 InRelease The following signatures couldn't be verified because the public key is not available NO_PUBKEY A4B469963BF863CC
    E The repository 'https//developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64 InRelease' is not signed.
  6. 종속성을 설치 run_docker.py.

    • 참고 시스템의 Python 환경과의 충돌을 방지를 위해 Python 가상 환경을 생성할 수 있음 pip3 install -r docker/requirements.txt

  7. 출력 디렉터리가 존재하고(기본값은 /tmp/alphafold) 해당 디렉터리에 쓸 수 있는 충분한 권한이 있는지 확인

  8. run_docker.py구조를 예측하려는 단백질 서열이 포함된 FASTA 파일을 가리키도록 실행

    • (--fasta_paths 매개변수) 매개변수에 지정된 날짜 이전에 사용 가능한 템플릿을 검색

    • (--max_template_date) 모델링 중에 특정 템플릿을 방지하는 데 사용

    • (--data_dir) 다운로드된 유전자 데이터베이스가 있는 디렉터리

    • (--output_dir) 출력 디렉터리의 절대 경로

    python3 docker/run_docker.py \
    --fasta_paths=your_protein.fasta \
    --max_template_date=2022-01-01 \
    --data_dir=$DOWNLOAD_DIR \
    --output_dir=/home/user/absolute_path_to_the_output_dir
  9. 실행이 끝나면 출력 디렉토리에는 표적 단백질의 예상 구조가 포함됨

  1. SYNTHIA 역합성 소프트웨어 SYNTHIA는 합성 가능한 분자를 생성할 수 있는 강력한 역합성 소프트웨어입니다. SYNTHIA는 AlphaFold와 마찬가지로 기계 학습을 사용하지만 다른 방식으로 사용됩니다. AlphaFold는 단백질 구조를 예측하는 데 사용되는 반면, SYNTHIA는 합성 가능한 분자를 생성하는 데 사용됩니다.

  2. BIOVIA Discovery Studio: 비오비아 디스커버리 스튜디오는 다양한 분자 모델링 및 시뮬레이션 도구를 제공하는 포괄적인 소프트웨어 패키지입니다. 비오비아 디스커버리 스튜디오는 AlphaFold와 마찬가지로 단백질 구조를 예측하는 데 사용할 수 있지만 AlphaFold보다 더 많은 기능을 제공합니다.

  3. ESMFold: ESMFold는 메타가 개발한 단백질 구조 예측 프로그램입니다. ESMFold는 AlphaFold와 유사한 기계 학습 알고리즘을 사용하지만 AlphaFold보다 더 빠르고 더 정확합니다.

  4. Eidogen-Sertanty Target Informatics Platform (TIP): Eidogen-Sertanty 대상 정보학 플랫폼(TIP)은 다양한 도구를 제공하는 클라우드 기반 플랫폼입니다. TIP는 AlphaFold와 마찬가지로 단백질 구조를 예측하는 데 사용할 수 있지만 AlphaFold보다 더 많은 기능을 제공합니다.

  5. Mass Dynamics: Mass Dynamics은 단백질 및 기타 분자의 동역학을 시뮬레이션하는 데 사용할 수 있는 소프트웨어 패키지입니다. 질량 역학은 AlphaFold와 마찬가지로 단백질 구조를 예측하는 데 사용할 수 있지만 AlphaFold보다 더 정확합니다.

  6. Genedata Biologics: [Genedata Biologics은 생물학적 데이터를 관리하고 분석하는 데 사용할 수 있는 소프트웨어 패키지입니다. Genedata 생물학은 AlphaFold와 마찬가지로 단백질 구조를 예측하는 데 사용할 수 있지만 AlphaFold보다 더 많은 기능을 제공합니다.

참조: Slasdot

미래 예측과 결론

  1. 정밀하고 정확한 구조 예측

    • 이미 단백질 구조를 매우 정확하게 예측할 수 있지만 앞으로는 더욱 정밀하고 정확해질 것

    • 더 많은 데이터 학습과 발전된 정교한 알고리즘을 개발

  2. 좀더 빠른 구조 예측

    • 현재에도 단백질 구조를 예측 시간이 빠르지만 향후 속도는 더욱 더 증가할것임

  3. 복합 단백질 구조 예측

    • 많은 단백질 데이터로 학습하여 복합 단백질 등 다양한 환경에 적용

  4. 다른 분야에서의 응용

    • 약물 설계, 질병 연구, 재료 설계 등에 사용될 수 있음

우리는 피부로 느끼지 못할 뿐이지만 질병이라는 카테고리에서 벗어나는 시작지점에 와 있지 않나하는 생각이 듭니다. 유전자 가위가 사용화되어 유전자 치료가 이미 시작되었고 대규모 AI가 정확한 질병 시뮬레이션을 수행하고 있습니다. 세계를 둘러보면 잦은 전쟁과 기아가 넘처나지만 인간이 호모사피엔스로 진화한 이후 가장 혁신적인 시대가 아닌가 합니다. 향후 알파폴드등을 활용하여 노화에 대한 극복또한 이루어 지길 짐심으로 바랍니다,


노화극복과 건강에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

답글 남기기