Technology Trend

엔젠바이오,
병원성 예측 기계학습 알고리즘 개발 및 분석 소프트웨어 적용

Technology Trend Notable Research
엔젠바이오

Ⅰ. 유전자 특이적 기계학습을 통한BRCA1/2 유전자 돌연변이 병원성 예측

유전자에 돌연변이가 발생하면 해당 유전자의 기능이 변경될 수 있어, 돌연변이의 병원성을 예측할 때, 유전자 기능에 대한 검증 결과는 중요한 근거로 활용됩니다. 이 기능 검증은 주로 시험관 내에서 반응하는 in-vitro 및 생체 내에서 반응하는 in-vivo 기반의 실험을 통해 이루어집니다. 그러나 최근 차세대 염기서열 분석법(NGS)의 발전으로 인해 수많은 돌연변이가 보고되면서 기존 방법으로는 검증하기 어려운 점들이 발생하였습니다. 이에 돌연변이와 병원성을 예측할 수 있는 컴퓨터 시뮬레이션 기법인 in-silico 방법이 주목받고 있습니다. 인공지능(AI) 연구의 발전으로 유전자 기능 검증 뿐만 아니라 돌연변 이의 병원성예측까지 가능해 졌으며, 돌연변이와 병원성 간의 관계를 규명하기 위해 다양한 시도들이 이루어지고 있습니다.

Ⅱ. 돌연변이의 임상적 해석에 대한 새로운 접근방법

유전자 기능 검증 및 병원성 예측은 in-vitro 또는 in-vivo 기반의 실험을 통해 이루어져왔습니다. 주로 사용되는 기술 중 하나는 MAVE (multiplexed assays for variants effect, 다중 돌연변이 효과 분석법)으로 특정 유전자의 모든 예상 돌연변 이들을 각각의 라이브러리로 만든 후, 유전자를 발현시켜 얻은 단백질로부터 단백질의 기능적 지도를 작성하고, 돌연변이가 발행하였을 때의 기능을 평가하는 방법입니다. 하지만 in-vitro 또는 in-vivo 기반의 실험은 여러 요인들을 모두 고려하여 실험을 설계하고 실제로 수행하기에 많은 시간과 비용이 소요되고, NGS 발전으로 인해 탐지되는 돌연변이의 수도 증가하였기 때문에 모든 돌연변이에 대한 기능 검증을 수행하기에 많은 어려움이 있습니다. 이러한 어려움을 극복하기 위해 최근에는 in-silico 알고리즘을 통해 유전자 기능 검증을 수행하고 있으며, 알고리즘의 사용 및 해석에 한계점이 존재하여 적절한 가이 드라인 및 추가적인 유전자 특이적 교정(gene-specific calibration)이 필요합니다.

Ⅲ. 유전성 유방암-난소암 증후군 예측을 위한 질병 특이적 및 유전자 특이적 기계학습 연구

기존의 REVEL, BayesDel, ClinPred와 같은 in-silico 알고리즘들은 대부분 유전체 전체를 다루는 기계학습 모델(genome-wide model, GW model)로 질병에 따라 돌연변이의 병원성을 예측하고 질병과의 관계를 해석하는 방식이 다르기 때문에, 질병 특이적 기계학습 모델 (disease-specific model, DS model) 또는 유전자 특이적 기계학습 모델 (gene-specific model, GS model)을 사용해서 돌연변이에 대한 질병 특이적인 병원성을 예측해야 합니다. DS model은 특정 질병 관련 데이터를 활용하여 종양의 발생이나 예후를 예측하는데 사용되며, GS model은 특정 유전자와 관련된 데이 터를 기반으로 해당 유전자의 생물학적 현상이나 질병을 예측하는데 사용됩니다.

이러한 방법에 따라 자사는 특정 질병과 관련된 데이터를 활용하여 학습된 DS model과 특정 유전자와 관련된 데이터를 사용하는 GS model을 통해 유전성 유방암-난소암 증후군(HBOC)에 특이적인 변이의 병원성을 예측하는 연구를 수행하였습 니다. GS model은 BRCA1과 BRCA2 돌연변이 데이터를 대상으로 학습되었으며, DS model은 BRCA1과 BRCA2를 포함한 총 26개의 유전자 돌연변이 데이터를 사용하여 평가하였습니다. <그림 1>

<그림 1> GS/DS 두가지 모델의 학습 전략

각 모델의 학습을 위해, ClinVar에서 <희귀 돌연변이 조건>을 기준으로 선별된 1,068개의 희귀 돌연변이를 학습 데이터로 활용하였습니다. 이 돌연변이들을 대상으로 인구 집단 별 돌연변이 분포, 염색체 또는 유전자 내의 돌연변이 위치, 종간의 해당 위치의 유전자 서열 보존 정보, 및 스플라이싱(splicing)에 따른 영향 등 총 55개의 학습 요소를 활용하여 학습을 진행하 였으며, 각 모델은 특정 유전자 또는 질병에 특화된 예측을 수행하여, GW model보다 높은 예측력을 기대할 수 있습니다.

Ⅳ. 기계학습을 활용한 돌연변이 병원성 예측 성능 평가

학습한 모델들을 평가하기 위해 AUPRC (Area under the Precision-Recall Curve)를 활용하였고, Recall(재현율, False로 예측한 돌연변이 중 실제 False인 비율)과 Precision(정밀도, True로 예측한 돌연변이 중 실제 True인 비율)을 고려하여 계산한 값이 1에 가까울수록 더 정확한 예측모델임을 의미합니다. HBOC 관련 26개 유전자 데이터 셋과 BRCA1 과 BRCA2 유전자 데이터 셋을 활용하여 10번의 반복 학습을 진행한 결과 대부분의 기계학습 모델들의 평균 AURPC값이 0.85를 초과하여 높은 성과를 보였습니다. 특히, 성능이 좋은 모델의 경우 0.95이상의 값으로 나타나 임상적 의미가 명확하지 않은 희귀 돌연변이에 대해서도 비교적 정확한 병원성 예측이 가능했습니다.

HBOC 관련 26개 유전자 데이터 셋 (disease-specific model, DS model)과 BRCA1과 BRCA2 유전자 데이터 셋 (gene-specific model, GS model)의 결과 모두 기존 GW model (genome-wide model, GW model)기반의 알고리즘 대비 더 정확하게 병원성 예측을 보였습니다. 특히 DS model과 GS model 간의 예측 성능 차이는 크게 나타나지 않았 으며, 더 적은 데이터를 사용한 GS model이 비슷한 성능을 가졌다는 것에서 GS model의 활용성이 높게 평가되었습니다. <그림2> 해당 연구 결과는 올해 6월에 science report에 논문으로 출판되었습니다.

<그림 2> 학습된 기계학습 모델들의AUPRC 분포.

Ⅴ. 유전성 유방암 및 난소암 환자의 BRCA1/2 유전자 검사를 할 수 있는 NGS 기술 기반의암 정밀진단 패널

자사가 제공하는 BRCAaccuTest™ PLUS는 NGS 기술 기반으로 유방암과 난소암 환자의 BRCA1/2 유전자의 변이 여부를 스크리닝 하여 개인의 선천적 유방암, 난소암 발생 위험도를 확인하고 가족력 분석에 따른 유전적인 특성을 확인할 수 있으 며, 국내 최초 식품의약품안전처 체외진단 의료기기 3등급 품목허가와 아시아 최초로 CE-IVD 인증을 받아 임상적 유용성이 입증된 체외진단용 정밀진단 패널입니다.

앰플리콘 방식으로 쉽고 빠른 실험 단계로 5시간 안에 라이브러리 제작이 가능하며, BRCA1/2 유전자의 전체 엑손 지역을 균일하게 커버하도록 디자인되어 0.5X mean coverage도 95%수준을 유지합니다. 또한, 특허 받은 알고리즘을 적용한 분석 파이프라인을 통해 CNV 변이 검출의 정확도를 높였습니다. <그림3>

<그림 3> 타사 제품과 자사 제품의 CNV 비교 테스트 결과

Ⅵ. 분석 소프트웨어 NGeneAnalySys™를 이용한 BRCA1/2 유전자의 병원성 정보 제공

질병 유전체 자동 분석 소프트웨어인 NGeneAnalySys™는 BRCAaccuTest™ PLUS 패널을 통해 생성된 BRCA1과 BRCA2 돌연변이를 신속하게 탐지, 자동 분석 및 해석, 임상 보고서 작성까지 원스톱으로 가능하도록 구현되었으며, 2015년에 발표된 ACMG 가이드라인을 기반으로 판정된 병원성 정보를 포함하여 종합적이고 신뢰성 있는 정보를 사용자에게 제공하고 있습니다. <그림 4>

<그림 4> NGeneAnalySys 소프트웨어.

BRCA1/2 유전자의 희귀 변이 중에서는 변이에 대한 임상적 정보가 제한적이어서 ACMG가이드라인 기반의 병원성 결과에 서는 병원성 여부를 명확히 확인할 수 없는 경우도 존재할 뿐만 아니라 다양한 해석 서비스에서 ACMG 가이드라인의 적용 기준이 달라져 병원성 판정 결과가 다르게 나타나는 변이도 존재합니다 <표1>

그러나 BRCA1/2 유전자 데이터를 활용한 유전자 특이적 기계학습 모델(gene-specific model, GS model)에서는 이와 같은 해석의 어려움이나 다양성이 있는 변이에 대해서도 병원성 예측이 가능한 장점을 가지고 있습니다.

<표 1> 예시 돌연변이들에 대한 ACMG, Insilico 알고리즘, Alpha missense, 그리고 자사 머신 러닝 예측 결과 표

이와 같이 NGeneAnalySys™ 분석 소프트웨어에서는 기존에는 예측이 어려웠던 변이들에 대해서도 유전자 특이적 기계 학습 모델 (gene-specific model, GS model)을 활용하여 병원성을 예측할 수 있으며, 나아가 NGeneAnalySys에서는 ACMG 가이드라인 기반의 병원성 정보 외에도 유전자 특이적 기계학습 모델(gene-specific model, GS model)을 통한 기계학습 기반의 병원성 정보를 함께 제공할 예정입니다.

종합적으로 암 및 유전 질환에서의 돌연변이 병원성 파악의 어려움을 극복하기 위해 실험적인 방법의 한계를 극복하고, 비교적 간편한 in-silico 알고리즘이 개발되고 있습니다. 자사는 BRCA1/2에 밀접하게 관련이 있는 유방암-난소암 증후군(Hereditary Breast and Ovarian Cancer Syndrome, HBOC)의 돌연변이 병원성을 예측하는 기계학습 방법을 개발하여 기존 in-silico 알고리즘에 비해 탁월한 성능을 보였으며, 해당 결과는 NGeneAnalySys™ 소프트웨어에 통합되어 사용자가 BRCA1/2 돌연변이의 병원성을 높은 정확도로 판별할 수 있도록 할 것입니다.

[References]
1. Accurate classification of BRCA1 variants with saturation genome editing
2. Evaluation of in silico algorithms for use with ACMG/AMP clinical variant interpretation guidelines
3. Accurate proteome-wide missense variant effect prediction with AlphaMissense
4. Gene-specific machine learning for pathogenicity prediction of rare BRCA1 and BRCA2 missense variants

TOP