임상지침

NGS 검사에서 참조 유전체 전환 시 검토 사항

기획이슈 Gene 心
박 종 호
분당서울대학교병원

1.서론 인간 참조 유전체는 GRCh37(2009년)에서 GRCh38(2013년), T2T-CHM13(2022년)로 발전해 오며 지속 적으로 정확도와 완전성을 향상시켜 왔다. 참조 유전체는 임상 NGS 분석의 기초가 되는 출발점으로서 분석 결 과에 직접적인 영향을 미친다. GRCh38에서는 전체 염기 수의 증감과 무관하게 각 염색체의 미주석 간격('N' gap)이 크게 감소하고 갭이 보정되었으며, 대체 스캐폴드(alternate scaffold)와 합성 동원체(synthetic cen tromere)의 도입을 통해 문제 영역의 표현력이 향상되었다. 이러한 변화는 엑솜 정의와 주석 품질 개선으로 이 어지므로, 동일한 샘플 데이터라도 사용한 참조 유전체 버전에 따라 NGS 데이터 커버리지와 변이 검출 결과가 달라질 수 있다.

현재 많은 기관에서 GRCh37을 사용하고 있지만, 더욱 정확한 분석과 최신 데이터베이스와의 연동을 위해 GRCh38로의 전환 필요성이 증대되고 있다. 다만 참조 유전체 전환은 분석 파이프라인, 데이터베이스, 해석 프 로토콜, 보고서 양식 등의 전면적인 재검증을 요구하여 상당한 리소스가 필요하다[1–4]. 본 논고에서는 참조 유 전체 전환 시 검토해야 할 사항들을 살펴보고자 한다.

2. 국내외 참조 유전체 사용 현황 현재 임상 현장에서는 GRCh37과 GRCh38이 공존하고 있다. 외부 정도관리 프로그램과 gnomAD, ClinVar, COSMIC, dbNSFP 등 주요 데이터베이스들은 GRCh37과 GRCh38 참조 유전체를 모두 지원하지만, gno mAD 최신 버전과 같이 일부 외부 데이터베이스는 점진적으로 GRCh38 중심으로 재편되고 있어 최신 데이터 베이스 반영을 위해서는 GRCh38 전환이 필수적인 추세이다. 동시에 각 기관의 내부 변이 데이터베이스와 보 고 체계는 실제 사용하는 참조 유전체에 맞춘 좌표계(genomic position) 일치가 필요하다.

참조 유전체 전환은 단순한 파일 교체가 아니라 분석 파이프라인의 재검증, 내부 데이터베이스의 리프트오버 (liftover), 시약 및 타겟 캡처 영향 점검이 결합된 종합적인 프로젝트이다. 2021년 미국 임상검사실 설문조사에 서 GRCh38 완전 전환율은 7%에 불과한 것으로 보고되었는데, 이는 기술적 장벽보다는 검증 및 운영 비용, 그 리고 기존 생태계에 대한 의존성의 영향을 시사한다[5]. 반면 국가 주도의 대형 유전체 기반 바이오뱅크 구축 사 업들은 GRCh38을 기본 참조 유전체로 채택하고 있으며, GRCh37의 다수 문제점들이 GRCh38에서 개선되었 다는 사례들이 지속적으로 축적되고 있다.

3. 참조 유전체에 따른 성능평가 결과 및 리프트오버 여러 연구에서 참조 유전체 버전에 따른 변이 검출 차이를 비교 평가하였다. 1,572명의 엑솜 데이터를 GRCh37과 GRCh38로 각각 분석한 결과, SNV는 1.5%, INDEL은 2.0%의 불일치율을 보였다. 이러한 불 일치는 주로 분절 중복(segmental duplication), 탠덤 반복(tandem repeat), 그리고 수정 패치(patch) 영 역에 집중되었다. 멘델 질환과 연관성이 보고된 일부 유전자들의 경우, PRODH, SIK1, CBS, H19, KCNE1은 GRCh37에서만 변이가 검출된 반면, RPS17은 GRCh38에서만 검출되었다. 또한 CRYAA 유전자는 두 참조 유전체에서 서로 다른 고유한 변이가 각각 보고되었다. 이는 참조 유전체 선택이 임상적으로 의미 있는 차이를 만든다는 중요한 근거이다[6].

리프트오버(liftover)는 원시 데이터의 재정렬 없이 좌표만 변환하는 실용적 수단으로 널리 사용된다. 대표 적인 도구로는 UCSC liftover, CrossMap, Picard Liftover, bcftools/liftover 등이 있으며, 최근 보고에서는 bcftools/liftover가 최대 확장 VCF 레코드 접근법을 통해 까다로운 INDEL에서도 높은 정확도를 보였다. 그럼 에도 불구하고 참조 유전체 간 서열 차이와 갭으로 인해 전장 유전체 변이의 약 5%는 GRCh37↔GRCh38 전 환에 실패할 수 있으며, 리프트오버는 GRCh38 어셈블리 보정의 이점을 완전히 복원하지 못한다는 한계가 있 다[4,7].

4. 참조 유전체 전환 시 고려 사항 첫째, 참조 유전체 특성 파악과 전체 단계(정렬-변이 검출-주석-보고)에 대한 사전 검증 계획을 수립할 필요가 있다. 둘째, 파이프라인 내 내부 변이 데이터베이스와 외부 데이터베이스의 참조 유전체 버전을 확인하고, 체인 파일 (chain file) 기반 리프트오버를 사전 수행한 후 전환 실패 및 오류 유형을 기록하여 호환성 리스크를 관리한다. 셋째, 캡처 프로브 및 프라이머가 새로운 참조 유전체에서 동일한 성능을 보이는지 제조사 자료와 내부 검증 과 정을 통해 확인하고, 참조 유전체에 따른 유전자 정보(transcript ID 등) 변경 여부를 반영한다. 넷째, 기존 문헌을 통해 보고된 참조 유전체 의존성 유전자들을 검토함과 동시에 전반적인 커버리지 및 변이 검 출 정확성을 별도로 검증한다. 다섯째, 전환 과정의 로그화를 통해 영향 여부를 판단하고, SOP(Standard Operating Procedure), 보고서 서 식의 좌표 체계 표기, 버전 관리와 변경 이력 추적 체계를 마련한다

5. 결론 참조 유전체 전환 시에는 기존 참조 유전체와의 비교 평가를 통해 변경사항을 면밀히 검토해야 한다. 비교 평 가는 임상 검사실에서 검사하는 모든 유전자 및 변이 타입을 기반으로 하며, 기존에 보고된 환자 검체와 함께 GIAB(Genome in a Bottle)의 표준 물질 평가 결과를 활용하여 SNV, INDEL등에 대한 종합적인 평가를 수행 한다[8]. 또한 검사, 분석, 판독 담당자는 각 참조 유전체의 특성을 충분히 이해하고, GRCh37의 hs37d5 디코 이(decoy) 적용이나 GRCh38의 마스킹(masking) 등 보정 전략을 통해 잠재적 오류를 인지하고 완화해야 한 다. 이러한 체계적인 검증은 최적화된 참조 유전체 전환으로 이어져 임상 진단의 신뢰도와 효율성을 향상시키 는 데 기여할 것이다

[References]
1. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial sequencing and analysis of the human genome. Nature. 2001;409:860-921. 10.1038/35057062
2. International Human Genome Sequencing C. Finishing the euchromatic sequence of the human genome. Na ture. 2004;431:931-945. 10.1038/nature03001
3. Guo Y, Dai Y, Yu H, Zhao S, Samuels DC, Shyr Y. Improvements and impacts of GRCh38 human reference on high throughput sequencing data analysis. Genomics. 2017;109:83-90. 10.1016/j.ygeno.2017.01.005
4. Schneider VA, Graves-Lindsay T, Howe K, Bouk N, Chen HC, Kitts PA, et al. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Res. 2017;27:849-864. 10.1101/gr.213611.116
5. Lansdon LA, Cadieux-Dion M, Yoo B, Miller N, Cohen ASA, Zellmer L, et al. Factors Affecting Migration to GRCh38 in Laboratories Performing Clinical Next-Generation Sequencing. J Mol Diagn. 2021;23:651-657. 10.1016/j.jmoldx.2021.02.003
6. Li H, Dawood M, Khayat MM, Farek JR, Jhangiani SN, Khan ZM, et al. Exome variant discrepancies due to refer ence-genome differences. Am J Hum Genet. 2021;108:1239-1250. 10.1016/j.ajhg.2021.05.011
7. Pan B, Kusko R, Xiao W, Zheng Y, Liu Z, Xiao C, et al. Similarities and differences between variants called with human reference genome HG19 or HG38. BMC Bioinformatics. 2019;20:101. 10.1186/s12859-019-2620-0
8. Wagner J, Olson ND, Harris L, McDaniel J, Cheng H, Fungtammasan A, et al. Curated variation benchmarks for challenging medically relevant autosomal genes. Nat Biotechnol. 2022;40:672-680. 10.1038/s41587-021 01158-1

TOP