분자진단의 발전은, 기존 기술의 개선이든 완전히 새로운 기술이든, 기술의 발전과 궤적을 같이 한다. 2000년대 후반 이후 염기서열분석 기술의 발전은 놀라운 속도로 분자진단 영역을 확장하고 변화시켰다. 지금까지 염기서열분석 기술은 여러 상이한 원리에 입각하여 개발되었고, 읽기의 속도, 정확도 및 길이 측면에서 다양한 스펙트럼과 한계를 갖고 있기에, 역사 속으로 사라진 기술을 대신하여 살아남은 현재의 기술이 향후 가까운 미래에도 여전히 지속될지는 단언하기 어렵다. 하지만 현재 염기서열분석 기술의 주류가, 읽기의 속도와 정확도에 의해 주로 결정되었음에 동의한다면, 그리고 현존하는 기술로 극복할 수 없는 분자진단의 한계를 인정한다면, 분자진단 영역에서 향후 기술 발전의 주요 이슈는 읽기의 길이로 옮겨갈 가능성이 높다.
염기서열분석 시장을 사실상 독점하고 있는 Illumina의 기술-sequencing by synthesis-는 경쟁사를 압도하는 높은 정확도 및 대용량의 short-read sequencing (SRS)이라고 특징지을 수 있다. 대표적인 NovaSeq 6000 장비의 경우, 제조사 설명으로는35 bp부터 최대 250 bp의 길이까지 읽을 수 있지만, 일반적으로 300-500 bp의 길이로 분절된 DNA 조각의 양쪽 150 bp를 읽는 pairedend sequencing으로 데이터를 생산한다. 따라서 SRS로 직접 분석할 수 있는 DNA 이상 역시 150 bp의 read length 또는 paired reads의 300-500 bp 에 제한되고, 이러한 물리적 제한을 넘어선 DNA 이상에 대해서는 DNA 이상 유형과 사용하는 생물정보학적 도구에 따라 검출 성능이 크게 좌우된다. 예를 들어, 유사서열이 없는 유전자에서 발생한 결실과 같은 단순한 구조변이는 크기에 관계없이 SRS로 쉽게 검출될 가능성이 높다. 하지만 유사서열이 존재하는 유전자나 반복부위에서 발생한 구조변이, 또는 두 개 이상의 구조변이가 연관되어 존재하는 복합 구조변이 등은 아예 이를 검출하는 것이 불가능하거나 설령 검출하더라도 구조를 정확하게 파악하지 못함으로써 이로 인한 기능적 영향을 알기 어려울 가능성이 높다. 그에 비해 적어도 수십 kb (PacBio HiFi sequencing) 내지 수백 kb (ONT Nanopore sequencing)에 이르는 DNA 절편의 염기서열을 분석할 수 있는 long-read sequencing (LRS)기술은 1) 구조변이, 2) 반복증폭(repeat expansion), 3) 유사유전자(pseudogene), 4) phasing 분석에서 short-read sequencing에 비해 월등한 장점을 갖고 있다. 그 외에도 앞서 언급한 두 LRS 기술은 5) 메틸화(methylation) 여부에 대한 정보도 추가로 제공할 수 있다(표 1).
| 유형 | 장점 |
|---|---|
| 구조변이 | 정확한 절단점 분석 |
| 반복증폭 | 복합구조변이 분석 |
| 유사유전자 관련 구조변이 분석 | |
| Allele 별 반복수 결정 | |
| Motif 분석 및 interruption 서열 확인 | |
| 반복부위의 메틸화 분석 | |
| 유사유전자 | 정확한 mapping 및 염기서열분석 |
| Phasing | 가족검사 없이 수십 kb ~ 수백 kb까지 phase 분석 |
| 메틸화 | 각인질환에서 기전 분석 |
LRS의 장점을 자세히 살펴보면, 우선 구조변이 검출에서 PacBio 및 ONT 모두 구조변이 유형(Del, Dup, Ins)에 관계없이 Illumina SRS보다 개선된 민감도를 보여주며, 이는 특히 Ins 유형의 구조변이에서 두드러진다[1, 2]. 또한 두 개 이상의 구조변이가 trans로 존재하거나 또는 deletion-deletion, deletion-inversion, deletion-inversion-deletion, duplication-triplication/inversion-duplication 과 같은 복합 구조변이는 SRS로 정확한 구조를 파악하기가 어렵다[3-5].
반복증폭 locus는 대개 GC가 많은 부위이고 반복부위의 길이가 수백 bp에 달하는 경우가 많기 때문에 low coverage, misalignment 등의 문제가 있어 SRS로는 분석하기가 어려운 것으로 알려져 있고, 대증폭(large expansion)을 보이는 일부 반복증폭 질환은 특히 그러하다[6]. 이에 비해 LRS는 대증폭을 포함하여 다양한 길이의 증폭을 직접 분석하는 것이 가능할 뿐 아니라, 종종 반복부위의 병인성 판별에 중요한 interruption sequence을 포함한 motif 분석과 함께 반복부위에 동반되는 methylation 정보까지 제공할 수 있다[7, 8].
인간 유전체의 상당수 유전자(엑손 기준으로 약 12%)가 유사유전자 존재 등의 이유로 SRS 기술로 염기서열분석이 어려운 problematic or dead zone에 속하고, SMN1, IKBKG, STRC, OTOA, NEB, PMS2 등이 대표적인 예이다[9]. PacBio의 LRS에서처럼 읽는 길이를 14 kb정도로 증가시키는 것만으로도 dead zone을 엑손 기준으로 40% 정도 감소시킬 수 있고, 임상적으로 중요한 유전자 기준으로 60% 가까이 감소시킬 수 있다(unpublished data). 실제 유사유전자와 연관된 위양성 또는 위음성 변이를 LRS로 확인한 다양한 사례가 보고되어 있다[10, 11].
특정 유전자에서 발견된 두 개 이상의 변이이 동일한 대립유전자에 존재(cis)하는지 아니면 서로 다른 대립유전자에 존재(trans)하는지 구분(phasing)하는 것은 열성 질환에서는 환자의 진단을 위해 당연히 필수적이지만, 우성 질환에서도 변이의 임상적 영향을 평가하는 데 중요할 수 있다. 두 변이의 phase를 구분하는 가장 쉬운 방법은 부모를 포함한 가족검사이다. 하지만 경우에 따라 가족검사가 불가능할 수도 있고, 부모에서 검출되지 않는 de novo 변이에 대한 phasing이 필요한 경우도 있다. 이런 경우, allele-specific long-range PCR을 고안해서 확인할 수도 있지만 LRS는 적어도 수십 kb 떨어진 두 변이의 phase를 직접 확인할 수 있고, 변이에 인접한 polymorphic DNA marker를 이용하면 수백 kb 이상도 phase를 확인할 수 있다[5, 12].
PacBio와 ONT의 LRS는 염기서열 정보 외 메틸화와 같은 염기의 modification 정보도 추가적으로 제공할 수 있다. Fragile X 증후군과 같은 일부 반복증폭 질환은 GC 부위의 메틸화 여부가 진단에 중요하고, 이런 질환의 경우 LRS만으로 증폭, motif 정보 및 메틸화 정보를 동시에 분석할 수 있다[13]. 또 Prader-Willi 증후군(PWS)과 같은 각인 질환에서 병인이 되는 유전자 이상의 유형(deletion, uniparental disomy, imprinting center defect, epimutation 등)을 구분하는 것은 유전 위험도를 평가하고 유전상담에 중요하다. PWS의 유전자 기전을 구분하기 위해 microarray, MS-MLPA, sequencing 등 여러 검사가 필요하지만, LRS는 이러한 정보를 동시에 제공할 수 있다[14].
상기한 LRS의 잠재적 유용성에도 불구하고, LRS를 임상 연구 및 진단에 적용하기 위해서는 다음과 같은 몇 가지 사항에 대한 고려가 필요하다. 우선 비용이 고려되어야 한다. LRS는 SRS 대비 여전히 고가의 비용이 필요하다. SRS 기반의 유전자패널 또는 whole exome sequencing (WES)에서 음성이더라도 SRS- whole genome sequencing (WGS)을 먼저 고려하게 되는 이유다. 다음으로 SRS 대비 LRS의 임상적 유용성에 대한 검증이 부족하다. 그나마 출간된 LRS 의 임상적 유용성에 관한 연구도 SRS-WES 시행 후 LRS- WGS을 시행하는 등 동일한 WGS 수준에서 SRS와 LRS를 직접 비교한 경우는 드물다[15]. 따라서 유전자 패널 또는 WES 검사를 시행한 후 미진단 희귀질환 환자에 대해 다음 검사로 무엇을 고려할지는 질환과 임상 상황에 따라 다를 수 있다. 예를 들어, 표1에서와 같은 상황이라면 LRS-WGS를 다음으로 고려할 수도 있다. 하지만 그런 상황이 아니라면 SRSWGS을 먼저 고려하고 결과에 따라 LRS-WGS를 추가로 시행하는 것이 적절할 수도 있다. 마지막으로 검증되고 표준화된 분석도구 및 파이프라인의 부재이다. SRS는 지금까지 수많은 데이터 분석과 경험을 통해 표준화된 분석도구와 파이프라인, 그리고 데이터베이스가 잘 구축되어 있다. 하지만 LRS는 분석 도구도 충분하지 않고 표준화된 분석 파이프라인이 구축되어 있지 않고, 정상 및 환자 데이터베이스도 최근에 구축되는 단계이다.
현존하는 LRS 기술 역시 한계를 갖고 있다. PacBio HiFi sequencing은 읽기 정확도를 크게 개선시켜 SRS기술에 근접하는 것으로 평가되지만, 이는 읽기 길이를 희생한 결과로 평균 길이는 15-20 kb 정도이다. 따라서 더 길게 읽어야 하는 상황, 예컨대 일부 유사 서열이 매우 긴 범위에 걸쳐 존재하는 유전체 부위에서 발생하는 DNA 이상을 검출해야 하는 경우 적용이 어려울 수 있다. ONT Nanopore sequencing은 현존하는 염기서열분석 기술 중 가장 긴 읽기 길이를 가진 기술로 수 Mb에 이르는 것으로 알려져 있어, 3.3 kb의 D4Z4 반복수 감소로 인해 발생하는 Facioscapulohumeral muscular dystrophy (FSHD)와 같은 질환에 이용되기도 한다. 하지만 염기 수준의 정밀한 분석을 위해서 SRS 및 PacBio HiFi sequencing 대비 읽기 정확도에 대한 확고한 개선이 필요하다.
요약하자면, LRS는 앞서 설명한 여러 우수한 장점과 잠재력에도 불구하고 비용, 분석의 표준화 및 용이성 등의 한계로 인해, 현 시점에서는 SRS를 대체하는 기술이라기보다 SRS의 한계를 보완하는기술로 이해하는 것이 적절하다고 할 수 있다. 다시 말하자면, LRS의 임상 적용에서 중요한 것은 LRS 자체라기보다 이를 고려하고 이로부터 이점을 얻게 될 그 ‘어떤 상황’이다.
[References]
1. Pei Y, Tanguy M, Giess A, Dixit A, Wilson LC, Gibbons RJ, et al. A Comparison of Structural Variant Calling from Short-Read and Nanopore-Based Whole-Genome Sequencing Using Optical Genome Mapping as a Benchmark. Genes (Basel) 2024;15.
2. Kosugi S and Terao C. Comparative evaluation of SNVs, indels, and structural variations detected with short and long-read sequencing data. Hum Genome Var 2024;11:18.
3. Mastrorosa FK, Miller DE, Eichler EE. Applications of long-read sequencing to Mendelian genetics. Genome Med 2023;15:42.
4. Jung H, Yang TP, Walker S, Danecek P, Garcia-Salinas OI, Neville MDC, et al. Complex de novo structural variants are an underestimated cause of rare disorders. Nat Commun 2025;16:9528.
5. Gupta P, Nakamichi K, Bonnell AC, Yanagihara R, Radulovich N, Hisama FM, et al. Familial co-segregation and the emerging role of long-read sequencing to re-classify variants of uncertain significance in inherited retinal diseases. NPJ Genom Med 2023;8:20.
6. Leit o E, Schröder C, Depienne C. Identification and characterization of repeat expansions in neurological disorders: Methodologies, tools, and strategies. Rev Neurol (Paris) 2024;180:383-92.
7. Yau WY, Sullivan R, O'Connor E, Pellerin D, Parkinson MH, Giunti P, et al. Diagnostic yield and limitations of whole-genome sequencing for hereditary cerebellar ataxia. Brain Commun 2025;7:fcaf188.
8. Rafehi H, Fearnley LG, Read J, Snell P, Davies KC, Scott L, et al. A prospective trial comparing programmable targeted long-read sequencing and short-read genome sequencing for genetic diagnosis of cerebellar ataxia. Genome Res 2025;35:769-85.
9. Mandelker D, Schmidt RJ, Ankala A, McDonald Gibson K, Bowser M, Sharma H, et al. Navigating highly homologous genes in a molecular diagnostic setting: a resource for clinical next-generation sequencing. Genet Med 2016;18:1282-9.
10. Fleming A, Galey M, Briggs L, Edwards M, Hogg C, John S, et al. Combined approaches, including long-read sequencing, address the diagnostic challenge of HYDIN in primary ciliary dyskinesia. Eur J Hum Genet 2024;32:1074-85.
11. Watson CM, Dean P, Camm N, Bates J, Carr IM, Gardiner CA, et al. Long-read nanopore sequencing resolves a TMEM231 gene conversion event causing Meckel-Gruber syndrome. Hum Mutat 2020;41:525-31.
12. Kucuk E, van der Sanden B, O'Gorman L, Kwint M, Derks R, Wenger AM, et al. Comprehensive de novo mutation discovery with HiFi long-read sequencing. Genome Med 2023;15:34.
13. Tsai YC, de Pontual L, Heiner C, Stojkovic T, Furling D, Bassez G, et al. Identification of a CCG-Enriched Expanded Allele in Patients with Myotonic Dystrophy Type 1 Using Amplification-Free Long-Read Sequencing. J Mol Diagn 2022;24:1143-54.
14. Akbari V, Dada S, Shen Y, Dixon K, Hejla D, Galbraith A, et al. Long-read sequencing for detection and subtyping of Prader-Willi and Angelman syndromes. J Med Genet 2024.
15. Hiatt SM, Lawlor JMJ, Handley LH, Latner DR, Bonnstetter ZT, Finnila CR, et al. Long-read genome sequencing and variant reanalysis increase diagnostic yield in neurodevelopmental disorders. Genome Res 2024;34:174762.
16. Olivucci G, Iovino E, Innella G, Turchetti D, Pippucci T, Magini P. Long read sequencing on its way to the routine diagnostics of genetic diseases. Front Genet 2024;15:1374860.