Focus On I

대규모 단일세포전사체 데이터 활용법: 심장아틀라스를 중심으로
Application of a large-scale single cell
transcriptomics data: Focusing on the cardiac atlas

Focus On II
김 준 일
숭실대학교 의생명시스템학부
서론

단일세포에서 RNA의 정량을 측정하는 첫 번째 논문이 2009년에 나온 이후로 단일세포전사체 기술은 빠르게 생물학의 표준 분석 방법 중의 하나가 되었다. 지난 십여 년 동안 연구자들은 여러 생명체의 정상적인 장기와 질환 장기에서 대규모 단일세포전사체 데이터를 축적해왔고 이를 바탕으로 세포의 구성과 유전자 조절 그리고 세포 간 상호작용에 대한 많은 사실들을 알게 되었다. 또한 여러 실험실에서 생산한 단일세포전사체 데이터를 통합적으로 분석하여 하나의 데이터 세트로는 알 수 없었던 집단 수준(population level)에서의 유전자 발현 분석을 통한 분자적인 기전에 대해서 알 수 있게 되었다. 본 기고문에서는 저자의 연구팀에서 수행한 공공데이터베이스에서 수집한 심장샘플에서 얻은 대규모 단일세포전사체 아틀라스를 중심으로 데이터의 활용 방법에 대해서 소개하고자 한다.

본론
1) 대규모 단일세포전사체 데이터의 통합분석

전 세계 여러 연구자들이 공공데이터베이스에 올려놓은 단일세포전사체 데이터를 활용하기 위한 첫 번째 단계는 데이터의 통합과 배치 효과 제거이다. 이 단계에서 가장 먼저 생각해 봐야 하는 것은 전사체 데이터에 포함된 성분들이 어떤 것이 있으며 어떤 성분들을 기준으로 데이터를 묶어줄 것인가 하는 문제이다. 전사체 데이터는 1) 세포유형을 나타내는 마커유전자, 2) 질병 등 외부 환경에 따라서 발현이 변하는 유전자, 3) 샘플이나 시퀀싱 기술에 따라 달라지는 유전자의 발현 패턴 등으로 성분을 나눌 수 있다. 이 성분들 중에서 3) 샘플이나 시퀀싱 기술에 따라 달라지는 유전자의 발현 패턴은 배치효과로써 제거해야 할 대상이고 2) 질병 등 외부 환경에 따라서 발현이 변하는 유전자는 우리의 주 관심 대상이지만 분석의 편의를 위해서 해당 유전자들의 발현 패턴은 1차적으로 제거해주는데 이 부분은 배치효과 제거라고 부르지 않고 데이터 통합이라고 부를 수 있다. 이렇게 두 가지 성분이 제거되면 남는 것은 1) 세포유형을 나타내는 마커유전자인데 해당 유전자들의 발현 패턴에 따라서 먼저 세포유형들을 성공적으로 나눌 수 있다면 데이터 통합 및 배치효과 제거가 성공적으로 마무리된 것이고 각각의 세포유형에 대해서 우리의 주 관심 대상인 2) 질병 등 외부 환경에 따라서 발현이 변하는 유전자들을 찾을 수 있게 된다. 저자의 연구팀은 심장샘플에서 얻은 2,598,232 개의 세포로 구성된 데이터(이하 심장아틀라스)를 통합하여 14 개의 주요 세포유형(adipocyte, cardiomyocyte, endothelial cell, epicardial cell, fibroblast, lymphatic endothelial cell, B cell, NK/T cell, mast cell, myeloid cell, neuronal cell, pericyte, red blood cell, smooth muscle cell)으로 묶을 수 있었고 각 주요 세포유형은 다시 재분석을 통해서 하위유형으로 묶을 수 있었다.

2) 세포궤적분석

앞서 설명한 데이터 통합과정이 성공적으로 완료된다면 같은 세포유형에 속한 세포들을 많이 모을 수 있고 같은 유형의 세포이지만 다양한 발현 패턴을 보이는 세포들을 다시 분류할 수 있을 것이다. 여기에서 분석방법은 두 가지로 나뉘어진다. 첫번째는 세포의 하위유형을 묶어보고 하위유형과 질환 등 외부 환경이 어떤 관련이 있는지 분석해보는 것이다. 심장아틀라스에서 심근세포(cardiomyocyte)의 경우 14가지 하위유형으로 나눌 수 있었고 이 중에는 스트레스와 관련된 유전자 그룹이나 근육수축과 관련된 유전자 그룹이 강화된 세포하위유형이 특히 심부전과 관련이 있다는 것을 발견하였다. 두번째는 세포를 구분하여 묶기보다는 연속적으로 변하는 스펙트럼 상에 펼쳐놓는 방법으로 가짜시간분석(pseudotime analysis) 또는 세포궤적분석(cellular trajectory analysis)라고 한다. 이 분석을 위해서는 중요한 가정이 들어가는데 바로 통계물리학에서 얘기하는 에르고딕 가정(ergodic assumption)이다. 우리는 하나의 샘플에서 여러 개의 세포를 얻었지만 그 여러 개의 세포가 마치 하나의 세포가 동일한 과정으로 변해가는 것과 같다는 가정이다. 예를 들어서 여러 사람이 운동장에서 달리기를 하고 있을 때 각 사람의 사진을 찍은 이후에 동영상으로 연결하게 되면 마치 한 사람이 달리는 것처럼 만들 수 있는 것처럼 하나의 샘플에서 얻은 서로 다른 세포이지만 마치 하나의 세포가 연속적으로 변해가는 과정을 재구성해볼 수 있을 것이다. 이런 분석법을 이용해서 정상적인 심근세포가 질병 상황에서 연속적으로 변해가는 과정을 재구성해볼 수 있고 이렇게 재구성된 세포의 궤적을 따라서 유전자의 발현 패턴이 변해가는 것도 동시에 알 수 있게 된다.

3) 유전자조절네트워크

앞선 분석을 통해서 세포의 궤적을 따라서 변하는 유전자의 발현 패턴을 얻을 수 있다면 유전자들 간의 발현변화의 선후관계도 알 수 있을 것이고 선후관계를 바탕으로 인과관계 즉, 조절관계가 있는지도 유추해볼 수 있다. 저자의 연구실에서 개발한 방법인 TENET은 이러한 방법 중에 하나로 세포의 궤적에 따라서 변하는 유전자 간의 전이엔트로피를 활용하여 유전자 간의 유의한 인과관계를 찾아내고 간접적인 인과관계를 제거하는 단계를 거쳐서 유전자조절네트워크를 재구성할 수 있는 방법이다. 여기서 전이엔트로피는 인과관계를 계산하는 방법 중에 하나인데 하나의 변수로 다른 변수의 미래에 대한 정보량이 줄어든다면, 다시 말해 예측이 더 쉬워진다면 두 변수 간의 인과관계가 있다는 원리로 계산되는 방법이다.
심장아틀라스에서는 심근세포, 섬유아세포(fibroblast), 혈관내피세포(endothelial cell) 등에서 찾은 심부전과 관련된 세포의 궤적을 조절할 수 있는 유전자조절네트워크를 TENET을 활용하여 각각 만들 수 있었고 재구성된 각각의 유전자조절네트워크에서 핵심적인 전사인자를 수집했을 때 대부분 심부전이나 심장질환과 관련이 있는 전사인자라는 것을 알 수 있었다. 이것은 심부전과 관련된 세포의 궤적으로부터 시작해서 유전자 발현 간의 인과관계를 알아내고 핵심 전사인자를 찾는 과정이 잘 작동한다는 것을 의미한다. 저자의 연구팀에서는 여기에서 더 나아가서 유전자조절네트워크를 활용하여 약물의 효과를 예측하는 분석을 수행하였고 1) 벌크 RNA 시퀀싱 데이터에서 얻은 차등발현유전자, 2) 단일세포전사체에서 얻은 차등발현유전자, 3) 유전자조절네트워크 분석으로 수집된 유전자로 유전자군을 좁혀나갈 수록 약물 예측이 더 잘 된다는 것을 알 수 있었고 이는 유전자조절네트워크 분석이 임상적인 측면에서도 잘 작동할 수 있다는 것을 시사한다.

4) 세포 간 상호작용 분석을 통한 심혈관질환 치료타겟 발굴

단일세포전사체를 많이 수집했을 때의 가장 큰 장점은 여러 샘플들 간의 비교가 가능하다는 점이다. 샘플 수가 많다는 것은 어떤 데이터이든 간에 유리한 점이겠지만 단일세포전사체 데이터는 하나의 샘플 안에 여러 세포유형의 발현량을 모두 알 수 있기 때문에 세포유형들 간의 관계도 알아낼 수가 있다. 과정은 다음과 같다. 1) 먼저 앞선 통합분석에서 세포유형을 잘 나눠 놨기 때문에 각 샘플 별로 세포유형 별로 가짜 벌크(pseudo-bulk) 데이터를 만든다. 가짜 벌크 데이터의 장점은 세포유형의 발현 패턴을 보존하면서 노이즈가 많이 섞여있는 단일세포전사체 데이터의 약점을 극복할 수 있다는 점이다. 2) 두 번째로 가짜 벌크 데이터를 활용하여 전사체 데이터에 포함된 모든 유전자에 대해서 모든 세포유형 간의 연관성 분석(correlation analysis)을 수행한다. 3) 마지막으로 연관성 분석의 결과들을 질환과의 관련성을 기준으로 추려내게 되면 세포 간 상호작용에서 핵심적인 유전자 쌍들을 알아낼 수 있다.
다시 심장아틀라스로 돌아가면 심장 섬유아세포의 심부전 관련 유전자조절네트워크에서 얻은 핵심전사조절인자들은 이미 대부분 알려진 유전자였기 때문에 신규 유전자를 발굴하기 위해서 유전자조절네트워크의 타겟 유전자 중에서 세포 간 상호작용과 관련 있는 유전자를 찾고자 하였다. 따라서 위에 소개된 방법과 같이 심장 섬유아세포에서의 타겟 유전자 중에서 심근세포의 심부전 관련 유전자 발현 패턴과 강한 상관관계를 보이는 유전자를 고를 수가 있었다. 이 중에서 하나의 유전자를 선별하여 기능분석을 하기 위해서 신규 녹아웃 마우스를 만들어서 해당 유전자가 심부전과 관련이 있음을 검증할 수 있었다.

결론

본 기고문을 통해 저자의 연구팀이 공공데이터베이스의 심장 샘플을 활용하여 구축한 대규모 단일세포전사체 아틀라스의 강력한 활용 방안들을 소개하였다. 이 아틀라스는 수많은 세포를 통합하여 세포 유형 분류와 배치 효과 제거를 통하여 심장 세포 구성에 대한 새로운 관점을 제시할 수 있었다. 단순한 세포 분류를 넘어 세포가 질병 상황에서 연속적으로 변해가는 과정을 재구성하고 심근세포와 섬유아세포의 궤적 분석을 통해 심부전과 관련된 유전자 발현 패턴을 추적할 수 있었다. 나아가 저자의 연구실에서 개발한 TENET을 통해 궤적을 따라 변하는 유전자 발현 간의 인과관계를 추론하여 유전자조절네트워크를 재구성하여 임상적으로는 약물 효과를 예측하는 정확도를 높여줄 수 있다는 점을 확인하였다. 마지막으로 세포 간 상호작용 분석을 통해 신규 치료 타겟 발굴 가능성을 제시하였다. 결론적으로 대규모 단일세포전사체 데이터의 체계적인 통합 분석은 세포의 복잡한 역동성과 유전자 조절 메커니즘을 밝혀내며, 심혈관 질환과 같은 난치병의 분자적 기전 이해와 신규 치료 타겟 발굴에 결정적인 역할을 할 것으로 기대된다.

TOP