Focus On II

디지털 바이오 연구환경을 위한 K-BDI 소개

Focus On I Focus On III
이 준 학
한국과학기술정보연구원(KISTI) 디지털 바이오컴퓨팅연구단장
서론: AI 바이오 시대의 도래

인공지능(AI) 기술의 급속한 발전은 생명의료 분야에서도 패러다임을 바꾸고 있다. 바이오가 AI, 데이터 등 디지털 기술과 융합되면서 전 세계적으로 바이오 연구 및 산업의 생산성이 향상되고 있다. 첨단 디지털 기술의 도입을 통해 기존 바이오 연구개발이 안고 있던 불확실성과 오랜 연구 기간, 고비용의 한계도 점차 극복되고 있다. 최근 글로벌 연구 현장에서는 단순히 유전체와 임상 데이터를 축적하는 데에서 나아가, 이를 어떻게 안전하게 공유하고 고도화된 AI 연구에 활용할 수 있는지가 국가 경쟁력을 가르는 핵심 기준이 되고 있다.

Microsoft Research의 KOSMOS는 12시간 동안 자율적으로 연구를 수행하며 1,500편의 논문을 읽고 42,000줄의 분석 코드를 실행하여 과학 보고서를 작성하는 'AI 과학자'다. 베타 테스터들은 KOSMOS가 하루 만에 수행하는 작업이 연구자 6개월 분량에 해당한다고 평가했다. Stanford 대학에서 개발한 Biomni는 25개 바이오의학 세부 분야를 아우르는 범용 AI 에이전트로서, 유전자 우선순위 결정, 약물 재창출, 희귀질환 진단, 마이크로바이옴 분석 등의 작업을 사전 정의된 템플릿 없이 자율적으로 수행한다. 이러한 AI 시스템들의 등장은 바이오 데이터를 활용한 연구에서 AI가 핵심적인 역할을 담당하는 시대가 멀지 않았음을 보여준다.

미국은 2024년 11월 'Genesis Mission'을 발표하며, 맨해튼 프로젝트와 아폴로 프로그램에 버금가는 규모의 AI 기반 과학 연구 이니셔티브를 시작했다. 이 프로그램은 에너지부(DOE)의 슈퍼컴퓨터와 NIH, NASA, NSF 등 연방 기관의 방대한 과학 데이터셋을 통합해 AI가 실험 설계를 자동화하고, 시뮬레이션을 가속화하며, 단백질 접힘부터 핵융합 플라즈마 역학까지 예측 모델을 생성하는 혁신적인 연구 플랫폼을 구축하고자 한다. 이는 연구개발 생산성을 10년 내에 두 배로 향상시키겠다는 야심찬 목표를 담고 있다.

우리 정부는 「디지털 바이오 혁신전략」, 「첨단바이오 이니셔티브」 등을 통해 바이오와 AI를 국가 전략기술로 명시하고, 대규모 바이오 빅데이터 구축과 AI 기반 분석 플랫폼 개발을 추진하고 있다. 이러한 정책적 흐름 속에서 KISTI 디지털 바이오컴퓨팅연구단은 데이터-슈퍼컴퓨팅-AI를 결합한 디지털 바이오 연구환경을 구축하고 있으며, 그 핵심 플랫폼이 바로 K-BDI(Korea Bio Data Intelligence)이다.

국가 디지털 바이오 인프라: K-BDS와 K-BDI

디지털 바이오 연구 생태계에서 K-BDS(Korea Bio Data Station)과 K-BDI는 서로 보완적인 역할을 수행한다.

• K-BDS는 국가 차원의 바이오 데이터 저장소로서, 정부 R&D를 통해 생산되는 유전체·전사체·단백체·임상 데이터 등을 국제 표준 형식으로 수집·품질 관리하여 제공한다. 연구자·사업·부처별로 흩어져 있던 데이터를 통합하는 역할을 수행한다.

• K-BDI는 이렇게 축적된 고품질 바이오 데이터를 바탕으로, AI 학습용 데이터·AI 모델·응용 서비스를 한곳에서 개발·공유·활용할 수 있게 설계된 AI 기반 질환 데이터 분석 플랫폼이다.

특히 K-BDI는 국내외 연구자 누구나 웹 브라우저만으로 접속해 고성능 GPU 자원을 활용할 수 있는 클라우드 기반 개방형 플랫폼으로 구축되고 있으며, 난치암·대사질환·치매·천연물 신약 등 국민 건강과 직결된 4대 중점 질환 분야를 우선 대상으로 삼고 있다.

K-BDI의 구조와 주요 기능

K-BDI는 이름 그대로 “Bio Data Intelligence”를 지향한다. 플랫폼의 핵심 구성 요소는 다음 세 가지 축으로 요약할 수 있다.
 1. Datasets: AI 학습에 적합하게 정제·표준화된 바이오 데이터셋
 2. Models: 사전 학습(pre-trained) 및 응용 AI 모델
 3. Spaces(Services): 연구자가 직접 만든 AI 모델을 웹 서비스 형태로 제공하는 공간
이 세 요소는 클라우드 기반 인프라 위에서 긴밀히 연결되어, 데이터를 업로드하고 AI 모델을 학습·미세 조정(fine-tuning)한 뒤 그 결과를 응용 서비스로 등록해 다른 연구자가 재사용할 수 있도록 하는 선순환 구조를 구현하는 것을 궁극적인 목표로 한다.

K-BDI는 학습 데이터와 AI 모델을 체계적으로 관리·공유하는 저장소를 제공한다. 이를 통해 유전체·전사체·임상·의료영상 등 다양한 모달리티를 포함한 바이오 데이터를 활용할 수 있으며, 질환별·연구과제별 메타데이터와 함께 관리된다. 또한, 사전 학습이 완료된 모델과 이를 바탕으로 미세 조정한 응용 모델은 ‘Model’ 저장소에 등록되어 공유될 수 있다. 이러한 구조를 통해 한 번 구축한 데이터와 모델이 과제 종료 후에도 플랫폼 내에서 재사용·재학습될 수 있으며, “한 연구실에서 끝나는 데이터·모델”이 아니라 국가적 공동 자원으로 지속적으로 운영·재활용될 수 있는 체계를 마련하는 것이 목표다.

이와 더불어 K-BDI는 웹 터미널과 Jupyter Notebook 기반 AI 모델 개발 환경을 제공한다.
이를 통해 GPU 클러스터와 병렬 분산 스토리지에 바로 접근할 수 있도록 설계되어, 별도의 시스템 구축 없이 AI 모델의 사전 학습 및 미세 조정 작업을 수행할 수 있다. 플랫폼 구축 초기에는 12개의 H100 GPU와 수백 코어 CPU, 수페타바이트급 스토리지로 시작했으며, 추가로 18개의 H200 GPU와 CPU 클러스터를 확충하여 AI 모델 활용 수요에 대응하고 있다.

K-BDI의 가장 큰 특징 중 하나는 “응용 AI 모델 서비스(Spaces)” 기능이다. 연구자가 K-BDI에서 개발한 모델을 서비스 형태로 패키징하면, 다른 사용자는 복잡한 코드 없이 웹 페이지에서 데이터를 업로드하고 모델을 실행하여 분석 결과를 얻을 수 있다.\

K-BDI에는 과학 논문 작성 도우미, 드 노보 펩타이드 서열 분석 모델(NovoB) 등, 진단·연구 전 주기를 아우르는 다양한 서비스가 탑재되고 있으며, 향후 사업이 진행되고 국가 R&D 사업들의 성과물들이 수집되는 대로 그 서비스를 확장해 나갈 예정이다.

진단유전학 분야에서의 활용 가능성

진단유전학 분야에서 K-BDI 플랫폼은 다양한 방면에서 활용될 수 있을 것으로 예상된다. 진단유전학에서는 유전체·임상·영상 데이터를 활용해 K-BDI를 통해 변이 해석용 AI 모델을 개발·공유하고, 여러 기관이 같은 환경에서 공동 분석·재현 연구를 수행할 수 있다. 또한 LLM을 활용해 유전자검사 보고서와 임상기록 요약, ACMG 근거 정리, 문헌 검색을 자동화하여 진단 의사 결정을 보조하는 도구도 구축할 수 있을 것으로 예상된다.

구체적으로, VUS(Variant of Uncertain Significance) 재분류를 위한 대규모 변이-표현형 연관 분석, 희귀질환 진단을 위한 다 기관 데이터 통합 분석, 암 유전체 분야에서의 체세포 변이 해석 및 치료 반응 예측, 약물유전체(pharmacogenomics) 기반 개인 맞춤 처방 지원 등이 대표적인 활용 영역이 될 수 있다. 특히 단일 기관에서는 충분한 샘플 수를 확보하기 어려운 희귀질환이나 특정 변이에 대해, K-BDI를 통한 다 기관 협력 연구가 진단 정확도 향상에 기여할 것으로 기대된다.

향후 과제

K-BDI와 같은 AI 기반 바이오 데이터 분석 플랫폼이 본격적으로 활용되기 위해서는 몇 가지 과제가 남아 있다. 첫째, 인체 유래 데이터를 활용한 AI 연구·활용에 대한 법·제도적 가이드라인이 보다 명확하게 정립되어야 한다. 둘째, 대규모 AI 연구 수행을 위한 GPU, 스토리지 등 전용 인프라의 충분한 확충이 필요하다. 셋째, 데이터 관리를 넘어 AI 모델 자체의 품질 검증과 편향성 평가 체계를 마련해야 한다. 특히 바이오 데이터 기반 AI 모델은 예측 결과가 환자의 치료와 건강에 직접적인 영향을 미치므로, 특정 집단이나 환자군에 대한 편향이나 안전성 문제를 사전에 검증하는 체계가 필수적이다.

맺음말

AI와 데이터는 더 이상 보조 수단이 아니라, 바이오 혁신을 현실로 만드는 핵심 엔진이다. 진단유전학 분야에서도 AI 기반 분석 기술의 도입은 필수적인 흐름이 되었으며, K-BDI와 같은 통합 플랫폼은 연구자들에게 고품질 데이터와 분석 환경을 제공함으로써 연구 성과의 질적 향상과 확산에 기여할 것으로 기대된다. 이제 한국 바이오 데이터 정책은 양적 확대를 넘어 질적 도약을 이뤄야 한다. 데이터 활용 환경, AI 연구·활용 인프라, 보안 체계, 모델 검증 체계를 동시에 구축해야만 글로벌 플랫폼과 경쟁할 수 있는 실질적 경쟁력을 확보할 수 있을 것이다.

TOP