라이브러리 클러스터가 형성된 플로우셀을 시퀀서에 넣고 시퀀싱하여 NGS 데이터를 생산하는 단계입니다.
우선 시퀀싱 방법부터 살펴보겠습니다.
가장 전통적인 방식은 1977년 프레더릭 생어 Frederick Sanger 가 개발한 Sanger sequencing 입니다. DNA 복제효소 DNA polymerase 가 디옥시뉴클레오티드 deoxynucleotide, dNTP 와 디데옥시뉴클레오티드 dideoxynucleotide, ddNTP 를 사용하여 DNA를 합성합니다. 이 때 ddNTP가 들어가면 중합과정이 종료되는데 이와 같은 원리로 다양한 길이의 DNA 서열 조각이 생성됩니다. 전기영동으로 짧은 조각부터 긴 조각까지 나열한 뒤 순서대로 서열을 읽습니다. Sanger sequencing은 한 번에 약 500bp 길이까지 읽을 수 있습니다. 약 31억 개 사람의 염기서열을 모두 읽으려면 상당한 시간과 비용이 소요되겠죠? 1990년대 시작한 인간 게놈 프로젝트(HGP)는 13년간 약 3조 5000억 원을 들여 사람의 염기서열을 밝혀냈습니다.
기술은 끊임없이 발전합니다. 2007년 454 라이프사이언스 사에서 선보인 454 시퀀서는 기존 방식에 비해 시퀀싱 시간과 비용을 상당히 줄였고, 차세대 염기서열 분석
Next Generation Sequencing, NGS 혹은 2세대 시퀀싱
2nd generation sequencing 으로 불렸습니다. 이 기술은 DNA를 수 많은 단편 조각으로 분해한 뒤 각 조각들의 서열을 동시에 읽어내고 컴퓨터를 활용하여 전체 유전체 정보를 재구성합니다. 2021년 대표적인 NGS 기기는 Illumina의 HiSeq, ThermoFisher의 Ion PGM 등이 있습니다.
Illumina는 2019년 기준 전 세계 시퀀싱 시장의 약 74%를 차지하고 있는 기업입니다. 2013년 이후 'MIT technology review', 'Forbes' 등 각종 매체에서 발표하는 가장 혁신적인, 창의적인 기업으로 뽑히며 두각을 나타내기 시작했습니다. 시퀀서와 시약 개발에 앞장서서 매년 더 정확하고 빠른 시퀀싱 기술을 개발하는 중입니다. 2010년 HiSeq2000을 시작으로 MiSeq, HiSeq X Ten, NextSeq, NovaSeq 등 short read 시퀀서를 중점적으로 발표하고 있습니다. 그 동안 약점을 보이던 long read 시퀀싱 기술을 확보하기 위해 2018년 3세대 시퀀싱 기업인 Pacbio 인수를 시도했으나 시장 독점을 견제하기 위한 미국연방거래위원회(FTC)의 반독점소송 제기로 인해 무산되었습니다. 업계에서 Illumina의 영향력이 얼마나 강력한지 엿볼 수 있는 대목입니다.
ThermoFisher는 생명과학 분야 실험과 분석, 진단기기를 공급하는 글로벌 거대기업 입니다. 시퀀싱 시장에서 10%대의 점유율을 보이고 있으며 특히 진단분야를 집중 공략하여 약 50% 점유율을 보이고 있습니다. IonTorrent를 인수하며 Ion PGM
Personal Genome Machine를 주력 시퀀서로 판매하고 있습니다.
2020년 시퀀싱 시장에서는 3세대 시퀀싱
3rd generation sequencing 기술이 선보이고 있습니다. 대표적으로 PacBio
PacificBiosciences의 RS II, OxfordNanoporeTechnologies의 MinION이 발표되었습니다. 2세대 시퀀싱 기술과 비교하여 long read라는 장점을 가지고 있으나 정확도가 떨어지는 단점은 보완해야 할 숙제입니다.
다시 본론으로 돌아가서 저는 암 환자 DNA 분석을 위해 주로 Illumina의 NextSeqDx와 MiSeqDx에서 나오는 150bp PE
Paired End read를 주로 사용합니다. 임상 샘플을 분석하기 때문에 진단용으로 인증받은 Dx 기기만 사용할 수 있습니다. Illumina 시퀀서는 SBS
Sequencing by synthesis 기술이 특징입니다. 시퀀서는 리드 길이만큼 cycle이라 불리는 단계를 거치며 형광 물질이 라벨링 된 dNTP
deoxynucleoside triphosphate를 투입합니다. A, T, C, G 네 가지 종류의 nucleoside triphosphate가 존재하므로 한 cycle당 네 개의 dNTP가 투입됩니다. 플레이트 위 라이브러리에 상보적인 dNTP는 DNA 중합효소에 의해 결합하고 라벨링 되어있던 형광물질을 방출합니다. 플레이트의 x, y 좌표를 기준으로 사이클마다 방출되는 형광물질의 색상과 시그널 강도를 카메라로 찍어 이미지 파일을 생성합니다. 시퀀싱이 종료되면 각 좌표별 이미지 파일과 색상, 시그널 강도를 가지고 DNA 서열 정보를 바이너리 형태로 저장합니다. 이 파일이 바로 'bcl' 파일입니다. 직접 열어볼 수는 없지만 이후 변환과정을 거쳐 사람이 읽을 수 있는 fastq 데이터로 재탄생 합니다.
수고하셨습니다. 여러분은 암 환자 유전체 분석을 위한 데이터 생산 단계를 전체적으로 살펴봤습니다. NGS 분야의 기술 발전 속도는 따라가기 버거울 정도로 굉장히 빠릅니다. 타겟 선별을 위한 키트 종류만 해도 수 십가지에 이르며 매년 업그레이드 된 시퀀서와 시약이 출시되고 있습니다. 따라서 본인의 연구나 분석결과 사용 목적에 따라 알맞은 방법과 계획을 세우는 것이 중요합니다. 주변에서 모두 NGS 데이터를 사용한다고 무작정 시작했다가 시간과 비용을 낭비하는 경우가 생각보다 많이 있습니다. 또한 업계 종사자라고 해서 모든 기술과 방법을 습득하고 있으리란 보장도 없습니다. 사전에 충분히 논의하고 시작한다면 효율적으로 시간과 비용을 투자하면서 최상의 분석 결과를 얻을 수 있을 것입니다.
다음 글에서는 분석 과정을 전체적으로 살펴보겠습니다.