NGS | Clinical Data Analysis Overview (1/2)

7월 03, 2020





Intro

 임상진단 분야에서 NGS 데이터 활용하는 방법을 데이터 분석가 입장에서 살펴보겠습니다.

 다양한 배경지식을 지니고 계실 여러분에게 과연 어떤 방식으로 소개하는 것이 가장 효율적일까? 고민했습니다. 동시에 저는 진단 전문의가 아니므로 방대한 범위를 다루다가 잘못된 정보를 전달하면 어쩌지? 그런 걱정도 들었습니다.

 따라서 이 글은 제가 매일 수행하는 업무 중심으로 다뤄보려 합니다. 이 주제가 생소한 분들에게 조금이나마 도움이 되면 좋겠습니다.


암 환자 DNA 채취

 암 환자에게서 DNA를 채취하는 단계입니다.

 '모든 범죄는 흔적을 남긴다.'



 'CSI 과학수사대'는 종영된 프로그램으로 한창 즐겨보던 과학수사 드라마 입니다. 수사관들은 사건현장에 출동하고 범인을 잡기 위해 증거를 채취합니다. 지문과 족적도 단서가 될 수 있지만 가장 확실한 것은 바로 범인의 DNA 입니다. 현장에 남은 범인의 머리카락 한 가닥이나 소량의 혈흔에서 DNA를 채취하면 DNA 서열을 분석하여 개인을 특정하는 패턴을 확인할 수 있습니다. 과연 DNA 안에는 어떤 정보가 담겨 있을까요?




 DNA DeoxyriboNucleic Acid는 A Adenine T Thymine, C Cytosine, G Guanine의 뉴클레오티드가 나란히 연결된 긴 가닥 두 개가 이중나선 구조를 이루고 있는 고분자 화합물입니다. DNA는 내부에 저장된 유전정보를 다음 세대로 전달하기 위해 자신을 복제 Replication합니다. 전사 Transcription 과정을 거쳐 RNA 서열을 만들고, 번역 Translation 과정을 거쳐 Protein을 생성합니다. 이 과정은 분자생물학의 기본 원리이자 가장 중요한 개념인 중심원리 Central Dogma 입니다.



 Protein은 사람의 몸을 구성하고 각종 신호전달 작용을 수행합니다.만약 내/외부의 영향에 의해 DNA 서열에 이상이 생기고 비정상 protein 생성으로 이어진다면 질병으로 유발할 수 있습니다.
 
 저는 암 환자의 DNA 서열을 분석하고 variant가 발생한 부분을 찾아내어 어떤 암/치료제와 연관있는지 확인합니다. 분석결과는 전문의가 환자를 진단/치료하는데 도움을 줍니다. 실제로 다년간 업무 중 신속한 분석결과로 환자치료에 도움이 되었다는 피드백을 받았을 때 많은 보람을 느꼈습니다. 이제부터 암 환자의 DNA 분석과 결과해석 과정을 순서대로 알아보겠습니다.


라이브러리 제작, 정제, QC

 DNA에 전처리 과정을 거쳐 라이브러리 library 를 제작하는 단계입니다.

 DNA 서열은 시퀀서라는 기계로 읽습니다. 참고로 전 세계 NGS 시퀀서 시장은 Illumina가 독점하다시피 장악하고 있습니다. 회사에서 보유하고 있는 시퀀서도 대부분 Illumina 제품입니다. 암 환자의 DNA를 시퀀서로 읽기 위해서 전처리 과정을 거쳐 라이브러리 형태로 만들어야 합니다. 긴 가닥의 DNA 서열을 처음부터 끝까지 한 번에 읽으면 가장 좋겠지만, 현존하는 기술로는 불가능합니다. 따라서 시퀀서가 읽기 적당한 길이로 DNA를 잘라냅니다. 초음파를 이용한 물리적 방법으로 Covaris의 Ultrasonicator가 한 예입니다. 또한 효소를 이용한 화학반응으로 Illumina의 Nextera kit가 한 예입니다. 그 결과 fragment라고 불리는 수 많은 단편 조각들을 얻을 수 있습니다. 무작위로 절단하기 때문에 모든 fragment가 온전한 구조를 이루고 있지 않습니다. 불완전한 fragment의 말단을 DNA 중합효소를 사용하여 상보적인 염기서열로 채우고 이중나선 구조를 만듭니다. 5' 말단에는 인산기를 추가하고 3' 말단에는 A 염기를 추가하여 어댑터adapter 를 부착하면 라이브러가 완성됩니다.



  Fragment가 누락되거나 어댑터 다이머를 생성하는 등 예상치 못한 결과물이 생성됩니다. 또한 라이브러리 길이가 너무 짧거나 긴 것이 생성되기도 합니다. 이와 같은 쓸모없는 부산물을 제거하고 시퀀싱에 적당한 길이의 라이브러리만 골라내기 위해 전기영동이나 자성 비드 magnetic bead 를 사용하여 라이브러리를 선별합니다. 마지막으로 라이브러리 사이즈와 정량을 확인하는 라이브러리 QC를 진행합니다.


라이브러리 타겟 선별, 증폭

 타겟 영역을 포함하는 라이브러리를 선별하고 증폭시키는 단계입니다.

  QC를 통과한 라이브러리는 타겟 선별 target enrichment 과정을 통해 시퀀싱 타겟 영역을 포함하는 라이브러리만 선별합니다. 만약 타겟 선별 과정을 거치지 않고 전체 라이브러리를 시퀀싱하면 무슨 일이 일어날까요? 암 환자 유전체의 exon, intron은 물론 UTR까지 DNA 전체 영역이 시퀀싱 될 것입니다. 그럼 타겟 영역의 depth는 상대적으로 낮아질 수 밖에 없습니다. 물론 시퀀싱 양을 늘리거나 여러번 시퀀싱하여 전체 depth를 늘려도 되지만 경제적인 측면에서 효율이 떨어집니다.
 사람의 유전체 크기는 약 3.1Gb입니다. Illumina가 권장하는 시퀀싱 coverage는 WGS Whole Genome Sequencing 기준 30x~50x (약 90Gb~150Gb)입니다. 사람의 exon 영역은 전체 크기의 약 1%인 0.03Gb입니다. 권장 시퀀싱 coverage는 100x (약 3Gb)입니다. 따라서 3Gb 시퀀싱 데이터를 얻었을 때, exon 영역만 타겟으로 했다면 평균 100x만큼 커버할 수 있는데, 전체 영역을 타겟으로 했다면 평균 1x 정도밖에 커버하지 못 합니다. 그러므로 관심있는 gene이나 영역만 골라서 시퀀싱하는 타겟 패널 시퀀싱이 경제적인 측면에서 효율적 입니다. 저는 약 100개~500개 gene과 SV structural variation 를 검출하기 위한 일부 intron 영역을 포함하여 0.001Gb~0.003Gb 정도의 타겟 패널을 사용합니다. 전체 depth 약 2,000x 정도로 시퀀싱하면 NGS error ratio, tumor heterogeneity 등을 고려하여 LOD Limit of Detection 가 VAFs variant allele frequency  ≥ 2% 수준에 맞춰 분석할 수 있습니다.
 타겟 선별 방법으로는 PCR 프라이머로 타겟 영역만 증폭을 하는 앰플리콘 amplicon 방식과 프로브 probe 를 사용하여 타겟 영역만 끌어당기는 캡쳐 capture 방식이 있습니다. 각각 장단점이 있는데 암 환자의 somatic 변이를 확인하고 약 100개 이상의 유전자를 대상으로 검사할 때는 캡쳐 방식을 주로 사용합니다.



 프로브로 캡쳐한 라이브러리는 시퀀싱을 진행하기에 절대적 양이 부족하므로 증폭시켜서 라이브러리 숫자를 늘려야 합니다. 클러스터 제너레이션 cluster generation 과정입니다. Illumina 시퀀서 중 하나인 NextSeq은 플로우셀 flow cell 이라고 불리는 직사각형 판 위의 라이브러리를 읽습니다. 플로우셀 위에는 라이브러리의 5', 3' 말단과 상보적인 서열의 올리고가 심어져 있습니다. 라이브러리를 플로우셀에 로딩하면 올리고 서열과 결합합니다. 이어서 bridge amplification 과정이 진행되는데 결합한 라이브러리를 주형으로 삼아 동일한 라이브러리를 복제하는 과정으로 이해할 수 있습니다. 결과적으로 하나의 spot은 결국 동일한 라이브러리끼리 모인 클러스터를 구축합니다. 이 때 기기별, 시약별 권장하는 단위면적 당 라이브러리 밀도가 다른데 NextSeq은 주로 170~220(K/mm2), HiSeq2500은 약 800(K/mm2) 정도입니다. 권장 기준을 벗어나면 시퀀서의 CCD charge-coupled device 카메라가 클러스터 간 방출되는 형광물질 색깔을 구분하지 못하거나, 클러스터가 충분한 시그널을 생성하지 못해 리드의 퀄리티가 떨어지는 원인이 됩니다.


시퀀싱

 라이브러리 클러스터가 형성된 플로우셀을 시퀀서에 넣고 시퀀싱하여 NGS 데이터를 생산하는 단계입니다.

 우선 시퀀싱 방법부터 살펴보겠습니다.
 가장 전통적인 방식은 1977년 프레더릭 생어 Frederick Sanger 가 개발한 Sanger sequencing 입니다. DNA 복제효소 DNA polymerase 가 디옥시뉴클레오티드 deoxynucleotide, dNTP 와 디데옥시뉴클레오티드 dideoxynucleotide, ddNTP 를 사용하여 DNA를 합성합니다. 이 때 ddNTP가 들어가면 중합과정이 종료되는데 이와 같은 원리로 다양한 길이의 DNA 서열 조각이 생성됩니다. 전기영동으로 짧은 조각부터 긴 조각까지 나열한 뒤 순서대로 서열을 읽습니다. Sanger sequencing은 한 번에 약 500bp 길이까지 읽을 수 있습니다. 약 31억 개 사람의 염기서열을 모두 읽으려면 상당한 시간과 비용이 소요되겠죠? 1990년대 시작한 인간 게놈 프로젝트(HGP)는 13년간 약 3조 5000억 원을 들여 사람의 염기서열을 밝혀냈습니다.



 기술은 끊임없이 발전합니다. 2007년 454 라이프사이언스 사에서 선보인 454 시퀀서는 기존 방식에 비해 시퀀싱 시간과 비용을 상당히 줄였고, 차세대 염기서열 분석 Next Generation Sequencing, NGS  혹은 2세대 시퀀싱 2nd generation sequencing 으로 불렸습니다. 이 기술은 DNA를 수 많은 단편 조각으로 분해한 뒤 각 조각들의 서열을 동시에 읽어내고 컴퓨터를 활용하여 전체 유전체 정보를 재구성합니다. 2021년 대표적인 NGS 기기는 Illumina의 HiSeq, ThermoFisher의 Ion PGM 등이 있습니다.

 Illumina는 2019년 기준 전 세계 시퀀싱 시장의 약 74%를 차지하고 있는 기업입니다. 2013년 이후 'MIT technology review', 'Forbes' 등 각종 매체에서 발표하는 가장 혁신적인, 창의적인 기업으로 뽑히며 두각을 나타내기 시작했습니다. 시퀀서와 시약 개발에 앞장서서 매년 더 정확하고 빠른 시퀀싱 기술을 개발하는 중입니다. 2010년 HiSeq2000을 시작으로 MiSeq, HiSeq X Ten, NextSeq, NovaSeq 등 short read 시퀀서를 중점적으로 발표하고 있습니다. 그 동안 약점을 보이던 long read 시퀀싱 기술을 확보하기 위해 2018년 3세대 시퀀싱 기업인 Pacbio 인수를 시도했으나 시장 독점을 견제하기 위한 미국연방거래위원회(FTC)의 반독점소송 제기로 인해 무산되었습니다. 업계에서 Illumina의 영향력이 얼마나 강력한지 엿볼 수 있는 대목입니다.



 ThermoFisher는 생명과학 분야 실험과 분석, 진단기기를 공급하는 글로벌 거대기업 입니다. 시퀀싱 시장에서 10%대의 점유율을 보이고 있으며 특히 진단분야를 집중 공략하여 약 50% 점유율을 보이고 있습니다. IonTorrent를 인수하며 Ion PGM Personal Genome Machine를 주력 시퀀서로 판매하고 있습니다.

 2020년 시퀀싱 시장에서는 3세대 시퀀싱 3rd generation sequencing 기술이 선보이고 있습니다. 대표적으로 PacBio PacificBiosciences의 RS II, OxfordNanoporeTechnologies의 MinION이 발표되었습니다. 2세대 시퀀싱 기술과 비교하여 long read라는 장점을 가지고 있으나 정확도가 떨어지는 단점은 보완해야 할 숙제입니다.



 다시 본론으로 돌아가서 저는 암 환자 DNA 분석을 위해 주로 Illumina의 NextSeqDx와 MiSeqDx에서 나오는 150bp PE

Paired End
read를 주로 사용합니다. 임상 샘플을 분석하기 때문에 진단용으로 인증받은 Dx 기기만 사용할 수 있습니다. Illumina 시퀀서는 SBS Sequencing by synthesis 기술이 특징입니다. 시퀀서는 리드 길이만큼 cycle이라 불리는 단계를 거치며 형광 물질이 라벨링 된 dNTP deoxynucleoside triphosphate를 투입합니다. A, T, C, G 네 가지 종류의 nucleoside triphosphate가 존재하므로 한 cycle당 네 개의 dNTP가 투입됩니다. 플레이트 위 라이브러리에 상보적인 dNTP는 DNA 중합효소에 의해 결합하고 라벨링 되어있던 형광물질을 방출합니다. 플레이트의 x, y 좌표를 기준으로 사이클마다 방출되는 형광물질의 색상과 시그널 강도를 카메라로 찍어 이미지 파일을 생성합니다. 시퀀싱이 종료되면 각 좌표별 이미지 파일과 색상, 시그널 강도를 가지고 DNA 서열 정보를 바이너리 형태로 저장합니다. 이 파일이 바로 'bcl' 파일입니다. 직접 열어볼 수는 없지만 이후 변환과정을 거쳐 사람이 읽을 수 있는 fastq 데이터로 재탄생 합니다.





데이터 생산 단계를 마치며

 수고하셨습니다. 여러분은 암 환자 유전체 분석을 위한 데이터 생산 단계를 전체적으로 살펴봤습니다. NGS 분야의 기술 발전 속도는 따라가기 버거울 정도로 굉장히 빠릅니다. 타겟 선별을 위한 키트 종류만 해도 수 십가지에 이르며 매년 업그레이드 된 시퀀서와 시약이 출시되고 있습니다. 따라서 본인의 연구나 분석결과 사용 목적에 따라 알맞은 방법과 계획을 세우는 것이 중요합니다. 주변에서 모두 NGS 데이터를 사용한다고 무작정 시작했다가 시간과 비용을 낭비하는 경우가 생각보다 많이 있습니다. 또한 업계 종사자라고 해서 모든 기술과 방법을 습득하고 있으리란 보장도 없습니다. 사전에 충분히 논의하고 시작한다면 효율적으로 시간과 비용을 투자하면서 최상의 분석 결과를 얻을 수 있을 것입니다.

 다음 글에서는 분석 과정을 전체적으로 살펴보겠습니다.