My Blog

Latest blog


Intro

 Microbiome은 microbiota와 genome의 합성어로 각각의 의미는 다음과 같습니다.
    * microbiota: ecological communities of commensal, symbiotic and pathogenic microorganisms
    * genome: genetic material of an organism

 즉, 인간, 동식물, 대기, 바다, 토양 등 주변 환경에 서식하는 microbe와 그들의 유전체 정보를 의미합니다. 최근에 신체 내, 외부에 공생하는 microbe가 비만, 아토피, 암 등 각종 질환과 밀접한 연관을 가지고 있다는 연구결과가 발표되고 있습니다. 건강한 삶에 대한 관심이 증가하면서 environmental microbiome 분야의 연구도 활발하게 이루어지고 있습니다.
 본 포스트에서는 NGS 데이터를 활용한 microbiome analysis에 대해 관련 논문을 중심으로 살펴보겠습니다.


Understand of Microbiome Analysis

 Microbiome 연구는 HTS(high-hroughput sequencing) 기술 발전과 함께 급격히 성장했고 다량의 데이터가 생산되고 있습니다. 분석 대상에 따라, HTS method에 따라 이들이 가지는 장점과 한계에 대해서 알아보겠습니다.


 1. 분석 대상
    1) Microbes: culturome
    2) DNA: Amplicon(16S/18S/ITS), Metagenome, Virome
    3) mRNA: Virome, Metatranscriptome

 2. HTS method
    1) Culturome: microbe-level에서 microbe를 배양하고 확인하는 방법입니다. bacterial stocks를 얻기 위한 가장 효율적인 방법이지만, 비용이 많이 들고 노동 집약적인 특징을 가집니다.
    2) Amplicon (16S/18S/ITS): prokaryotes는 16S ribosome DNA (rDNA), eukaryotes는 18S rDNA와 internal transcribed spacers(ITS)를 포함한 영역을 주요 마커로 사용하여 amplicon sequencing을 진행하는 방법입니다. 주로 Illumina sequencer를 사용하며 paired-end 250bp 길이로 데이터를 생산합니다. 적은 양의 시료를 가진 샘플이나 host DNA에 contam된 샘플에 적용 가능하지만, 단지 genus-level까지만 확인할 수 있고 특정 primer와 PCR cycle 수에 민감한 특징을 가집니다.
    3) Metagenome: amplicon 방식에 비해 더 많은 정보를 제공합니다. taxonomic 정보 뿐만이 아니라 functional 정보까지 얻을 수 있습니다. 하지만 상대적으로 비용이 많이 들고 분석시간이 오래 걸리는 특징을 가집니다.
    4) Virome: DNA나 RNA를 가지는 virus 특성상 두 개 시료 모두 사용 가능하며 metagenome과 metatranscriptome 분석을 조합하여 사용합니다. 시료 양이 적으므로 virus enrichment나 host DNA 제거가 필수입니다. 하지만 가장 비용이 많이 들고 분석하기 어려운 특징을 가집니다.
    5) Metatranscriptome: microbial community의 mRNA를 profiling 하고 gene expression level을 확인하며 functional 정보를 확인할 수 있습니다. 비용이 많이 들고 분석 방법이 복잡한 특징을 가집니다.

 샘플 type과 정답을 알고자 원하는 질문 내용에 따라 HTS method를 선택합니다. 여러 가지 방식을 통합하여 분석하는 것이 권장되는데, 이러한 multi-omics 방식은 microbiome의 taxonomy와 function에 대한 insight를 제공하기 때문입니다.


Analysis Pipeline

 Microbiome 분석을 위한 다양한 tool와 pipeline이 공개되어 있습니다. Amplicon/metagenomic 분석을 위한 current best-practice pipeline을 알아보겠습니다.


 1. Amplicon analysis
    1) QIIME/USEARCH 사용: raw reads를 feature table로 변환하는 과정
    2) Step1 - demultiplexing: raw amplicon paired-end reads를 barcode sequence에 따라 grouping하는 단계
    3) Step2 - merging: paired-end reads를 하나의 amplicon sequence로 합치고 barcode와 primer sequence를 제거하는 단계
    4) Step3 - quality control: low-quality amplicon sequence를 제거하는 단계
    5) Step4 - picking the representative sequences: amplicon 분석의 가장 중요한 단계로 두 가지 방식을 주로 사용
        A) OTUs (operational taxonomic units): 97% 이상 동일한 sequence를 하나의 OTU로 clustering하는 방식 (UPARSE 알고리즘). 하지만 species나 strain 사이 미묘한 차이는 검출하지 못할 수 있음
        B) ASVs (amplicon sequence variants): 동일한 sequence를 하나의 ASV로 clustering하는 방식 (denoising 알고리즘). OTU와 비슷하지만 1 base 차이만 나도 서로 다른 그룹으로 분리할 수 있으므로 더 정확하고 세밀한 분류가 가능. 최근 OTU보다 ASV를 더 많이 사용하는 추세이며 분석에 DADA2/Deblur tool 사용
    6) Step5 - obtaining feature table (OTU/ASV table): 각 샘플마다 feature sequence의 빈도를 측정. 동시에 feature sequence에 kingdom, phylum, class, order, family, genus, and species level의 taxonomy를 할당
    7) (additional) Step6 - functional prediction: 보통 amplicon sequencing은 taxonomic 정보만 얻는 목적으로 수행하지만 근래에 potential functional information을 예측하는 tool이 개발
        A) PICRUSt: Greengenes DB의 OTU table 기반으로 KEGG (Kyoto Encyclopedia of Genes and Genomes) pathway의 metagenomic functional composition 예측
        B) PICRUSt2: OTU/ASV table 기반으로 metagenomic functions 직접 예측
        C) Tax4Fun: SILVA DB 기반으로 KEGG functional capabilities 예측
        D) FAPROTAX pipeline: functional annotation of prokaryotic taxa. published metabolic & ecological functions 기반으로 functional annotation 수행하는 파이프라인
        E) BugBase: Greengenes의 확장판 DB. oxygen tolerance, gram staining, pathogenic potential 같은 phenotype 예측할 때 사용. 주로 medical research 분야에서 사용



 2. Metagenomic analysis
 Amplicon 분석과 비교할 때 much higher resolution of taxonomic annotation 정보와 functional 정보까지 제공한다는 장점이 있습니다. 하지만 대량의 데이터를 다루어야 하므로 linux system에서 다량의 computing resources가 필요합니다.
    1) Step1 - quality control & removal of host contamination: KneadData pipeline/Trimmomatic + Bowtie2 사용
    2) Step2 - convert clean data into taxomomic and functional tables: reads-based method or/and assembly-based method 사용
        A) reads-based method
            a) clean reads를 DB에 align하고 feature table 생성
            b) MetaPhlAn2, Kraken2 (lowest common ancestor 알고리즘), HUMAnN2, MEGAN 등 사용
        B) assembly-based method
            a) clean reads를 assemble하여 contig 만들고 gene abundance table 생성
            b) MEGAHIT (quick & little memonry) or metaSPAdes (longer contigs & more computational resources) 사용
            c) assembled contig 내 gene 확인: metaGeneMark or Prokka
            d) redundant gene 제거: CD-HIT
            e) gene abundance table 생성: Bowtie2 or Salmon
            f) 일반적으로 존재하는 다량의 gene은 functional annotation에 따라 묶어서 KEGG Orthology (KO) module과 pathway와 같이 축소된 차원 형태로 나타냄
    3) (additional) Step3 - to mine gene clusters or to assemble draft microbe genomes
        A) to mine gene cluster
            a) secondary metabolite biosynthesis와 연관된 gene cluster를 확인, annotation, visualization 하는데 antiSMASH DB 사용
        B) to assemble draft microbe genomes
            a) 기존에 알려진 microbe의 reference genome 숫자에 비해 자연에 존재하는 microbe의 숫자와 다양성은 훨씬 큼
            b) 따라서 align하여 taxonomic & functional 정보 분석은 매우 제한됨
            c) 이러한 한계를 극복하기 위해서 상호 연관성 있는 gene의 구간화 (binning)를 이용한 metagenome assembled genome (MAG) analysis를 사용하여 draft microbe genome을 구축함
            d) binning tools: CONCOCT or MaxBin2 or MetaBAT2
            e) binning pipelines: MetaWRAP or DAStool


Statistical Analysis and Visualization

 Amplicon과 metagenomic analysis의 가장 중요한 결과물은 taxonomic & functional table입니다. 앞서 우리는 'Understand of Microbiome Analysis' 파트에서 정답을 알고자 원하는 질문 내용에 따라 적절한 HTS method를 선택해야 한다고 알아봤습니다. 마찬가지로 최종 결과물을 생성할 때에도 어떤 질문에 답변할 것인지에 따라 overall or details statistical analysis and visualization을 선택합니다.
 Overall analysis는 feature table에서 alpha/beta- diversity와 taxonomic composition의 차이를 알아볼 때 사용합니다. Detail analysis는 comparison, correlation analysis, network analysis, machine learning 등을 사용한 biomarker 확인에 사용합니다.


 1. Alpha diversity
 Richness와 evenness 척도를 포함하여 하나의 샘플 내에서 diversity를 평가합니다.
    1) QIIME or USEARCH 사용
    2) 그룹 간의 alpha diversity 차이 측정: Analysis of Variance (ANOVA), Mann-Whitney U Test, KruskalWallis test 사용하여 통계적 평가
    3) 이 때 각 그룹 비교시 두 번 이상 측정하는 경우 adjusted P-value 사용해야 함을 주의

 2. Beta diversity
 샘플 간 microbiome 구성 차이를 확인합니다.
    1) 보통 차원 축소 방식의 조합으로 확인
    2) principal coordinate analysis (PCoA), non-metric multidimensional scaling (NMDS), constrained principal coordinate analysis (CPCoA) 사용
    3) beta diversity 간 통계적 차이 확인: permutational multivatiate analysis of variance (PERMANOVA) 사용

 3. Taxonomic composition
    1) microbial community에 존재하는 mocrobiota에 대한 설명
    2) 결과는 a stacked bar plot으로 표현

 4. Difference comparison
그룹 간 현저하게 차이를 보이는 features (such as species, genes, or pathways)를 확인합니다.
    1) Welch's t-test, Mann-Whitney U test, Kriskal-Wallis test, ALDEx2, edgeR, STAMP, LEfSe 사용
    2) 결과는 a volcano plot, Manhattan plot, extended error bar plot으로 표현

 5. Correlation analysis
 샘플의 metadata와 taxa 사이 상관관계를 보여줍니다. 예를 들어 taxa와 pH, longitude, latitude, clinical indices와 같은 환경요소 사이의 상관관게를 확인합니다. 또한 특정 시점에 microbiota에 영향을 주는 key environmental factors를 확인합니다.
 
 6. Network analysis
 전체적인 관점에서 features의 동시 발생을 탐색합니다. Correlation network의 속성은 co-occurring taxa 혹은 functional pathways 간의 잠재적 상호작용을 의미할 수 있습니다.
    1) analysis: SparCC package 사용
    2) visualization: R library igraph, Cytoscape, Gephi 사용

 7. Machine learning
    1) 데이터로부터 학습, pattern 확인, 결정 과정을 거치는 AI의 한 분야
    2) microbiome 분야에서는 taxonomic classification, beta-diversity analysis, binning, compositional analysis of particular features 확인에 주로 사용

 8. Treemap
    1) phylogenetic tree 만들 때 사용
    2) IQ-TREE (for big data), iTOL (online visualization. input 파일은 table2itol 사용), GraPhlAn (recommend) 사용

 9. (additional) Analysis
    1) microbial origin 확인: FEAST, SourceTracker 사용
    2) host와 microorganism으로부터 genetic information을 통해 regulatory relationship 확인: genome-wide association analysis (GWAS) 사용



Summary

 주변 환경에 서식하는 microbe 대부분은 아직 genomic information이 밝혀지지 않은 미지의 세계에 놓여 있습니다. Microbe가 사람의 삶에 미치는 영향이 지대하다는 사실이 밝혀지면서 관련 연구도 증가하는 추세입니다.
 NGS를 활용한 microbiome analysis는 specimen과 HTS methods에 따라 장점과 한계가 명확합니다. 따라서 어떤 질문에 대한 답을 얻기 원하는지 명확하게 정리한 다음 목적에 맞는 방법을 선택하는 것이 효율적입니다.
 분석은 amplicon 방식과 metagenomic 방식 두 가지로 분류할 수 있습니다.
 Amplicon 방식은 16S/18S/ITS 영역 대상으로 250PE amplicon data를 생산합니다. OTU/ATVs로 알려진 representative sequence를 추려내고 taxonomic 정보를 annotation 하는 것이 분석의 핵심 과정입니다.
 Metagenomic 방식은 대상에서 채취한 DNA 시료로부터 shotgun NGS data를 생산합니다. 마찬가지로 cleaned reads로부터 taxonomic & functional table을 만드는 과정이 핵심 단계입니다.
 위에서 얻은 feature table은 이후 통계분석과 visualization tool을 활용하여 질문에 대한 알맞은 결과를 생산합니다.




 본 글은 'NGS | Clinical Data Analysis Overview (1/2)'에 이어 작성된 글입니다. 먼저 해당 글을 읽고 오시는 것을 권장합니다.


Intro

 암 환자의 DNA 시퀀싱 이후 분석과정을 살펴보겠습니다.

 다시 한 번 암 환자의 DNA 분석의 목표를 생각해보면, 개인의 고유한 특성이 담긴 유전체 서열을 시퀀싱하고 참조 유전체와 비교하여 발견되는 variant들이 질병과 어떻게 연관되어 있는지, 그리고 관련된 치료제는 어떤 것들이 있는지 확인하는 것입니다. 지난 글에 이어 본 글에서는 시퀀싱 이후 데이터 분석 과정을 살펴보겠습니다.


Demultiplexing

 샘플별로 데이터를 분류하는 동시에 'bcl' 파일을 'fastq' 형태로 변환하는 단계입니다.

 라이브러리 제작시 fragment 양 쪽 말단에 어댑터를 추가했습니다. 어댑터에는 샘플 고유의 tag 작용을 하는 index 서열이 포함되어 있습니다. 여러 개 샘플 라이브러리들을 하나의 flow cell에 로딩하여 시퀀싱 합니다. 이렇게 두 개 이상의 샘플을 동시에 시퀀싱하는 것을 'multiplexing'이라고 부릅니다.
 왜 굳이 번거롭게 index 서열을 사용하면서까지 여러 개 샘플을 동시에 시퀀싱 할까요? 바로 경제적인 이유 때문입니다. NextSeq 300 cycle 기준 한 번 시퀀싱 하는데 들어가는 시약 비용은 최대 4,820$에 달합니다. NovaSeq 300 cycle 기준 최대 30,780$가 들어갑니다. (2020년 기준) 결코 무시할 수 없는 적지않은 비용입니다. 따라서 시퀀서별 생산할 수 있는 데이터량에 맞춰 샘플별 목표 데이터량을 조합하고 여러 개의 샘플을 multiplexing 합니다. 이렇게 샘플의 라이브러리가 섞인 상태에서 시퀀싱을 진행합니다. 데이터를 분석하기 위해서 index 서열 기준으로 샘플별 데이터를 분류합니다. 동시에 바이너리 형태의 'bcl' 파일을 'fastq' 형태로 변환합니다. 'Multiplexing'의 반대 과정이라는 의미에서 'demultiplexing'이라고 부릅니다. 'bcl' 파일과 'fastq' 파일은 가공하지 않은 원 데이터라는 의미에서 'raw data'로 부릅니다. 블로그에서는 별다른 언급이 없는 한 fastq 파일을 raw data로 지칭하겠습니다.



 Demultiplexing은 Illumina에서 제공하는 'bcl2fastq' 프로그램을 사용합니다. Input은 시퀀서에서 생산된 '런 폴더'와 샘플 정보가 들어있는 'sample sheet'가 필요합니다.


Data QC

 Raw data의 퀄리티를 체크하는 단계입니다.

Rubbish in, Rubbish out (RIRO)

 컴퓨터 과학 분야에서 사용되는 문구입니다. 쓸모없는 데이터를 집어넣고 실행하면 쓸모없는 결과를 얻는다는 의미입니다. 곰곰히 생각해보면 세상 거의 대부분의 현상에 적용되는 것 같습니다. 아무리 요리사의 실력이 뛰어나고 훌륭한 조리도구를 사용하더라도 질 낮은 식재료를 사용한다면 과연 음식이 맛있을까요? 겉으로 보기에 튼튼해 보이는 건물도 부실한 원자재를 사용했다면 머지않아 각종 문제가 발생하고 결국 무너질 것입니다. 사람의 인생도 마찬가지입니다. 아무리 화려하게 포장해 놓았더라도 준비와 노력없이 낭비한 시간은 결국 드러나게 되어 있습니다. (물론 모든 사람은 그 존재 자체만으로 가치있으며 존중받아 마땅합니다. ^^) 임상 데이터를 다루는 분야에서 raw data의 퀄리티 체크는 간과할 수 없는 매우 중요한 단계입니다. 특히 잘못된 리포트 결과가 환자의 치료에 영향을 미칠 수 있기 때문에 언제나 책임감을 가지고 분석에 신중을 기해야 합니다.

 Raw data 퀄리티 체크는 'fastqc' 프로그램을 사용합니다. Input은 PE read1, 2가 필요합니다. Output은 read1, 2 각각 결과파일로 출력합니다.



 'fastqc'는 v0.11.9 기준 raw data 퀄리티와 관련된 11가지 항목을 분석한 뒤 보여줍니다. 중점적으로 살펴보는 항목은 'Per base sequence quality', 'Per tile sequence quality' 입니다.

 'Per base sequence quality'는 모든 시퀀싱 cycle에 대해서 read가 가지고 있는 phred score를 box plot 형태로 나타낸 결과입니다. 결과를 해석하기 위해서 phred score에 대한 이해가 필요합니다. 앞서 암 환자에게서 DNA를 채취하고 시퀀서가 서열을 읽어 raw data까지 생산 했습니다. 이 때 Illumina 기기는 SBS 기술로 서열을 읽는데 cycle별 방출되는 형광물질 색상과 시그널 강도를 A, T, C, G로 해석했습니다. 모든 염기서열을 정확히 읽어내면 좋겠지만 클러스터가 너무 근접해 있다던가 서열의 diversity가 떨어지면 잘못된 서열로 해석할 가능성이 높아집니다. 이처럼 시퀀싱 서열이 잘못 해석되었을 확률(P)을 상용로그 단위로 나타낸 값을 base quality(Q)라고 부르며 다음과 같이 계산합니다.



 즉, Q10은 10번 base calling 했을 때 1번 에러가 발생하며 9번 정확하게 calling한다는 의미입니다.



 절대적 기준이 존재하지 않지만 저는 모든 서열이 최소 Q20 이상 갖도록 하며 동시에 Q30 이상인 서열이 전체 서열 중 80% 이상 되도록 조절합니다. 모두 최상의 퀄리티를 유지하도록 조절하면 좋겠지만 너무 많은 read를 잘라내거나 버려야 할 수 있으므로 적절한 조절이 필요합니다.


Quality & Adapter Trimming

 Quality가 떨어지는 서열과 adapter 서열을 잘라내는 단계입니다.

 Adapter는 라이브러리 제작시 fragment 양 쪽 말단에 붙여준 서열입니다. 라이브러리 제작 키트마다 고유한 서열을 가지고 있으므로 키트 제조사에서 제공하는 adpater 서열을 확인한 뒤 제거합니다. 저는 Illumina의 TruSeq 키트를 사용하고 있으며 다음 페이지에서 관련 자료를 확인할 수 있습니다.




 A와 같이 보통 시퀀싱 길이보다 길이가 긴 fragment를 사용하므로 adapter 서열은 시퀀싱되지 않는 것이 이상적인 상황입니다. 하지만 B와 같이 시퀀싱 길이보다 짧은 fragment도 시퀀싱에 포함되므로 adapter 서열까지 시퀀싱 된 read가 일부 존재합니다. 어차피 레퍼런스 서열에 mapping할 때 걸러내지므로 제거할 필요가 없다는 의견도 일부 존재하지만 개인적으로 정확한 분석을 위해서 깨끗하게 잘라내는 것이 좋다고 생각합니다.

 Base quality가 떨어지는 서열도 정확한 분석을 위해 잘라냅니다. Read1과 read2 모두 마지막 cycle로 갈수록 base quality가 떨어집니다. 시퀀싱 시약의 한계상 점차 시그널 강도가 약해지므로 base calling의 정확도가 감소하고 base quality가 떨어지는 것입니다. 이와 관련된 현상으로 Illumina의 2-color channel 시스템을 사용하는 NextSeq, NovaSeq, iSeq 기기들은 일부 read에서 poly-G 서열이 나타납니다. 2-color channel 시스템은 형광물질 R(red)과 G(Green) 두 가지를 사용하는데, R은 C, G는 T, Y(Yellow = ref + green)는 A, B(Black = no R  + no G)는 G로 해석합니다. 즉, 시그널이 없는 상태를 G로 해석하기 때문에 시그널 강도가 약해지는 마지막 cycle로 갈수록 모두 G로 잘못 해석해 버리는 현상이 발생합니다.

 Adapter 서열 제거는 'fastp', 'cutadapt', 'trimmomatic' 등 여러 가지 프로그램이 있습니다. 저는 fastp를 사용하는데 성능이 나은 편이고 adapter와 quality trimming을 모두 사용할 수 있으며 poly-G 서열을 제거하는 기능까지 가지고 있기 때문입니다.


Read Mapping

 시퀀싱 read를 표준 유전체 서열에 붙이는 단계입니다.

 분석 목적을 다시 상기해 봅시다. 암 환자에게서 고유한 유전체 정보를 가진 DNA를 채취하여 시퀀싱한 뒤 서열 정보를 얻어냈습니다. 이 서열 정보를 사람의 표준 유전체 서열과 비교하여 다른 부분을 찾아냅니다. 그리고 이 차이가 어떤 질병과 연관되어 있는지, 관련된 치료제는 어떤 것이 있는지 알아내기 위함입니다.

 GRC Genome Reference Consortium는 사람(human), 쥐(mouse), 제브라피쉬(zebrafish), 닭(chicken)에 대한 표준 유전체 서열을 연구하고 발표합니다. 사람의 표준 유전체 서열은 2009년 2월에 발표한 GRCh37에 이어 2019년 3월에 발표한 GRCh38.p13(GRCh38의 열 세 번째 패치버전)이 있습니다. 이 외에도 UCSC The University of California at Santa Cruz에서 GRCh37을 바탕으로 만든 hg19, Broad Institute에서 GRCh37을 바탕으로 만든 b37 등이 있습니다. 모두 사람의 22개 염색체 및 X 염색체 서열은 동일하며 Y 염색체와 그 외 contig에서 차이를 보입니다. 최근 발표되는 일부 분석 프로그램은 GRCh38을 사용하기도 하나 이제까지 hg19로 진행된 연구가 다수이고 아직도 많이 사용하고 있으므로 저는 사람의 표준 유전체 서열로 hg19를 사용합니다.

 Read mapping은 DNA 데이터인 경우 'bwa', 'bowtie' 등의 프로그램이 있으며 RNA 데이터인 경우 'TopHat', 'STAR', 'HISAT2' 등의 프로그램이 있습니다. 주로 DNA 시료를 사용하며 NextSeq 150bp PE 데이터를 사용하기에 보통 bwa를 사용합니다. bwa는 mem, sw, backtrack 세 가지 알고리즘을 가지고 있는데, 가장 최신이자 좋은 퍼포먼스를 보이고 데이터에 알맞는 mem을 사용합니다.

 Mapping이 완료되면 SAM sequence alignment map 파일이 생성됩니다. Read가 표준 유전체 서열의 어느 위치에 mapping되었는지, 정확도는 얼마인지 등의 정보를 담고 있습니다.


 각 컬럼이 의미하는 내용은 아래와 같습니다.

Col

Field

Type

Regexp/Range

Brief description

1

QNAME

String

[!-?A-~]{1,254}

Query template NAME

2

FLAG

Int

[0, 216 1]

bitwise FLAG

3

RNAME

String

\*|[:rname:∧ *=][:rname:]*

Reference sequence NAME

4

POS

Int

[0, 231 1]

1-based leftmost mapping POSition

5

MAPQ

Int

[0, 28 1]

MAPping Quality

6

CIGAR

String

\*|([0-9]+[MIDNSHPX=])+

CIGAR string

7

RNEXT

String

\*|=|[:rname:∧ *=][:rname:]*

Reference name of the mate/next read

8

PNEXT

Int

[0, 231 1]

Position of the mate/next read

9

TLEN

Int

[231 + 1, 231 1

observed Template LENgth

10

SEQ

String

\*|[A-Za-z=.]+

segment SEQuence

11

QUAL

String

[!-~]+

ASCII of Phred-scaled base QUALity+33


 FLAG는 read가 reference에 어떤 방식으로 mapping 되었는지 숫자로 표기한 항목입니다. 각 숫자가 의미하는 바는 아래와 같습니다.


 Primary alignment는 가장 높은 score를 가진 alignment를 의미합니다. 즉, 하나의 read는 reference의 여러 부위에 붙을 수 있는데 단 하나의 alignment만 primary가 되고 그 외 나머지는 모두 secondary가 됩니다. Secondary alignment는 downstream analysis에서 보통 사용되지 않습니다.
 Supplementary alignment를 이해하기 위해서 우선 linear alignment를 알아야 하는데, 이는 하나의 read가 방향변화 없이 reference에 alignment 된 것을 의미합니다. Linear alignment가 아닌 read를 모두 chimeric alignment라고 합니다. 통상적으로 chimeric alignments 중 하나의 linear alignment를 representative alignment라고 하며 그 외 나머지를 supplementary alignment라고 합니다.

 CIGAR string은 read의 sequence가 reference에 mapping된 양상을 문자와 숫자로 표기한 항목입니다. Read에서 몇 개의 base가 align (match or mismatch) 되었는지, 사라졌는지 (deletion), 추가되었는지 (insertion) 등의 정보를 확인할 수 있습니다. 각 CIGAR string의 문자가 의미하는 바는 아래와 같습니다.
 

 그 외 SAM 파일 관련 정보는 SAM Format Specification을 참고하세요.

 SAM 파일의 용량을 줄이기 위해 보통 BAM binary alignment map 파일 형태로 변환한 뒤 이후 분석에 사용합니다. BAM 파일 변환은 'samtools' 프로그램을 사용합니다.


BAM QC

 BAM 파일 QC 단계입니다.
 Human reference에 전체 시퀀싱 reads 중 어느 정도 mapping이 되었는지, duplicate reads의 비율은 어느 정도인지, concordant reads 비율은 어느 정도인지 등을 확인한 뒤 분석 목적에 따라 적절한 방안을 마련해야 올바른 variant를 찾을 수 있습니다.

 'samtools stats'은 BAM 파일에 대한 전반적인 통계치를 생성합니다. 결과값 각 행은 CHK Checksum, SN Summary numbers, FFQ First fragment qualities 등의 tag로 시작하는데, 주요 내용은 SN tag에 정리되어 있으며 시퀀싱 reads, mapping 결과를 수치로 확인할 수 있습니다.


 'plot-bamstats'를 사용하여 위 결과를 그래프로 표현할 수 있습니다. 마찬가지로 samtools의 기능 중 하나이며 수치로 나타난 결과를 한 눈에 보기 좋은 그래프로 표현해 줍니다.


 'samtools flagstat'은 BAM 파일에 대한 간략한 통계치를 생성합니다. 'samtools stats'보다 더 빠르게 주요 결과값을 확인할 수 있습니다.


 'samtools idxstats'은 indexing된 BAM 파일의 index 정보를 바탕으로 통계치를 생성합니다. Human reference를 사용한 경우 각 chromosome별 name / length / #mapped-read segments / #unmapped read-segments 정보를 출력합니다.


 이외에도 'picard', 'qualimap' 등의 프로그램을 사용해서 BAM QC 진행이 가능합니다.


Mark Duplicates

 *** Warning: Amplicon sequencing, 혹은 동일한 start-end position을 target으로 하는 디자인을 사용한다면 본 과정을 수행하지 않습니다.

 Duplicate를 처음 접해보신 분들은 생소한 개념일 것 입니다.
 '똑같은, 꼭 닮은, 사본의' 라는 단어 자체의 의미와 같이 하나의 동일한 DNA fragment로부터 시퀀싱 된 read를 의미합니다. Clinical Data Overview (1/2) - 라이브러리 제작, 정제, QC에서 살펴본 바와 같이 DNA를 시퀀싱 하기 적당한 길이에 맞춰 무작위로 잘라낸 조각을 fragment라고 합니다. 수 백만 쌍의 genome을 무작위로 잘랐는데 그 fragment가 우연찮게 동일한 서열을 가진 같은 길이의 조각일 확률은 거의 없습니다. Repeat 영역으로 인해 실재하는 duplicate가 나올 수 있는 확률은 매우 미미한 수준일 것 입니다.

 하지만 실제 시퀀싱 data를 살펴보면 생각보다 많은 duplicate를 발견할 수 있습니다. Illumina 플랫폼에서는 아래와 같은 원인에 의해 duplicate가 생성됩니다.

  Optical duplicate: 시퀀싱을 진행하면서 cluster로부터 나오는 signal을 RTA software가 해석하는데, 이 때 하나의 커다란 cluster에서 나오는 signal을 두 개의 분리된 signal로 해석하면서 생기는 duplicate입니다. Non-patterned flowcell을 사용하는 HiSeq 2500, MiSeq, NextSeq 등에서 나타나는 현상입니다.

  Clustering duplicate: 반대로 Patterned flowcell을 사용하는 HiSeq 4000, HiSeq X, NovaSeq 등에서 나타나는 현상입니다. 각 flowcell은 한 개의 library가 cluster를 형성해야 하는데, bridge amplification 과정에서 library가 인접한 flowcell까지 cluster를 형성한 경우 생기는 duplicate입니다.

  PCR duplicate: Flowcell은 표면에 5', 3' adapter oligo가 부착되어 있습니다. Library 생성 후 flowcell에 로딩하면 서로 상보적인 서열이 결합하는 화학반응이 일어납니다. 이 반응의 효율성은 곧 투입되는 library 양에 따라 달라지므로 PCR amplification을 통해 적정한 양으로 증폭시킵니다. 여기서 PCR을 몇 cycle 증폭시켜야 하는지에 대한 결정은 결국 library complexity에 달려있으며 샘플 특성에 알맞은 값을 찾아야 합니다. 이렇게 PCR 과정에서 생성되는 duplicate를 의미합니다.

  Sister duplicate: dsDNA에서 양 가닥의 DNA strand가 서로 다른 cluster를 형성했을 때 나타나는 duplicate입니다.
    
 Mark duplicate는 'picard', 'sambamba' 등의 프로그램을 이용합니다.


Base Quality Score Recalibration

 줄여서 BQSR로 표현합니다. 간단히 요약하면 시퀀서는 각각 called base마다 정확도(base quality score)를 예측하는데 이 때 발생하는 systematic errors를 보정하는 과정입니다.

 앞서 phred score를 살펴 보았습니다. Q20은 99% 정확도를 의미하며 100개의 base call 결과 중 확률적으로 1개의 잘못된 결과가 나올 수 있음을 의미합니다. 꽤 괜찮은 수준으로 보이죠? 하지만 called base가 증가할수록 잘못된 결과도 증가합니다. 사람의 genome을 예로 들어볼까요? 30억(3 9)개의 서열로 이루어진 사람의 유전체를 30x로 시퀀싱 하면 900억(9 10)개의 서열을 얻을 수 있습니다. Q20 기준으로 잘못된 서열은 무려 9억(9 8)개나 됩니다. 따라서 잘못된 base quality score를 바로잡는 과정은 매우 중요합니다.

 BQSR은 주요 두 단계를 거쳐 진행합니다. Input data (bam)과 known variants set을 기반으로 error model을 생성하는 단계 (BaseRecalibrator tool), 그리고 이 모델을 사용하여 base quality score를 보정한 새로운 bam 파일을 만드는 단계 (ApplyBQSR tool)입니다.

 BaseRecalibratorApplyBQSR은 모두 gatk에 포함된 tool 입니다.
  

Variant Calling

 BQSR을 거친 bam 파일로부터 variant를 찾아내는 과정입니다.

 Variant는 어디에서부터 기인했느냐에 따라 크게 germline과 somatic으로 분류됩니다. 사람은 아빠와 엄마의 생식세포가 만나서 수정된 후 발생과정을 거쳐 하나의 개체로 성장합니다. 이 때 생식세포(gamete)가 지니고 있는 variant는 분열하는 모든 세포에게 전달되며 (ingeritance) 발생한 개체의 모든 세포 또한 동일한 variant를 공유하게 됩니다. (Mosaicism) 이런 variant가 germline 입니다.
 반면 발생과정 동안 생긴 variant나 자외선, 흡연 등의 위험요소에 노출되어 생긴 variant는 일부 체세포에만 존재하며 후대에 전달되지 않습니다. 이런 variant가 somatic 입니다.


 Breast/hereditary cancer와 같은 유전성 cancer는 germline variant를 검출합니다. 그 외 대부분 cancer는 somatic variant로 인해 발생하므로 이를 검출합니다.

 Germline variant는 gatk의 HaplotypeCaller, somatic variant는 gatk의 Mutect2를 사용합니다. 이 외에도 samtools, strelka2, vardict, varscan 등 다양한 caller가 존재합니다. 각자 특징과 다양한 mode를 제공하고 있으므로 분석목적에 가장 알맞은 caller를 찾아 사용합니다.
  

Variant Annotation

 검출된 variant가 가지는 생물학적 의미와 인종 안에서 상대빈도를 DB로부터 찾아 연결시키는 과정을 annotation이라 합니다.

 먼저 DB 종류 기준으로 살펴보면, 정상인이 가진 variant를 모아둔 population DB가 있습니다. 보통 건강에 이상이 없는 정상인이 WES 데이터로부터 검출된 variant의 frequency를 측정합니다.
 dbSNP은 각 연구자가 검출한 human variant 및 이와 연관된 다양한 정보를 NCBI에 등록한 DB입니다. 각 variant는 rs number가 부여됩니다.
 ExAC는 정상인 60,760명의 WES 자룔를 통합 분석하여 다양한 인종(라틴계, 동아시아인, 핀란드인, 유럽인, 동남아시아인, 아프리카인)에서 나타나는 variant별 빈도 등을 제공합니다. gnomAD는 125,748명의 WES 뿐만 아니라 15,708명의 WGS 자료를 통합 분석하여 다양한 인종에서 각 variant별 빈도 등을 제공합니다. ExAC과는 달리 INTRON 및 INTERGENIC 영역의 variant 정도 또한 제공합니다. 2021년 3월 기준 두 개 DB는 모두 gnomAD 한 곳의 사이트에 통합되어 제공되고 있습니다.
 1000 Genomes Project는 26개 인구집단에서 선별된 2,504명에 대한 variant 정보를 제공합니다.

 다음은 질환 돌연변이 관련 DB입니다. 특정 질환을 보이는 환자에게서 나타나는 variant를 모아 놓은 DB입니다. 유전설질환과 germline mutation 위주로 구성된 ClinVar, HGMD, LOVD 등이 있습니다. 또한 cancer mutation 위주의 COSMIC, TCGA, ICGC 등이 있습니다.
 ClinVar는 의학적으로 중요한 variant와 genotype을 모아놓은 DB입니다. 연구 논문에서 발표된 variant와 임상 검사실에서 실제 환자의 유전검사를 판독하고 판정한 variant도 모여있습니다. NCBI에서 관리하는 DB로 업데이트 주기가 일주일 밖에 되지 않을 정도로 활발하게 논의가 이루어지고 있습니다. 검출된 variant의 clinical significance 정보를 확인할 때 가장 많이 활용하는 DB이기도 합니다.
 HGMD는 인간 유전질환의 원인이 되거나 이와 관련 있는 germline mutation을 망라하여 정리한 DB입니다.
 LOVD는 네덜란드에서 운영하는 DB로 genotype과 연관된 유전자 mutation에 대한 정보를 제공합니다.
 COSMIC은 인간 cancer에서 발견되는 somatic mutation과 그 효과를 제공하는 DB입니다. SNP, indels, fusion, cnv에 대한 정보를 제공합니다.
 TCGA는 미국 국립암연구소와 게놈연구소에서 주도적으로 진행한 프로젝트로서 30여개 암종에 대한 30,000 케이스 이상의 암 조직의 유전체 검사 결과를 모아 놓은 DB를 운용하고 있습니다.
 ICGC는 TCGA를 포함한 다양한 암 유전체 연구 프로젝트에서 생성된 결과를 모아놓은 DB입니다.

 Variant annotation은 SnpEff, annovar, VEP 프로그램을 주로 사용합니다. 해당 프로그램들은 variant에 DB 정보를 붙여줄 뿐만 아니라 variant로 인해 발생하는 amino acid의 변화까지 알려줍니다.

  

Interpretation and Reporting

 Variant의 annotation 정보와 다양한 근거를 바탕으로 환자의 질환과 연관있는 variant를 찾아내고 해석하며 보고하는 NGS 검사의 마지막 단계입니다.

 여러 가지 의학적 근거와 환자의 임상정보를 바탕으로 variant가 가진 임상적 중요성을 해석하고 판단해야 하므로 가장 중요하면서 매우 어려운 단계입니다.
 Germline variant는 2015년 미국의학유전학회(The American College of Medical Genetics and Genomics, ACMG)에서 발간한 ACMG guideline을 variant interpretation 기준으로 사용합니다. 근거의 중요도와 개수에 따라 variant를 5단계로 분류하여 판정합니다. Pathogenic / Likely pathogenic / Uncertain significance / Likely Benign / Benign


 Somatic variant는 2017년 분자병리학회(Association for Molecular Pathology, AMP)에서 발간한 AMP guideline을 variant interpretation 기준으로 사용합니다. 근거의 중요도와 기준에 따라 variant를 4개 tier로 분류하여 판정합니다. Tier I, Tier II, Tier III, Tier IV



데이터 분석 단계를 마치며

 수고하셨습니다. 여러분은 암 환자 유전체 분석을 위한 데이터 생산 단계에 이어 분석 단계까지 살펴봤습니다. 특히 cancer 환자는 somatic variant calling이 분석의 주요 목표입니다. 결과를 토대로 환자의 상태를 진단하고 치료하는 보조 도구로 사용합니다. 더 나아가 신약개발, 바이오마커 발견 등 다양한 분야에 응용할 수 있는 genomic 데이터입니다. 최근에는 좀 더 정확하고 분석시간을 단축하기 위해서 머신러닝을 접목한 다양한 연구방법들이 발표되고 있습니다. 데이터 분석 뿐만이 아니라 머신러닝 활용 능력을 갖추는 것이 필수적인 시대가 다가오고 있습니다.
 Cancer 환자의 DNA 데이터 분석과정을 살펴봤습니다. 이 글이 여러분에게 조금이나마 도움이 되기를 바랍니다.