13.什么是metagenomic(宏基因組)
Magenomics 研究的對(duì)象是整個(gè)微生物群落。相對(duì)于傳統(tǒng)單個(gè)細(xì)菌研究來說,它具有眾多優(yōu)勢(shì),其中很重要的兩點(diǎn):
(1) 微生物通常是以群落方式共生于某一小生境中,它們的很多特性是基于整個(gè)群落環(huán)境及個(gè)體間的相互影響的,因此做Metagenomics研究比做單個(gè)個(gè)體的 研究更能發(fā)現(xiàn)其特性;
(2) Metagenomics研究無需分離單個(gè)細(xì)菌,可以研究那些不能被實(shí)驗(yàn)室分離培養(yǎng)的微生物。
宏基因組是基因組學(xué)一個(gè)新興的科學(xué)研究方向。宏基因組學(xué)(又稱元基因組學(xué),環(huán)境基因組學(xué),生態(tài)基因組學(xué)等),是研究直接從環(huán)境樣本中提取的基因組遺傳物質(zhì) 的學(xué)科。傳統(tǒng)的微生物研究依賴于實(shí)驗(yàn)室培養(yǎng),元基因組的興起填補(bǔ)了無法在傳統(tǒng)實(shí)驗(yàn)室中培養(yǎng)的微生物研究的空白。過去幾年中,DNA測(cè)序技術(shù)的進(jìn)步以及測(cè)序 通量和分析方法的改進(jìn)使得人們得以一窺這一未知的基因組科學(xué)領(lǐng)域。
14.什么是SNP、SNV(單核苷酸位點(diǎn)變異)
單核苷酸多態(tài)性singlenucleotide polymorphism,SNP 或單核苷酸位點(diǎn)變異SNV。個(gè)體間基因組DNA序列同一位置單個(gè)核苷酸變異(替代、插入或缺失)所引起的多態(tài)性。不同物種、個(gè)體基因組DNA序列同一位置 上的單個(gè)核苷酸存在差別的現(xiàn)象。有這種差別的基因座、DNA序列等可作為基因組作圖的標(biāo)志。
人基因組上平均約每1000個(gè)核苷酸即可能出現(xiàn)1個(gè)單核苷酸多 態(tài)性的變化,其中有些單核苷酸多態(tài)性可能與疾病有關(guān),但可能大多數(shù)與疾病無關(guān)。單核苷酸多態(tài)性是研究人類家族和動(dòng)植物品系遺傳變異的重要依據(jù)。在研究癌癥 基因組變異時(shí),相對(duì)于正常組織,癌癥中特異的單核苷酸變異是一種體細(xì)胞突變(somatic mutation),稱做SNV。
15.什么是INDEL (基因組小片段插入)
基因組上小片段(>50bp)的插入或缺失,形同SNP/SNV。
什么是copy number variation (CNV):基因組拷貝數(shù)變異,基因組拷貝數(shù)變異是基因組變異的一種形式,通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。例如人類正常染色體拷貝數(shù)是2,有些染色體區(qū)域拷貝數(shù)變成1 或3,這樣,該區(qū)域發(fā)生拷貝數(shù)缺失或增加,位于該區(qū)域內(nèi)的基因表達(dá)量也會(huì)受到影響。如果把一條染色體分成A-B-C-D四個(gè)區(qū)域,則A-B-C-C- D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發(fā)生了C區(qū)域的擴(kuò)增及缺失,擴(kuò)增的位置可以是連續(xù)擴(kuò)增如A-B-C-C-D也可以是在其 他位置的擴(kuò)增,如A-C-B-C-D。
16.什么是structure variation (SV)
基因組結(jié)構(gòu)變異
染色體結(jié)構(gòu)變異是指在染色體上發(fā)生了大片段的變異。主要包括染色體大片段的插入和缺失(引起CNV的變化),染色體內(nèi)部的某塊區(qū)域發(fā)生翻轉(zhuǎn)顛換,兩條染色體 之間發(fā)生重組(inter-chromosome trans-location)等。一般SV的展示利用Circos 軟件。
17.什么是Segment duplication
一般稱為SD區(qū)域,串聯(lián)重復(fù)是由序列相近的一些DNA片段串聯(lián)組成。串聯(lián)重復(fù)在人類基因多樣性的靈長(zhǎng)類基因中發(fā)揮重要作用。在人類染色體Y和22號(hào)染色體上,有很大的SD序列。
18.什么是genotype and phenotype
既基因型與表型;一般指某些單核苷酸位點(diǎn)變異與表現(xiàn)形式間的關(guān)系。
什么是Read?高通量測(cè)序平臺(tái)產(chǎn)生的序列標(biāo)簽就稱為reads。
19.什么是soft-clipped reads
當(dāng)基因組發(fā)生某一段的缺失,或轉(zhuǎn)錄組的剪接,在測(cè)序過程中,橫跨缺失位點(diǎn)及剪接位點(diǎn)的reads回帖到基因組時(shí),一條reads被切成兩段,匹配到不同的區(qū) 域,這樣的reads叫做soft-clipped reads,這些reads對(duì)于鑒定染色體結(jié)構(gòu)變異及外源序列整合具有重要作用。
20.什么是multi-hits reads
由于大部分測(cè)序得到的reads較短,一個(gè)reads能夠匹配到基因組多個(gè)位置,無法區(qū)分其真實(shí)來源的位置。一些工具根據(jù)統(tǒng)計(jì)模型,如將這類reads分配給reads較多的區(qū)域。
什么是Contig?拼接軟件基于reads之間的overlap區(qū),拼接獲得的序列稱為Contig(重疊群)。什么是Scaffold?基 因組de novo測(cè)序,通過reads拼接獲得Contigs后,往往還需要構(gòu)建454 Paired-end庫(kù)或Illumina Mate-pair庫(kù),以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列。基于這些序列,可以確定一些Contig之間的順序關(guān)系,這些先后順序已知的Contigs組成Scaffold。
什么是Contig N50?Reads 拼接后會(huì)獲得一些不同長(zhǎng)度的Contigs。將所有的Contig長(zhǎng)度相加,能獲得一個(gè)Contig總長(zhǎng)度。
然后將所有的Contigs按照從長(zhǎng)到短進(jìn)行 排序,如獲得Contig 1,Contig 2,Contig 3...………Contig 25。將Contig按照這個(gè)順序依次相加,當(dāng)相加的長(zhǎng)度達(dá)到Contig總長(zhǎng)度的一半時(shí),最后一個(gè)加上的Contig長(zhǎng)度即為Contig N50。
舉例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig總長(zhǎng)度*1/2時(shí),Contig 4的長(zhǎng)度即為Contig N50。Contig N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。什么是Scaffold N50?Scaffold N50與Contig N50的定義類似。Contigs拼接組裝獲得一些不同長(zhǎng)度的Scaffolds。將所有的Scaffold長(zhǎng)度相加,能獲得一個(gè)Scaffold總長(zhǎng) 度。然后將所有的Scaffolds按照從長(zhǎng)到短進(jìn)行排序,如獲得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。將Scaffold按照這個(gè)順序依次相加,當(dāng)相加的長(zhǎng)度達(dá)到Scaffold總長(zhǎng)度的一半時(shí),最后一個(gè)加上的Scaffold長(zhǎng)度即為 Scaffold N50。
舉例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長(zhǎng)度*1/2時(shí),Scaffold 5的長(zhǎng)度即為Scaffold N50。Scaffold N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。什么是測(cè)序深度和覆蓋度?測(cè) 序深度是指測(cè)序得到的總堿基數(shù)與待測(cè)基因組大小的比值。假設(shè)一個(gè)基因大小為2M,測(cè)序深度為10X,那么獲得的總數(shù)據(jù)量為20M。覆蓋度是指測(cè)序獲得的序 列占整個(gè)基因組的比例。由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測(cè)序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域,這部分沒有獲得的區(qū)域就稱 為Gap。例如一個(gè)細(xì)菌基因組測(cè)序,覆蓋度是98%,那么還有2%的序列區(qū)域是沒有通過測(cè)序獲得的。