Genome and transcriptome of the regeneration competent flatworm, Macrostomum lignano
PANS,IF=9.423,2015.10
扁形蟲基因組組裝
研究背景:Macrostomum lignano因為其身體具有極強的自愈能力是研究干細胞再生及分化的重要模式物種(圖1)。
![全基因組de nove測序 全基因組de nove測序]()
?
研究材料:一個M. lignano近親繁殖 35代的DV1系
研究方法及測序策略:
純三代20K文庫測序80X + 二代小文庫測序50X + 光學圖譜測序150X-200X
二代小文庫50X測序數據作用:用于調研圖與后期三代基因組糾錯
純三代20K文庫80X測序數據作用:用于兆級contig組裝
光學圖譜150-200X測序數據作用:用于組裝糾錯與super-scafflod組裝
??本研究中對一個M. lignano近親繁殖 35代的DV1系首先進行了170X的二代測序,由于~75%的基因組由簡單重復序列和轉座子組成,組裝后的基因組很碎,contig N50 只有222bp,最長的contig只有144kb。為了改善組裝的結果,研究者增加了21X的PacBio數據,最終contig N50的長度達到了64Kb,最長的contig由114Kb延伸到了627Kb,contig N50的長度達到64Kb。
研究結果:將ESTs和BACs reads 比對與基因組比對,發現92%的ESTs和91%的BACs reads都以超過90%的相似度比對到基因組上;取部分只由二代數據組裝的contig與只由三代組裝的基因組比對,發現相似度超過99%,說明M. lignano組裝結果的可靠性。
分析發現, 55%的contig的末端50%的堿基都是富含GA的簡單重復,20-24堿基的重復占主導,串聯重復的長度超過100bp,這些串聯重復遍布整個基因組,因此盡管加入21X的Pacbio數據對基因組組裝的改善程度仍然有限。
![全基因組de nove測序 全基因組de nove測序]()
?二代測序覆蓋圈圖?
串聯重復被認為與CpG甲基化有關,但該研究中在M. lignano只檢測到了低水平的甲基化。分析基因組的重復序列類型,發現目前已知的轉座元件只占基因組的0.17%,而23,064種新型的重復序列占到了基因組的~51%,這些重復序列的平均長度為946bp,最長的達到了20Kb,這些新型的重復序列只有1,693個得到了注釋,因此M. lignano基因組中可能存在大量的新型的轉座子。研究者用248個保守真核基因與組裝后的基因組比較,結果顯示M. lignano基因區的組裝結果較為完整,有19,794個基因獲得了轉錄組數據支持。
![全基因組de nove測序 全基因組de nove測序]()
圖2 M. lignano再生發生時不同時間內基因差異表達熱圖
Hox family 對于渦蟲的器官再生至關重要,發現扁蟲中有49個homeobox-containing基因,分為11大類。M. lignano中特異存在,在扁形動物門中的其他物種沒有。在保留的homeobox-gene families中,Cdx , Dbx 和 Prrx 在再生中發揮了作用Hox1, NK2.2, NK2.1, Cdx, Irx, Meis, and Pknox家族有多個拷貝,并且大部分成簇分布。
![全基因組de nove測序 全基因組de nove測序]()