?Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing. Nature Communications (2016.07) IF = 11.329
?? 玉米(Zea mays)是全球重要的農作物,也是研究植物轉錄組代謝通路的遺傳模型。玉米基因組序列于2009年公布,后續利用EST和RNA-Seq轉錄組數據對其基因注釋進行了補充。然而RNA-Seq中,短讀長無法提供轉錄本全長序列,限制了可變剪接形式的鑒定,同時,短讀長拼接會得到錯誤的轉錄本。
?? 近期,來自冷泉港實驗室等單位利用PacBio長讀長測序技術,對玉米6個組織進行了全長轉錄組測序分析,在已有的玉米B73 RefGen_v3上發現了大量新信息,揭示了玉米基因表達的復雜性。
?????? 研究材料: 取玉米自交系B73不同發育階段的6個組織(根、花粉、胚芽、胚乳、幼雌穗、幼雄穗),提取mRNA, 反轉錄過程中加組織特異性barcodes,按照等摩爾比值cDNA平均混合。
?????? 建庫測序:構建6種插入片段文庫(<1,1–2, 2–3, 3–5, 4–6 和>5 kb)后,加上序列特異性的barcode,上機46個SMRT Cell進行全長轉錄組測序。對6個組織進行二代RNA-Seq測序,每個樣品三個重復。
???????研究方法:通過已發表的甲基化數據,對isoform,lncRNA 和 non-lncRNA區域進行甲基化分析。
?????? 研究結果:
??1.下機得到了3,716,604條reads,過濾得到接近一半的全長轉錄本序列(1,553,692,42%)。ToFu處理得到643,330個高質量的轉錄本序列,其中606,145個序列(94.2%)能夠比對到玉米RefGen_v3參考基因組上。
??2.經聚類分析得到了111,151個isoform,對應26,943個基因,涵蓋了玉米RefGen_v3基因注釋的70%。其中57% isoform來自已知基因位點的新isoform;2,803個 (3%) 新isoform來自2,253個新位點(Fig. 1)。
?
?
![全長轉錄組測序 全長轉錄組測序]()
![全長轉錄組測序 全長轉錄組測序]()
??Fig. 1 PacBio 和RefGen_v3的isoform比較
?? 3.在不同生長發育階段的6個組織中,花粉具有最多的組織特異性isoform(9,842,61.3%),其次是胚芽(20,050,49.2%),再次是胚乳(12,392,46.7%),根的isoform最少(13,386,44.6%) (Fig. 2)。GO 分析表明,這些組織特異性isoform,通常與組織特定的分子功能相關。?
?
![全長轉錄組測序 全長轉錄組測序]()
??Fig. 2 6種不同組織的所有PacBio Isoform
???? 4.?玉米RefGen_v3中,已注釋了來自57個家族的2,624個轉錄因子。在PacBio Isoform中發現了來自53個家族的新isoform,轉錄因子數量增至5,423個。其中155個新isoform與這些生長激素應答的功能相關。
???? 5.?已有研究中有1,704個高度可信的LncRNA(平均長度為463bp)。本次分析得到了878個LncRNA,其中11個是已有研究確定的, 另外867個是新發現的LncRNA(平均讀長為1.1kb)(Fig. 3)。
?
![全長轉錄組測序 全長轉錄組測序]()
Fig. 3 本次分析確定的新與已確定的lncRNAs 長度對比
????? ?6. 將PacBio isoforms與 Illumina短讀長組裝的isoform分析結果進行了比較,其中短讀長數據運用兩種分析方法(Cufflinks和Trinity)進行對isoform進行組裝,能鑒定到PacBio的isoform分別僅為22%和8%,表明轉錄組短讀長分析方法在檢測isoform的局限性,而PacBio長讀長能得到精確的isoform,尤其是在一個基因對應幾種isoform的復雜情況下優勢明顯。?
![全長轉錄組測序 全長轉錄組測序]()
Fig 4. ?PacBio的isoform對短讀長組裝構建的isoform評估
??7. CHG甲基化主要富集在acceptor位點,CG甲基化主要富集在donor位點, donor位點的CG甲基化能夠促進可變剪接,CHH甲基化與可變剪接病沒有顯著的相關性。同時,發現non-lncRNA genes具有相對較高的CG甲基化水平,而lncRNAs具有相對較高的CHG甲基化水平,這些甲基化水平可能與基因的不同表達水平有關。
PacBio 超長讀長無需組裝即可得到全長轉錄組信息,直接獲得了isoform信息,解密玉米轉錄組復雜的基因表達信息。
?參考文獻
Bo Wang et al., (2016). Unveiling the complexity of the maize transcriptome bysingle-molecule long-read sequencing. NATURECOMMUNICATIONS.
?
?
?