基于RNAseq的银线草转录组分析

银线草ChloranthusjaponicusSieb.为金粟兰科金粟兰属多年生草本,别名天王七、四块瓦、白毛七等,生于山坡或山谷杂木林下荫湿处或沟边草丛中,主要分布于我国西北、华北和东部等省,朝鲜、日本也有分布;根及根茎药用,始载于《神农本草经》,味辛、苦,性温,有毒,具有祛湿散寒、活血消肿、散瘀解毒的功效,主治风寒咳嗽、瘀血肿痛、毒蛇咬伤、疟疾和疮痈等[1]。银线草药用植物资源极为丰富,药用历史悠久,在太白七药中具有重要的地位。中药化学研究表明银线草主要含有萜类、黄酮类、香豆素类、木脂素及挥发油等化合物[2]。银线草特征性成分主要包括银线草醇、金粟兰内酯、银线草内酯、银线草呋喃醇等乌药烷型倍半萜类化合物[2-3],药理学研究揭示其具有良好的抗菌[4]、抗炎[5]、抗肿瘤[6]和抗HIV[7-8]等多种生物活性。此外,银线草还在生药学、组织化学定位方面有初步研究报道[9-10]。最新研究利用二代高通量测序技术解析银线草叶绿体基因组,为该植物的系统进化及药材分子鉴定提供基础数据[11]。

转录组测序技术即RNA-seq,是功能基因组研究的一个重要组成部分,能够在基因组序列未知的前提下,研究特定条件下细胞中所有基因的转录本丰度、可变剪接等全局信息,结果准确、分析可靠且重复性较高,有助于从整体水平上揭示生物体生长发育、次生代谢及生理适应的转录调控规律[12]。当前,RNA-seq在药用植物功能基因组领域内应用广泛,已获得人参[13]、甘草[14]和膜荚黄芪[15]等众多药用植物转录组数据,为阐明中药种质资源遗传基础打下基础。银线草临床功效明确、活性成分多样,具有极高的研究价值。然而,基因组相关数据匮乏,限制了对银线草资源的深入研究与开发。本研究利用RNA-seq进行银线草转录组测序分析,以期揭示其转录组信息特征,为该药用植物功能基因挖掘、次生代谢途径解析及调控研究提供基础数据。

1材料与方法

1.1材料

植物材料于年7月采自陕西省宝鸡市太白县黄峰山镇,经度°20′34.8",纬度34°1′27.5′′,海拔.3m,经陕西中医药大学张岗教授鉴定为金粟兰科金粟兰属银线草ChloranthusjaponicusSieb.,取单株植株根茎液氮速冻后置于?80℃冰箱备用。

1.2RNA提取与文库构建

采用EASYspin植物RNA快速提取试剂盒(Aidlab,中国)制备银线草根茎总RNA,琼脂糖凝胶电泳和NanoDropTM分光光度计(ThermoFisher,美国)检测完整性。用带有Oligo(dT)的磁珠富集mRNA,加入碎片化缓冲液(fragmentationbuffer)将mRNA打断成短片段,用六碱基随机引物(randomhexamers)合成cDNA第1链;然后加入缓冲液、dNTPs、RNaseH和DNApolymeraseI合成cDNA第2链;再经过QiaQuickPCR试剂盒(QIAGEN,德国)纯化并加EB缓冲液洗脱之后做末端修复、加poly(A)并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增构建测序文库。

1.3转录组测序与组装

利用IlluminaHiSeqTM150PE对银线草根茎转录组文库进行高通量测序。测序原始图像数据经碱基识别(basecalling)转化为序列数据原始序列(rawreads),经数据评估、过滤除杂和冗余处理等质控得到高质量序列(cleanreads),再利用Trinity做转录组denovo组装。Trinity首先将具有一定长度重叠(overlap)的reads连成更长的片段,即得到的不含N的组装片段作为unigene。

1.4转录组功能注释

利用BLAST将unigenes与蛋白数据库NR、Swiss-port、蛋白相邻类的聚簇(KOG)和KEGG(京都基因与基因组百科全书)进行比对(E值<1×10?5),得到与相应unigenes具有最高序列相似性的蛋白,进而得到unigenes注释信息。根据NR注释信息,使用Blast2GO软件得到unigene的GO(geneontology)注释,用WEGO软件对所有unigenes做GO功能分类统计,从宏观上认识该物种的基因功能分布特征。

1.5蛋白编码框(CDS)和转录因子预测

按NR、Swiss-Prot、KOG和KEGG的优先级顺序将unigenes序列与以上蛋白库做BLASTx比对(E值<1×10?5)并确定该unigene编码区的核酸序列(序列方向5’→3’)和氨基酸序列。利用ESTScan[13]预测与以上数据库比对不上的unigenes的编码区及序列方向。将所预测的unigenes编码蛋白序列与植物转录因子数据库(plantTFDB)进行hmmscan比对,搜索转录因子家族及其成员。

1.6简单重复序列(simplesequencerepeats,SSRs)特征检测

使用MISA工具(MIcroSAtelliteidentificationtool)检测银线草转录组unigenes,搜索SSRs并进行统计分析。

2结果与分析

2.1银线草转录组组装与质量分析

采用IlluminaHiSeqTM150PE高通量测序平台对银线草根茎进行转录组测序,共得到条rawreads,过滤产生了条cleanreads,包含个核苷酸信息,Q20(碱基量≥20%)、Q30(碱基量≥30%)分别为98.69%、93.59%,GC量为45.01%,说明测序质控良好,cleanreads质量合格。Trinity组装获得个unigenes,平均长度nt,最长达到nt,最短序列为bp,N50为nt。

Unigenes长度分布(图1-A)显示,条unigenes长度超过nt,条序列大于nt。Reads在unigenes上的覆盖情况统计(图1-B)显示,所含reads数量在11~的unigenes数量最多,为条;其次为reads数量在~的unigenes,为条;reads数量在1~10、1~、1~的unigenes分别为、、条;其余reads分布区域对应的unigenes数量均相对较少。

2.2银线草转录组unigenes的功能注释

使用BLAST将所有unigenes与NR、Swiss-port、KOG、KEGG等数据库进行一致性比对分析,对各数据库注释的unigenes数目进行统计,进而获得银线草根茎转录组unigenes的功能注释信息。结果表明,条unigenes(45.94%)在NR数据库比对成功得到注释,在Swiss-port、KOG、KEGG等数据库获得注释的unigenes数目依次为17(31.73%)、(28.67%)、(17.20%)。条unigenes同时在所有数据库中注释,至少有1种数据库注释成功共条(46.10%),条未获得注释,见图2。

以NR数据库为例进行分析,unigenes注释同源基因的物种分布如图2所示,在相似序列匹配度较高的物种中,莲NelumbonuciferaGaertn.所占比例最高,为条(27.44%);其次为葡萄VitisviniferaL.条(9.02%),油棕ElaeisguineensisJacq.条(4.93%),海枣PhoenixdactyliferaL.条(4.73%),土瓶草CephalotusfollicularisLabill.条(2.77%),可可TheobromacacaoL.条(3.19%),其余匹配物种比例在2.04%~4.71%,比例小于1.57%的匹配物种的unigenes为条,占36.32%。

根据NR注释信息得到GO功能分类(图3),条unigenes被注释到生物过程、细胞组分和分子功能3个GO类别的40个小组。细胞组分中细胞(cell)和细胞部分(cellpart)相关基因丰度最高,达和条;其次是细胞器(organelle),有条;病毒粒子(virion)、病毒粒子组成(virionpart)等基因较少,为10条。生物过程主要聚集在代谢过程(metabolicprocess)和细胞过程(cellularprocess),涉及的基因分别有条和条;应激适应(responsetostimulus)、生物调控(biologicalregulation)基因数量分别为、条。分子功能中具有催化活性(catalyticactivity)和结合功能的基因(binding)数量较高,分别为和条,其他类别基因数目普遍较少。

为了进一步分析银线草转录组unigenes的功能,进行KOG功能分类分析(图4),共得到25个不同的KOG功能类群,种类比较全面,包括大多数的生命活动;一般功能预测的基因数量最多,有条;翻译后修饰、蛋白反转、伴侣和信号转导机制类次之,分别为和条;加工和修饰unigenes数目条;其他种类基因丰度不尽相同。

银线草根茎转录组unigenes参与KEGG代谢通路分为5大分支:细胞过程(cellularprocesses)条、环境信息处理(environmentalinformationprocessing)条、遗传信息处理(geneticinformationprocessing)条、代谢(metabolism)条和有机系统(organismalsystems)条。条unigenes获得个KEGG标准代谢通路,按照基因注释量大小依次排序,选取前11个代谢通路信息见表1,这些通路包含的unigenes数量大于条以上。

KEGG代谢通路分析还发现条unigenes参与苯丙素类、萜类、生物碱及黄酮类等生物合成相关的16个次生代谢通路。结果表明(表2),苯丙素的生物合成代谢通路(ko)基因数量最多,为个;18条unigenes与莨菪烷类、哌啶、吡啶生物碱(ko)生合成相关;花青素、咖啡因、黄酮及甜菜红色素的生物合成通路基因数较少。

银线草主要成分为萜类,特征性成分为倍半萜类化合物,在转录组数据中找到了大量倍半萜、单萜、二萜以及三萜类生物合成KEGG标准通路(表2)。64条unignes编码萜类化合物骨架生物合成(ko);单萜类基因4条;柠檬烯和蒎烯是双环单萜的重要代表,涉及该化合物降解途径相关基因20条序列;32条unigenes参与二萜类生物合成(ko);类胡萝卜素生物合成(ko)有关的基因有39条;倍半萜和三萜类生物合成(ko)基因有11条。其中,倍半萜类包括无环型(acyclic)、吉玛烯型(germacrene),编码基因分别为1和7条。这些基因信息为进一步发掘银线草萜类活性成分合成通路解析及其调控研究提供基础数据。

2.3CDS和转录因子分析

对银线草转录组所有unigenes的CDS进行分析,通过BLAST比对共获得CDS序列个,利用ESTscan数据库分析获得CDS序列个。转录因子预测发现有54个家族成员,其中bHLH、ERF、WRKY、C2H2、MYB_related、NAC、MYB、bZIP类占主体,说明银线草根茎生理代谢涉及众多转录调控过程(图5)。

2.4SSRs特征分析

用MISA软件对转录组unigenes进行SSRs分析(表3),条unigenes中共计个SSRs。其中,二碱基重复SSRs数量最丰富,有个(66.2%),AG/CT类型的比例最高。三碱基重复SSRs数量次之,有个,占SSRs总量的25.7%,其中AAG/CTT重复类型数量最多。四碱基和六碱基重复分别为、个,各占4.4%、2.4%;五碱基重复相对较少,仅占1.3%。此外,还发现SSRs重复单元数量也存在一定变化,其中重复6、7次的比例最高,重复5、8次的次之。

3讨论

基于高通量测序技术的转录组测序(RNA-seq)通过对生物样本的总RNA进行测序,在本草基因组学研究方面应用非常广泛也并取得重大进展[12]。本研究首次采用IlluminaHiSeqTM150PE测序平台,进行秦岭特色中草药资源银线草的转录组测序分析,测序质量良好、质控严格,denovo组装获得条高质量reads参与组装,共得到个unigenes,序列长度与reads覆盖区域对应合理。unigenes序列信息量庞大,数据基本涵盖全转录组信息,初步揭示银线草根茎的基因表达特征。

转录组测序数据通常必需借助系统的生物信息学分析策略进行reads的滤过、组装,unigenes注释及功能分类等[12]。本研究利用Trinity、BLAST、WEGO、ESTscan等工具对银线草转录组序列进行注释和功能分类。基于序列一致性分析,unigenes与NR、Swiss-port、KOG、KEGG比对注释成功占46.10%,共条序列,其余条未注释,这与人参[13]和罗勒花[16]等药用植物的转录组研究结果类似,说明基于RNA-seq的药用植物转录组有大量序列结构特征需进一步深入挖掘分析。

GO分类揭示银线草根茎的转录组特性与生物过程、细胞组分和分子功能相关;KOG功能分析从基因组水平寻找直系同源体,提高基因功能注释的准确性[16],本研究共得到25个不同的KOG类群,说明银线草转录组KOG种类比较全面。进一步对银线草功能基因序列进行KEGG代谢路径注释,发现个标准KEGG代谢通路,这些基因可能参与银线草水分吸收、矿质营养、光合作用和呼吸作用等生命代谢活动。还发现16个次生代谢KEGG标准通路的unigenes参与苯丙素类、萜类、生物碱、黄酮类等生物合成。其中,个基因参与单萜、二萜、倍半萜、三萜等萜类化合物的生物合成。银线草次生代谢成分以萜类为主,其中倍半萜类化合物又是最为重要的一类活性成分[7]。本研究获得的转录组数据分析表明倍半萜类合成基因主要涉及无环型和吉玛烯型倍半萜类,而主要乌药烷型倍半萜化合物合成相关基因未能得到注释,可能由于金粟兰属该类倍半萜生物合成通路基因数据相对匮乏。尽管如此,这些基因信息为银线草醇、金粟兰内酯、银线草内酯等活性成分生物合成通路解析及其调控研究提供重要依据。

转录本的丰度和表达调控在植物细胞代谢过程中起决定作用。转录因子AP2/ERF、bHLH、MYB和WRKY等家族在植物细胞甲羟戊酸、苯丙烷类代谢途径调控中起关键作用[17]。本研究获得的银线草unigenes转录因子覆盖高等植物转录因子数据库PlantTFDB4.0中54个家族,与次生代谢调控密切相关的转录因子家族unigenes数量较多,说明银线草初级代谢与次生代谢涉及复杂的转录调控机制。

转录组测序数据除了能够用于生物样本的基因挖掘及其表达调控研究,还可开发大量EST-SSR,因此在遗传多样性、分子标记等方面应用广泛[13]。本研究发掘银线草条unigenes的个SSRs位点,重复类型以三核苷酸为主,双核苷酸次之,与以三核苷酸重复类型为主的主要作物水稻、大麦或棉花等的研究结果一致[18]。双核苷酸重复SSRs中AG/CT类型最多,三核苷酸重复中AAG/CTT类型最多,与番红花[19]和人参[20]等植物中双核苷酸重复的情况相同。可见大多数植物SSRs重复主要以双核苷酸和三核苷酸为主,但不同物种的重复序列有差别。表明银线草基因组内具有较高丰度的SSRs,为银线草遗传多样性研究提供基础。

基于RNA-seq的银线草转录组测序初步获得大量重要数据信息,后续通过系统分析,以期全面解析以银线草醇、金粟兰内酯等为主要活性成分的生物合成通路及其调控机制,揭示该药用植物的群体遗传结构与分子进化特征,为银线草药用资源的可持续利用与控制提供理论基础。

参考文献(略)

来源:李依民,胡本祥,彭亮,沈霞,高静,王昌利,颜永刚,张岗.基于RNA-seq的银线草转录组分析[J].中草药,8,49(21):-.

李依民,张岗

扫一扫下载订阅号助手,用手机发文章赞赏

长按







































海南白癜风医院
白癜风如今最好的手术方法



转载请注明地址:http://www.sikuaiwaa.com/swzi/2468.html
  • 上一篇文章:
  • 下一篇文章:
  • 热点文章

    • 没有热点文章

    推荐文章

    • 没有推荐文章