摘要: 红花作为一种重要的经济作物,在食品、医药和工业等领域具有广泛应用。随着测序技术的快速发展,红花基因组学研究取得了显著进展。本文阐述了基于全基因组和表观基因组测序技术在红花基因组研究中的应用,包括全基因组测序(GWAS)、表观基因组测序(epiGWAS)和转录组测序等。整合GWAS、表观组、转录组与代谢组多组学,已挖掘脂肪酸合成(
FAD2,
FAB2)、类黄酮/羟基红花色素A合成(
CHS,
DFR,
CtCGT1)、花色(
YABBY,
CYP450)及抗旱(
CtWRKYs,
CtSAMS1)等关键基因。未来,单细胞表观图谱、泛基因组及AI育种模型将加速高油、高黄酮、抗逆红花新品种创制,为分子育种与产业升级提供基因蓝图。
Abstract: Safflower (Carthamus tinctorius), as an important economic crop, has extensive applications in food, medicine, and industry. With the rapid development of sequencing technology, significant progress has been made in safflower genomics research. This article reviews the application of whole genome and epigenome sequencing technologies in safflower genomics research, including whole genome sequencing (GWAS), epigenome sequencing (epiGWAS), and transcriptome sequencing. By integrating GWAS, epigenome, transcriptome, and metabolome multi-omics, key genes involved in fatty acid synthesis (FAD2, FAB2), flavonoid/hydroxy safflower pigment A synthesis (CHS, DFR, CtCGT1), flower color (YABBY, CYP450), and drought resistance (CtWRKYs, CtSAMS1) have been identified. In the future, single-cell epigenomic maps, pan-genomes, and AI breeding models will accelerate the creation of new safflower varieties with high oil content, high flavonoid content, and stress resistance, providing a genetic blueprint for molecular breeding and industrial upgrading.
1. 引言
红花(Carthamus tinctorius L.)为菊科红花属一年生草本植物,起源于地中海地区和中东,在全球多地广泛种植。红花具有多种用途,其种子可榨油,富含不饱和脂肪酸,如亚油酸等,具有较高的营养价值和保健功能[1] [2];其花可入药,含有羟基红花黄色素A等活性成分,具有活血化瘀、通经止痛等功效,在传统医学中应用悠久[3]。此外,红花色素还是一种天然的食用色素和染料[4] [5]。
不同地区的红花品种(系)在表型上存在明显差异,然而长期以来对红花的遗传分析较为有限,尤其对其重要性状如含油量、脂肪酸成分及药效成分的遗传解析尚不完善。随着测序技术的不断革新,从最初的Sanger测序到新一代测序技术(Next Generation Sequencing, NGS)如Illumina测序平台,再到第三代测序技术如Oxford Nanopore测序技术等,为深入开展红花基因组学研究提供了有力工具,极大地推动了对红花遗传信息的挖掘和重要性状分子机制的解析[6]-[8]。二代测序(如Illumina)仍是主流,适用于大规模SNP筛查和转录组分析。三代测序(PacBio/Nanopore)凭借长读长优势,助力复杂基因组组装和结构变异解析(图1)。
Figure 1. Timeline of the development of Safflower genome sequencing research
图1. 红花基因组测序研究发展时间图
随着测序技术的飞速发展,全基因组关联分析(genome-wide association, GWAS)广泛应用于植物育种研究。在目前的研究中,大部分性状都是基因可调控的。因此,研究者利用GWAS技术对红花性状关联后,再进行显著性关联分析挖掘红花中与药性如羟基红花黄色素A (Hydroxy-safflor yellow A, HSYA)和亚油酸(linoleic acid, LA)等品质合成的相关基因。同时,结合染色质构想捕获技术(Chromosome conformation capture, 3C),即Hi-C技术,能够在全基因组内捕捉不同基因座位之间的高分辨率空间交互信息,能将无序contigs/scaffolds锚定到染色体上,研究三维空间中调控基因的DNA元件,解释红花相关性状的发生发展机制。另外,代谢组学研究也应用于红花代谢物质的分析,它是研究生物体内所有小分子代谢物的定性和定量分析。
虽然组学技术突飞猛进,但红花表观遗传学研究目前处于起步阶段。植物表观遗传主要涉及DNA甲基化、非编码RNA调控、组蛋白共价修饰及染色质重塑等,它们协同或拮抗地影响次生代谢、生长发育、胁迫响应的分子机制[9]。同时,其活性成分通过改变生物体内的表观遗传修饰发挥药理作用,这也为解析活性成分的新药理学机制提供基础数据。
2. 测序技术在红花基因组学研究中的应用
2.1. 基因组组装与注释
早期对红花基因组的研究受限于测序技术,进展缓慢。随着测序技术的发展,研究人员开始尝试对红花基因组进行测序组装(表1)。中南民族大学研究团队采用整合Illumina、PacBio Sequel和Hi-C的测序方法对“安徽1号”基因组进行测序,首次公布了红花高质量的参考基因组,通过比较基因组学研究揭示了红花与向日葵、朝鲜蓟分别在约60.5和30.7百万年前分化;通过使用k-mer分析(k = 17)进行的基因组调查发现,高亚油酸含量的红花品种“安徽1号”的基因组大小和杂合度比分别约为1.17 Gb和0.23% [10]。红花基因组的初始组装大小约为1.07 Gb,N50 = 16.4 Mb。此外还使用了来自Hi-C测序,共生成了最大的12个超框架,其中包括213个重叠序列和约1.06 Gb的基因组大小,反映了一个代表估计基因组大小90.6% (1.17 Gb) [10]。利用PacBio Sequel长读测序生成的基因组大小99.1% (1.07 Gb)的染色体规模组装。通过进一步使用GPM管道对Falcon组装的重叠序列进行校正,最终获得了12个超框架,包含128个重叠序列(N50 = 21.23 Mb),这些染色体被分配到12个遗传连锁群[10]。将Illumina生成的约359对末端读取序列的所有序列映射回框架上,达到了约98.1%的映射比率,而平均映射率约为94.82%的覆盖率是通过87个RNA-Seq样本的双端读取数据得出的,进一步证明了组装的质量和完整性[10]。利用87个样本RNA-seq数据以及本研究产生的254,353条PacBio全长转录本,预测出33,343个蛋白编码基因,平均编码序列长度1266 bp;其中94.78%获得了PacBio长读长支持[10]。总之,有98.12%的红花转录本获得功能注释,在InterPro、NCBI nr、拟南芥和向日葵的蛋白数据中,匹配率分别为89.06%、86.89%、75.01和83.63%。在注释的基因中,有20518条(61.54%)识别为可变转录本,显著富集在肌动蛋白丝介导的过程、细胞骨架组织形成和囊泡介导的运输过程[10]。同时也鉴定到10,646条长非编码RNAs。利用InterProScan Pfam鉴定到4077个蛋白家族(含有30,930个蛋白)和14,098个基因[10]。另外,在红花基因组中共鉴定到3298个调控蛋白,包括1755个转录因子,406个转录调控元件和1137个蛋白激酶。这些蛋白中,更多的是转录因子FAR1家族成员,它们可能参与红花的生长发育和逆境响应过程[10]。
另外,成都中医药大学研究团队联合中国中医科学院、云南省农业科学院等单位,采用整合Illumina、Oxford Nanopore GridION和Hi-C的测序方法对四川地方品种“川红花1号”基因组进行测序[11]。Illumina测序技术能够提供大量的短读长数据,用于基因组的初步拼接;Oxford Nanopore测序技术则可获得长读长序列,有助于跨越基因组中的重复区域,提高组装的连续性;Hi-C技术通过染色体构象捕获,可将组装的序列挂载到染色体上,确定其在染色体上的位置和方向。通过这些技术的综合运用,组装得到1.17 Gb的红花基因组数据,contig N50为1.08 Mb,GC含量为38.41%,预测出39809个蛋白编码基因,平均序列为1390 bp,超过70%的这些预测基因被注释到公共数据库中,如GO、KO、NR和Pfam等。重复序列占基因组71.41%。其中,长末端重复序列元件占比最高,比例为39.81%,主要分布于Ty1/Copia和Gypsy/DIRS12个家族,可能对红花愈伤组织的形成、进化和逆境胁迫发挥重要的作用。Hi-C分析后,组装的序列被成功分配到12条染色体(50.84 Mb~185.00 Mb)上,N50为96.39 Mb,研究将红花基因组与其他11种已测序植物的基因组进行了比较[11]。研究利用CAFÉ检查了红花基因家族的演化和扩展。研究进一步选择了H.annuus和V.vinifera基因组进行共线性分析。研究观察到了大规模的基因组重排,如重复、倒位、转座。这为后续深入研究红花基因组结构和功能奠定了坚实基础[11]。
Table 1. Statistics of the safflower genome assembly and gene annotation
表1. 红花基因组组装和基因注释统计表
|
安徽1号 |
|
川红花1号 |
基因组组装 |
|
基因组组装 |
|
预估基因组大小(K-mer = 17) (Gb) |
1.17 |
预估基因组大小(Gb) |
1.17 |
Contigs数量 |
128 |
Contigs数量 |
3941 |
Contig N50 (Mb) |
21.23 |
Contig N50 (Mb) |
1.08 |
最长Contig (Mb) |
57.98 |
最长Contig (Mb) |
9.019 |
基因组组装大小(Gb)和百分比 |
1.06 (90.60%) |
(G + C)s% |
38.41 |
重复序列组装百分比 |
60.13% |
重复序列组装百分比 |
71.41% |
基因注释 |
|
基因注释 |
|
预测基因数 |
33,343 |
预测基因数 |
39,809 |
转录本数 |
45,331 |
外显子数量 |
235,816 |
2.2. 重要性状关键基因挖掘
红花因其种子油富含亚油酸(Linoleic acid, LA)及花瓣富含黄酮类活性成分羟基红花黄色素A (Hydroxy safflower yellow A, HSYA),广泛应用于农业和医药领域。三酰甘油(Triglyceride, TAG)的合成为LA的形成提供前体分子,此过程涉及二酰甘油酰基转移酶(Diacylglycerol acyltransferase, DGAT)和脂肪酸去饱和酶(fatty acid desaturase, FAD)等关键酶。同样,黄酮类成分HSYA合成过程中发现的关键酶有C-葡糖醛酸转移酶(C-glucuronic acid transferase, CGT)、查尔酮合成酶(CHS)和查尔酮异构酶(CHI)等酶。因此,挖掘亚油酸和黄酮的分子调控机制,有助于加速红花药用、食用价值及其它农艺性状的提升和改良。
为了阐明红花高LA形成的机制,中南民族大学研究团队对高-LA低–油酸(Oil acid) (HL)和低-LA高OA (LL)两种品种的红花植株,在其开花10天和20天时,分析其脂肪酸组成和与脂肪酸合成的相关基因。结果发现,HL品种的红花LA含量显著上升,由62.8%上升至76.8%,而LL品种的OA含量显著上升,LA含量仅由1.9%降至0.5% [10]。结合转录组分析,表明红花种子高LA的性状由ABA 信号通路激活和FAD2-12高表达等协同调控[10]。
红花中的羟基红花黄色素A等黄酮类成分是其重要的药效成分。红花黄色素(SY)对心血管有明显改善血液流变学特征,改善血管微循环以及改善对心、脑缺血再灌注损伤等重要作用[12] [13]。红花中的黄色素(SY)和羟基红花黄色素A(HSYA)还具有一定的抗炎镇痛活性[14]。此外,有研究发现红花多糖(SPS)中具有抗肿瘤的作用[15]。研究表明,HSYA主要存在于红花的花瓣中,其黄酮与HSYA的积累呈“先慢后快”模式,且共鉴定154个UGT、7个CHS等完整通路基因;其中CHS1和CHS4在花中特异高表达,可直接提升HSYA [10]。研究人员利用转录组和代谢联合分析,HSYA生物合成极可能涉及细胞色素P450 (CYP)和糖基转移酶(UGT)等基因家族[11]。研究人员从红花基因组中提取候选CYP和UGT基因,分析其在不同组织和发育阶段的表达模式,筛选出与羟基红花黄色素A合成相关的候选基因[11]。通过对这些候选基因的功能验证,如采用原核表达实验和原生质体瞬时表达实验,发现某些糖基转移酶基因(HH_034464,命名为CtCGT1)能够使底物发生糖基化,转化原生质体后,羟基红花黄色素A的含量较对照有所增加,证实了这些基因在药效成分生物合成中的重要作用,为提高红花药效成分含量的遗传改良提供了关键靶点[11] (图2)。
Figure 2. Key biosynthetic pathways of linoleic acid and hydroxy safflower yellow A
图2. 亚油酸(LA)和羟基红花黄色素A (HSYA)的关键生物合成通路图
2.3. 红花进化与遗传多样性分析
全基因组复制(Whole-genome duplication, WGD)在研究植物进化过程中发挥着重要作用。它是指物种通过染色体倍增的方式导致多套染色体共存于同一细胞核中,形成稳定遗传的新物种的现象。为解析红花基因组演化,将6个具备染色体级基因组的物种与含7条原始染色体的祖先真双子叶核型(Ancestral eudicot karyotype, AEK)进行比较。以AEK为参照,各物种保留的AEK基因比例分别为:葡萄25.9% (6828个)、咖啡52.1% (14,893个)、向日葵32.0% (18,669个)、生菜36.5% (16,220个)、洋蓟49.9% (15,691个)以及红花34.9% (13,932个)。这表明在核心真双子叶γ-WGT与Asterid II-WGT事件后,这些谱系自AEK起源以来经历了不同程度的多次染色体重排[10]。红花蛋白编码基因的复制类型分布为:WGD/片段复制约45.0%、串联复制约10.0%、单拷贝基因约13.8%、散在复制约26.5%、邻近复制约4.7%。近缘种洋蓟亦呈现类似高比例的WGD/片段复制(约49.0%),暗示红花与洋蓟(同属Carduoideae亚科)在分化前共享一次共同WGD/片段复制事件,之后才分别与向日葵(Asteroideae)和生菜(Cichorioideae)分离[10]。再利用385个单拷贝直系同源基因构建的最大似然系统发育树表明,红花与洋蓟约3070万年前(渐新世)分化,与向日葵约6050万年前(古新世)分化[10]。红花特有扩张1278个、收缩2186个基因家族,其中108个快速扩张,3个快速收缩[10]。扩张家族显著富集在ABA激活信号通路、脂质生物合成蛋白和α-亚麻酸与亚油酸代谢,这些功能与红花高含油率及耐旱特性直接相关。收缩家族主要涉及“对生长素响应”和“对油菜素内酯响应”,表明红花在进化过程中对激素信号的依赖发生了重新平衡,以适应干旱、高盐等逆境[10]。
遗传多样性是物种进化和适应环境的基础,对于红花的遗传改良和品种选育具有重要意义。利用测序技术开发的分子标记,如单核苷酸多态性(SNP)标记,可用于分析红花的遗传多样性。研究人员对220个红花品系进行重测序,基于GWAS分析筛选与红花重要农艺性状相关的基因位点的SNP,获得了高质量的SNP [11]。利用这些SNP进行主成分分析(PCA)并构建系统发育树,结果显示不同品系的红花在遗传上具有一定的分化,并且能够区分不同地理来源和表型特征的品系[11]。此外,通过对SNP数据的分析,还可以评估红花种质资源的遗传关系和群体结构,为合理利用种质资源、开展杂交育种等提供依据[11]。
许兰杰等[16]对150份河南红花种质资源进行主成分分析和聚类分析,结果显示河南红花种质资源遗传多样性丰富;Sreelakshmi等[15]研究75份红花种质资源的遗传差异,将75份红花划分为8个类群,方差分析显示,种质之间存在显著差异,种子产量对遗传差异的贡献最大。PushpavalliÂ等[17]分析20个红花种质的7个性状的遗传差异,所有种质划分为7个类群,类群III和II种子产量和含油量表现最好。
综合应用SSR、SNP等高通量标记,结合SRAP等新型技术,精准鉴定种质资源遗传差异[18]。例如SSR标记可被用来定位、筛选抗枯萎病基因[19]。基因组数据揭示红花可能起源于地中海东岸,其耐旱、耐盐碱的适应性基因正通过多组学联用技术被逐步解析[20]。新疆无刺红花等地方品种的基因组特征为分子设计育种提供了新靶点[21]。
3. 红花的表观基因组学研究中的应用
3.1. DNA甲基化
DNA甲基化广泛存在于动物、植物及微生物的基因组中,这种修饰依靠DNA甲基化转移酶(DNMTs)将甲基供体S-腺苷甲硫氨酸的甲基基团转移到CG、CHG和CHH (H为A、T或C)三种序列的胞嘧啶上C-5位,少数情况下也可修饰腺嘌呤或鸟嘌呤[22]。DNA甲基化发生在转座元件密集区、着丝粒以及重复序列。同时,部分基因的启动子或高表达外显子区域也能检测到甲基化信号[23]。
红花表观遗传学研究目前以MS-AFLP/epiGWAS扫描为主,初步证实DNA甲基化可影响农艺和药效性状。研究人员采用甲基化敏感AFLP (MS-AFLP)技术对112份来自不同国家的红花基因组进行CCGG位点的甲基化状态扫描,发现33.57%的甲基化多态性条带,表明表观遗传变异远高于DNA序列变异[24]。且因子对应分析(FCA)显示,甲基化谱与材料的地理来源高度吻合,表明长期环境–表观遗传记忆可通过营养繁殖稳定传递[23]。
另外,研究人员利用epiGWAS对19个农艺性状重组自交系(RIL)群体(n = 189)进行研究分析,这些性状包括株高、分枝数、千粒重、含油率、HSYA含量等[24]。采用MSAP (Methylation Sensitive Amplified Polymorphism)和高分辨率熔解(HRM)技术,共获得1257个甲基化多态性位点,结果发现105个甲基化位点与至少一个性状显著关联(FDR < 0.05) [24]。其中14个位点同时影响HSYA含量与含油率,表明药效与产量性状可在表观遗传层面产生协同变异[24]。另外,对12个高HSYA与12个低HSYA RIL进行亚硫酸盐测序验证,发现启动子高甲基化抑制CtCGT1 (UGT家族)表达,导致HSYA降低;而去甲基化处理的愈伤组织HSYA含量可提升1.9~2.4倍[24]。
3.2. 非编码RNA
非编码RNA是除了编码蛋白质的mRNA外的一类基因组转录产物。miRNA属于非编码RNA的一种类型。miRNA是一类长度为21~24 nt的内源性非编码小分子单链RNA,它们在转录水平和转录后水平负调控基因表达,广泛参与植物生长发育、胁迫响应和信号转导等调控过程[25]。
研究者对红花的根、叶、花及4个发育时期种子进行Illumina sRNA-seq,共获得126条保守miRNA (隶属29个家族)和78条红花特异性miRNA。这些miRNA控制着红花的生长发育[26]。另外,首次发现红花所特有的三种特异性miRNA:miR6111、miR6113、miR6114。它们可能参与红花代谢的精细调控,靶向脂肪酸合成基因,类黄酮通路及多种转录因子相关基因[26]。此外,另一研究发现花瓣中特异高表达miR828和miR858靶向MYB-bHLH-WD40复合体成员,负调控花青素与羟基红花黄色素A (HSYA)积累,且体外过表达miR828使HSYA含量下降27%,而miR858-inhibitor转基因愈伤HSYA提高34%,证实miRNA可作为“代谢开关”[27]。在非生物胁迫方面,研究人员利用qRT-PCR追踪7个保守miRNA在红花叶片和根部的时空表达,结果发现miR398-CSD1模块在干旱胁迫下呈负相关,提示其通过ROS清除途径提高耐旱性;在盐、热胁迫下,miR156-SPL和miR172-AP2通路表现出“叶片下调–根上调”的器官特异性模式[28]。在药用活性方面,发现从藏红花柱头外泌体中分离到miR157、miR166、miR168、miR396、miR398等,体外实验显示其可跨界抑制人类免疫相关基因(如NF-κB、IL-6) [29]。
另外,长非编码RNA (Lcn RNA)和环装RNA (Circ RNA)也属于非编码RNA。研究报道,Lcn RNA在特定组织或器官的发育、细胞分化进程,以及应对外界环境胁迫时,均呈现高度特异的表达模式[30]。lncRNA主要参与调节基因表达,参与调控植物开花、春化等多种生长发育过程[30]。在红花RNA-Seq转录本中,发现共有10,646个LcnRNAs,可能对其生长发育、代谢物的生长和响应生物/非生物胁迫起着重要的关键作用[10]。
Figure 3. Schematic diagram of red flower breeding using epigenetic variations
图3. 利用表观遗传变异进行红花育种模式图
4. 挑战与展望
尽管红花基因组学研究取得了显著进展,但仍面临一些挑战。一方面,红花基因组中存在大量的重复序列,这给基因组组装和基因注释带来了一定困难,导致部分区域的组装准确性和完整性有待提高。另一方面,虽然已挖掘到一些与重要性状相关的基因,但这些基因之间的调控网络以及它们与环境因素的互作机制尚不完全清楚,还有与油药性状的负相关分子机制还未挖掘,这限制了对红花复杂性状遗传机制的全面理解。此外,目前的研究主要集中在少数几个红花品种(系),对于全球范围内丰富的红花种质资源的基因组学研究还不够深入,难以充分挖掘种质资源中的优良基因。
未来,随着测序技术的进一步发展,如更高通量、更准确的测序技术以及单分子测序技术的不断完善,将有助于更精确地解析红花基因组结构,进一步提高基因组组装质量,填补基因组中的缺口,完善基因注释信息。在功能基因组学研究方面,可综合运用转录组学、蛋白质组学、代谢组学和表观组等多组学技术,构建红花基因调控网络,深入研究基因与基因、基因与环境之间的互作关系,全面解析红花重要性状的遗传调控机制。如深入解析了红花脂肪酸和黄酮类等重要成分生物合成的分子机制,挖掘到多个与含油量、亚油酸含量、羟基红花黄色素A含量等重要性状相关的基因和基因位点。同时,加大对全球红花种质资源的基因组测序和分析力度,建立全面的红花基因组数据库,通过全基因组关联分析(GWAS)、连锁分析等方法,挖掘更多优异基因资源,并将其应用于红花的遗传改良和新品种培育中(图3)。此外,结合基因编辑技术如CRISPR-Cas系统,对红花基因组进行精准编辑,创造新的种质材料,为红花产业的可持续发展提供强大的技术支撑。
基金项目
湖北省教育厅科研计划的指导项目(B2023260)。