1. 引言
数量性状遗传与经济关系极其密切,是遗传学的一个重要分支 [1]。在数量性状遗传理论上,一百年来一直延用着多基因假说,没有多大进展,出现了瓶颈,正期待新思想、新方法的出现 [2]。作者从几十年的生产实践结合科学研究,探索出双多因素与三正态分布理论,与遗传学家和数学家讨论。
2. Nilsson-Ehle小麦杂交实验是3对基因积加作用,依据该实验建立的多基因假说以 二项分布为数学基础,属离散型分布,不能解决数量性状的连续性问题
1909年Nilsson-Ehle发表了他的小麦杂交实验,在此基础,Willian Bateson和G. Udny Yule等提出了多基因假说,用它来解释数量性状遗传的连续性问题 [3]。后来,该假说便成了数量性状遗传的经典理论,至今在世界广泛流行 [4]。实际上它是3对基因的积加作用,属离散型分布,并不能解决数量性状遗传的连续性问题。
2.1. Nilsson-Ehle小麦杂交实验基本资料
1900年Nilsson-Ehle在瑞典北部发现了1种种皮老红的3对基因小麦品种,后来用它和白粒品种杂交,谱系清晰地繁殖至F3植株结出F4籽粒。结果从64株理论植株得到78株F2植株。其中8株的F3植株结红粒植株和结白粒植株的比为3:1;15株的为15:1;5株的为63:1;50株的F3植株全结红粒。未得到结白粒的F2植株 [5]。
2.2. 3对基因积加作用F2的基因型分类
二对基因红粒小麦的遗传被认为是积加作用(additive effect) [6],我们以积加作用来研究3对基因红粒小麦的遗传。首先,用人们熟知的豌豆黄色、圆粒、红花X绿色、皱粒、白花为例,其F2基因型以积作用分为5类:I、3对隐性基因纯合体;II、含1对显隐性基因杂合体;III、含2对显隐性基因杂合体;IV、含3对显隐性基因杂合体;V、含显性基因2、3、4、5、6个,且每种至少含1对纯合显性基因的个体,如表1。

Table 1. Categories of the F2 genotypes from inheritance of 3gene pairs in garden pea
表1. 豌豆3对基因积加作用F2基因型分类(1)
(1)据朱军等《遗传学》 [7] 资料编制。
用3对基因红粒小麦品种(R1R1R2R2R3R3)和白粒品种(r1r1r2r2r3r3)杂交,F2以积加作用分类,结果与豌豆F2基因型分类一致。由于R1 = R2 = R3,r1 = r2 = r3,以R代替表1中的显性基因,以r代替隐性基因,即可得到小麦3 对基因积加作用时F2基因型分类(表2)。

Table 2. The F2 genotype categories in crossing with old red grain variety of 3 gene pairs in wheat
表2. 3对基因红粒小麦杂交积加作用下F2基因型分类
(基因型以R多寡有7种,其比例为1:6:(12 + 3):(8 + 12):15:6:1,成二项分布。)
表1、表2前4组的情况一目了然,第5组的37个基因型每个至少含有1对纯合显性基因,所以对应于全红色。皮尔逊卡方检验统计值χ2 = 8.110,P值 = 0.098,Nilsson-Ehle小麦杂交实验F2植株与表1、表2的3对基因积加作用理论数符合。另外,用豌豆来说明这个问题,是人们对它的多性状遗传熟悉。实际上豌豆并无基因互作,F2种子(实际是子叶)即发生3黄:1绿的分离 [1]。另外,假如豌豆有积加作用,粒色变异将在F2表现,而小麦由于果皮遗传,粒色在F3发生分离 [8]。
2.3. Nilsson-Ehle小麦杂交实验基本资料图解与小结
作物的划代从种子开始,杂交时应用的母本所结的种子和由这些种子长成的植株为F1 代,F1植株所结种子则为F2的起点 [7] [9]。小麦的粒色属果皮遗传 [8],果皮和种皮是母体2n组织,其表现型由母体基因型决定 [9]。Nilsson-Ehle用老红粒品种和白粒品种杂交,母本植株(R1R1R2R2R3R3)当代即结出老红色F1籽粒。将F1籽粒播下,长出F1植株(r1R1r2R2r3R3),通过自交结出同一的中红色F2籽粒,包括基因型rrrrrr的籽粒,并不发生分离(图1)。

Figure 1. The F1 plants (r1R1r2R2r3R3)
图1. F1植株(r1R1r2R2r3R3)
将F2籽粒播下,长成78株植株,结出不同颜色的F3籽粒。这些植株随机分布,为了方便,按5组基因型分类排列如下(图2)。
Nilsson-Ehle对实际得到的第5组50株全结红粒的F2植株并未分类,根据图2的有关资料和表2基因型的理论分布,可计算出50株中结浅红(3b)、中红(4b)、深红(5)、暗红(6)和最红(7)籽粒的植株分别为6、22、15、6、1。从而,得出含有计算成分的实际株数分布(表3)。

Table 3. The F3 grain phenotypes and The F2 plant distributions
表3. F3籽粒表现型与F2植株分布
这里的F2实际株数分布可能与真正的分布有出入,但从表2基因型的理论分布可知,实际株数必然有7种,而且当实验株数增大时,它们会更符合理论值,并有一定概率。
很清楚,在Nilsson-Ehle的小麦杂交实验中,F1籽粒为老红色,F2籽粒为同一中红色,F3籽粒由白色到最红,发生分离,这是由于果皮遗传的缘故。遗传学界认为,小麦F2籽粒颜色发生分离,这是一个长达100年的误判。一直以来,遗传学界有两个误区:一是,一些人将小麦粒色的遗传看成同豌豆种子(子叶)颜色的遗传一样,决定于胚2n组织的基因型,F2籽粒发生分离 [1] [6] [7] [10] [11] [12]。这是莫须有的。二是,另一些人将小麦的繁殖从植株到植株胎生化,把植株所结的籽粒看作兔子的耳朵一样,向前推移了一代,把F2籽粒说成了F1植株的性状、F3籽粒说成了F2植株的性状 [3]。这也是错误的。
将F3籽粒播下,发育成F3植株株行圃(图3),上面的分析得到图3的验证。

Figure 3. Plant-to-nursery of the F3 plants
图3. F3植株株行圃
Nilsson-Ehle所用的小麦品种种皮的老红色仅涉及3D、3A和3B染色体上3个基因位点的3对等效易位基因(polymeric gene) [6] [7]。就二项分布来说,2n = 6,P = 0.5,随机变量只有7个值,它们可有确定的概率。从数学来说,随机变量不是连续型分布,而是离散型分布 [13],籽粒颜色变异仍属质量性状遗传范畴。William Batesonh和G. Udny Yule在该实验基础上提出的多基因假说,不能解决数量性状的连续性问题。何况,该假说也没有涉及在决定表现型中起重大作用的环境效应 [1]。
3. 数量性状往往是生物性状总体、部分总体及其活动的结果,包括一系列单位性状, 其遗传涉及相当多性质不同基因位点的许多等位基因和非等位基因,应以孟德尔群体 为对象,以中心极限定理作数学基础研究
遗传学是通过连续世代的性状分析来研究生物的遗传继承和变异问题,研究性状分为质量性状和数量性状。它们统一受遗传规律支配,构建了自己的性状和器官。也就是说,数量性状和质量性状一样,在自身的建造过程服从遗传学三大规律。但两种性状的特点和研究方法却截然不同。
质量性状的研究,把生物所表现的性状总体分解为单位性状,如,豌豆的花色、种子的形状、子叶颜色等;并选择少数相对性状差异明显的单位性状来研究,如,豌豆的红花与白花、小麦的有芒与无芒、鸽子的血眼与金眼进行分析,然后根据性状对个体分组。由于质量性状中的这些相对性状分别由有对性关系的等位基因控制,在遗传过程的共同基础是,等位基因分离,非等位基因自由组合以及所形成的精子和卵子的随机结合 [14]。这些过程以其固有的概率产生了具有不同性状的个体。分离世代的表现型,在显性效应下以二项式(3:1)n为基础而发生变化,表现型的个数为2n [7]。在加性效应下以(1:1)2n为基础发生变化,表现型的个数为2n + 1 [7] [8]。前边谈了,Nilsson-Ehle的小麦杂交实验只是3对基因的积加作用,仍属质量性状遗传范畴。显性效应和加性效应是遗传学的两大主要作用,它们均以二项分布为数学基础,呈离散型分布。连锁遗传和基因互作是在上述遗传基础的变化,在基因对数相等的情况下,连锁遗传产生的表现型种类和独立遗传相同,在基因互作时一般产生的表现型种类较独立遗传时少。由于个体相对性状差异明显的单位性状有限,在质量性状研究中,即使几个遗传效应并存,也只能产生有限的表现型,表现出离散型分布。例如,当牛的毛色红色对白色为不完全显性,无角对有角为完全显性,两对杂合型的F2也只有有限的6种表现型 [7]。
质量性状是生物在生长发育过程的量变和质变中发展并在成龄时完善的,在这些质量性状的基础上生物又开始新的量变,形成了数量性状。
质量性状界定的是群体的本质差异,如这一种和哪一种、这一类型和哪一类型间的差异,而群体内,如种内、类型内的个体实际变异大都不是在质量性状上而是在数量性状上 [4]。数量性状,如,某种树木的高度、直径与材积、奶牛的产奶量、肉牛的大小和动植物的生物量,是生物生命周期的一定阶段表现出的性状,往往是某生物性状总体、部分总体及其活动的结果,本身没有相对性状,并非受有对性关系的等位基因控制。它们可取数轴的某个区间的一切数值,呈连续性变异。其遗传涉及的是群体内不同个体上同一性状的差异,应在群体中进行研究 [15]。
孟德尔群体在自然界广泛存在 [16] [17] [18],数量性状遗传研究最方便的群体是随机交配的孟德尔群体 [17] [19] [20]。自然界绝大多数生物是二倍体,以群体的形式存在,异交为原本的生殖方式 [6]。这些生物在种内似乎是随机交配的,或几乎这样,形成一个个孟德尔群体。群体在“大”和“小”上没有明显的界限,它们有各种的大小 [21],而且有着一定地域特点 [22] [23]。如,一定面积的实生林、鸡场的鸡群、水库中的鱼群和就体高而言的不同人群都可以认为是孟德尔群体 [24],各成员之间随机交配。是随机交配将群体内不同个体联系起来,彼此进行基因交流。每交配成功一次,亲本各向群体贡献一个配子。因此,一个孟德尔群体就是一个享有共同基因库(gene pool)的繁殖集团 [25]。而且,在达到连锁平衡时,连锁基因所产生的性状是独立分布的 [21]。实质上,个体间随机交配就相当于使每个亲本向基因库贡献相等的配子,这些雌雄配子随机结合起来,形成了形形色色的基因型,发育成不同个体 [1],表现出不同性状,包括数量性状。这是孟德尔群体中数量性状连续性的基础。
数量性状,特别是许多具有经济价值的数量性状,包含着某种生物该方面的一系列单位性状及它们的代谢产物,如,肉牛的产肉量涉及其产肉的头、颈,腹、背、四肢和内脏等形态性状以及一系列生理生化特性。有些数量性状甚至涉及与生长发育有关的所有性状。如,生物量,动物包括头、颈、躯干、四肢,含耳、鼻、口、眼、舌和上肢、下肢及手、足;植物包括根、茎、叶、花、果、实。这些性状是由一系列生理生化过程形成的,包括许多单位性状,分别受许多位点的众多等位基因和非等位基因控制 [8]。就人来说,每一个细胞包含有10~250万个基因 [26],其体重或体积等数量性状涉及的基因位点和基因数应该成千上万。而且,不同个体各位点分别具有群体相当多的各种复等位基因 [4],个体上控制同一数量性状的众多基因,所处条件各异,性质不同,行为不一。如,玉米叶色浓淡决定于叶绿素的含量 [9],至少有50个不同位点的基因与玉米叶绿素的变异有关 [14] [27],至少有34个不同位点的基因影响着果蝇翅膀的大小 [14],而玉米的染色体只有10对,果蝇只有4对。必然的结果是,数量性状遗传就基因位点来说,涉及等位基因和非等位基因;就染色体来说,有独立遗传和连锁遗传 [28] ;就基因效应类型来说,有加性效应、显性效应和上位效应;就基因本身的效应大小来说,在同一位点和不同位点并非相等 [12]。从而,只能借助涉及诸多效应不一定相等的不同因素、结果构成正态分布型连续性的中心极限定理为数学基础来研究 [13]。环境效应也是这样。
4. 以孟德尔群体为对象,用中心极限定理从基因型和环境效应两方面研究的双多因素 与三正态分布理论能较好地解决数量性状遗传连续性问题
在数量性状遗传中,基因型以基因型值决定着个体某数量性状表现型的大小。基因型值是指基因型各位点控制某数量性状众多基因的效应之和 [17] [19]。由于上位效应不甚重要,可将其忽略 [17] [19] [29],则基因型值为诸多位点的加性效应与显性效应之和 [17] [19]。以G表示孟德尔群体中具有某数量性状个体的基因型值,以Gi表示第i个基因位点对该值的贡献,则
据Ayala等的进一步研究,同一基因位点和不同基因位点基因效应不一定相等 [12]。即使如此,上述数学模式仍然成立。重要的是,在这里将研究限定在孟德尔群体。在随机交配下,不同位点的贡献Gi在遗传上是相互独立的,不论各位点是否连锁 [21] [29]。就基因型值组成来说,加性效应是等位基因间和非等基因间的累加效应(cumulative effect),属简单加法,不同位点的贡献Gi是独立的;显性、部分显性和超显性只作用于同一基因位点,在它们存在时,不同位点的贡献Gi也是独立的 [30],而且加性效应和显性效应相互独立 [29]。按照Lyapunov中心极限定理,基因位点数n充分大时,基因型值G服从正态分布
[13]。在这里,不附加任何条件,只要控制数量性状的基因位点足够多即可,而各位点的基因按遗传三大规律运作。
数量性状表现型的另一组份是小生境环境效应,也叫环境离差 [17] [19],用E表示。生物生长在一定环境中,环境效应是由许多因素综合作用的结果。每个有效因素对小生境环境效应作着贡献(Ei),其关系可表示为:
。
就概率论来说,小生境中环境因子的作用,至少相当多因子的作用,可以认为在统计上是相互独立的。如水,作为介质它可补偿肥料的不足,肥料也可补偿它的不足。但在植物的重要作用-光合作用合成碳水化合物时,只有6个二氧化碳加6个水分子才能合成一个葡萄糖 [31]。在这儿水和二氧化碳是不可被代替的,其作用是独立的。参与其它代谢作用的因子也是这样。营养元素的独立性更为突出,其中16个是不可被代替的 [31],其作用是独立的。
在测量、射击等应用中心极限定理计算误差时,对光、温度、大气及其湿度、人为因子等作用就是按相互独立处理的 [32] [33] [34]。许多数学家在说明生物的数量性状呈正态分布,虽忽视或低估了基因型值这一大块组分,错误地把它们整体按一个小微因子对待;而对这些环境因子的作用均是潜在地以相互独立处理的 [34] [35] [36]。Liebig的“最小因子定律”和Blackman的“限制因子定律”也说明了生态因子的独立性 [37]。Liebig还用“板桶定律”来阐述这种关系。这说明各生态因子都重要,对环境效应起着不可或缺的独立作用,但每个因子又不起压倒一切的作用。这就满足了应用中心极限定理研究小生境环境效应的必要条件。据Lyapunov中心极限定理,小生境环境效应E服从正态分布
。该理论得到了无性系和作物不分离世代表现型分布的验证。
作者对户县苗圃毛白杨(Populus x tomentosa) N.105号无性系147株苗木作了实地调查,平均地径1.46 cm,平均高1.87 m,绘制出地径和高度样本频率直方图及密度估计曲线。用Shapiro-Wilk正态性检验法检验了它们的正态性,地径检验统计值W = 0.988,P值 = 0.251,高度相应为W = 0.985,P值 = 0.098,N.105无性系苗木地径和高度均呈正态分布。陈永福报道的尾叶桉(Eucalyptus urophylla)无性系6号人工林直径的分布也是如此 [38]。周银珠等对甘蓝型油菜的研究表明,不分离世代P1、P2、和F1单粒芥酸含量呈正态分布 [39]。现以N.105号无性系苗木高度分布曲线来讨论环境效应的正态分布。
设N.105号无性系的基因型值G为常数c,即G = c,其正态分布可表示为式(1):
(1)
其中,c来自无性系,
来自环境效应。由于P = G + E,E = P − G,像测量误差的补偿性一样,在作为一个整体看待的群体里的平均环境离差取作0,即小生境环境效应期望
,而且平均表现型值等于基因型值 [40]。将图4苗高密度曲线向纵坐标方向平移c = 1.87单位,就是N.105号毛白杨无性系试验地环境效应正态分布图(如图4中蓝线所示),即该地环境效应E服从正态分布
。

Figure 4. The sample frequency histogram and density estimation curve of height of N.105 clone and curve of environmental effect derived from them
图4. N.105无性系苗木高度样本直方图及密度估计曲线及其推导的环境效应曲线
同理,用其它无性系或作物不分离世代也能得出各试验地环境效应E服从正态分布
。理论和实践证明了我国著名数量性状遗传学家马育华关于“环境效应一般作正态分布 [17] ”的论断。
表现型P = G + E。在理论上,基因型值G决定于各基因位点的贡献,为生物与生具有,不受这里的环境效应E影响;而E为随机的环境条件,并非由G左右。当随机交配的孟德尔群体处于遗传平衡和连锁平衡时,G与E作独立正态分布 [29]。在实践上,孟德尔群体的个体随机分布,不同基因型在群体中的频率不同。基因型值是随基因型及其频率而变化的随机变量,而个体所占据的环境是随机化的自然条件,不是令个体不能内集的“特殊条件”,环境的分布并非决定于基因型。而且孟德尔群体的地域性使小生境环境不像数理统计所谓“处理”那样大,因为一个孟德尔群体通常在环境上不会遇到像不同处理那样大的环境变幅,小生境变异只是自然条件下的小幅变化。所以G和E的相互关系和交互作用很小,可以忽略,G与E相互独立 [29] [30] [40] [41]。
根据相互独立正态发布的可加性,
,即
(2)
P、G、E的分布和它们的相互关系如图5所示:

Figure 5. The normal density curve of P, G, E and their relationship
图5. P、G、E的分布及其关系
这说明在自然条件的随机交配下,不论是否连锁,不论同一基因位点或不同基因位点基因效应是否相等,不论等位基因是否存在显性和什么样的显性,孟德尔群体数量性状的表现型P均服从正态分布。如,中国人的体高是男性以1.69 m、女性以1.62 m为众数的正态分布。树木是杂合性植物,成林树种种内异交率高达95% [42],种间生殖隔离,纯林和混交林数量性状以树种基本呈正态分布。前者如思茅松(Pinus khesiya var. langbinaensis)幼林中直径的分布 [43]。后者如马尾松(Pinus massoniana)和大头茶(Gordonia kwangsiensis)混交林中各树种树高、直径的分布 [44]。自花授粉植物,它们的遗传性一般是很纯粹的,可以说它们的基因型几乎都是纯型合子的 [14]。联系到上述无性系和作物不分离世代数量性状的正态分布,就解决了包括有自花授粉和异花授粉生物数量性状的正态分布和连续性问题。所以,继数学家之后越来越多的遗传学家认为,数量性状的特征呈正态分布型连续变异 [2]。数量性状的双多因素与三正态分布理论正是作者在几十年的生产实践和科学研究中,发现林木的高、径等数量性状基本呈正态分布的启迪下,坚持研究出的 [8] [20] [30] [45]。
5. 结论与讨论
长期以来,遗传学界有两个误区:一是,一些人将小麦粒色的遗传看成同豌豆种子(子叶)颜色的遗传一样,决定于胚2n组织的基因型,F2籽粒发生分离 [1] [6] [7] [10] [11] [12]。这是莫须有的。二是,另一些人将小麦的繁殖从植株到植株胎生化,把植株所结的籽粒看作兔子的耳朵一样,向前推移了一代,把F2籽粒说成了F1植株的性状、F3籽粒说成了F2植株的性状 [3]。这也是错误的。实际上,小麦的粒色属果皮遗传,种子外包被着母体2n组织 [46],其粒色决定于母体基因型 [9]。Nilsson-Ehle用老红色种皮的小麦品种和白粒品种杂交,F1籽粒为老红色,F2籽粒为同一中红色,F3籽粒发生分离,是三基因对积加作用的结果。他所用小麦品种籽粒的老红色只涉及3D、3A、3B染色体的3对等效易位基因 [6] [7],就二项分布来说,2n = 6,P = 0.5,随机变量只有7个值,它们可有确定的概率。从数学来说,随机变量不是连续型分布,而是离散型分布 [13],籽粒颜色仍属质量性状遗传范畴。William Bateson和G. Udny Yule在该实验基础上提出的数量遗传多基因假说 [3] 不能解决数量性状的连续性问题。数量性状往往是群体中个体性状总体、部分总体及其活动的结果,本身没有相对性状,包含有相当多的单位性状,涉及相当多不同位点,性质不同的众多等位基因和非等位基因。如,左右玉米叶色深浅的叶绿素至少与50个基因位点有关,至少有34个位点的基因影响着果蝇翅膀大小 [14] [27],树木高度、直径和材积、奶牛产奶量、肉牛的大小和动植物的生物量涉及的基因位点应当成百上千。这些位点及其基因所处条件各异,性质不同,行为不一。在随机交配的孟德尔群体中,不论各基因位点是否连锁,各基因位点的贡献相互独立 [29]。而这些生物所受的环境效应是由光、温度、大气及其湿度、人为因子等许多因素综合作用的结果。Liebig曾用“板桶定律”来说明各生态因子都重要,对环境效应起着不可或缺的独立作用,但每个因子又不起压倒一切的作用 [37]。小生境中环境因子的作用,可以认为在统计上是相互独立的。按照Lyapunov中心极限定理,n分别充分大时,基因型值G服从正态分布
,小生境环境效应E服从正态分布
。在理论上,当随机交配的孟德尔群体处于遗传平衡和连锁平衡时,G与E作独立正态分布 [29]。在实践上,孟德尔群体中基因型随机分布,而群体所占据的环境又是随机化的自然环境,环境的分布并非决定于基因型。而且,由于孟德尔群体的地域性,小生境变异只是自然条件下的小幅变化。从而,基因型值和环境效应的关联和交互作用可予以忽略,二者相互独立 [29] [40] [41]。按正态分布的可加性,孟德尔群体中个体的表现型P = G + E也呈正态分布,数量性状呈连续性变异。
NOTES
*通讯作者。