不确定基因型的可加模型及变量选择
Additive Model and Variable Selection for Uncertain Genotypes
摘要: 全基因组关联分析(GWAS)是研究复杂疾病相关位点的有效方法.在基因不确定情形下,传统方法利用基因填补方式估计基因概率,继而展开后续基因关联分析。我们对大样本基因考虑一个非参数可加模型对可加分量维数大而非零加性分量数目小的基因数据进行建模,其中加性分量利用B样条基函数的线性组合工具来近似拟合基因概率对性状表征的效应关系;选择非零分量是利用组Lasso惩罚来获得初始估计量。最后我们利用蒙特卡洛模拟证明,可加模型的组lasso方法在基因表达样本中的效果良好。
Abstract: Genome-wide association analysis (GWAS) is an effective method to study the associated loci of complex diseases. In the case of genetic uncertainty, the traditional method uses the gene filling method to estimate the gene probability, and then carries out the subsequent gene association analysis. We used a nonparametric additive model to model the data of large samples of genes with large additive component dimensions but small non-zero-additive component numbers. The additive component was used as a linear combination tool of B-spline basis function to approximate the effect relationship of gene probability on trait characterization. The group Lasso penalty was used to obtain the initial estimator for selecting the non-zero component. Finally, Monte Carlo simulation was used to demonstrate that the group Lasso method of the additive model performed well in gene expression samples.
文章引用:钟思敏, 徐萍. 不确定基因型的可加模型及变量选择[J]. 统计学与应用, 2021, 10(2): 293-299. https://doi.org/10.12677/SA.2021.102029

1. 引言

近年来,全基因组关联研究(GWAS) [1] 被广泛关注,成功地应用于识别与复杂疾病相关的位点及农业畜牧业等重要经济性状相关的遗传变异基因。复杂疾病是环境和遗传变异因子的共同结果,一般涉及多个基因,而大部分疾病的相关基因位点未知,这就要求科学家开发合理的方法识别相关位点。GWAS就是寻找致病基因的方法之一,主要用于数量性状的分析,应用基因组中数以百万计的单核苷酸多态(SNP),在全基因组水平上进行大样本分析找出影响复杂性状的基因变异位点。也就是说GWAS的主要目标是筛选出与特定疾病相关的基因、确定SNP与疾病表型的关联 [2]。Klein et al. (2005)最初利用该方法找出老年黄斑变性的相关致病基因 [3],Sladek et al. (2007)确定4个与2型糖尿病有关的致病基因 [4]。相关实例应用陆续开发,在风湿性关节炎 [5]、食管癌 [6]、心血管疾病 [7] 和前列腺癌 [8] 等疾病以及农业(芝麻等)畜牧业等重要经济作物中有了相应研究成果,GWAS快速发展。

随着测序数据的发展,多国协作的HapMap计划的完成,海量的基因型数据被用于GWAS [9],适用于大数据关联分析的算法也在不断更新。在大型样本的基因测序研究中,有时出现基因型不确定的情况 [10],在这种情况下,利用“填补基因型方法”确定每个样本对应的基因型 [11] [12] [13],继而展开后续的基因关联分析 [14] [15] [16] [17]。对于特定的SNP基因分型,通常采用的“最大概率法”和“剂量法”。前者指定概率最大的基因型作为样本基因进行分析估计,后者是用线性组合的方式计算基因型概率,计算方法分别为: X ˜ i j = { g : p i j g = max { p i j 0 , p i j 1 , p i j 2 } } X ¯ i j = p i j 1 + 2 p i j 2

传统的关联分析主要考虑单个基因型对疾病表征关系的关联分析 [18],但多个基因位点的基因型与特定疾病的关联分析及变量选择就很少 [19]。Li Q. [20]、Loley [21] 分别对多个基因位点对性状表征的传统线性回归模型、广义线性模型。在高维基因数据方面,成青 [22] 和刘璐 [19] 考虑高维数据中n个样本的p个基因位点的基因数据建立线性回归模型并结合Lasso罚函数进行变量选择。而这些方法没有考虑基因型的不确定,且认为基因对疾病表征关系是线性的。在遗传基因表达中,基因位点对疾病的效应关系可以是非线性的。对高维数据处理,一般传统的高维数据模型加罚函数可以初步对变量降维,在这方面已有大量的研究工作 [23] [24] [25] [26]。这里我们将在考虑高维基因数据下,部分基因位点不确定,探索一种利用B样条拟合基因位点对基本性状响应的光滑效应关系,进而建立可加模型 [27],结合grouplasso罚函数对高维变量降维及非参估计以确定基因型与性状表征的关系。

本文的其余部分安排如下:在第2节中,我们介绍在基因不确定情形下的加性模型,我们将在第3节中详细介绍选择一致性证明结果;在第4节将我们的方法应用于模拟GWAS数据的分析。最后,我们作一些结束语。

2. 符号与模型

2.1. B样条曲线

在介绍我们的模型前,首先回顾B样条曲线概念。1972年Riesenfeld等人 [28] 提出B样条曲线,它可以通过一组标准B样条基函数的线性组合来有效逼近上述非线性函数。假定 a = η 0 < η 1 < < η K 1 < η K = b 将区间 [ a , b ] 分割为K个子区间,记 I K t = [ η t , η t + 1 ) , t = 0 , , K 2 为前K − 1个子区间,对于第k个子区间,其p次样条基函数 ϕ k , p 定义如下

ϕ k , 0 = { 1 , x [ η k , η k + 1 ] 0 , x [ η k , η k + 1 ]

其递归公式为

ϕ k , p ( x ) = x η k η k + p η k ϕ k , p 1 ( x ) + η k + p + 1 x η k + p + 1 η k + p ϕ k + 1 , p 1 ( x ) , k > 0

假设 S n p 1 次多项式样条空间, { ϕ k , k d n } 是定义在 S n 上的一组标准基向量,则有

f n j ( x ) = k = 1 d n ϕ k ( x ) β j k , 1 j p

其中 d n = K + p ,在适当的条件下, f n j ( x ) 可以和好的逼近 f j ( x ) [29]。记 β = ( β 1 T , , β p T ) T β j = ( β j 1 , , β j d n ) T

2.2. 基于基因不确定的可加模型

考虑等位基因为a和A的单核苷酸多态性。假设A是导致疾病的高风险等位基因。三种基因型分别表示为aa、Aa、AA,对应编码为0、1、2。定义 X i j 为第i个个体第j个点位的基因型,则对应的基因型概率定义为 p i j = P ( X i j = g ) , g = 0 , 1 , 2 Y i 为第i个个体的性状观测值。这里基因不确定数据,我们的 X i j 可采取传统填补基因型方法: X ˜ i j = { g : p i j g = max { p i j 0 , p i j 1 , p i j 2 } } X ¯ i j = p i j 1 + 2 p i j 2

假设我们的数据向量 ( X i , Y i ) 独立同分布服从 ( X , Y ) ,Y是响应变量, X = ( X 1 , , X p ) T 是p维基因数据,考虑如下非线性可加模型:

Y i = μ + j = 1 p f j ( X i j ) + ε i , i = 1 , , n ; j = 1 , , p

其中 μ 为截距项, f j ( ) 为未知光滑函数, ε i 为服从均值为0方差为 σ 2 的随机误差。在高维稀疏性的假定下,这里的大部分 f j ( ) 0 , j = 1 , , p ,我们的目的是找出不恒等于0的部分。结合B样条拟合光滑函数的工具,表达式等价于:

Y i μ + j = 1 p k = 1 d n ϕ k ( X i j ) β j k + ε i , i = 1 , , n ; j = 1 , , p ; k = 1 , , d n

这里的待估参数 β = ( μ , β 11 , , β 1 d n , , β p 1 , , β p d n ) 。这里利用Bspline基函数线性组合工具,可视为其将非线性模型转化线性关系模型。

由于参数 β 的维数是 p d n + 1 ,利用Bspline线性组合近似非线性函数 f j ( ) 时, d n 很大则系数的稀疏性是我们考虑的范围,因而这里用稀疏组lasso选择重要分量和非零系数,这一部分内容我们在下一小节详细介绍。

2.3. grouplasso变量选择及参数估计

特定疾病对应与之相关的基因位点往往只有少部分,假定真实模型是稀疏的,也就是重要的协变量就是少数,只有小部分加性分量 f j 是非零的,记真实的非零分量指标集为 M = { j : f j 0 } ,这里指标集中的数目大小为 s = M 。我们的目标是利用罚函数对高维基因数据降维,选择分量 M ^ = { j : β ^ 0 } ,这里 s ^ = M ,且 s ^ s 。即当样本量增大时,重要变量选入模型的概率趋于1,我们的模型具有选择一致性。

在高维基因数据的情况下,在模型上加groupLasso惩罚项有选择一致的特性,这里我们考虑惩罚最小二乘法:

S n ( μ , β n ) = i = 1 n [ y i μ j = 1 p k = 1 d n ϕ k ( x i j ) β j k ] 2 + λ n j = 1 p β n j 2

β n = ( β n 1 T , , β n p T ) T = ( β 11 , , β 1 d n , , β p 1 , , β p d n ) T 1 j p λ n 是惩罚参数。

为了模型的可识别性,加入约束条件 i = 1 n k = 1 d n ϕ k ( x i j ) β j k = 0 , j = 1 , , p 。对 S n ( μ , β n ) 极小化求参数:

β ^ = arg min { i = 1 n ( y i μ j = 1 p k = 1 d n ϕ k ( x i j ) β j k ) 2 + λ n j = 1 p β n j 2 }

通过GroupLasso估计出每组参数的估计,根据稀疏性假定,其中只有少部分 β ^ n j 2 0 , j = 1 , , p

等价于 f j ( ) 不恒等于,也就是说对应的第j个基因位点是与疾病存在显著关系的。

3. 模拟结果

利用蒙特卡罗模拟数值,比较基因型数据 X i 采用剂量法与最大可能概率法在线性模型与非线性可加模型的表现。这里 X i j 中的三个概率( p i j 0 , p i j 1 , p i j 2 )通过将基因不确定率的情况考虑在内的三项分布生成。这里的是三项分布可以通过三种频率对模拟生成特定频率生成,在模拟设定基因确定率和不确定基因频率则为r和1 − r。有不确定率的存在,一个基因位点会有三个基因型(aa、Aa、AA)的概率。基因型的检测频率,如表1所示。

Table 1. Frequency of genotype detection

表1. 基因型的检测频率

下面我们通过两个例子比较说明可加模型的groupLasso罚函数的变量选择的优良性。

例1:从下面的模型中产生数据:

Y i = μ + j = 1 p f j ( X i j ) + ε i , i = 1 , , n

这里取 μ = 2 f 1 ( x ) = x f 2 ( x ) = 2 x 2 f 3 ( x ) = 3 log ( x ) f j ( x ) 0 , 4 j 100 = p ;这里非零分量个数 s = 3 p = 100 ,样本量 n = 1000 ,随机误差服从标准正态分布。模型超参数 λ 的选取采用十折交叉验证进行筛选,数据按照7:3比例随机分为训练集与测试集。统计变量正确选择平均个数(TM),错误选择平均个数(FM)以及测试集均方误差(TMSE)如表2

Table 2. Results of variable selection

表2. 变量选择结果

根据表1结果可以知道,在模型一样的情况下,剂量法相较于最大概率法能更多的识别出重要变量以及拥有更小的均方误差,与此同时识别变量错误的情况也偏多;当然线性模型应用范围比较局限,在存在非线性部分时,其变现结果很差。

例2:从下面的模型中产生数据:

Y i = μ + j = 1 p f j ( X i j ) + ε i , i = 1 , , n

这里取 f 1 ( x ) = 5 x f 2 ( x ) = 3 ( 2 x 1 ) 2 f 3 ( x ) = 4 sin ( 2 π x ) / ( 2 sin ( 2 π x ) )

f 4 ( x ) = 6 ( 0.1 sin ( 2 π x ) + 0.2 cos ( 2 π x ) + 0.3 sin ( 2 π x ) 2 + 0.4 cos ( 2 π x ) 3 + 0.5 sin ( 2 π x ) 3 ) f 5 = = f p = 0 。这里

非零分量个数 s = 4 p = 100 0 和三种不同的样本容量:n=100,200和1000,随机误差服从标准正态分布。这里的数据生成模型和Huang的一样,但是我们这里基于基因不确定情形。针对这个模型比较GroupLasso和GroupSCAD惩罚的优越性,得到下面表3

Table 3. Results of variable selection

表3. 变量选择结果

通过对表3两种变量选择方法进行比较,采用最大概率法时,GroupLasso方法与GroupSCAD方法变量选择的效果差距不大;从错选变量(FM)个数看,Group Lasso方法倾向于筛选出更少的伪变量,特别在用剂量法时,Group Lasso错选变量个数明显小于Group SCAD方法。

4. 结束语

复杂疾病与基因位点通常存在非线性关系,全基因组测序建立复杂疾病与基因位点之间关系是一种有效途径,但是全基因组的准确测序也是一个耗时耗力的庞大工程。在部分基因位点基因型不确定下,采用“最大概率法”或“剂量法”来填补基因数据,GroupLasso以及GroupSCAD方法对非线性可加模型进行重要基因位点识别是一种有效途径。

本文在基因不确定情形下,基于GWAS创新一种基因表达方法,不同于传统的基因填补估计概率方法,结合了B样条工具拟合加性分量建立非参数可加模型,考虑了大样本基因的环境下进行组Lasso变量选择以获得初始估计;最后利用数值模拟对比证明了我们方法的优良性。在基因测序中,我们非参加性模型更灵活,对模型的假设要求更低,适用范围更广。

参考文献

[1] Bush, W.S. and Moore, J.H. (2012) Chapter 11: Genome-Wide Association Studies. PLOS Computational Biology, 8, e1002822.
https://doi.org/10.1371/journal.pcbi.1002822
[2] 张学军. 复杂疾病的遗传学研究策略[J]. 安徽医科大学学报, 2007(3): 237-240.
[3] Klein, R.J., Zeiss, C., et al. (2005) Complement Factor H Polymorphism in Age-Related Macular Degeneration. Science, 308, 385-388.
https://doi.org/10.1126/science.1109557
[4] Sladek, R., Rocheleau, G., Rung, J., et al. (2007) A Genome-Wide Association Study Identifies Novel Risk Loci for Type 2 Diabetes. Nature, 445, 881-885.
https://doi.org/10.1038/nature05616
[5] Tamiya, G., Shinya, M., et al. (2005) Whole Genome Association Study of Rheumatoid Arthritis Using 27039 Microsatellites. Human Molecular Genetics, 14, 2305-2321.
https://doi.org/10.1093/hmg/ddi234
[6] Hu, N., Wang, C., Hu, Y., Yang, H.H., et al. (2005) Genome-Wide Association Study in Esophageal Cancer Using GeneChip Mapping 10K Array. Cancer Research, 65, 2542-2546.
https://doi.org/10.1158/0008-5472.CAN-04-3247
[7] Samani, N.J., Erdmann, J., Hall, A.S., et al. (2007) Genomewide Association Analysis of Coronary Artery Disease. New England Journal of Medicine, 357, 443-453.
https://doi.org/10.1056/NEJMoa072366
[8] Conti, D.V., Darst, B.F., Moss, L.C., et al. (2021) Trans-Ancestry Genome-Wide Association Meta-Analysis of Prostate Cancer Identifies New Susceptibility Loci and Informs Genetic Risk Prediction. Nature Genetics, 53, 65-75.
https://doi.org/10.1038/s41588-020-00748-0
[9] International HapMap Consortium (2005) A Haplotype Map of the Human Genome. Nature, 437, 1299-1320.
https://doi.org/10.1038/nature04226
[10] Lin, D., Hu, Y. and Huang, B. (2008) Simple and Efficient Analysis of Disease Association with Missing Genotype Data. The American Journal of Human Genetics, 82, 444-452.
https://doi.org/10.1016/j.ajhg.2007.11.004
[11] Howie, B.N., Donnelly, P. and Marchini, J. (2009) A Flexible and Accurate Genotype Imputation Method for the Next Generation of Genome-Wide Association Studies. PLoS Genetics, 5, e1000529.
https://doi.org/10.1371/journal.pgen.1000529
[12] Li, Y., Willer, C.J., Ding, J., Scheet, P. and Abecasis, G.R. (2010) MaCH: Using Sequence and Genotype Data to Estimate Haplotypes and Unobserved Genotypes. Genetic Epidemiology, 34, 816-834.
https://doi.org/10.1002/gepi.20533
[13] Browning, B. and Browning, S. (2009) A Unified Approach to Genotype Imputation and Haplotype-Phase Inference for Large Data Sets of Trios and Unrelated Individuals. The American Journal of Human Genetics, 84, 210-223.
https://doi.org/10.1016/j.ajhg.2009.01.005
[14] Zheng, J., Li, Y., Abecasis, G.R. and Scheet, P. (2011) A Comparison of Approaches to Account for Uncertainty in Analysis of Imputed Genotypes. Genetic Epidemiology, 35, 102-110.
https://doi.org/10.1002/gepi.20552
[15] Acar, E.F. and Sun, L. (2013) A Generalized Kruskal-Wallis Test Incorporating Group Uncertainty with Application to Genetic Association Studies. Biom, 69, 427-435.
https://doi.org/10.1111/biom.12006
[16] Ding, J. and Li, H. (2017) Comparison of Robust Tests for Genetic Association Analysis Incorporating Uncertain Genotype. Communications in Statistics—Simulation and Computation, 46, 3436-3443.
[17] 黄蕊. 二阶段关联分析在基因型不确定情形的应用[D]: [硕士学位论文]. 桂林: 广西师范大学, 2018.
[18] Zheng, G. and Chen, Z. (2005) Comparison of Maximum Statistics for Hypothesis Testing When a Nuisance Parameter Is Present Only under the Alternative. Biometrics, 61, 254-258.
https://doi.org/10.1111/j.0006-341X.2005.030531.x
[19] 刘璐. 引入基因型线性模型的变量选择[D]: [硕士学位论文]. 桂林: 广西师范大学, 2019.
[20] Li, Q.Z., Xiong, W.J., Chen, J.B., Zheng, G., Li, Z.H., Mills, J.L. and Liu, A.Y. (2014) A Robust Test for Quantitative Trait Analysis with Model Uncertainty in Genetic Association Studies. Statistics and Its Interface, 7, 61-68.
https://doi.org/10.4310/SII.2014.v7.n1.a7
[21] Loley, C., König, I., Hothorn, L., et al. (2013) A Unifying Framework for Robust Association Testing, Estimation, and Genetic Model Selection Using the Generalized Linear Model. European Journal of Human Genetics, 21, 1442-1448.
https://doi.org/10.1038/ejhg.2013.62
[22] 成青. 高维基因数据中的变量选择[D]: [硕士学位论文]. 成都: 西南交通大学, 2014.
[23] Frank, I.E. and Friedman, J.H. (1993) A Statistical View of Some Chemometrics Regression Tools (with Discussion). Technometrics, 35, 109-148.
https://doi.org/10.1080/00401706.1993.10485033
[24] Tibshirani, R. (1996) Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58, 267-288.
https://doi.org/10.1111/j.2517-6161.1996.tb02080.x
[25] Fan, J. and Li, R. (2001) Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties. Journal of the American Statistical Association, 96, 1348-1360.
https://doi.org/10.1198/016214501753382273
[26] Huang, J., Horowitz, J.L. and Ma, S.G. (2008) Asymptotic Properties of Bridge Estimators in Sparse High-Dimen- sional Regression Models. The Annals of Statistics, 36, 587-613.
https://doi.org/10.1214/009053607000000875
[27] Stone, C.J. (1985) Additive Regression and Other Nonparametric Models. The Annals of Statistics, 13, 689-705.
https://doi.org/10.1214/aos/1176349548
[28] Gordon, W.J. and Riesenfeld, R.F. (1974) B-Spline Curves and Surfaces. In: Computer Aided Geometric Design, Academic Press, Cambridge, 95-126.
https://doi.org/10.1016/B978-0-12-079050-0.50011-4
[29] Huang, J., Horowitz, J.L. and Wei, F. (2010) Variable Selection in Nonparametric Additive Models. The Annals of Statistics, 38, 2282-2313.
https://doi.org/10.1214/09-AOS781