1. 引言
近年来,全基因组关联研究(GWAS) [1] 被广泛关注,成功地应用于识别与复杂疾病相关的位点及农业畜牧业等重要经济性状相关的遗传变异基因。复杂疾病是环境和遗传变异因子的共同结果,一般涉及多个基因,而大部分疾病的相关基因位点未知,这就要求科学家开发合理的方法识别相关位点。GWAS就是寻找致病基因的方法之一,主要用于数量性状的分析,应用基因组中数以百万计的单核苷酸多态(SNP),在全基因组水平上进行大样本分析找出影响复杂性状的基因变异位点。也就是说GWAS的主要目标是筛选出与特定疾病相关的基因、确定SNP与疾病表型的关联 [2]。Klein et al. (2005)最初利用该方法找出老年黄斑变性的相关致病基因 [3],Sladek et al. (2007)确定4个与2型糖尿病有关的致病基因 [4]。相关实例应用陆续开发,在风湿性关节炎 [5]、食管癌 [6]、心血管疾病 [7] 和前列腺癌 [8] 等疾病以及农业(芝麻等)畜牧业等重要经济作物中有了相应研究成果,GWAS快速发展。
随着测序数据的发展,多国协作的HapMap计划的完成,海量的基因型数据被用于GWAS [9],适用于大数据关联分析的算法也在不断更新。在大型样本的基因测序研究中,有时出现基因型不确定的情况 [10],在这种情况下,利用“填补基因型方法”确定每个样本对应的基因型 [11] [12] [13],继而展开后续的基因关联分析 [14] [15] [16] [17]。对于特定的SNP基因分型,通常采用的“最大概率法”和“剂量法”。前者指定概率最大的基因型作为样本基因进行分析估计,后者是用线性组合的方式计算基因型概率,计算方法分别为:
;
。
传统的关联分析主要考虑单个基因型对疾病表征关系的关联分析 [18],但多个基因位点的基因型与特定疾病的关联分析及变量选择就很少 [19]。Li Q. [20]、Loley [21] 分别对多个基因位点对性状表征的传统线性回归模型、广义线性模型。在高维基因数据方面,成青 [22] 和刘璐 [19] 考虑高维数据中n个样本的p个基因位点的基因数据建立线性回归模型并结合Lasso罚函数进行变量选择。而这些方法没有考虑基因型的不确定,且认为基因对疾病表征关系是线性的。在遗传基因表达中,基因位点对疾病的效应关系可以是非线性的。对高维数据处理,一般传统的高维数据模型加罚函数可以初步对变量降维,在这方面已有大量的研究工作 [23] [24] [25] [26]。这里我们将在考虑高维基因数据下,部分基因位点不确定,探索一种利用B样条拟合基因位点对基本性状响应的光滑效应关系,进而建立可加模型 [27],结合grouplasso罚函数对高维变量降维及非参估计以确定基因型与性状表征的关系。
本文的其余部分安排如下:在第2节中,我们介绍在基因不确定情形下的加性模型,我们将在第3节中详细介绍选择一致性证明结果;在第4节将我们的方法应用于模拟GWAS数据的分析。最后,我们作一些结束语。
2. 符号与模型
2.1. B样条曲线
在介绍我们的模型前,首先回顾B样条曲线概念。1972年Riesenfeld等人 [28] 提出B样条曲线,它可以通过一组标准B样条基函数的线性组合来有效逼近上述非线性函数。假定
将区间
分割为K个子区间,记
为前K − 1个子区间,对于第k个子区间,其p次样条基函数
定义如下
其递归公式为
假设
为
次多项式样条空间,
是定义在
上的一组标准基向量,则有
其中
,在适当的条件下,
可以和好的逼近
[29]。记
,
。
2.2. 基于基因不确定的可加模型
考虑等位基因为a和A的单核苷酸多态性。假设A是导致疾病的高风险等位基因。三种基因型分别表示为aa、Aa、AA,对应编码为0、1、2。定义
为第i个个体第j个点位的基因型,则对应的基因型概率定义为
,
为第i个个体的性状观测值。这里基因不确定数据,我们的
可采取传统填补基因型方法:
;
。
假设我们的数据向量
独立同分布服从
,Y是响应变量,
是p维基因数据,考虑如下非线性可加模型:
其中
为截距项,
为未知光滑函数,
为服从均值为0方差为
的随机误差。在高维稀疏性的假定下,这里的大部分
,我们的目的是找出不恒等于0的部分。结合B样条拟合光滑函数的工具,表达式等价于:
这里的待估参数
。这里利用Bspline基函数线性组合工具,可视为其将非线性模型转化线性关系模型。
由于参数
的维数是
,利用Bspline线性组合近似非线性函数
时,
很大则系数的稀疏性是我们考虑的范围,因而这里用稀疏组lasso选择重要分量和非零系数,这一部分内容我们在下一小节详细介绍。
2.3. grouplasso变量选择及参数估计
特定疾病对应与之相关的基因位点往往只有少部分,假定真实模型是稀疏的,也就是重要的协变量就是少数,只有小部分加性分量
是非零的,记真实的非零分量指标集为
,这里指标集中的数目大小为
。我们的目标是利用罚函数对高维基因数据降维,选择分量
,这里
,且
。即当样本量增大时,重要变量选入模型的概率趋于1,我们的模型具有选择一致性。
在高维基因数据的情况下,在模型上加groupLasso惩罚项有选择一致的特性,这里我们考虑惩罚最小二乘法:
记
、
,
是惩罚参数。
为了模型的可识别性,加入约束条件
。对
极小化求参数:
通过GroupLasso估计出每组参数的估计,根据稀疏性假定,其中只有少部分
,
等价于
不恒等于,也就是说对应的第j个基因位点是与疾病存在显著关系的。
3. 模拟结果
利用蒙特卡罗模拟数值,比较基因型数据
采用剂量法与最大可能概率法在线性模型与非线性可加模型的表现。这里
中的三个概率(
)通过将基因不确定率的情况考虑在内的三项分布生成。这里的是三项分布可以通过三种频率对模拟生成特定频率生成,在模拟设定基因确定率和不确定基因频率则为r和1 − r。有不确定率的存在,一个基因位点会有三个基因型(aa、Aa、AA)的概率。基因型的检测频率,如表1所示。
Table 1. Frequency of genotype detection
表1. 基因型的检测频率
下面我们通过两个例子比较说明可加模型的groupLasso罚函数的变量选择的优良性。
例1:从下面的模型中产生数据:
这里取
,
;
;
;
;这里非零分量个数
,
,样本量
,随机误差服从标准正态分布。模型超参数
的选取采用十折交叉验证进行筛选,数据按照7:3比例随机分为训练集与测试集。统计变量正确选择平均个数(TM),错误选择平均个数(FM)以及测试集均方误差(TMSE)如表2。
Table 2. Results of variable selection
表2. 变量选择结果
根据表1结果可以知道,在模型一样的情况下,剂量法相较于最大概率法能更多的识别出重要变量以及拥有更小的均方误差,与此同时识别变量错误的情况也偏多;当然线性模型应用范围比较局限,在存在非线性部分时,其变现结果很差。
例2:从下面的模型中产生数据:
这里取
,
;
;
;
。这里
非零分量个数
,
和三种不同的样本容量:n=100,200和1000,随机误差服从标准正态分布。这里的数据生成模型和Huang的一样,但是我们这里基于基因不确定情形。针对这个模型比较GroupLasso和GroupSCAD惩罚的优越性,得到下面表3。
Table 3. Results of variable selection
表3. 变量选择结果
通过对表3两种变量选择方法进行比较,采用最大概率法时,GroupLasso方法与GroupSCAD方法变量选择的效果差距不大;从错选变量(FM)个数看,Group Lasso方法倾向于筛选出更少的伪变量,特别在用剂量法时,Group Lasso错选变量个数明显小于Group SCAD方法。
4. 结束语
复杂疾病与基因位点通常存在非线性关系,全基因组测序建立复杂疾病与基因位点之间关系是一种有效途径,但是全基因组的准确测序也是一个耗时耗力的庞大工程。在部分基因位点基因型不确定下,采用“最大概率法”或“剂量法”来填补基因数据,GroupLasso以及GroupSCAD方法对非线性可加模型进行重要基因位点识别是一种有效途径。
本文在基因不确定情形下,基于GWAS创新一种基因表达方法,不同于传统的基因填补估计概率方法,结合了B样条工具拟合加性分量建立非参数可加模型,考虑了大样本基因的环境下进行组Lasso变量选择以获得初始估计;最后利用数值模拟对比证明了我们方法的优良性。在基因测序中,我们非参加性模型更灵活,对模型的假设要求更低,适用范围更广。