1. 引言
在临床试验中,研究人员想要了解疾病的治疗情况,可以从患者的特定组织或者器官收集数据,并将患者根据治疗方案分组。对于眼睛、耳朵等成对的身体器官,会带来单边或双边的配对数据,在这种情况下,只研究单边或双边的检验不太合适,会使得从数据中获得分析结果不完整、不准确 [1] 。Rosner (1982) [2] 指出成对身体器官的治疗结果通常是高度相关的,它们之间的相关性是不可忽视的,任何忽略这一依赖特征的统计过程都将导致不正确的推论。Donner (1989) [3] 提出了一个配对数据的相关系数模型,Thompson (1993) [4] 证明了Donner的模型可以使充分利用单个或成对器官的数据来提高检测的有效性。Ma和Wang (2021) [5] 构造似然比检验、Wald检验和score检验统计量,检验了单双边混合配对数据比例的同质性,并比较了这些方法下的经验性第一类错误率和功效。治疗效果不仅取决于治疗方案,也可能与病人的性别、年龄、不同治疗环境等影响有关。Kahan和Morris (2013) [6] 指出,对这类配对数据的分析如果受到分层的影响可能会产生混杂因素,不能够忽略这些因素。因此,需要对数据进行分层,以判断不同层间是否存在分层因素的影响。Sun等(2022) [7] 基于单边和双边的分层配对数据进行了风险差的同质性检验,她进一步研究了使检验满足所需功效的样本量。样本量的确定也是试验设计的重要组成部分 [8] ,因此将其融入配对数据的研究。此外,优势比是一个比较两组治疗效果的指标,是一种首选的前瞻性联想测量方法,主要用于回顾性或横断面抽样设计 [9] ,并可对此进行同质性检验。
本文基于分层单双边混合配对数据得到的优势比对同质性假设的检验方法进行研究,可以为生物医学的临床试验数据在检验过程中检验方法的选择上提供建议;对于样本量的研究,可以为将来临床试验的方案设计提供建议,以减少临床实验中人力、物力等成本的消耗。
2. 数据结构和最大似然估计
2.1. 数据结构
假设
是指第j层个体在接受组i类别的治疗后,治疗部位的响应个数。相应的,
分别表示在第j层中接受组i类别的治疗后,没有响应,单边响应,双边响应的概率。

Table 1. Data structure of the jth stratum
表1. 第j层的单双边混合数据结构
当
时为单边数据,
服从二项分布
;当
时为双边数据,
服从三项分布
。令
表示治疗单边部位的个体在第j层的治疗部位的响应的指示变量,
表示存在响应,
表示未响应。
表示治疗双边部位的个体在第j层第k个部位的响应的指示变量,
表示存在响应,
表示未响应。在Donner模型中,假设
,
[5] 。
基于表1中的数据结构和Donner模型的假设,得到
的概率:
,
;
,
,
;
,
。
令
,
,又
相互独立,因此可以得到它的似然函数为:
,
则可以得到如下对数似然函数:
,
其中
,
为一个与参数
和
无关的常数。
选取优势比作为衡量两组间治疗效果的指标,在分层模型中,令
为第j层中两组之间的优势比,反映了各层的治疗方案在治疗效果上的差异,从而建立治疗方案与治疗效果间的联系。本文进行如下假设:
,
,其中
为一个大于零的常数。
2.2. 全局最大似然估计
令
,
,
为
,
,
的估计值,对于
和
,通过如下等式求得
,
,
的全局最大似然估计值:
,
。
计算得到全局最大似然估计值
,
。由于上述式子不存在显式解,因此需要使用迭代算法对方程进行求解。使用Fisher得分法求解得到最大似然估计值
,
。
首先设置初值:
,
,
参数的第(
)次迭代值可以通过Fisher得分法得到:
,
其中
为关于
,
,
的信息矩阵,
,
,
,
,
,
,
。
2.3. 同质性假设下的最大似然估计
在研究中,对每层的优势比做一致性检验后,如果优势比的假设成立,那么这个优势比的值是多少就需要关注。因此在等优势比假设成立的基础上,对优势比进行同质性检验。
在
假设下,
。此时的未知参数只有
和
。则相应的对数似然函数可以写作:
。
令
,
为
,
在
假设下的限制性最大似然估计值,即求下列式子的解:
,
,
。
使用Fisher得分法计算
假设下的最大似然估计值
,
。
首先,对于第j层,设置
和
的初值为:
,
,
参数
和
的第
次迭代值可以通过Fisher得分法得到:
,
其中
,
,
,
。
由于当样本量足够大时,即
时,似然比检验统计量、Wald检验统计量、score检验统计量等均渐进服从自由度为
的
分布,选择这三种方法对假设
进行检验,比较它们的第一类错误率和功效。
3. 同质性检验
3.1. 检验统计量的构造
似然比检验分别计算在约束和无约束条件下的参数估计值,然后计算二者的对数似然函数是否足够接近 [10] ,所构造的似然比检验统计量的具体公式如下:
,
其中
,
,
是全局最大似然估计,
,
,
是
下的最大似然估计。在给定显著性水平
的情况下,
时拒绝原假设,
时接受原假设。
Wald检验是检验无约束的估计值满足约束条件的程度。令
,相应的
下的最大似然估计值为
,
,那么
为
下的最大似然估计值,则构造在假设
下的Wald检验统计量为:
,
为关于
的Fisher信息矩阵,
为
的逆矩阵对角线上的第一个元素,其中
,
,
,
。
score检验所感兴趣的参数为
,因此令计分矩阵
,score检验统计量就转化为:
,
其中
为
的逆矩阵对角线上的第一个元素。
3.2. 仿真模拟
本节使用蒙特卡罗模拟来比较似然比统计量、Wald检验统计量和score检验统计量的经验性的一类错误率和功效,用于衡量三个统计量的性能。第一类错误率是原假设成立时拒绝原假设的概率。当第一类错误率介于0.04和0.06之间时,检验被认为是稳健的;大于0.06时,检验被认为是冒进的;小于0.04时,被认为是保守的。功效是当原假设为假时接受它的概率 [11] 。一个好的检验应该同时具有稳健的第一类错误率和尽可能高的功效。
设样本量
,
。首先,计算不同参数配置下检验统计量的经验性第一类错误率,具体参数配置如表2所示。

Table 2. Parameter configuration of Monte Carlo simulation
表2. 蒙特卡罗模拟的参数配置
模拟同质性检验的经验性第一类错误率时,在每组的样本量相同的情况下进行构造。对于表2中的每种参数组合进行10000次模拟,经验性第一类错误率即为在原假设为真的情况下,拒绝原假设的次数除以10000。表3和附表1、附表2展示了层数
时,
的经验性第一类错误率大小。
从表中可以看出,当层数相同时,三种检验方法的结果都可以稳定在0.04至0.06的范围内,其中
更为冒进,而
则更为保守。
为了更直观反应三种不同方法在经验性第一类错误率上的差异以及它们的渐近性质,下面分别在不同层与不同相关系数的情形下随机生成1000组参数并做蒙特卡洛模拟,每一层分别绘制出三种方法在样本量为25,50,100情况下的经验性第一类错误率的箱线图。各层情况下的箱线图如图所示。

Table 3. The empirical TIEs (%) for J = 2
表3. 经验性第一类错误率(
)
图1可以看出,当J和m增加时,各检验统计量的经验性的一类错误率显著趋向于0.05。其中,
在各种情况下均表现稳健;
在层数和每组人数较少的情况下表现冒进,当层数和每组人数都较高时,才表现稳

Figure 1. The box plots of empirical TIEs
图1. 不同样本量下第一类错误率的箱线图

Table 4.The empirical powers (%) for J = 2
表4.经验性功效(
)
健;
与
相比较为冒进,总体表现较为稳健。因此,基于第一类错误率的表现,最推荐的检验统计量为
。
在参数配置相同的备择假设
下,计算三个统计量的经验性功效。具体结果见表4和附表3、附表4。可以看出
,
和
的功效随着J和m的增大而增大,且在样本量较大的情况下表现更为良好。
3.3. 样本量的确定
由检验结果可知,样本量对检验统计量的第一类错误率和功效有显著影响,如果能提前预知在固定的显著性水平下达到期望功效所需的样本总量,就能使后续进行的试验有更稳健的第一类错误率和更好的功效。于是,提出了检验统计量
,
,
的渐近样本量计算方法。
在
假设下,检验统计量
,
,
达到特定功效所需的渐近样本量可由下式计算得出:
,
,
。
由于上述式子不存在显式解,因此可通过迭代的方法对渐进样本量大小进行求解:
样本总量
,
,
,
,
,
。在
假设条件下,通过设置
的参数值,随机生成样本量N;
基于(1)中生成的样本量N,代入上式中求解得到渐近功效;
若步骤(2)中所得到的渐近功效小于所期望的功效
,则增加样本量N;若所得到的渐近功效大于
,则减小样本量N。最终使得渐近功效接近
。
令
,
,
,
,由于当
时表示一层间的两组治疗效果相同,因此选择
。利用上述迭代方法,求得
或
变化时,达到显著性水平
或功效
所需的渐近样本量(具体结果如表5所示)。

Table 5. Sample size with 80% power
表5. 80%功效下的渐进样本量
4. 实证研究
Mandel等(1982) [12] 进行了一项研究双盲随机对照试验,该试验对214名患有中耳炎的儿童随机分配服用头孢克洛或阿莫西林进行治疗,以比较这两种抗生素的效果。经过14天的治疗试验,共有203例有效的治疗数据,由表6所示。
基于表6中的数据进行实证分析来展示上面所提到的所有检验以及确定样本量的方法,进而得到一定的应用价值。假设
,
,来检验不同年龄下哪种抗生素的治疗效果较好。通过样本量估计,Fisher得分法和牛顿迭代算法,我们可以得到样本量估计值
全局最大似然估计量
,
假设下的最大似然估计量
结果汇总在表7中。

Table 6. The number of children after receiving treatment
表6. 各年龄层患病儿童接受治疗后改善情况

Table 7. Maximum likelihood estimator of each parameter
表7. 各参数的最大似然估计量
基于三类最大似然估计量构造检验统计量,三种检验统计量和对应 值如表8所示。

Table 8. Statistic values and p-value of homogeneity test
表8. 同质性检验下的统计值和p值
结果表明,在原假设
下,p值均小于0.05,认为拒绝原假设,各层的优势比并不等于1。优势比近似等于0.2389,表示两种抗生素对于同一年龄段的患者的治疗效果不同,头孢克洛对儿童中耳炎有更好的治疗效果。然后根据提出的方法确定样本量。
Tabl 9. Estimated sample size under the desired power
表9. 目标功效下的样本量
再根据所提出的方法进行样本量的确定。考虑
,
,参数估计值与上述相应
的最大似然估计值相同。在期望功效为80%和90%的情况下,表9给出了显著性水平为0.05条件下的近似样本量。结果表明,在同质性假设下,
达到期望功效所需的样本量最少,
达到期望功效所需的样本量最大,因此最推荐使用似然比检验。
根据以上结果,表明头孢克洛对儿童中耳炎有更好的治疗效果,因此更推荐使用头孢克洛治疗儿童中耳炎。而分层效应不明显,说明年龄对儿童中耳炎的治疗影响不大。此外,根据估计,选取312名儿童急性中耳炎患者能够在研究不同治疗方案对治疗效果的影响时,使用可能少的人力成本下达到期望的功效。
5. 总结
本文对于分层的单双边混合配对数据各层的优势比构造检验统计量进行同质性检验并估计渐近样本量的大小。首先,构造基于Donner模型的同质性假设下参数的三种最大似然估计量。构造同质性假设下的最大似然估计量。利用Fisher得分算法迭代得到所需要的最大似然估计量。再通过估计量构造似然比检验统计量(
)、Wald检验统计量(
)和score检验统计量(
),选择第一类错误率和功效作为判断指标,对三种统计量进行比较。蒙特卡洛模拟结果显示,在同质性假设下,
在三个检验统计量中表现最为冒进;
相对冒进,总体表现较为稳健;而
在各种情况下均表现稳健,且功效较高,因此最推荐的检验统计量为
。对于临床试验中样本量的确定,为了达到相同的功效,
所需样本量较小;随着层数J的增加,三个检验统计量所需样本量差异逐渐减小;随着优势比的增加,越来越接近于1,三个检验统计量所需样本量也会逐渐增加。
附录

Table A1. The empirical TIEs (%) for J = 4
附表1. 经验性第一类错误率(J = 4)

Table A2. The empirical TIEs (%) for J = 6
附表2. 经验性第一类错误率(J = 6)

Table A3. The empirical powers (%) for J = 4
附表3. 经验性功效(J = 4)

Table A4. The empirical powers (%) for J = 6
附表4. 经验性功效(J = 6)