1. 引言
在医学临床试验中,若研究对象是患者身体成对器官,如耳朵、眼睛等,便会产生相关双边数据,研究者通常将器官患病称之为出现响应。相比较于肝脏、心脏这些单一器官,成对器官产生的双边数据更加复杂。Morris [1] 发现对双边配对数据的统计检验如果忽略了内相关性的存在,可能会导致检验具有夸大的显著性水平。针对双边数据的研究,Ronser [2] 提出了一个假设当一侧器官出现响应时,另外一侧器官也出现响应的条件概率与无条件概率成正比的模型。在此模型基础上,研究者提出了Donner模型 [3] 和Dallal模型 [4] 等适用于研究双边数据的模型。一般来说,风险差经常被用于衡量分组双边数据组间响应率的差异性 [5] 。Zhang等人 [6] 认为,检测风险差一致性是临床试验中一个至关重要的问题。Lui等 [7] 研究了在缺失样本数据中两组双侧数据的风险差的一致性检验问题。Shen等 [8] 研究并推导了两组双边数据风险差一致性检验的三种检验方法。通常而言,鉴于对照组变量的差异性,多个观察组的设置较为常见。因此,在涉及相关配对的双边数据研究中,考虑包含多个观察组和一个对照组的情境是极具意义的 [9] 。综上所述,双边数据风险差的一致性假设检验问题具有重要的研究价值。本文不仅关注理论层面的探讨,更致力于解决实际应用中的问题。通过对双边数据风险差的一致性进行有效检验,更准确地评估风险差异,为决策提供科学依据。因此,本研究的开展具有重要的理论意义和实际应用价值。
2. Dallal模型
设
为第i (
)组中的患者数量,
为第i组中有h (
)个响应的患者数量,
为第i组中无、单边及双边响应的概率,其中
,
,具体数据结构如表1所示。
记
是第i组中第j(
)个患者的第k (
)只器官响应情况的指标,若无响应,则记
,否则
。Dallal模型中包含两个假设:1) 第i组患者一侧器官有响应的概率为
;2) 患者一侧器官有响应,另一侧器官也有响应的概率为
。基于假设,可计算出第i组中无、单边及双边响应的概率分别为:
3. 风险差的一致性检验
假设第一组为对照组,其余组实验组,那么风险差
。一致性检验考虑的问题是各实验组与对照组之间的风险差是否相等,即

如果不能否定原假设H0,则认为各实验组与对照组之间的响应率无显著性差异。
3.1. Ha和H0下的极大似然估计
记
,
,
,根据数据结构,Ha下的对数似然函数可以写为:
(1)
其中C为一个常数,设
和
在Ha下的极大似然估计分别为
和
,则
和
的值是偏导方程组
的解,求解方程组可得出
,
。又因为风险差
,故风险差的估计值
。在原假设H0条件下,有
,则对数似然函数l11等价于:
(2)
设
和
在H0下极大似然估计分别为
和
。令l10关于
和
的偏导均为0,并求解方程组。然而上述方程组没有精确解,故选用费舍尔评分迭代算法计算
和
的近似值,算法过程可简单描述为以下4步:
1) 定义各参数的初始值为:
2) 第(t + 1)次迭代,
的估计值更新为:
3) 第(t + 1)次迭代,
和
的估计值更新为:
其中I是费舍尔信息矩阵。
4) 重复步骤1)~3),直到所有参数的估计值趋于收敛。
3.2. 检验统计量
构造以下三个常见的检验统计量:似然比检验统计量、Wald检验统计量和Score检验统计量。
3.2.1. 似然比统计量
记
,
,
,
。为了检验假设H0,构造似然比统计量
为:
原假设H0下,
渐近服从自由度为g-2的
分布。
3.2.2. Wald统计量
记
,设
是
在Ha下的全局极大似然估计。假设H0等价于
,即
,其中
构造Wald检验统计量
为:
其中P是费舍尔信息矩阵,原假设H0下,
渐近服从自由度为g-2的
分布。
3.2.3. Score统计量
记
,设
是
在H0下的极大似然估计。定义Score检验统计量
为:
其中
,P是费舍尔信息矩阵,原假设H0下,
渐近服从自由度为g-2的
分布。
4. 数值模拟研究
在Monte-Carlo模拟中,设置每组的样本数量为
,组数
。记
,
,在
和
的选择上,必须确保响应率
的取值在0.1到0.9之间,否则可能会导致出现数据为0的情况,从而产生不准确的结果,具体参数设置如表2所示。
为了评估三个检验统计量在检验中的性能,计算并比较了其在不同参数设置下的第一类错误率。在表2的每组参数配置下,随机模拟生成10,000个样本,并统计其中检验p值小于显著性水平的次数,通过拒绝次数除以10,000,计算出经验第一类错误率。如果检验的第一类错误率小于0.04或大于0.06,则意味检验表现过于保守或膨胀,否则是稳健的 [10] 。
在原假设H0条件下,计算上述统计量在一致性检验中犯第一类错误的概率,取
且
。在表2中的每个参数配置下随机生成10,000个样本,通过计算在显著性水平
下的拒绝H0的比例求得第一类错误率,结果如表3和表4所示。结果表明,
和
的第一类错误率接近于显著性水平,而
的第一类错误率在m = 50时表现非常膨胀。同时可以发现,一致性检验统计量
的第一类错误率均随着样本量的增大而趋于稳健。
此外,在H0假设下,取
,在随机生成1000组参数
。对于每种参数设置,每个检验重复10,000次,然后计算第一类错误率。通过图1中的一组箱线图,比较了
情况下,上述统计量在第一类错误率方面的表现。结果表明:在一致性检验中,当m = 50时,
和
的第一类错误率接近于显著性水平0.05,而
则产生了较为膨胀的第一类错误率。当样本量数较大时,
检验效果更好。所有统计量
随着样本量的增加也更加稳健。因此,基于三个统计量在第一类错误率的表现,对于多组相关配对数据,推荐构建统计量
进行风险差的一致性检验。

Table 3. Type I Error Rate of Each Statistic when g = 3
表3. g = 3时各统计量第一类错误率

Table 4. Type I error rate of each statistic when g = 5
表4. g = 5时各统计量的第一类错误率


Figure 1. Box Plot of the Type I Error Rate of Each Statistic under 1000 Parameters
图1. 1000个参数下各统计量第一错误率箱线图
5. 结论
本文提出了双边数据风险差的一致性假设检验问题及其检验过程,模拟研究发现,当样本量较小时,Wald统计量和Score统计量优于似然比统计量。当样本量较大时,Score统计量检验效果更好。因此,针对第一类错误率性能的考量,对于多组相关配对数据,推荐构建Score统计量进行风险差的一致性检验。本研究还具有广阔的创新空间,未来可以深入研究其他统计量在风险差一致性检验中的表现,以寻找更优的检验方法。