1. 导言
2021年6月24日微软正式发布Windows操作系统最新版本Windows 11,这为全球的计算机用户带来了新奇而独特的体验,其中该版本的开始菜单栏更加直观,提供更加便捷的导航和搜索体验,任务栏外观更加现代而简洁,功能更加丰富,这些新的设计不仅考虑到了审美吸引力,并且保持了所有应用之间的统一性。
但随着操作系统布局和外观的改变,适应新界面给不熟悉Windows 11系统的用户带来挑战,旧的软件或硬件还会出现兼容性问题,需要用户自己来更新驱动程序以获得更加丰富而稳定的功能。为了帮助用户适应这些改变,熟悉新的操作系统和功能,向Windows 11系统用户收集操作的反馈建议,提升Windows 11的系统可用性和用户满意度至关重要。
1.1. 可用性相关研究
可用性概念起源于人机交互和软件心理学领域,自上世纪七十年代提出以来,已成为计算机软件评估的关键标准,并逐渐扩展到网站、移动应用等多个领域[1]。ISO 9241-11国际标准对可用性的定义是:产品、服务与系统在特定使用环境下为特定用户用于特定用途时所具有的有效性、效率和用户主观满意度[2]。可用性包括以下六个方面的具体属性:易学,用户可以在短时间内学会并开始使用系统来做某些事情;有效,用户完成特定任务和达到特定目标时所具有的正确和完整程度;高效,当用户学会使用系统后,可以具有高的生产力水平;好记,系统应当被容易记忆,学习中断后不用一切操作从头学起;少错,用户在使用系统的过程中能够少出错,并且在出错之后能够迅速恢复;满意度,用户在使用时主观上感到满意,喜欢使用系统。
在实际运用中,可用性测试的方法有很多,其中以测量法最为常用。可用性测量的使用范围不仅涵盖了产品的整体评估、任务评估和网站感知可用性评估等方面[3],还可以根据特定领域和行业的需求进行定制和应用,在学术研究和实践中发挥着重要作用,帮助生产者提升产品或服务的用户体验。通过可用性测量,可以及时发现产品中的潜在问题并加以改进,提升产品的可用性。例如在Windows系统设计中可用性量表就可以帮助在产品更新升级阶段收集用户反馈,优化产品设计和功能。
在国内使用可用性量表进行测量的研究中,系统可用性量表[4] (System Usability Scale, SUS)是可用性评估中广泛使用的标准化问卷,占工业可用性研究中问卷使用的43%。还有一些与系统可用性主题紧密相关的量表,如计算机系统可用性问卷[5] (Computer System Usability Questionnaire, CSUQ) 3.0目前尚未在国内进行深入的本土化验证,CSUQ3.0由苏珊娜·亨利在20世纪80年代末领导修订,alpha系数为0.95,主要用于在任务结束后对计算机系统进行总体的评估,广泛应用于各种计算机系统的可用性测试,包括桌面应用程序、网站、移动应用等,通过收集用户在使用系统后的反馈,帮助开发人员识别系统中的可用性问题,从而进行改进和优化。
1.2. 用户满意度相关研究
用户满意度最早是管理学中的重要概念,是指用户在购买商家提供的商品及服务时是否达到或者超出预期程度的一种心理状态[6],通过测试用户对产品和服务的满意度,从而得出产品和服务质量的评价数值,反映产品和服务的质量状况。具体而言,它代表用户对于产品或服务满足其需求程度的感知和评价,是一个量化的指数,用于衡量产品或服务在市场上的表现和用户接受度,用户满意度的高低则直接影响到企业的声誉、客户忠诚度以及市场竞争力。
问卷调查是获取用户满意度数据的重要工具,也是最常见的方法[7]。企业可以通过使用已经检验过的问卷,多种渠道进行问卷发放,如在线平台、电话调查、线下活动等,深入了解用户对产品或服务的看法及感受。问卷内容通常会包括对产品或服务的整体评价、特定功能或服务的满意度、使用频率、问题反馈等方面问题。这些反馈数据不仅有助于企业识别产品或服务中存在的问题和不足,还能为企业提供产品改进的方向和思路,同时这些数据还可以作为企业制定市场策略的重要依据,帮助企业更好地了解市场需求和竞争态势,提高产品或服务的竞争力。随着市场竞争的加剧,用户满意度已成为产品核心竞争力的重要组成部分,因此,深入研究用户满意度,提高产品或服务的竞争力十分重要。
场景后问卷[8] (After-Scenario Questionnaire, ASQ)由Lewis在1991年开发,主要用于评估用户在完成特定任务或场景后的满意度和感知可用性,适用于各种用户研究场景,如软件开发、产品设计、界面测试等,以了解用户在使用产品或系统过程中的实际体验和感受。其可靠性分析alpha系数为0.95。
用户界面满意度问卷[9] (Questionnaire for User Satisfaction, QUIS)主要用于评估用户界面的满意度,由马里兰大学的人工智能实验室于1998年编制而成,可靠性分析alpha系数为0.94,具有较高的通用性,目前国内没有对本量表进行标准的本土化。QUIS的应用群体包括:学生、计算机专业人员、计算机爱好者、新手用户,通过五个维度对用户界面进行评价:(1) 总体反应:评估用户对界面的整体感受;(2) 屏幕设计:包括字体易读性、页面布局、颜色对比度等方面的评价;(3) 术语/系统信息:评估系统术语是否清晰易懂,以及系统提供的信息是否充足和准确;(4) 学习:评估用户学习使用系统的难易程度,包括初期学习、高级功能学习等;(5) 系统能力:评估系统响应速度、错误处理、用户控制等方面的性能[9]。问卷设计充分考虑了用户界面的多个关键方面,测评内容能够全面而深入地反映用户对Windows 11系统等现代操作系统的满意度水平,为提升用户体验提供有力的数据支持。
因此,随着国内用户体验研究的不断深入和本土化需求的不断增加,CSUQ、ASQ、QUIS这些国际上流行的经典量表,适合对Windows 11系统进行系统测评,需要进行中国文化的适应性验证,才能在国内得到更广泛的应用和推广。此外,由于Windows 11系统的发行时间不长,国内对Windows 11系统的可用性和用户满意度研究也较少,需要使用验证后的中文版CSUQ、ASQ、QUIS三个量表对Windows 11系统进行现状调查,以期探索其用户使用特点。
2. 研究方法
2.1. 研究对象
本研究采取线上与线下相结合的方式发放问卷,测试数据用于对CSUQ、ASQ和QUIS量表的适用性检验和现状调查,分别对应六个不同的样本:(1) 样本一,共收集到680份有效问卷,男性被试425名,女性被试255名,平均年龄在19~25岁之间,且大部分为本科学历,占比76.76%。其中,所使用的Windows 11系统电脑类型为笔记本的被试占比69.85%,电脑所属品牌排前三的是联想(36.91%)、华为(19.12%)、戴尔(13.82%)。(2) 样本二,共回收715份有效问卷,男性被试451名,女性被试264名,平均年龄同样也在19~25岁,且86.85%的被试拥有本科及以上学历。(3) 样本三,共得到674份有效问卷,男性被试419名,女性被试255名,平均年龄在19~25岁,绝大部分为本科学历。(4) 样本四(用于CSUQ量表的现状调查),共得到有效问卷534份,男性被试279名,女性被试255名。其中,学生占比58.05%,在职人员41.95%;70%以上的被试年龄为19~25岁之间,且为本科学历;理工类专业有298人,人文社科类有236人。(5) 样本五(用于ASQ量表的现状调查),共得到有效样本547份,男性被试283名,女性被试264名。其中,学生占比59.60%,在职人员40.40%,年龄为19~25岁之间的被试占比71.85%,本科学历占比77.88%。理工类专业有307人,人文社科类有239人。(6) 样本六(用于QUIS量表的现状调查),共得到有效样本432份,男性被试214名,女性被试218名。其中,学生占比58.10%,平均年龄在19-25岁之间,本科学历占比77.55%。理工类专业有221人,人文社科类有211人。
2.2. 研究工具
2.2.1. CSUQ量表
计算机系统可用性问卷[5] (CSUQ)是在研究后系统可用性问卷(Post-Study System Usability Questionnaire, PSSUQ)的基础上,由Lewis调整改编而成,旨在更好地适应非实验室环境下的测试需求。因此,CSUQ在核心结构上与PSSUQ还是保持了高度的一致性,仅在细节表述上做了些许调整。以第3题为例,PSSUQ表述为:“使用这个系统我能快速完成任务”,CSUQ表述为:“使用这个系统我能快速完成我的工作”。本研究采用的是CSUQ (第3版),共16个项目,全面评估用户对计算机系统可用性的看法。参与者被要求从“非常不同意”到“非常同意”(7点评定量表)上对他们的同意程度进行评分,这些评估项目最终汇总为四个关键维度:一个整体和三个分量表分数,分别代表系统整体可用性评价(题项1~16)、系统有用性(题项1~6)、信息质量(题项7~12)以及界面质量(题项13~15),计算规则是通过对各相应题项的反应平均值得出各项分数,为用户提供了一个全面而细致的系统可用性评估视角。
2.2.2. ASQ量表
场景后问卷[8] (ASQ)由PSSUQ和CSUQ的作者发表。ASQ的开发与PSSUQ采用相同的形式,总共包括三个项目,分别测量用户在三个方面的满意度:任务难度、完成效率和支持信息(在线帮助、信息和文档)。其项目采用从1 (非常不同意)到7 (非常同意)的七点计分。ASQ整体分数即是3个项目得分的平均分。Lewis的研究指出ASQ分数与PSSUQ分数之间存在r = 0.8的强相关,与场景任务的成功率也存在r = −0.4显著相关。
2.2.3. QUIS量表
用户界面满意度问卷[9] (QUIS)是由UMCP人机交互实验室(HCIL)的多学科研究团队开发的工具,旨在评估用户对人机界面不同方面的主观满意度。QUIS包括常用的简版和更为全面的长版,其中QUIS第5版共27个项目,包括五个类别:总体反应(Overall Reaction)、屏幕(Screen)、术语/信息系统(Terminology/System Information)、学习性(Learning)、系统能力(System Capabilities)。所有项目均是采用9点的语义差异评级,一般不进行整体的加总,可以通过计算各个分类的平均分和标准差来进行对比。
2.3. 效标选择
系统可用性量表[4] (System Usability Scale, SUS)由Brooke在1986年开发并于1996年正式发表,已成为评估系统或产品感知可用性的主流工具之一。该量表共10个条目,采用Likert 5点计分法(从“非常不同意”到“非常同意”)。计算SUS得分时,首先需要将每个条目的原始分转换为0至4之间的分值,其中偶数题项(反向条目)通过5减去原始分得出,奇数题项(正向条目)是原始分减1,所有转换分相加后乘以2.5,得出总分,总分反映系统的总体可用性,分数越高表示产品的可用性被评价得越高。
据Sauro和Lewis的研究报告显示,约43%的可用性研究采用了SUS量表进行正式或非正式测试[10],在国内,Wang等人[11]对SUS进行了中文版的再翻译与验证,结果显示修订后的中文版在跨文化适用性上优于原始版本。
本研究选用Wang等人修订后的中文版SUS量表作为效标问卷,以检测CSUQ、ASQ和QUIS量表的效标关联效度。在三个量表的样本中,该量表的Cronbach’s alpha系数分别为0.765、0.746和0.743,omega系数为0.772、0.744和0.748,均大于0.7,均表现出良好的内部一致性。
2.4. 量表的翻译与回译
本研究对CUSQ、ASQ、QUIS三个量表进行了翻译与回译的工作:首先由三位语言学教授将英文量表精准翻译成中文,再由一位带有英语背景的心理学教授对比三位专家翻译的中文稿,形成初步的中文量表。为检验翻译的准确性,接着由一位英语专业的教授将初稿进行回译,再由一位心理学教授将原版英文量表和回译后的量表进行对比,对中文版量表进行修改调整。最后为进一步优化中文量表的翻译,邀请了10位Windows 11系统用户进行量表填写,根据用户反馈的建议再次修改翻译,最终形成中文版的CSUQ、ASQ、QUIS量表。
3. 数据分析与结果
3.1. 中文版CUSQ、ASQ、QUIS三个量表的适用性检验
3.1.1. CUSQ量表
(1) 项目分析
使用第一次测试所获得的样本一数据(n = 680),按照CSUQ计算规则计算其整体得分之后,对该量表的所有题项与其整体得分做相关分析,结果表明,所有题项与整体得分的相关在0.01水平上达到显著,相关系数在0.635至0.722之间。然后根据整体得分对样本进行高低排序,按前后各27%划分为高低分组,并对两组样本进行独立样本t检验。结果显示,两组样本在16个题项的得分均差异显著(p < 0.001),这说明中文版CSUQ量表的16个题项具有较好的区分度。
(2) 探索性因子分析
首先,对于CSUQ量表整体,我们使用样本一的第一部分数据(n = 315)进行KMO及Bartlett球形检验,结果表明,KMO = 0.952,Bartlett球形检验结果达到显著性水平(c2 = 4808.269, df = 120, p < 0.001),说明施测样本数据适合进行探索性因子分析(Exploratory Factor Analysis, EFA) [12]。据此采用最大似然法进行因素抽取,并在旋转时采用了最大方差法。为了确定因素的数量,以特征值大于1作为依据,最终提取出一个因子,累积解释总变异量的43.221%,因子负荷在0.590~0.705之间(见表1)。该结果符合将量表作为整体,用整体得分评估用户对计算机系统可用性的看法。
Table 1. Analysis results of the overall EFA of CSUQ scale
表1. CSUQ量表整体探索性因子分析结果
项目 |
共同度 |
因子 负荷 |
特征值 |
贡献率 |
累计 贡献率 |
整体 |
整体 满意度 |
|
7.480 |
43.221 |
43.221 |
CSUQ1 |
0.409 |
0.639 |
整体上,我对使用这个系统的容易程度是满意的。 |
|
|
CSUQ2 |
0.476 |
0.690 |
使用这个系统很简单。 |
|
|
CSUQ3 |
0.404 |
0.636 |
使用这个系统我能快速完成任务。 |
|
|
CSUQ4 |
0.488 |
0.699 |
使用这个系统我感觉舒适。 |
|
|
CSUQ5 |
0.469 |
0.685 |
学习使用这个系统很容易。 |
|
|
CSUQ6 |
0.412 |
0.641 |
我相信使用这个系统能提高产出。 |
|
|
CSUQ7 |
0.360 |
0.600 |
这个系统给出的错误提示可以清晰地告诉我如何解决问题。 |
|
|
CSUQ8 |
0.348 |
0.590 |
我使用这个系统无论何时出错,都能轻松快速恢复。 |
|
|
CSUQ9 |
0.456 |
0.675 |
这个系统提供的信息很清晰(如在线帮助、屏幕信息和其他文档)。 |
|
|
CSUQ10 |
0.415 |
0.644 |
找到我需要的信息很容易。 |
|
|
CSUQ11 |
0.428 |
0.654 |
信息能够有效地帮助我完成任务。 |
|
|
CSUQ12 |
0.436 |
0.660 |
系统屏幕上的信息组织很清晰。 |
|
|
CSUQ13 |
0.419 |
0.647 |
这个系统的界面让人很愉悦。 |
|
|
CSUQ14 |
0.425 |
0.652 |
我喜欢使用这个系统的界面。 |
|
|
CSUQ15 |
0.476 |
0.690 |
这个系统具有我期望的所有功能和能力。 |
|
|
CSUQ16 |
0.496 |
0.705 |
总体来说,我对这个系统是满意的。 |
|
|
其次,对于CSUQ三个分量表,采用分层面因素分析法分别进行探索性因素分析,具体步骤同上。结果表明,系统有用性分量表和信息质量分量KMO值大于0.8,界面质量分量表KMO值大于0.6,且三个分量表的Bartlett球形检验结果均达到显著性水平(KMO系统有用性 = 0.826,c2 = 1248.979,df = 15,p < 0.001;KMO信息质量 = 0.849,c2 = 1005.940,df = 15,p < 0.001;KMO界面质量 = 0.647,c2 = 309.843,df = 3,p < 0.001),可勉强进行探索性因素分析[13]。据此,采用最大似然法进行因素抽取,并在旋转时采用了最大方差法。为了确定因素的数量,我们以特征值大于1作为依据,每个分量表最终都只提取出一个因子,累积解释总变异量分别为43.422%、39.676%、41.208%,因子负荷分别在0.613~0.701、0.592~0.668、0.525~0.729之间(见表2)。
Table 2. Exploratory factor analysis results of each subscale of the CSUQ scale
表2. CSUQ量表各分量表探索性因子分析结果
项目 |
共同度 |
因子 负荷 |
特征值 |
贡献率 |
累计贡献率 |
分量表1 |
系统 有用性 |
|
3.168 |
43.422% |
43.422% |
CSUQ1 |
0.435 |
0.660 |
整体上,我对使用这个系统的容易程度是满意的。 |
|
|
CSUQ2 |
0.482 |
0.695 |
使用这个系统很简单。 |
|
|
CSUQ3 |
0.376 |
0.613 |
使用这个系统我能快速完成任务。 |
|
|
CSUQ4 |
0.492 |
0.701 |
使用这个系统我感觉很舒适。 |
|
|
CSUQ5 |
0.395 |
0.629 |
学习使用这个系统很容易。 |
|
|
CSUQ6 |
0.425 |
0.652 |
我相信使用这个系统能提高产出。 |
|
|
分量表2 |
信息 质量 |
|
2.982 |
39.676% |
39.676% |
CSUQ7 |
0.398 |
0.631 |
这个系统给出的错误提示可以清晰地告诉我如何解决问题。 |
|
|
CSUQ8 |
0.377 |
0.614 |
我使用这个系统无论何时出错,都能轻松快速恢复。 |
|
|
CSUQ9 |
0.446 |
0.668 |
这个系统提供的信息很清晰(如在线帮助、屏幕信息和其他文档)。 |
|
|
CSUQ10 |
0.404 |
0.635 |
找到我需要的信息很容易。 |
|
|
CSUQ11 |
0.350 |
0.592 |
信息能够有效地帮助我完成任务。 |
|
|
CSUQ12 |
0.406 |
0.637 |
系统屏幕上的信息组织很清晰。 |
|
|
分量表3 |
界面 质量 |
|
1.806 |
41.208% |
41.208% |
CSUQ13 |
0.428 |
0.655 |
这个系统的界面让人很愉悦。 |
|
|
CSUQ14 |
0.276 |
0.525 |
我喜欢使用这个系统的界面。 |
|
|
CSUQ15 |
0.532 |
0.729 |
这个系统具有我期望的所有功能和能力。 |
|
|
(3) 验证性因子分析
依据探索性因子分析结果,我们使用样本一的第二部分数据(n = 365)进行验证性因子分析(Confirmatory Factor Analysis, CFA),以检验模型的拟合程度。结果显示,界面质量分量表的模型达到饱和状态,整体量表与系统有用性、信息质量分量表的c2/df分别为2.220、5.544、2.465,SRMR均小于0.8,CFI、TLI均大于0.9 (见表3)。表明各拟合指标结果均表现理想,CSUQ量表的各结构模型拟合效果良好。
Table 3. The fitness index of CSUQ scale model
表3. CSUQ量表模型拟合指数
量表 |
c2 |
df |
p |
CFI |
TLI |
RMSEA (90% C.I.) |
SRMR |
整体 |
230.896 |
104 |
<0.001 |
0.951 |
0.943 |
0.058 (0.048, 0.068) |
0.036 |
系统有用性 |
49.896 |
9 |
<0.001 |
0.940 |
0.900 |
0.112 (0.083, 0.143) |
0.038 |
信息质量 |
22.189 |
9 |
<0.001 |
0.976 |
0.960 |
0.063 (0.030, 0.097) |
0.029 |
界面质量 |
0.000 |
0.000 |
<0.001 |
1.000 |
1.000 |
0.000 (0.000, 0.000) |
0.000 |
(4) 信度分析
依托CSUQ量表可看作一个整体和三个分量表的组成结构,本研究使用样本一的第二部分数据(n = 365)对其进行信度检验,总量表与系统有用性、信息质量两个分量表的内部一致性系数(α)、omega系数(ω)均高于0.8,界面质量分量表约为0.7左右。其次,总量表与三个分量表的合成信度(CR)分别为0.927、0.828、0.802和0.694。两周后,在样本一第二部分数据中随机选择60人进行了重测,结果表明,总量表重测信度为0.945,表现良好(见表4)。
Table 4. The reliability analysis of CSUQ scale
表4. CSUQ量表信度分析
维度 |
克隆巴赫Alpha (α) |
omega系数 (ω) |
合成信度(CR) |
重测信度 |
项数 |
量表整体 |
0.927 |
0.927 |
0.927 |
0.945 |
16 |
系统有用性 |
0.827 |
0.828 |
0.828 |
0.877 |
6 |
信息质量 |
0.802 |
0.802 |
0.802 |
0.873 |
6 |
界面质量 |
0.693 |
0.695 |
0.694 |
0.758 |
3 |
(5) 效度分析
选用SUS量表作为效标问卷,测得CSUQ量表整体和各分量表得分与该效标的得分呈显著的正相关(r整体 = 0.706,r系统有用性 = 0.656,r信息质量 = 0.675,r界面质量 = 0.667),说明该量表效标效度良好。
3.1.2. ASQ量表
(1) 项目分析
该研究过程同上,我们使用样本二(n = 715)进行相关分析,结果显示,ASQ量表三个题项与其整体得分之间在0.01水平上达到显著,相关系数分别为0.740、0.796和0.837。对高分组与低分组样本在3个题项的得分进行独立样本t检验的结果表明,两组样本在3个题项的得分均差异显著(p < 0.001),这说明中文版ASQ量表所有题项具有较好的区分能力。
(2) 信度分析
ASQ量表的内部一致性系数(α)为0.699,omega系数(ω)和合成w信度(CR)均为0.720。由于本量表由3道题项组成,用于探测整体上完成任务的难易度、完成时间和支持信息的满意度。根据杨强等人单维测验合成信度[14] (CR)的方法,计算出总量表的合成信度(CR)为0.720。同样在时间间隔两周之后,我们在样本二中随机抽取60人进行了重测,结果为0.890,表明重测信度良好。
(3) 效度分析
同样选择SUS量表作为效标,测得ASQ量表得分与该效标的相关系数为0.725,p < 0.01,说明该量表与SUS量表间具有较好的效标关联效度。
3.1.3. QUIS量表
(1) 描述统计
通过计算QUIS量表各个类别的平均分和标准差对比发现,五个类别的均值在6.93~6.99之间,大于中间值4.5,标准差在1.12~1.23之间,表明用户对Windows 11计算机系统不同方面的主观满意度均较为理想(见表5)。
Table 5. The descriptive statistical results of the QUIS scale
表5. QUIS量表的描述统计结果
|
M |
SD |
N |
总体反应 |
6.99 |
1.12 |
674 |
屏幕 |
6.98 |
1.23 |
674 |
术语/信息系统 |
6.96 |
1.16 |
674 |
学习性 |
6.93 |
1.20 |
674 |
系统能力 |
6.97 |
1.15 |
674 |
(2) 信度分析
如表6所示,QUIS量表各分类的内部一致性系数(α)和omega系数(ω)均高于0.8;合成信度(CR)分别为0.867、0.819、0.872、0.913、0.851。
两周后,在样本三中随机抽取60人进行重测,结果显示,除“系统能力”的重测信度为0.667外,其余分类的重测信度均大于0.8,表明重测信度较好。
Table 6. The reliability analysis of QUIS scale
表6. QUIS量表信度分析
|
克隆巴赫Alpha (α) |
omega系数(ω) |
重测信度 |
合成信度(CR) |
项数 |
总体反应 |
0.872 |
0.873 |
0.912 |
0.867 |
6 |
屏幕 |
0.829 |
0.830 |
0.899 |
0.819 |
4 |
术语/信息系统 |
0.867 |
0.868 |
0.888 |
0.872 |
6 |
学习性 |
0.879 |
0.880 |
0.876 |
0.913 |
6 |
系统能力 |
0.849 |
0.851 |
0.667 |
0.851 |
5 |
(3) 效度分析
① 结构效度
因子分析是直接探讨可观测变量与潜在变量关系的统计方法,在结构效度的验证中具有独特的价值[15],分为探索性因子分析(EFA)和验证性因子分析(CFA)两种。目前,在量表结构效度的评价中两种结合应用得较多。但如果研究者事先对于量表的内在结构已经有了一定的了解,也就是说,已经清楚哪些可观测变量可能被哪一个潜在因子所影响,只需进一步确定每一个潜在因子对可观测变量的影响程度,这时可以用CFA进行[16]。验证性因子分析可以看成是结构方程模型(Structural Equation Model, SEM)的测量模型[17],采用Mplus软件对QUIS量表的5个分类进行因子结构效度分析,实质就是对SEM的测量模型进行的可靠性评价,其参数估计方法以及拟合思想与结构方程模型相同。
在本研究中,使用样本三(n = 674)对QUIS量表的理论模型进行验证,结果表明,各条目的标准化因子载荷间于0.682~0.771之间。模型的主要拟合指标(见表7):c2/df为4.400,介于3和5之间,虽然略大于3,但由于样本量较大,仍然符合拟合指数的基本要求;RMSEA为0.071,SRMR为0.037,均小于0.08,满足拟合指数的要求;CFI和TLI分别为0.918和0.908,均大于0.9。综上结果表明模型拟合效果良好,该量表的结构效度可以接受。
Table 7. The fitness index of QUIS scale model
表7. QUIS量表模型拟合指数
c2 |
df |
p |
CFI |
TLI |
RMSEA (90% C.I.) |
SRMR |
1381.746 |
314 |
<0.001 |
0.918 |
0.908 |
0.071 (0.067, 0.075) |
0.037 |
② 聚合效度
由表8可知,该量表中,除了第3题和第8题之外,每个分类下对应的题目因子负荷都大于0.7,这表明它们在所属类别具有较高的代表性。此外,每个类别的平均方差变异(AVE)值都大于0.5,且组合信度(CR)值均大于0.8,这表明该量表的聚合效度[18]非常理想。
Table 8. Factor loading of QUIS scale
表8. QUIS量表因子负荷数表
路径 |
Estimate |
AVE |
CR |
QUIS1 |
<--- |
总体反应 |
0.709 |
0.521 |
0.867 |
QUIS2 |
<--- |
总体反应 |
0.739 |
QUIS3 |
<--- |
总体反应 |
0.688 |
QUIS4 |
<--- |
总体反应 |
0.743 |
QUIS5 |
<--- |
总体反应 |
0.728 |
QUIS6 |
<--- |
总体反应 |
0.724 |
QUIS7 |
<--- |
屏幕 |
0.753 |
0.532 |
0.819 |
QUIS8 |
<--- |
屏幕 |
0.682 |
QUIS9 |
<--- |
屏幕 |
0.725 |
QUIS10 |
<--- |
屏幕 |
0.754 |
QUIS11 |
<--- |
术语/信息系统 |
0.752 |
0.531 |
0.872 |
QUIS12 |
<--- |
术语/信息系统 |
0.725 |
QUIS13 |
<--- |
术语/信息系统 |
0.723 |
QUIS14 |
<--- |
术语/信息系统 |
0.703 |
QUIS15 |
<--- |
术语/信息系统 |
0.761 |
QUIS16 |
<--- |
术语/信息系统 |
0.708 |
QUIS17 |
<--- |
学习性 |
0.724 |
0.538 |
0.913 |
QUIS18 |
<--- |
学习性 |
0.732 |
QUIS19 |
<--- |
学习性 |
0.719 |
QUIS20 |
<--- |
学习性 |
0.747 |
QUIS21 |
<--- |
学习性 |
0.771 |
QUIS22 |
<--- |
学习性 |
0.705 |
QUIS23 |
<--- |
系统能力 |
0.743 |
0.533 |
0.851 |
QUIS24 |
<--- |
系统能力 |
0.716 |
QUIS25 |
<--- |
系统能力 |
0.735 |
QUIS26 |
<--- |
系统能力 |
0.707 |
QUIS27 |
<--- |
系统能力 |
0.747 |
③ 效标关联效度
与前相同,选择SUS量表作为效标,测得QUIS量表各类别的得分与该效标的相关系数分别为0.70、0.69、0.67、0.66和0.68,p < 0.01,表明其效标效度可接受。
3.2. Windows 11系统可用性及用户满意度现状调查
3.2.1. 三个量表总体描述性统计结果
如表9所示,在三个现状调查样本中,Windows 11系统用户所使用的电脑类型70%以上都为笔记本,少数人是台式电脑。另外,联想和华为是他们使用最多的品牌。其中,联想的小新系列产品型号最受欢迎,均有20%以上的用户在使用。
Table 9. Statistics of the computer conditions of Windows 11 system users in the three samples
表9. 三个样本中Windows 11系统用户的电脑情况统计
样本四(CSUQ, n = 534) |
样本五(ASQ, n = 547) |
样本六(QUIS, n = 432) |
类别 |
频率 |
占比 |
类别 |
频率 |
占比 |
类别 |
频率 |
占比 |
电脑类型 |
笔记本 |
377 |
70.60% |
笔记本 |
401 |
73.31% |
笔记本 |
324 |
75.00% |
平板 |
18 |
3.37% |
平板 |
125 |
22.85% |
平板 |
8 |
1.85% |
台式电脑 |
139 |
26.03% |
台式电脑 |
20 |
3.66% |
台式电脑 |
100 |
23.15% |
电脑品牌(前四) |
联想 |
187 |
35.02% |
联想 |
192 |
35.10% |
联想 |
164 |
37.96% |
华为 |
101 |
18.91% |
华为 |
99 |
18.10% |
华为 |
75 |
17.36% |
戴尔 |
76 |
14.23% |
戴尔 |
81 |
14.81% |
戴尔 |
65 |
15.05% |
惠普 |
65 |
12.17% |
惠普 |
63 |
11.52% |
惠普 |
49 |
11.34% |
电脑型号(前四) |
小新系列 |
112 |
20.97% |
小新系列 |
121 |
22.12% |
小新系列 |
98 |
22.69% |
KLVG-32 |
28 |
5.24% |
KLVG-32 |
29 |
5.30% |
Inspiron系列 |
22 |
5.09% |
Inspiron系列 |
26 |
4.87% |
Inspiron系列 |
29 |
5.30% |
KLVG-32 |
19 |
4.40% |
lecoo AIO酷2888 |
21 |
3.93% |
戴尔Vestro |
20 |
3.66% |
戴尔Vestro |
18 |
4.17% |
此外,在三个量表的得分分布中,CSUQ量表整体及三个分量表的得分均值在5.58~5.70之间,大于中间值4;ASQ量表的整体得分均值为5.51,也大于中间值4;QUIS量表五个分类的得分均值在6.89~6.96之间,大于中间值4.5 (见表10)。以上结果均表明,用户对Windows 11系统的体验满意度评价较为理想。
Table 10. Descriptive statistics of the three scales
表10. 三个量表的描述统计
量表 |
维度 |
Min |
Max |
M ± SD |
n |
CSUQ量表 |
整体 |
1.94 |
7.00 |
5.64 ± 0.72 |
534 |
系统有用性 |
2.33 |
7.00 |
5.70 ± 0.74 |
534 |
信息质量 |
1.67 |
7.00 |
5.58 ± 0.76 |
534 |
界面质量 |
1.00 |
7.00 |
5.59 ± 0.83 |
534 |
ASQ量表 |
整体 |
1.00 |
7.00 |
5.51 ± 0.85 |
547 |
QUIS量表 |
总体反应 |
0.67 |
9.00 |
6.89 ± 1.26 |
432 |
屏幕 |
0.25 |
9.00 |
6.96 ± 1.35 |
432 |
QUIS量表 |
术语/信息系统 |
0.83 |
9.00 |
6.92 ± 1.27 |
432 |
学习性 |
1.00 |
9.00 |
6.89 ± 1.32 |
432 |
系统能力 |
0.80 |
9.00 |
6.94 ± 1.27 |
432 |
3.2.2. 差异分析
(1) CSUQ量表
① 多因素方差分析
在性别上,CSUQ量表整体及三个分量表均不存在显著差异。
在职业与专业上,CSUQ量表整体及三个分量表得分均交互作用显著(F整体(1,526) = 6.488,p = 0.011,ηΡ2 = 0.012;F系统有用性(1,526) = 4.606,p = 0.032,ηΡ2 = 0.009;F信息质量(1,526) = 7.093,p = 0.008,ηΡ2 = 0.013;F界面质量(1,526) = 6.933,p = 0.009,ηΡ2 = 0.013),且表现出一致性趋势,即人文社科类在职人员有更高的满意度(如表11、表12所示)。具体表现是:人文社科类专业中,在职人员对Windows 11系统的评价得分显著高于学生;在职人员中,人文社科类专业用户的得分显著高于理工类专业用户的得分。
Table 11. The results of multivariate analysis of variance of the CSUQ scale
表11. CSUQ量表多因素方差分析结果
主体间效应检验 |
|
整体 |
系统有用性 |
信息质量 |
界面质量 |
|
F |
ηΡ2 |
F |
ηΡ2 |
F |
ηΡ2 |
F |
ηΡ2 |
性别 |
0.169 |
0.000 |
0.000 |
0.000 |
0.222 |
0.000 |
0.009 |
0.000 |
职业 |
9.195** |
0.017 |
9.483** |
0.018 |
8.058** |
0.015 |
6.141* |
0.012 |
专业 |
3.819 |
0.007 |
2.391 |
0.005 |
4.375* |
0.008 |
5.955* |
0.011 |
性别*职业 |
0.228 |
0.000 |
0.529 |
0.001 |
0.209 |
0.000 |
0.005 |
0.000 |
性别*专业 |
0.057 |
0.000 |
0.259 |
0.000 |
0.368 |
0.001 |
0.572 |
0.001 |
职业*专业 |
6.488* |
0.012 |
4.606* |
0.009 |
7.093** |
0.013 |
6.933** |
0.013 |
性别*职业*专业 |
0.335 |
0.001 |
0.310 |
0.001 |
0.281 |
0.001 |
0.000 |
0.000 |
注:*在0.05水平上显著;**在0.01水平上显著。
Table 12. Simple effect test of profession & major
表12. 职业和专业简单效应检验
量表维度 |
变异来源 |
ss |
ms |
F |
显著性 |
LSD |
整体 |
|
专业 |
|
|
|
|
|
职业 |
理工类 |
0.067 |
0.067 |
0.131 |
0.718 |
|
人文社科类 |
7.201 |
7.201 |
14.131*** |
<0.001 |
在职人员 > 学生 |
|
职业 |
|
|
|
|
|
专业 |
学生 |
0.099 |
0.099 |
0.195 |
0.659 |
|
在职人员 |
4.701 |
4.701 |
9.224** |
0.003 |
人文社科类 > 理工类 |
系统有用性 |
|
专业 |
|
|
|
|
|
职业 |
理工类 |
0.260 |
0.26 |
0.485 |
0.487 |
|
人文社科类 |
6.638 |
6.638 |
12.396*** |
<0.001 |
在职人员 > 学生 |
|
职业 |
|
|
|
|
|
专业 |
学生 |
0.107 |
0.107 |
0.200 |
0.655 |
|
在职人员 |
3.324 |
3.324 |
6.207* |
0.013 |
人文社科类 > 理工类 |
信息质量 |
|
专业 |
|
|
|
|
|
职业 |
理工类 |
0.010 |
0.010 |
0.017 |
0.896 |
|
人文社科类 |
7.672 |
7.672 |
13.740*** |
<0.001 |
在职人员 > 学生 |
|
职业 |
|
|
|
|
|
专业 |
学生 |
0.101 |
0.101 |
0.181 |
0.671 |
|
在职人员 |
5.747 |
5.747 |
10.292** |
0.001 |
人文社科类 > 理工类 |
界面质量 |
|
专业 |
|
|
|
|
|
职业 |
理工类 |
0.009 |
0.009 |
0.013 |
0.908 |
|
人文社科类 |
8.074 |
8.074 |
11.858*** |
<0.001 |
在职人员 > 学生 |
|
职业 |
|
|
|
|
|
专业 |
学生 |
0.014 |
0.014 |
0.021 |
0.886 |
|
在职人员 |
7.978 |
7.978 |
11.717*** |
<0.001 |
人文社科类 > 理工类 |
注:*在0.05水平上显著;**在0.01水平上显著;***在0.001水平上显著。
② 非参数检验
在电脑类型上,由于不同类型的被试数量分布差异较大,不适宜直接进行参数检验。因此,我们采取了分组策略,根据不同类型将被试划分为三组(平板、笔记本、台式电脑)后,对其在CSUQ整体及三个分量表上的得分情况进行了非参数检验——多组独立样本秩和检验,以确保分析结果的准确性和可靠性。三组被试在CSUQ整体及三个分量表上的得分均存在显著差异(χ2整体 = 13.344,p = 0.001;χ2系统有用性 = 12.363,p = 0.002;χ2信息质量 = 12.757,p = 0.002;χ2界面质量 = 9.825,p = 0.007)。
进一步经过两两比较可知,在CSUQ整体和信息质量上,平板与笔记本用户之间得分差异显著(χ2整体 = −2.649,p整体 = 0.024;χ2信息质量 = −2.949,p信息质量 = 0.010),笔记本用户的得分显著高于平板用户;平板与台式电脑用户之间得分也差异显著(χ2整体 = −3.425;p整体 = 0.002;χ2信息质量 = −3.504,p信息质量 = 0.001),台式电脑用户得分显著高于平板用户。但笔记本与台式电脑用户之间的得分并无显著差异(χ2整体 = −2.206,p = 0.082;χ2信息质量 = −1.676,p信息质量 = 0.281)。总体而言,平板用户在整体和信息质量上对Windows 11系统评价得分最低。
在系统有用性上,平板与台式电脑用户得分也存在显著差异(χ2系统有用性 = −2.994,p = 0.008),台式电脑用户得分显著高于平板用户;笔记本与台式电脑用户得分存在显著差异(χ2系统有用性 = −2.631,p = 0.026),台式电脑用户得分显著高于笔记本用户;但笔记本与平板用户得分差异不显著(χ2系统有用性 = −2.026,p = 0.128)。总的来说,台式电脑用户在其系统有用性的评价上相对较高。在界面质量上,只有平板与台式电脑用户之间得分有显著差异(χ2界面质量 = −2.986,p = 0.008),台式电脑的用户得分显著高于平板用户。
(2) ASQ量表
① 多因素方差分析
不同专业和职业在ASQ量表整体得分上交互作用显著(F整体(1,539) = 5.943,p = 0.015 < 0.05,ηΡ2 = 0.011),整体趋势为文科类在职人员对Windows 11系统评分最好(见表13、表14)。具体表现为:在职人员中,人文社科类专业用户整体得分显著高于理工类专业;人文社科类专业中,在职人员整体得分显著高于学生用户。
Table 13. The results of multivariate analysis of variance of the ASQ scale
表13. ASQ量表多因素方差分析结果
主体间效应检验 |
|
ASQ整体 |
|
F |
ηΡ2 |
性别 |
0.615 |
0.001 |
专业 |
3.144 |
0.006 |
职业 |
4.134* |
0.008 |
性别*专业 |
0.001 |
0.000 |
性别*职业 |
0.019 |
0.000 |
专业*职业 |
5.943* |
0.011 |
性别*专业*职业 |
0.466 |
0.001 |
注:*在0.05水平上显著。
Table 14. Simple effect test of major and profession
表14. 专业和职业的简单效应检验结果
|
变异来源 |
ss |
ms |
F |
显著性 |
LSD |
|
职业 |
|
|
|
|
|
专业 |
学生 |
0.191 |
0.191 |
0.265 |
0.607 |
|
在职人员 |
5.497 |
5.497 |
7.611** |
0.006 |
人文社科类 > 理工类 |
|
专业 |
|
|
|
|
|
职业 |
理工类 |
0.066 |
0.066 |
0.092 |
0.762 |
|
人文社科类 |
6.527 |
6.527 |
9.038** |
0.003 |
在职人员 > 学生 |
注:*在0.05水平上显著;**在0.01水平上显著。
② 非参数检验
考虑到所收集到的不同电脑类型的被试量差异较大,不适宜直接应用参数检验方法。我们同样采用非参数检验中的多组独立样本秩和检验对使用不同电脑类型的三类人群进行比较。结果表明,三组被试在ASQ量表整体上的得分存在显著差异(χ2整体 = 13.621,p = 0.001)。
两两比较后发现,平板与笔记本用户得分之间有显著差异(χ2整体 = −3.156,p整体 = 0.005),笔记本用户得分显著高于平板用户;平板与台式电脑用户得分之间也有显著差异(χ2整体 = −3.669,p整体 = 0.001),台式电脑用户得分显著高于平板用户。但笔记本与台式电脑用户之间得分并无显著差异(χ2整体 = −1.566,p整体 = 0.352 > 0.05)。
(3) QUIS量表
① 多因素方差分析
性别在QUIS量表五个类别得分中均不存在显著差异;专业和职业在术语/信息系统下也均不存在显著差异。
但职业与专业在总体反应、屏幕、学习性和系统能力四个类别中的得分均表现出交互效应(F总体反应(1,424) = 6.697,p = 0.010,ηΡ2 = 0.016;F屏幕(1,424) = 4.890,p = 0.028,ηΡ2 = 0.011;F学习性(1,424) = 3.952,p = 0.047,ηΡ2 = 0.009;F系统能力(1,424) = 5.352,p = 0.021,ηΡ2 = 0.012)。在总体反应和屏幕上,人文社科类的在职人员对Windows 11系统的反应评价最好。
具体来说:人文社科类用户中,在职人员的各类别得分显著高于学生用户;在职人员中,人文社科类专业用户得分显著高于理工类专业用户。在学习性和系统能力上,人文社科类在职人员好过学生用户(见表15、表16)。
Table 15. The results of multivariate analysis of variance of the QUIS scale
表15. QUIS量表多因素方差分析结果
主体间效应检验 |
|
总体反应 |
屏幕 |
术语/信息系统 |
学习性 |
系统能力 |
|
F |
ηΡ2 |
F |
ηΡ2 |
F |
ηΡ2 |
F |
ηΡ2 |
F |
ηΡ2 |
性别 |
0.651 |
0.002 |
0.987 |
0.002 |
2.405 |
0.006 |
1.851 |
0.004 |
0.684 |
0.002 |
职业 |
3.004 |
0.007 |
5.155* |
0.012 |
2.945 |
0.007 |
3.782 |
0.009 |
1.781 |
0.004 |
专业 |
0.748 |
0.002 |
1.356 |
0.003 |
1.034 |
0.002 |
0.728 |
0.002 |
0.193 |
0.000 |
性别*职业 |
0.174 |
0.000 |
1.322 |
0.003 |
0.175 |
0.000 |
0.098 |
0.000 |
0.088 |
0.000 |
性别*专业 |
0.188 |
0.000 |
0.000 |
0.000 |
0.117 |
0.000 |
0.233 |
0.001 |
0.556 |
0.001 |
职业*专业 |
6.697* |
0.016 |
4.890* |
0.011 |
3.178 |
0.007 |
3.952* |
0.009 |
5.352* |
0.012 |
性别*职业*专业 |
0.016 |
0.000 |
0.009 |
0.000 |
0.124 |
0.000 |
0.009 |
0.000 |
0.023 |
0.000 |
注:*在0.05水平上显著。
Table 16. Simple effect test of profession & major
表16. 职业和专业的简单效应分析
量表维度 |
变异来源 |
ss |
ms |
F |
显著性 |
LSD |
总体反应 |
|
专业 |
|
|
|
|
|
职业 |
理工类 |
0.587 |
0.587 |
0.374 |
0.541 |
|
人文社科类 |
14.332 |
14.332 |
9.125** |
0.003 |
在职人员 > 学生 |
|
职业 |
|
|
|
|
|
专业 |
学生 |
2.641 |
2.641 |
1.681 |
0.195 |
|
在职人员 |
8.381 |
8.381 |
5.336* |
0.021 |
人文社科类 > 理工类 |
屏幕 |
|
专业 |
|
|
|
|
|
职业 |
理工类 |
0.003 |
0.003 |
0.002 |
0.966 |
|
人文社科类 |
17.532 |
17.532 |
9.817** |
0.002 |
在职人员 > 学生 |
|
职业 |
|
|
|
|
|
专业 |
学生 |
1.109 |
1.109 |
0.621 |
0.431 |
|
在职人员 |
9.109 |
9.109 |
5.100* |
0.024 |
人文社科类 > 理工类 |
学习性 |
|
专业 |
|
|
|
|
|
职业 |
理工类 |
0.002 |
0.002 |
0.001 |
0.975 |
|
人文社科类 |
13.074 |
13.074 |
7.559** |
0.006 |
在职人员 > 学生 |
|
职业 |
|
|
|
|
|
专业 |
学生 |
1.261 |
1.261 |
0.729 |
0.394 |
|
在职人员 |
6.25 |
6.25 |
3.613 |
0.058 |
|
系统能力 |
|
专业 |
|
|
|
|
|
职业 |
理工类 |
0.786 |
0.786 |
0.49 |
0.484 |
|
人文社科类 |
10.426 |
10.426 |
6.504* |
0.011 |
在职人员 > 学生 |
|
职业 |
|
|
|
|
|
专业 |
学生 |
3.19 |
3.19 |
1.99 |
0.159 |
|
在职人员 |
5.435 |
5.435 |
3.39 |
0.066 |
|
② 非参数检验
同前述研究,我们依然采用多组独立样本秩和检验进行差异分析。结果表明:三组被试在QUIS量表各类别上的得分均存在显著差异(χ2总体反应 = 15.954,p < 0.001;χ2屏幕 = 14.840,p = 0.001;χ2术语/信息系统 = 12.816,p = 0.002;χ2学习性 = 10.950,p = 0.004;χ2系统能力 = 13.264,p = 0.001)。
进一步两两比较分析得出,在总体反应上,平板与台式电脑的得分差异显著(χ2总体反应 = −3.096,p = 0.006),平板用户的得分显著低于台式电脑用户;笔记本与台式电脑的得分差异显著(χ2总体反应 = −3.188,p = 0.004),台式电脑用户的得分显著高于笔记本用户;平板与笔记本的得分差异不显著(χ2总体反应 = −2.160,p = 0.092 > 0.05)。整体上,台式电脑用户对Windows 11系统在总体反应上的评分较高。
在屏幕上,平板与笔记本、平板与台式电脑、笔记本与台式电脑三组的得分均存在显著差异(χ2屏幕 = −2.562,p = 0.031;χ2屏幕 = −3.329,p = 0.003;χ2屏幕 = −2.676,p = 0.022)。整体评分表现为:台式电脑 >笔记本 > 平板,表明Windows11系统的屏幕设计可能用于台式电脑更受用户喜欢。
在术语/信息系统和系统能力上,平板与笔记本用户的得分存在显著性差异(χ2术语/信息系统 = −2.631,p = 0.026;χ2系统能力 = −2.657,p = 0.024),笔记本用户在这两个维度上的得分显著高于平板用户;平板与台式电脑用户的得分也存在显著性差异(χ2术语/信息系统 = −3.255,p = 0.003;χ2系统能力 = −3.299,p = 0.003),台式电脑用户的得分显著高于平板用户;但笔记本与台式电脑之间并无显著性差异(χ2术语/信息系统 = −2.222,p = 0.079;χ2系统能力 = −2.283,p = 0.067 > 0.05)。总体而言,台式电脑用户的得分是最好的。
在学习性上,只有平板与台式电脑用户之间的得分有显著差异(χ2学习性 = −2.892,p = 0.011),表现为平板用户的得分显著低于台式电脑用户。
4. 讨论
4.1. 三个量表的中文版本验证
分别对三个量表进行项目分析、探索性因子分析、验证性因子分析、信度检验、效度检验等工作,各项指标达到理想水平。
关于CSUQ量表,项目分析结果显示,各题项与整体得分的相关系数均在有效范围以内,具有较好的区分能力。探索性因子分析(EFA)与验证性因子分析(CFA)验证了模型的拟合效果。各项信效度指标均显示中文版本量表的可靠性较高。
关于ASQ量表,项目分析显示出区分度。三个题项分别聚焦任务完成的核心维度(难度、效率、支持),逻辑清晰,符合用户体验评估的理论框架。各项信度指标也达到标准。
在QUIS量表上,项目分析结果显示题项设计合理,能够有效区分不同满意度的用户群体。
应用验证性因子分析(CFA)对量表5个分类进行因子结构效度分析,模型拟合指标良好,说明量表的结构效度符合要求。其他各项信效度指标也达到标准。
4.2. Windows 11系统可用性及用户满意度现状分析
4.2.1. 总体评价
根据CSUQ、ASQ和QUIS量表的调查结果显示,CSUQ量表(7分制)、ASQ量表(7分制)、QUIS量表(9分制)得分均显著高于中间值,说明用户对Windows 11系统的可用性和满意度评价整体较高。但在事后的抽查回访中也有用户希望Windows系统未来可以增强系统的兼容性,以及提供更友好的学习资源,进一步提升用户体验。
4.2.2. 差异分析
(1) 在性别上的差异
本研究结果表明,CSUQ、ASQ、QUIS量表的测评数据反应出性别差异性均不显著,男女用户在任务完成和界面满意度上的体验比较一致,这与前人研究存在差异[19]。原因可能在于:随着信息技术和数字化能力的普及,不同性别的用户在计算机使用习惯和技能掌握上差异逐渐缩小;现代人机交互(HCI)设计普遍采用性别中立(Gender-Neutral)原则,所以,性别对操作系统体验的影响可能相对被弱化。
(2) 职业与专业之间的交互作用
本研究结果表明,在CSUQ、ASQ、QUIS量表的测评数据中,职业与专业的交互作用均显著,原因可能在于:① 人文社科类在职人员因为其工作内容涉及较多的文档处理、信息检索、多任务协作等不同类型的办公场景。他们可能更倾向于图形化界面(GUI)的直观操作,而非命令行或复杂设置;注重界面设计,需要信息呈现有清晰的信息架构和视觉层级[20],因此在系统有用性和界面质量上的评分显著高于其他类用户。② 理工类用户更加地关注系统的功能性和技术性能,如多任务处理能力、开发环境兼容性、命令行工具支持等。然而,Windows 11在开发工具集成、虚拟化支持、高级系统管理功能等方面可能未能完全满足其需求,导致该群体对系统的可用性和满意度评分较低[19]。此外,理工类用户对技术问题的容忍度也会影响系统可用性及满意度的评分。③ 在职人员通常需要在特定时间内高效地完成工作任务,因此操作系统时对其响应速度、任务切换流畅度和稳定性要求更高,学生用户的使用场景更多样化,会涉及学习、娱乐、社交等,对系统的多媒体支持(如游戏性能、影音播放)和个性化定制有更高层次的期待,这些都会导致不同职业与专业的群体在Windows 11系统可用性和满意度评分上存在差异。
(3) 在电脑类型上的差异
研究结果发现,不同电脑类型(笔记本、平板、台式电脑)的用户在CSUQ、ASQ、QUIS量表上的评分上多数存在显著性差异,台式电脑用户在系统可用性和满意度上的评分较高,笔记本和平板电脑的用户评分次之,原因可能在于:台式电脑普遍配备的更高性能硬件,更强大的处理器、更大的存储空间,以及更优质的显示设备,可同时打开多个浏览器窗口、文档和通讯软件,还能保持界面响应速度(延迟 < 100 ms),这些优势为用户提供了更为流畅的操作体验和更高的工作效率[21]。相比之下,笔记本电脑虽然在便携性上占优势地位,其轻薄设计和内置电池满足了用户“随时办公”的需求,但如果长时间高负载运行或执行图形密集型任务时,可能会受到散热和电池续航的限制,影响用户体验。而平板电脑,尽管在触控操作、手写笔输入和移动性方面表现出色,但其操作屏幕较小,硬件性能有限,在处理复杂任务或多任务管理(如无法同时打开两个完整的Word文档,只能分屏显示半页内容)时显得力不从心,导致系统可用性和满意度的评分较低。
综上,不同电脑类型的评分差异本质上是“硬件性能–设计定位–使用场景”三者匹配度的体现:台式电脑以“性能优先”的设计,满足了专业办公、高性能计算等需求;笔记本电脑以“便携与性能平衡”的定位,适配了移动办公场景;平板电脑则以“触控与轻量”的优势,聚焦于娱乐和休闲办公。未来若要缩小不同设备的满意度差距,需针对各自的瓶颈进行优化——例如,笔记本电脑可通过“液冷散热”提升高负载性能,平板电脑可通过“外接扩展坞”扩展屏幕和内存,从而更好地匹配用户的多元化需求。
5. 结论
(1) 通过对Windows 11系统用户进行测评,验证了CSUQ、ASQ和QUIS量表在中国具有较高的文化适用性。
(2) 验证后的CSUQ、ASQ和QUIS量表对Windows 11系统用户现状调查表明,各类用户的总体满意度较好。
(3) 不同性别在评价上无显著差异。台式电脑用户在系统可用性和满意度上的评分较高,笔记本和平板电脑的用户评分次之。职业与专业存在交互作用,人文社科类在职人员好过学生用户。
NOTES
*共同第一作者。
#通讯作者。