1. 引言
随着我国互联网、大数据、人工智能等数字化信息技术的普及与发展,平台经济蓬勃兴起,以数字化服务为依托的企业数字平台令市场经济运行更加高效、便捷,但同时也出现了以算法歧视为代表的技术问题 [1] ,如网约车平台和电商平台出现的价格歧视现象 [2] [3] 、短视频平台出现的信息茧房现象 [4] 、招聘平台基于简历分析呈现的就业歧视现象等 [5] 。算法歧视被定义为一种基于大数据的、具有可重复性的、针对特定群体的不公正识别与对待系统,极大损害消费者合法权益,同时也加剧市场恶性竞争 [6] ,导致市场经济发展不均衡和引发伦理问题 [7] 。在追求经济高质量发展背景下,我国对平台经济反垄断方向、目的和具体实施做出明确的规定。随着企业数字平台的规模和用户数量在互联网的广泛应用下极速扩张,平台算法不断发展帮助用户实现自身需求和价值的同时,其潜在的歧视问题和所造成的社会危害亟需全社会的共同努力来解决 [8] 。
基于以上理论研究与现实背景,本文试图解决一下问题:一是探寻算法歧视现象形成的动因,分析出关键影响因素;二是进一步归纳总结不同类型算法歧视影响路径并给出治理对策。为当前国内算法歧视研究和算法歧视治理提供新的视角与启示。
2. 文献回顾
2.1. 平台企业
在数字化技术对全社会渗透、改造的背景下,平台企业的模式应运而生 [9] 。平台企业区别于传统的公司模式中注重生产的条件和手段,其特点在于作为生产者和消费者的沟通桥梁而发挥流通和辅助作用 [11] ,在商品、服务和信息流通环节收取差价和服务费用。平台企业依托于数字平台,连结各个分散的用户,整合生产、制造、批发、零售等各个环节,达到降低交易成本、提高经济运行效率的目的 [10] 。作为数字化基础设施,企业数字平台连结越来越多的用户,赋能平台企业从最初中介定位转向为影响经济发展的重要力量 [12] 。值得注意的是,研究发现大型互联网公司通常掌握多个数字平台 [13] 。目前学者主要将平台按照功能性分为线上交易中介平台、线上信息内容平台、云平台、工业平台等,本文研究算法歧视现象集中表现在面向普通用户的交易平台和内容平台,其中具有代表性的有电商平台、短视频平台、网约车平台和招聘平台。
2.2. 算法歧视
作为计算机领域专用术语,算法本质在于一系列解决需求的清晰指令,是一种在特定过程中求解问题和实现目标的策略机制 [14] ,简言之,在算法基础上可以制作计算机程序乃至人工智能 [15] 。而在人工智能自动化决策中,对于特定群体的数据分析所引发的成体系、具备重复性的不公正待遇,即为算法歧视 [16] 。算法歧视特点为隐蔽性、选择导向性和不可逆性,并会造成极大破坏 [17] 。
算法歧视具体表现为对特定群体所展现的误判、排斥和限制,其成因具备多样性。包括在算法设计之初设计者有意或无意注入自身偏见、算法训练过程中存在偏见性数据、算法技术本身由于发展不足产生的局限性等都会造成算法歧视 [18] 。
针对其成因,当前研究认为具体解决措施有针对训练数据进行清洗,提高其透明度;在开发和设计指出就遵循多样性和公平原则,尽量避免对特定群体的不公倾向;提高算法透明度,减少算法黑箱以及可能产生的歧视性。此外,政府部门作为监管者需要针对该现象加强相应规制建设,有效惩处歧视性行为 [18] [19] 。
算法已成为重要的创新产品和平台经济发展的核心竞争工具,但所导致的歧视性问题不容忽视。平台经营者利用算法歧视破坏市场秩序,引发了效率与公平的冲突,而算法本身的隐蔽性也使其主观意图难以认定 [20] ,同时执法机构在反垄断监管时也存技术困难。算法能够促成并协助企业实现歧视性竞争,对具有歧视性竞争行为的企业具有极大的吸引力,但目前《反垄断法》中关于垄断协议的规定无法规制可能出现的各种歧视性竞争,而相关部门的相关制度与监督手段也不完善。
2.3. 平台企业算法歧视类型与表现
算法歧视主要分为先行存在歧视、技术性歧视和突发性歧视 [18] 。其中具备代表性的平台和歧视有网约车平台价格歧视、视频平台信息茧房、电商平台个性化推荐和招聘平台推荐歧视。电商平台以用户点击量、浏览记录、消费习惯和交流数据等推算出用户需求并针对推送内容和商品 [3] 。网约车平台通过大数据算法识别不同客户消费能力、消费习惯和需求,以此为基础设置不同价格 [21] 。短视频平台以用户的点击率、观看时长、评论、点赞等方式分析用户心理,进行个性化推荐 [4] 。招聘平台以标签化求职者、定向推送和屏蔽部分内容造成就业人员信息差以此赚取会员费用 [22] ,甚至还存在对付费会员杀熟的现象。
2.4. 简要评述
通过文献回顾发现:首先,当前研究内容集中于算法歧视的表现与法理层面的治理,从技术角度和法律角度提供了治理建议,甚少从具体行业出发,分析算法歧视的表现与实现路径;其次,当前研究方法主要是理论层面的表现机制的文字研究,如扎根理论的自下而上的研究和小样本实证研究相对匮乏。因此本文将质性研究方法和小样本研究的组态分析法相结合,弥补当前研究不足,丰富平台企业管理和算法歧视治理的相关研究。
3. 研究设计
3.1. 研究方法
3.1.1. 扎根理论
扎根理论由Glaser和Strauss提出 [23] ,以问卷、访谈和文献等为代表针对某现象在原始数据基础上展开分析和归纳。遵循规范、严密的步骤,从事实经验出发分析数据,进行系统性的归纳、演绎、对比和分析,提升概念层次并最终总结出新的概念 [24] 。扎根理论为提供了结构化和明确的分析工具与指南,在不断的比较、分析和编码过程,结合不同数据解释并整合成理论框架,对比一般质性分析该研究结论更为可信 [25] 。本研究采用扎根理论对算法歧视的形成动因进行编码及归类,进而找出影响算法歧视的要素。
3.1.2. 模糊定性比较分析
模糊集定性比较分析(fsQCA)是一种案例导向型的研究方法。通过变量赋值,分析出不同影响因素的搭配组合及其影响,fsQCA适用于条件和结果呈现不对称性,变量的潜在相互依赖性的情况,识别非对称的数据关系,用模糊校准方法对变量数据进行校准,分析条件变量集合和结果变量集合之间的子集关系,并揭示了同一结果的多个等效性路径 [26] 。作为一种新研究思路,可基于多种情形下的共性结构研究揭示出某些情形下的共性结构,从而形成一条通往某一特定路径的路径。
3.2. 案例选取与数据来源
本文文献资料来源于学术论文,包含日常行为中遭遇的前文描述的算法歧视问题。从这些问题出发剖析文章能更全面地了解平台企业在大数据过程中所面临的算法歧视,从而更好地筛选关键性因素并进行评估。本文一共选取了20篇与平台企业算法歧视相关的期刊文章,见表1。
Table 1. Bibliographic overview table
表1. 文献资料概览表
3.3. 算法歧视指标编码
3.3.1. 开放式编码
编码是量化数据分析的第一个环节,由研究者对对象中研究所见事物的界定而构成,编码转化为精炼的概念即是语言描述到理论的过程。方法包括分解文本资料,用短句、短语概况,归纳相似的概念,并进一步提炼、整理相同范畴的概念。本文对收集到的文献信息进行的概念化(AX)见表2。
Table 2. Basic information about network data
表2. 网络资料基本信息
3.3.2. 关联式编码和主轴编码
提取上文得出52个概念化编码并筛选出涉及算法歧视的内容,归纳总结出以下18个关联式编码(AAx)和六大主轴编码(Rx),并进一步按照歧视来源分类,建立关联式编码之间的联系,得出平台企业算法歧视过程中面临的歧视因素的主轴编码(Rx),如下表3所示。
Table 3. Spindle coding and associative coding
表3. 主轴编码和关联式编码
3.3.3. 选择式编码
对提炼出的主范畴、子范畴及相关概念进行深入分析,并用原始资料以及开发出来的概念和关系说明研究问题的所有现象,挖掘出最后的核心范畴。通过对算法技术偏离工具理性,技术跟踪,技术歧视,迎合平台需求,协同兴趣,触发客户需求,个人信息泄露,用户记录被分析,精准实施营销,消费者利益歧视,经济竞争损害歧视,不正当价格竞争,设置协议,筛选门槛歧视,平台发展落后,平台数据不透明,市场竞争秩序差,幕后控制不当18个初始范畴的进一步分析,对技术发展因素、信息茧房因素、用户隐私因素、经济驱动因素、算法黑箱因素、市场垄断因素这六个主范畴反复琢磨,最终确定核心范畴有三个:平台层面、用户层面和市场层面,见下表4。
3.4. 结果分析
本文研究重点在通过案例找出算法歧视的形成动因,研究发现我国平台企业在算法歧视过程中歧视来源复杂,种类多样。根据上述关联式编码的建立,可以得到平台企业算法歧视主要来自六个主轴编码的影响,具体主题归纳六个歧视因素分别是:
(1) 技术监控。平台企业以技术手段分析客户资料,寻求匹配用户,系统因数据不完整出现数据偏差,造成算法歧视。
(2) 信息茧房。平台记录、分析用户个人需求与喜好,重复推送类似内容,窄化用户接触信息范围,造成信息茧房。
(3) 用户隐私。平台根据用户留下的个人信息进行记录实时跟踪分析,最后精准实施营销。
(4) 经济驱动。平台出于利益最大化考虑实行算法歧视并存在不同平台效仿行为。
(5) 市场垄断。平台为达成垄断目的,以协议等方式限制用户使用其他平台 [17] 。
(6) 算法黑箱。平台算法设计和实现路径与具体表现复杂,不同平台算法不同,且当前市场存在不透明、缺乏秩序等问题,监管者难以有效识别并规制算法歧视。
4. 模糊集定性比较分析(fsQCA)
4.1. 变量赋值
4.1.1. 结果变量赋值
结果变量是算法歧视的结果状态,结果变量分别是算法歧视,算法歧视程度中等,非算法歧视,通过对知网上二十篇文章的收集与整理将其进行如下赋值:将算法歧视结果赋值为1,中等算法歧视赋值为0.5,非算法歧视结果赋值为0。
4.1.2. 条件变量赋值
经济驱动因素:结合文章优势和资源对涉及到经济驱动方面较多的算法歧视则赋值为1,反之,则赋值为0。
需求固化因素:通过对文章的解析,分析消费者的需求和兴趣,若平台对消费者需求影响较大,则赋值为1,反之,则赋值为0。
技术监控因素:平台在算法技术上存在信息茧房较大的赋值为1,反之,则赋值为0。
设立门槛因素:平台设立协议对消费者进行算法歧视影响较大的赋值为1,则赋值为0。
用户隐私因素:消费者的个人信息泄露,决策被干预而造成算法歧视则赋值为1,则赋值为0。
算法黑箱因素:平台数据不透明,后台管理环境差造成算法歧视赋值为1,则赋值为0。见下表5。
Table 5. Dependent variables and conditional variables
表5. 结果变量与条件变量
4.2. 构建真值表
在对条件变量进行赋值后,以个案为单位对数据进行汇总,得到条件变量和结果变量的所有组合(configurations),这些组合以表格的形式呈现出来,即真值表,本文赋值后的真值表如下表6所示。
4.3. 必要性分析
通过覆盖率的指标来判断条件变量X对结果变量Y的解释力度,如果覆盖率指标的数值越大,说明X对Y的解释力度越大,经过运算得出单个条件变量的必要性条件分析,如下表7所示。
Table 7. Analysis of the necessity of individual conditional variables
表7. 单个条件变量的必要性分析
从上表可知,歧视结果中,技术监控因素和算法黑箱因素变量在二十篇文章中占比例较高,一致性是最高的,覆盖率指标也获得了较高的数值,说明以上的条件变量选择对结果产生了一定解释力,并且算法黑箱因素的一致性超过了0.9,进一步说明通过覆盖率可以解释79.41%的算法歧视案例,虽然市场垄断因素的覆盖率几乎达到了100%,但一致性较低,所以解释力较弱,说明算法黑箱因素是导致算法歧视的直接原因。其次是非信息茧房因素和非市场垄断因素,他们的覆盖率和一致性都较高,说明算法歧视中经济驱动因素也有一定的关系,但未达到充分条件的一致性指标。用fsQCA软件得到了以下组态分析结果。见表7。
4.4. 组态分析
组态分析结果见下表8。
Table 8. Analysis results of condition variable groupings
表8. 条件变量组态分析结果
注:其中“●”代表核心条件存在,“●”代表边缘条件存在,“Ä”代表核心条件不存在,“Ä”代表边缘条件不存在,“——”代表该条件可有可无,没有影响。
由上图的输出结果可以得出四条组合路径,并且可以看出整体覆盖率和一致性分别达到了0.551724和1,表明所有的条件组合能够解释约为55%的案例,而且这四条组合路径的一致性都大于0.9,表示这四条组合路径都有较高的解释力度和分析价值,转换为中文名则为:
路径一:市场平台主导型。经济驱动因素 * ~信息茧房因素 * 技术监控因素 * ~市场垄断因素 * ~用户隐私因素 * 算法黑箱因素。在市场的经济驱动下,平台为了利益,将算法设置在不透明的情况下,造成算法黑箱,最终导致消费者受到不公平对待。该路径的组态一致性值为1,原始覆盖率值为0.275862,唯一覆盖率值为0.275862,表明该路径能解释约27.6%的算法歧视案例。
路径二:市场利益主导型。经济驱动因素 * ~信息茧房因素 * ~技术监控因素 * 市场垄断因素 * ~用户隐私因素 * 算法黑箱因素。此路径表示在生活案例中主要是经济驱动、市场垄断和算法黑箱这三个因素导致的算法歧视。在经济驱动下,平台企业制造市场垄断,数据不透明,造成用户经济损害。该路径的组态一致性值为1,原始覆盖率值为0.0689655,唯一覆盖率值为0.0689655,表明该路径能解释约6.9%的算法歧视案例。
路径三:平台用户主导型。~经济驱动因素 * 信息茧房因素 * 技术监控因素 * ~市场垄断因素 * 用户隐私因素 * 算法黑箱因素。此路径表示在生活案例中主要是信息茧房、技术监控、用户隐私和算法黑箱这四个因素导致的算法歧视。在市场利益驱动下,平台企业的算法环境不透明,造成用户的隐私泄露,最后根据用户的需求偏好贴标签,进行个性化推荐。该路径的组态一致性值为1,原始覆盖率值为0.137931,唯一覆盖率值为0.137931,表明该路径能解释约13.8%的算法歧视案例。
路径四:市场用户主导型。~经济驱动因素 * ~信息茧房因素 * 技术监控因素 * 市场垄断因素 *用户隐私因素 * 算法黑箱因素。此路径表示在生活案例中主要是技术监控、市场垄断、用户隐私和算法黑箱这四个因素导致的算法歧视。为了实现市场的价格垄断,平台技术监控消费者的信息,将用户的信息进行数据分析,造成用户隐私泄露,达到算法歧视。该路径的组态一致性值为1,原始覆盖率值为0.137931,唯一覆盖率值为0.137931,表明该路径能解释约13.8%的算法歧视案例。
从四条路径中可以得出主要是经济驱动因素、技术监控因素和算法黑箱因素导致的算法歧视。在当前的时代,人工智能、大数据和算法都得到了长足的进步。但是,伴随而来的不仅仅是生产、生活和工作的便利,更是对用户隐私和法律管理的挑战。在这种情况下,商家为了利益,将平台的算法跟进人的需求,进而产生“算法歧视”。技术的不完善,造成算法监管不严,再加上正常人难以理解其中的算法原理,难免会被带上歧视性,从而产生算法歧视 [20] 。接下来我们就组态分析中得出的导致算法歧视的因素进行分析,并找出他的治理对策。
4.5. 稳健性检验
为了验证结果的可靠性,文本选择调整一致性阈值的方法 [21] ,将一致性的阈值由原来默认0.8调制0.85,并重新得出导致算法歧视因素新的结果,发现得出一致性和覆盖度并没有发生改变,有效路径也未发生改变。通过上述验证可以得出原始实证结果具有稳健性。
5. 结语
5.1. 结论
本文以算法歧视为研究对象,搜集期刊数据资料进行扎根分析,通过扎根理论三阶段编码探索平台企业算法歧视的关键影响因素和评价指标并基于模糊集定性比较分析法(fsQCA)对关键数据进行分析,形成平台企业算法歧视的4条路径。
(1) 通过扎根分析,得出平台企业发展中算法歧视影响因素的6大主编码:经济驱动因素、信息茧房因素、技术监控因素、用户隐私因素、市场垄断因素以及算法黑箱因素。
(2) 经过必要分析证明,任意单一要素均为算法歧视必要条件。
(3) 研究认为企业平台算法歧视共有4条影响路径,其中算法的经济驱动不透明性导致算法歧视、技术监控错误的数据造成算法歧视和算法黑箱竞争主体的歧视这三项是造成算法歧视的主体原因。不同的路径有着不同的适应性,每一条都会影响着平台企业的算法歧视,对其产生不公平的环境。
5.2. 治理对策
本文揭示平台企业算法歧视成因,总结出市场利益主导、市场平台主导、平台用户主导、市场用户主导下的四条显著路径,由此对当前算法歧视治理提出一下实践建议:
(1) 法律良序治理,维护消费者经济驱动。理性分析科技监控后果,采取法律手段防范。明晰算法应用范围与算法规则,加强算法审查,以法律手段保障数据的信息安全和算法技术的发展,确保数据使用的安全性。
(2) 强化个人信息保护。规制数据获取和算法技术中的不平等,保障用户合法权益。一致性对待信息,严格审核涉及信息提取和保存的机构,保护涉及公民权利的敏感数据防止进入算法差别化功能中,健全推广信息加密技术防止泄露。
(3) 健全平台监管体系。加强算法领域全方面监督,杜绝平台企业规避监管现象,打压算法歧视现象,积极引导算法工程,禁止欺诈、偏袒与标签化用户的行为。
(4) 加强技术治理。构建算法内部审核与规制机制。在算法中体现出反歧视的目的和强制要求,引导算法设计者遵循非歧视的原则。提高算法的透明度,实现在算法技术合规,算法利益合法。此外利用相应的技术对原来的数据进行备份,确保数据的原创性和真实性,并对数据来源的合法性进行检验。
6. 展望
本文在前人的研究基础上,运用扎根理论和模糊集定性比较分析法(fsQCA)进行深入的分析和研究,探索算法歧视新的解决方案,以期帮助有效解决平台企业算法歧视问题。相较以往研究采用传统的文字分析,本文采取综合分析法,将算法歧视问题和扎根理论与模糊集定性比较分析法(fsQCA)进行交叉分析,提供了多元化的问题解决思路。
本文在研究过程中在研究方法上,存在选取样本范围狭窄,样本量不足,且收集的数据存在主观性;研究内容上集中于算法歧视理论方面的研究,理论与具体实践的结合较少。未来可扩大研究范围,拓宽研究深度,选取更多的案例来扩大样本容量,精准样本的研究对象,并且尽量保证收集数据的客观性,增强实践研究增强研究现实性。