1. 引言
AI作为全球第四次工业革命的重要驱动力,已经在政府管理、公共交通、医疗服务、消费零售等多个领域发挥了巨大贡献。伴随着技术高速发展给社会带来的红利,人们也需要对技术可能产生的社会风险加以预防,其中AI数据过度收集问题就是产生的技术风险之一1。数据过度收集是人工智能技术运营商凭借先进、隐蔽的技术算法,过度采集、存储与使用用户信息数据,准确捕捉用户个性特征,精准描绘用户画像、定位用户需求并预测其未来行为选择,以此满足自己商业营销目的的行为过程。例如新浪微博修改用户使用协议案例引发了用户数据所有权的争议。中国人脸识别第一案引发了企业数据收集边界的争论。实践中,中国政府已经意识到此类问题带来的社会风险并出台相应的管理政策2,但是技术应用仍然存在此类情况,例如2021年滴滴顺风过度收集个人信息案例等。所以,技术政策制定步伐很难与技术创新速度保持一致,一直是政府回应社会需求时面临的管理难题[1]。
国内外学者关于人工智能技术数据收集风险展开了相关研究。部分研究探讨了人工智能技术数据过度收集会带来信息泄露等技术安全[2],对数据收集进行了总体画像描绘[3]。部分研究将数据收集进行了初步分类,包括多渠道收集、在线跟踪及预测行为和销售数据等,并探讨数据收集对消费者隐私影响、个性化营销与消费者反应、消费者选择加入或退出人工智能技术应用影响因素等[4]。遗憾的是,目前有关讨论人工智能技术数据过度收集的文献中,提炼数据过度收集风险的驱动因素的研究非常有限,尚不能为优化人工智能技术数据过度收集风险提供清晰的框架图景。因此,本文将研究问题凝练为:AI数据过度收集风险的驱动因素是什么?将中国案例数据过度收集风险的驱动因素总结出来,不仅为中国政府制定优化AI风险政策提供启示与借鉴意义,同时为新兴经济体中企业如何在动态情境中实现技术良性发展提供现实指导。
2. 国内外研究综述
数据收集是近几年伴随着AI技术兴起带来的关于数据如何安全运用的政府企业或个体行为。郭海等(2019)认为数字化企业会收集和利用大量用户数据,并在收集和使用数据过程中违规使用[5]。这些数据并不仅仅限于我国《网络安全法》和《民法》所定义的识别自然人个人身份的各种信息,还包括用户与网络交互过程中产生的浏览、加购、收藏、搜索等一系列数据。林海(2022)进一步认为数据过度收集是网络经营者违反《中华人民共和国个人信息保护法》关于“信息收集者收集用户个人信息应当获得用户同意,并且不得过度收集个人信息”规定的数据收集;是信息收集者强制读取用户的隐私数据(如个人定位、通讯录等),或者技术平台在用户不知情情况下偷偷运行,收集与其提供服务无关的数据[3]。
文献中数据过度收集风险体现在五个方面:第一,多渠道收集数据,公众不具备控制数据的能力。研究者认为包括3类利用AI收集数据的渠道:一是技术运营商通过APP、WIFI和基站3种定位方式,能够实现持续、精准收集用户信息[6]。二是公共部门利用公共场所视频监控收集公众信息数据,这些数据被数据挖掘技术整合成隐私信息[7]。三是公众会主动上传隐私信息,公众将微博、微信、抖音等各种社交平台作为表达价值判断、关系亲疏和融入社会关系的平台,并向社交媒体泄漏一定的隐私且具有合理的逻辑前提[6]。以上三种收集数据渠道并没有主动赋予公众控制数据的能力,在遭遇非法收集或网络盗窃情况下,公众信息安全将受到侵害。第二,超越业务范围收集数据,用户信息存在被泄漏风险。此类数据收集表现为技术运营商不仅收集业务功能所需要的用户数据(例如浏览时间、收藏、加购数据等),还会收集业务功能之外的用户数据[8] (例如位置、联络人、相册存储数据等)。知情同意原则对数据收集者约束力薄弱、数据存储和使用未受体系化监管以及数据跨境流通规范过于模糊是数据安全风险的主要成因[9]。如果这些用户数据被用于业务功能之外,或者进行了非法交易,用户信息将存在被泄露的风险[10]。第三,在线跟踪及预测数据将窥视到用户隐私。研究表明部分技术运营商会持续跟踪收集用户观看、浏览等数据,并推测出这些数据背后隐藏的社交联系[11]、种族[12]、甚至是身份证号码[13]。部分技术运营商将多个APP程序收集的用户数据进行拼接,预测用户偏好、消费倾向并向其进行个性化推荐,同时为广告商提供用户行为定位[14]。例如Bleier A,Eisenbeiss M (2015)研究了某视频公司利用收集的数据推断出用户种族,向其推送特定广告,被这些种族群体认为窥探其隐私[12]。第四,销售数据将侵犯用户隐私。研究者发现技术运营商通过3种形式销售用户数据:一是部分运营商为了获利出售用户信息,同时部分运营商为了获得用户需求重金购买数据的互惠需求情形[10]。这会造成用户数据被用于技术运营商业务功能之外的目的,极易威胁到用户的个人隐私[15]。二是技术运营商和第三方平台合作,技术运营商APP程序中包含第三方SDK程序,第三方以嵌入代码、插件等形式收集和处理平台用户信息[16]。三是违规收集数据训练AI大模型面临版权风险,包括直接侵犯版权、衍生作品版权归属模糊、版权链断裂、法律风险及合规难题[15]。
因此,就AI数据过度收集风险单独研究成果较为丰富,为我们即将开展的研究奠定了宝贵的基础。但是将中国情境中AI数据过度收集风险的驱动因素挖掘出来的文献还较为鲜见。基于此考虑,本文在已有成果基础上,研究中国案例AI应用数据过度收集风险的内在驱动因素,为优化AI应用数据过度收集风险提供理论参考。
3. AI数据过度收集风险的驱动因素
本文采用扎根理论研究方法,按照开放式、主轴式、选择式三级编码程序对原始资料系统性梳理与归纳[17]。本文质性材料来自3种类型:一是媒体报道,包括主流媒体报纸(人民网、南方日报等电子版)、政府官方网站、主流媒体网站(人民网、新华社、新浪网、腾讯网等)等;二是访谈,包括科学社区(知乎等)、公众微博等;三是文献,包括SSCI、CSSCI等数据库,实现数据的三角验证。由于AI应用引发的社会风险多出现于2010年之后,因此本文筛选出2010~2022年间符合本文主题的9个案例作为研究对象,包括:2015年新浪微博诉脉脉(案例1);2016年大众点评诉百度案例(案例2);2017年新浪微博修改用户协议案例(案例3);2017年腾讯诉华为Magic手机案例(案例4);2019年中国人脸识别第一案(案例5);2019年监测头环进校园案例(案例6);2019年以“码”管理案例(案例7);2020年外卖骑手被困算法案例(案例8);2021年滴滴顺丰等APP手机软件案例(案例9)。案例可以分为企业过度收集数据案例和政府过度收集数据案例两种类型,基本涵盖了社会实践中数据过度收集行为的情景,共获得质性文本资料共134,612字,当检索内容无法提供新的有效信息时,表明数据检索已达到饱和[16] [18] [19]。
经过三级编码过程,本文归纳出四大核心风险驱动因素,即技术驱动因素、价值驱动因素、政策驱动因素、制度驱动因素(研究过程示例如附录表A1、表A2所示)。
3.1. 技术驱动因素
技术驱动因素表现为技术系统超业务范围收集数据。大数据是AI应用的基石,企业为了发展和更新自身技术应用,以主动和自动化的数据挖掘技术收集大量数据。虽然中国《个人信息安全法》(2021)第5~7条、第13~17条和《网络安全法》(2016)第41~46条规定收集个人信息需要主体明确同意和授权,但是企业如果对每一种采集都征得主体同意,不仅降低企业效率,在现实技术处理中也存在很大困难。所以,企业数据挖掘技术“只是将早已拟就的、规避法律风险的知情同意文件呈现在用户面前”[20]。如果用户不同意其中一种行为或者未来每个数据收集行为,那么用户将不得不放弃使用该应用的整套服务[21],所以企业自然在用户“同意”下“合法”的尽可能地收集数据。另外,绝大多数知情同意政策存在阅读困难、模糊性语言表述、未清晰表述第三方共享机构信息等问题[22]。例如案例1表现为脉脉软件与新浪微博停止合作后,仍然抓取新浪微博用户头像、教育信息及用户自定义标签等信息,脉脉软件将这些非用户信息与自身用户信息相关联,扩大自身软件数据范围与影响力。案例5表现为杭州野生动物园针对申领年卡游客要求采集指纹和人脸信息,动物园初期将指纹作为年卡识别条件,后期又自主扩展为人脸信息。这两个案例都体现了企业利用“知情同意”政策获取用户授权后,自行决定如何处理用户数据,由此引发的技术风险用户或非用户信息数据被迫公开,危害了用户信息安全。
3.2. 价值驱动因素
价值驱动因素表现为未经许可或征求意见而使用、公开信息数据。对于政府或企业而言,公共价值应该是将公众意见、社会利益融入技术政策或技术决策之中。发展型国家政府倾向于放松监管为科技创新营造更加宽容自由的环境[23],这种政策管理理念带动着各地方政府配套出台各自的AI发展政策。各类AI企业在政策引导下,做出有利于自身的技术决策。例如案例1、案例2、案例5都是企业单方面决定数据如何使用,完全把产生数据的公众排除在外,企业代替用户、利益相关者意愿做决策,是价值后置考量的表现。由此引发的技术风险是限制消费者选择,误解消费者;损害同行经济利益,构成不正常竞争。案例7是苏州政府计划强行升级渐变健康码、扩展场景应用范围,地方政府利用AI为自己“加权”,未征求公众意见前提下代表公众做出决策,也是公共价值后置考量的表现,引发的社会风险是政府公信力大大减少。而案例9则表明中央政府根据社会舆论反馈的AI数据收集问题之后,出台了相应的处罚文件,是公共价值考量的体现。
3.3. 政策驱动因素
政策驱动因素表现为政府政策过度引导。中国政府对利用AI提升政府治理效率非常感兴趣[24],特别是抗疫时期政府利用AI快速筛查病毒感染者的行程轨迹,极大地提高了政府疫情防控效率。各地方政府也竞相成为“智能政府”的先锋,各地开始对“健康码”、“行程码”进行扩展与延伸,其中苏州“文明码”就是地方政府试图以量化的文明提升市民文明管理效率。在政府政策引导下,AI应用商也会制定有利于自身的技术使用政策。例如案例3表现为《微博用户使用协议》存在霸王条款,单方面规定用户无权利使用已经发布在微博的内容,并强制用户授权给微博法律诉讼权。腾讯诉华为案例表现为华为想调用微信用户数据,但腾讯以侵犯用户隐私为由拒绝提供,双方企业将用户排除在外展开的数据使用纠纷。案例5同样如此。由此引发的技术风险是侵犯用户许可使用权、索赔权、公民隐私权。同时,公民缺乏有效的救济渠道,减弱公众对技术政策的遵从。
3.4. 制度驱动因素
制度驱动因素表现为政策制定缺乏技术伦理考量。责任是一个法律概念,用来判定某个主体违背法律义务行为时应承受的不良后果[25]。责任确定可以是国家政府以法律、法规形式颁布的“硬法”,也可以是群体间认定的符合某种道德标准的行为准则等“软法”。中国政府管理网络信息采取了工信部统一监管和相关职能部门在各自职责范围内监管相结合的形式,但在国家颁布的《互联网信息服务算法推荐管理规定》中对于算法分级分类、算法违法行为、算法机制机理和模型的官方验证等方面尚缺少详细的规定。AI运营商缺乏技术伦理考量体现于三方面:一是AI算法本身缺少技术伦理约束。案例8体现了算法本身没有考虑路面、天气和人员车辆等伦理因素,即便面对社会舆论质疑,技术运营商仍不愿改变算法,而是让消费者承担外卖员的时间成本。二是为了实现精准营销,AI运营商出于各种原因将用户信息数据共享给客服外包、第三方软件开发商(ISV)或者软件开发包(SDK)等也存在伦理约束缺失[16]。第三方企业利用复杂技术算法追踪、监控、预测消费者活动,导致用户的“整合型隐私”频频泄露。例如2020年“新华视点”披露网络公众人脸信息遭泄露,非法黑产从业者将公众人脸照片修改为人脸识别视频后用于解封微信或支付宝账号等3。三是AI产品应用缺乏伦理考量,案例6是AI产品销售商逃避主管部门监管,与校方直接建立使用意向,严重缺少对未成年人的伦理道德考虑。引发的技术风险是侵犯未成年人人格,引发社会公众强烈谴责。
因此,本文归纳出AI应用数据过度收集风险的驱动因素(如图1所示)。
Figure 1. Drivers of excessive data collection in AI applications
图1. AI数据过度收集风险的驱动因素
4. AI数据过度收集风险的治理策略
4.1. 出台违法违规使用数据行为细则及处罚办法
针对技术驱动因素引发的风险,建议在《App违法违规收集使用个人信息行为认定方法》之下出台违法违规使用数据行为细则及处罚办法。首先,对每类违法行为进行明确定义和列举,确保违法行为得到清晰的界定和覆盖。其次,规范技术应用商知情同意条款,明确政策条款必须规定的事项,以及审查剔除条款涵义不清晰、霸王条款等。然后,细化处罚办法,包括细化处罚手段、处罚金额等,确保AI运营商违法违规行为能够得到及时监管和纠正。最后,建议除了运营商可以提供自己没有过错的信息证明外,从上到下的数据供应链各行为主体,都需要承担一定的个人敏感信息被泄露和侵犯的法律责任[26]。
4.2. 建立AI数据利用社会监管机制
针对价值驱动因素引发的风险,企业可以建立AI数据社会监督机制。AI创新过程是一个迭代过程,从设计(定义问题)到开发(数据采集、编程)再到实施(AI实践并监测其性能),任何阶段发现问题可以重新改进或弥补设计系统[27]。这个迭代过程会涉及各种社会问题,政府和企业应将关注点需要转移到公众的道德判断上,建立社会共同监管机制[28]。该机制允许企业灵活选择社会共同监管形式,一方面要求企业利用产品平台与公众进行直接互动,为公众提供表达、反馈产品意见的空间,并邀请那些可能受到负面影响的公众参与,目的是达成广泛可接受的技术改进建议[29]。另一方面要求企业与专家进行互动,针对平台反馈的社会问题,企业与专家之间需要定期或不定期召开会议论坛,与会者应能获得有关社会问题的所有必要信息和所提议的解决办法及后果。优化技术风险可以通过专家们投票来实现,要保证大多数专家意见一致,还要保证适当考虑反对专家的意见。
4.3. 完善个人信息行政公益诉讼法律途径
针对政策驱动因素引发的风险,政府需要完善个人信息行政公益诉讼法律途径。大数据时代,所有社会主体应该是“平等”“自由”地参与网络活动,但现实情况是只有政府和大型数据企业有技术和能力去控制数据资源[30]。面对政府或企业的某些网络强制行为,现行的公法保护救济制度仍难以确保社会公众权益得到保证[31]。对于大规模或情节严重的信息侵权行为,行政执法重点往往聚焦于危害国家和社会的重大信息安全事件,对个人信息保护关注不足[32];同时个人信息领域多采取联合执法方式,存在对违法企业追责不及时、缺乏主动执法的弱点。建议完善个人信息行政公益诉讼法律途径,行政公益诉讼可以填补公法的制度空白。通过赋予检察机关或其他社会组织维护公共利益的权利来解决“公法失灵”问题,向监管部门提起行政公益诉讼可以起到重要的威慑作用,不仅可以维护个人信息公共秩序,还可以督促相关行政执法部门依法主动履职[33]。
4.4. 建立AI数据利用责任伦理制度
针对制度驱动因素引发的风险,建立AI数据利用责任伦理制度。德国哲学家约纳斯提出了著名的“责任原则”,认为科技时代无法清晰确定危害“肇事者”的身份及具体过失,需要人们自觉地意识到自己行动直接或间接导致的后果,并为此承担一种“前瞻性责任”[24]。责任伦理就是强调必须考虑行为的结果,在行动之前就需要“事先”考虑可能的后果[34]。建议政府应该强制AI企业建立数据利用责任伦理制度,该制度要求企业在收集数据之前、数据使用过程中、数据使用之后全流程都考虑责任伦理。责任伦理制度要嵌入到技术人员的“实地”工作和具体技术应用中[35]。将企业责任伦理制度作为工程师技术要求的一部分,作为企业技术决策提供伦理标准,将该制度置于和法规等同地位。要求企业责任伦理制度可以转化为具体的AI系统行为,AI系统行为最终也应该取决最初的人为设定。例如设定超过一定存储时限后自动删除数据、限制第三方访问特定类别的数据。AI责任伦理制度可以帮助企业设定不道德行为的关键标准,提高企业的伦理意识,有助于培育企业的伦理生态系统和文化。
基金项目
本文系2020年度辽宁省社会科学规划基金项目。人工智能技术社会风险预警的前瞻性政策工具研究(重点项目,L20AGL016)。项目主持人陈瑜。
附 录
Table A1. Examples of open coding for AI data over-collection
表A1. AI数据过度收集的开放式编码示例
初始范畴 |
原始语句例证 |
对应的案例 |
非法抓取、使用用户信息数据 |
非法抓取、使用新浪微博用户信息,包括头像、名称(昵称)、职业、教育信息及用户自定义标签。 |
2015年新浪微博诉脉脉(案例1); |
超出合理范围收集用户数据 |
中国消费者协会早前曾做过一个调查,结果显示大量应用收集的个人信息与其实现的产品功能并没有明确关联,甚至明显超出合理范围。 |
2019年中国人脸识别第一案(案例5); |
超必要原则采集用户敏感信息 |
法院审理认为,在办理年卡时合同约定以指纹识别方式入园,野生动物世界采集照片信息,超出了法律意义上的必要原则,不具有正当性,且欲将其已收集的照片激活处理为人脸识别信息,超出事前收集目的,违反了目的限制原则,所以应当删除郭兵办卡时提交的包括照片在内的面部特征信息。 |
2021年滴滴顺丰等APP手机软件案例(案例9)。 |
…… |
…… |
…… |
Table A2. Coding of AI data over-collection behaviors
表A2. AI数据过度收集行为的编码结果
选择式编码 |
主范畴 |
副范畴 |
初始范畴 |
引发的技术风险 |
技术驱动
因素 |
超业务范围收集数据行为A |
违法、违规收集数据A1 收集基本业务功能之外数据A2 |
非法抓取、使用用户信息数据 |
用户或非用户信息数据被迫公开,危害用户信息安全。 |
超出合理范围收集用户数据 |
超必要原则采集用户敏感信息 |
制度或政策驱动因素 |
未经许可或征求意见而使用、公开信息数据行为B |
过度公开用户及非用户信息B1 未经许可、未经征求意见或自行认定用户同意使用数据B2 不告知公众技术规范和应用目的B3 |
网络公开用户手机通讯录联系人及其相关职业、教育等信息 |
限制消费者选择,误解消费者;损害同行经济利益,构成不正常竞争。 |
网络公开未经许可抄袭、复制的相关信息 |
未经征求意见默认用户同意收集敏感信息 |
未向公众充分征求技术应用意见并收集信息 |
用户敏感信息收集程序不规范 |
企业或政府过度干预行为C |
擅自变更收集信息技术手段、变更合同C1 企业干预用户自主决策数据;霸王条款C2 政府过度干预行为C3 |
企业强制要求公众遵守其技术规则 |
将侵犯用户许可使用权、索赔权、公民隐私权;影响政策执行效果。 |
要求用户不得自行或授权第三方使用用户自身数据 |
要求用户无偿授权;企业强制公众同意隐私政策 |
政府自行改变技术使用规则;扩展技术场景应用范围 |
政府强制采集公众生物特征信息 |
地方政府回应方式简单粗暴 |
价值驱动
因素 |
缺乏技术伦理考量行为D |
技术算法 缺乏伦理考量D1 技术应用 缺乏伦理考量D2 |
未考虑路面情况、天气影响、人员车辆等情况的技术“精准”优化计算 |
侵犯未成年人人格;引发社会公众强烈谴责。 |
技术时刻监控未成年人并转化为数据 |
技术应用前未能进行质量评定 |
NOTES
1人民网. APP越界索权 呼唤规范治理[EB/OL]. [2018-03-22]. http://scitech.people.com.cn/n1/2018/0322/c1007-29881581.html
2网信办秘书局, 工业和信息化部办公厅, 公安部办公厅, 市场监管总局办公厅.网络安全实践指南——移动互联网应用基本业务功能必要信息规范[EB/OL]. [2021-03-12]. http://www.gov.cn/zhengce/zhengceku/2021-03/23/content_5595088.htm
国务院新闻办公室. App违法违规收集使用个人信息行为认定方法[EB/OL]. [2019-12-20].
http:www.scio.gov.cn/xwfbh/xwbfbh/wqfbh/42311/44109/xgzc44115/Document/1691066/1691066.htm
3央视网. 0.5元一份! 谁在出卖我们的人脸信息[EB/OL]. [2020-07-14].
http://news.cctv.com/2020/07/14/ARTIIcp7s37vUIBn3Dx93WOO200714.shtml