1. 问题的提出
在全国政协委员、中国科学院计算机所研究员张云泉看来,落实“人工智能+”行动,意味着我国将基于大模型、大数据、大算力技术,实现人工智能在各行各业的落地应用[1]。人工智能在教育领域落地的基础是以师生信息为基础的教育数据资源,是指整个教育活动过程中所产生的以及根据教育需要采集到的,一切用于教育发展并可创造巨大潜在价值的数据集合[2]。教育数据取之于师生,用之于教育,无法否定赋予在师生教育信息之上的公共利益。回顾以往,无论是2015年提出的“互联网+”还是2024年提出的“人工智能+”的行动倡议,以网络安全为主要支撑的数据库遭遇“裸奔”的事件也屡见不鲜,如2018年8月,根据“威胁猎人”微信公众号披露,其通过暗网监测到浙江省1000万学籍数据正在暗网上售卖1。其原因是浙江省中小学生学籍信息管理系统可能被“拖库”,也有可能是内部人员账号泄露。2020年4月,河南郑州、陕西西安、重庆、湖北武汉、山东青岛、安徽滁州等多所高校的数千名学生信息被公司冒用用于偷税2。即使《中华人民共和国数据安全法》(以下简称《数据安全法》)、《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)等信息、数据保护法律的出台,教育领域的教育数据泄漏事件时有发生,如2023年8月南昌某高校3万余条师生个人信息数据在境外互联网上被公开售卖3。不仅国内,国外教育数据泄漏的事件也有发生:2022年3月纽约市某公立学校Illuminate Education的评分和出勤系统遭到黑客攻击,导致约82万名学生的数据被泄露4。
即使大数据、云计算等技术在教育领域得到了广泛应用,但是在推动教育生态的创新与变革的进程中,个人信息保护问题却日益凸显,逐渐成为人工智能与教育融合面临的重要挑战和法律难点,也是贯彻“人工智能 + 教育”行动的必要条件。
1.1. “人工智能 + 教育”的前世:教育信息化建设
2019年5月16日,习近平总书记向国际人工智能与教育大会致贺信中提到:“中国高度重视人工智能对教育的深刻影响,积极推动人工智能和教育深度融合,促进教育变革创新。”5铢积寸累,日就月将,chatGPT、Sora模型可以一夜爆火引发全行业的讨论,而我国人工智能与教育的融合却经历了数十年的信息化建设摸索。
我国教育信息化建设大致经历三个阶段,萌芽阶段、初步发展阶段和快速发展阶段。在教育文化重新迎来春天的初期,随着国家改革开放和党的十一届三中全会的召开,以及邓小平同志在全国教育工作会议上关于发展电视、广播等现代化教育手段的指示,我国电化教育资源建设开始起步6。在这期间,通过广播、电视等媒体进行电化教育,为教育信息化奠定了基础。随后1995年我国第一部教育法出台,提出要推进教育信息化工作7。自此之后,我国教育信息化开始进入初步发展阶段,各种教育信息化项目和工程如雨后春笋般涌现,如“校校通”工程、农村中小学现代远程教育工程等,教育信息化建设在教育改革过程中的关键作用已经确立。2012年教育部为落实推进关于教育信息化的总体部署,组织编制了《教育信息化十年发展规划(2011~2020年)》(教技[2012]5号),指出要以教育信息化带动教育现代化,建设覆盖城乡各级各类学校的教育信息化体系,促进优质教育资源普及共享,推进信息技术与教育教学深度融合,实现教育思想、理念、方法和手段全方位创新,为我国教育信息化的未来十年描绘了宏伟的蓝图。2018年,教育部再次发布《教育信息化2.0行动计划》(教技[2018]6号),提出到2022年基本实现“三全两高一大”的发展目标,即教学应用覆盖全体教师、学习应用覆盖全体适龄学生、数字校园建设覆盖全体学校,信息化应用水平和师生信息素养普遍提高,建成“互联网+教育”大平台。直至2024年,教育信息化2.0行动计划基本全面落实。
1.2. “人工智能 + 教育”的今生:丰富化的应用场景及反思
人工智能在教育领域的应用主要是作用于提升教师数字化意识和素养,创新人才的培养模式和推动教学方式、评价方式等的转变,以提升教育水平的竞争力。若将教育领域内的人工智能应用场景分类,根据作用的地域范围区分,可以分为校内和校外人工智能应用场景,校外应用场景如华为ITC大赛项目,将教育融入社会经济发展,鼓励学生结合行业应用场景,综合运用人工智能等技术,提出具有社会效益和商业价值的解决方案,并设计功能完备的作品8。根据应用的主体或对象区分,可以分为学校智能服务如数据库系统、校园物联网应用和教师智能服务和学生智能服务如精准推荐职业规划。教师智能服务如Canva (可画)推出的Classroom Magic (魔术教室)的人工智能应用,可以帮助教师或其他教育工作者完成课程规划、内容编辑、文档重新格式化等工作9。在这些不断丰富的人工智能应用的背景下,人工智能赋能教育以提高国家竞争力都是利好的,但本文却不禁发出诸多疑问:作为商人本质的数字化企业如何协调以教育为本的理念?人工智能进入校园的试错成本由谁来承担?人工智能服务与师生之间的“数字鸿沟”如何克服?只有将上述疑问层层解码并积极落实师生个人信息保护策略,“人工智能 + 教育”的行动才得以实质发展。
2. 人工智能应用场景下的个人信息保护难点
在人工智能应用场景覆盖学校的过程中,包括师生个人信息在内的教育数据信息将会经历以下几个阶段:教育数据收集阶段、教育数据分析与利用阶段、教育数据自动化(或算法)决策阶段。首先应当明确的是,个人信息的权益属性并不完全私有于信息主体的,但对个人信息的处理不应因其具有公共利益的合法基础就将天平倾斜,更何况个人信息主体面对的是存在“数字鸿沟”的人工智能。
2.1. 数据教育去标识化后的剩余风险
我国《个人信息保护法》是一部兼顾个人信息保护和信息流通与利用的法律,其第十三条构建了以“告知–同意”规则为原则、法定豁免为例外的个人信息处理的基本规则或合法性基础10,这意味着,当人工智能应用没有经过告知方式使师生知情并经过师生自愿同意,并且也不符合第十三条所列举的6项情形时,就不得做出对师生个人信息进行收集、储存、利用等信息处理行为。因此,大部分数字化企业为提高人工智能算法训练的效率和降低个人信息保护的成本,其往往会通过采用去标识化的方式来豁免其应负的个人信息保护义务,如《个人信息保护法》第五十一条规定的加密、去标识化等安全技术措施。《个人信息保护法》第四条第一款规定:“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。”个人信息界定的核心标准在于“可识别性”,当无法根据收集的信息识别出个人信息主体同时也无法复原信息时,就无法对个人信息主体造成侵害更无需提及个人信息保护。因此,采用切断师生信息主体与收集信息之间的相关性或可识别联系成为了数字化企业信息利用的“保护伞”。但存在的问题是:去标识化技术与匿名化技术虽然都要求阻断个人信息与个人信息主体之间的关联性,但区别在于采取匿名化技术之后的信息无法复原,不属于个人信息的范畴,而去标识化信息技术存在修复的可能性并且并未排除在个人信息范畴之外。经过匿名化的信息价值完全在于“安全与保护”,几乎无视数据本身的利用价值,相反,经过去标识化的信息以“开发利用”为根本价值取向,更具备数字化企业对于研发、训练、更新人工智能算法的综合性要求[3]。即使较为乐观的是全国标准管理委员会制定了一系列去标识化的指南、效果评估等标准细则,依旧无法使得逐利本质的数字化企业在个人信息处理时能回归到最普通群体的师生权益保护上。造成此现象的原因在于:一是人工智能应用在教育领域的设置与投放仍然依赖于数字化企业,其对于算法训练的解释具有绝对优势和掌控力。二是目前对于人工智能与教育融合之间的领域监管主体尚未确定,除明显违法情形之外,难以发觉人工智能存在的潜在风险。
除此之外,随着社会经济的发展和科学技术的更新迭代,个人信息的范围和界限也在不断变化,主要表现为扩大的趋势,如《常见类型移动互联网应用程序必要个人信息范围规定》(国信办秘字[2021]14号)所描述的支付信息、寄递物品信息、求职信息、婚恋信息等。因而现实情况是,个人信息具有的可识别性通常并非全有或全无,而是呈现出不同程度的识别能力,经过匿名化处理的信息仍可能残存一定的“可识别性”,将其彻底排除至个人信息保护立法的规制范围之外,事实上难以有效消解匿名信息具有的“剩余风险”[4]。所以,未来即便在符合去标识化技术标准的前提下,制定去匿名化技术标准,快速发展的科学技术也仍有可能破解复原信息与信息主体之间的关联。
2.2. 教育数据利用过程中的算法歧视风险
师生个人信息的收集是教育数据建立的前提要件,在知情同意规则的实践情况中,当师生拒绝提供自身的个人信息就无法使用校内人工智能应用,算法也就无法进行后续阶段的分析利用并精准生成画像,这就导致了师生信息收集与教育人工智能的应用之间往往是全有或全无的状态,即使存在“告知——同意”的外观,但实质上却是形式知情和被迫同意。如果将该现象进一步分析会发现,我国《个人信息保护法》第十三条规定的合法性基础一次性给予了个人信息处理者全过程的处理义务豁免事由,即师生一旦首次“同意”,后续流转阶段的信息即几乎完全处于失控状态,但个人信息从产生到收集、使用等流转的每个环节,使用目的和方式都存在很大的不同[5]。换言之,若仅仅将那些同意被收集的师生信息进入教育数据的分析与利用阶段,将会较大概率存在算法歧视或算法偏见。
算法决策服务是人工智能带给教育行业最便捷的帮助和优化,号称真正、全面实现“因材施教”。《个人信息保护法》第七十三条第二款的用语,我国个保法采用的是自动化决策定义,是指通过计算机程序自动分析、评估个人的行为习惯、兴趣爱好或者经济、健康、信用状况等,并进行决策的活动。不同于面向社会或商业主体所提供的算法决策服务,人工智能通过与教育相融合的方式进入校园,首先,其所面对的主体绝大部分是不具有成熟的心理承受能力的,甚至大部分是不具有完全民事行为能力的、未满18周岁的主体;其次,师生群体的信息数量在全国各高校数据并不互通的前提下,是远远比不上商业算法决策服务的数据量,对教育数据的分析和利用较之预设效果容易产生较大偏差;最后,当算法决策运用至学生,如考试、测评等,一旦存在偏差,即使是细微的偏差也会给学生主体产生巨大的影响。正如前文提及的,当持续推进人工智能与教育的融合行动中,必须明确人工智能应用,尤其是自动化决策产生偏误或为避免偏误而进行的算法训练等内容由何者承担。
需要解决以上问题,满足数据教育决策的安全性和可靠性,就要打破人工智能算法的“黑箱”(Black Box)性质,也即实现人工智能技术算法的透明。联合国科教文组织在《人工智能伦理问题建议书》中就提到,人工智能系统引发了包括对教育在内的影响等新型伦理问题,并建议人工智能算法对隐私(个人信息)开展充分的评估以及增加人工智能系统的透明度和可解释性11。我国《个人信息保护法》第二十四条也要求了算法透明规范,该条第一款规定:“个人信息处理者利用个人信息进行自动化决策,应当保证决策的透明度和结果公平、公正,不得对个人在交易价格等交易条件上实行不合理的差别待遇。”需注意的是,即使在法律规范的层面上确定了算法的透明要求,实践中也无法确定算法的时间、范围、标准等内容的透明程度。例如许某某与杭州某软件服务公司网络服务合同纠纷案(浙0192民初3081号)中,判决认为仅凭大数据专业分析报告中的源代码记录,难以证实大数据逻辑演算过程的真实性和合法性,即使在判例层面厘清了平台行使算法权利的合理边界,明确了算法自动化决策的程序正当性标准,但我国系非判例法国家,这就要求《个人信息保护法》第二十四条仍需个案分析,建立完善具体的实施细则。
3. 教育数据利用与个人信息保护平衡
《中华人民共和国民法典》(以下简称《民法典》)人格权编第六章第一千零三十四条至一千零三十九条对个人信息的权益内容、合理使用等内容作了规定,《个人信息保护法》第一条也明确规定立法目的是保护个人信息权益、规范个人信息处理活动和促进信息的合理利用。可见,《民法典》与《个人信息保护法》都以保护个人信息权益,协调个人信息保护与利用关系为目的[6]。但是徒法不足以自行,在以个人信息为基底构筑数据资源大楼的过程中,信息主体与信息处理者之间往往存在持续性的、较大差异的信息隔阂,使得人工智能算法在对师生个人信息进行处理时既可能存在隐私披露不当也可能存在数据泄露他用等增加数据安全风险成本的问题。因此,我国现行制度设计虽然为规制个人信息处理的数据安全风险提供了支撑,如《网络安全法》第29条等、《个人信息保护法》第六章等规定,但在以利用个人信息处理为基础的人工智能应用的时代背景下,其合理有效性尚待观察。
3.1. 信息能力的平衡
为促进以师生个人信息为基底的教育数据的有效、高效利用,根本前提是要消解被收集、利用、处理信息主体的危机感或不安全感。这使用以算法决策为代表的人工智能应用的过程中,其背后的大数据算法与被处理的信息主体之间是存在“信息差”或“数字鸿沟”的,即使在取得师生同意或基于法定职责等其他合法性来源收集、利用或其他处理信息的行为,也无法否认其两者之间的不平等关系。
有学者认为信息处理者与信息主体之间信息能力的鸿沟,不是通过赋予个人权利以控制信息可以填平的,信息处理者对数据的攫取和注意力的掠夺,已经超出了个人信息保护对“个人自决”或“隐私”价值的保护[7]。因此,信息能力越不平等,越需要从法律上承认和确认个人在信息处理活动中有一定的私益,因为这种信息能力的不平等如果不通过法律倾斜规制,会导致不平衡的竞争加剧,信息主体之个人信息会沦为各方掠夺利益的工具[8]。《个人信息保护法》第四十八条规定:“个人有权要求个人信息处理者对其个人信息处理规则进行解释说明。”但我国法律并未规定个人信息处理者对个人信息主体所享有的解释说明权相对应的义务,仅设置了个人行使权利的申请和受理机制12,并未对个人信息处理者的解释说明标准及范围进行详细规定,这对本就受到教育管理权约束的师生来说,行权的难度更大。因此本文认为,不仅应当对人工智能应用的算法机制作透明和可解释性的要求,还应当将该要求作强制性规定,而不应停留在鼓励层面13。因为数字化企业作为法律拟制的人,本就无法要求其做到属于自然人的伦理道德规范。
保障师生个人信息主体的知情权第一方面的要求就是算法机制的透明要求。在这一方面,为保护数字化企业的商业秘密又不得无限制的对其要求公开,同时即使全面公开对信息主体的知情反而会造成信息主体面对庞杂数据丧失行权的意愿,使得个人信息主体的权益流于形式。公开透明的范围除《个人信息保护法》第十七条规定的个人信息处理的目的、方式、信息种类等事项之外,还应当针对算法所具有的逻辑性进行透明公开,如算法的每步逻辑、每个处理框所对应的个人信息种类、内容及生成下一步的原理、方式等。另一方面的要求是算法机制的可解释性,是对透明要求的结合、补充。可解释性要求包括以下几个方面:一是整体逻辑的可解构性,不仅每步逻辑能够具有存在的合理性并且能够简单描述其行为;二是每部分算法逻辑之间可解释性;三是算法逻辑的责任分配的可解释性。
3.2. 教育数据监管的独立性探索
《个人信息保护法》第六十条第一款规定:“国家网信部门负责统筹协调个人信息保护工作和相关监督管理工作。国务院有关部门依照本法和有关法律、行政法规的规定,在各自职责范围内负责个人信息保护和监督管理工作。”教育部作为“人工智能 + 教育”行动的主要推手,其同样也是履行个人信息保护职责的部门。《个人信息保护法》第六十八条第一款规定:“国家机关不履行本法规定的个人信息保护义务的,由其上级机关或者履行个人信息保护职责的部门责令改正;对直接负责的主管人员和其他直接责任人员依法给予处分。”根据以上内容,当教育部门依据其职责或法定义务对教育领域的师生信息做出处理行为,对该处理行为的监管效果就十分有限。由于人工智能与教育的融合,也即“人工智能 + 教育”的行动不仅发生在顶层制度的范畴中,更切实地发生在每个校园中,对每个师生的影响意义重大。因此,与数字化企业的外部监管不同,教育部及学校相关部门的内部履职及惩罚方式容易发生“既当运动员又当裁判员”的情形。此种具有个人信息保护履职部门和个人信息保护监管者的双重身份的情况,不仅容易超出个人信息处理的比例原则,向公共利益倾斜而忽视师生个人信息的基本权益,而且在个人基本权益救济方面,无论是以个人信息权益行使被侵害提起民事诉讼抑或是具体行政行为违法提起行政复议或行政诉讼,均会加大信息主体救济的成本。故而我国就有学者主张借鉴域外独立的数据监管制度,以解决我国行政机关目前“监管与被监管者”双重身份的困境[9]。本文也支持这一观点,主张成立第三方监管机构如信息数据保护委员会来进行具体规制。
欧盟GDPR (General Data Protection Regulation,简称GDPR,中文为欧盟《通用数据保护条例》)被誉为是全球性隐私监管的最高标准与准则,在个人数据或信息保护领域对包括我国在内的许多国家都产生了立法性的影响。作为以个人权利积极保障的法律,GDPR不仅规定了欧盟数据保护委员会(European Data Protection Board,简称EDPB)独立性的基本地位,更对数据保护官(Data Protection Officer,数据保护官,简称DPO)作了详细规定,而我国《个人信息保护法》在这方面基本空白。欧盟GDPR第六章第五十二条第一项就规定:“每个监管机构在行使其任务和行使符合本条例的权力时,应当保持完全的独立性。”另一个角度观之,我国统筹协调个人信息保护监督、管理的网信部门在监管数字化企业的过程中的性质基本等同于欧盟数据保护委员会,此种方式的实际治理的效果不言而喻,网信部门每批次《违法违规收集使用个人信息的App通报》对每个互联网使用者来说无异于“定心丸”的存在。因此,无论是借鉴GDPR关于独立的数据保护委员会的规定,还是参考自身已经达到的良好治理效果来看,保持监管者的独立性,突破教育部的“监管者与被监管者”的双重身份属性都是具有巨大意义的。
4. 结论与展望
人工智能与教育的融合是“人工智能 + 教育”的必然趋势,但是在数据时代,应当看到个人信息主体与个人信息处理者之间平等的信息利用关系、个人信息主体与人工智能的算法机制之间信息能力存在巨大差距的不平等关系。通过明确教育数据算法机制与师生个人信息主体之间的数字鸿沟,构建教育数据算法的公开透明要求和可解释性细则,能够有效地消除师生使用人工智能应用的不安性、不信任感,进而使得人工智能赋能教育不仅停留在基础设备上、不停留在被动使用数字化技术上,而是真正做到信息主体或使用者的数字素养提高以主动利用人工智能工具。
未来,在“人工智能+”的指引以及不断制定、完善的实施细则之下,人工智能与教育的融合会不断地系统化,面向教育领域的人工智能会更加规范化,同时人工智能与教育相融合的监管治理也会更加全面、具体。已经进入人工智能时代的今天,不仅要关注信息数据资源所带来的富矿属性,更要关注到每个底层信息群体的权益保护,真正消除“数字鸿沟”实现权益平等、资源分配平等。
NOTES
1搜狐新闻网,https://www.sohu.com/a/245085143_786964,2024年3月20日访问。
2澎湃新闻网,https://www.thepaper.cn/newsDetail_forward_7149302,2024年3月20日访问。
3腾讯新闻网,https://new.qq.com/rain/a/20230817A016UZ00,2024年3月17日访问
4侨报网,https://www.uschinapress.com/static/content/SZ/2022-03-26/957421656518045696.html,2024年3月20日访问。
5求是网,《习近平向国际人工智能与教育大会致贺信》http://www.qstheory.cn/yaowen/2019-05/16/c_1124502535.htm,2024年3月20日访问。
6邓小平:《邓小平文选第二卷》,载《求是网》http://www.qstheory.cn/books/2019-07/31/c_1119484755_19.htm。
71995年9月1日生效的《中华人民共和国教育法》(已废止),第六十六条规定:“县级以上人民政府应当发展卫星电视教育和其他现代化教学手段,有关行政部门应当优先安排,给予扶持。”
8华为ITC大赛首页,https://e.huawei.com/cn/talent/ict-academy/#/ict-contest?compId=85131993,2024年3月20日访问。
9可画首页,https://www.canva.cn/?display-com-option=true,2024年3月20日访问。
102021年11月1日生效的《中华人民共和国个人信息保护法》第十三条第一款规定:“符合下列情形之一的,个人信息处理者方可处理个人信息:
(一) 取得个人的同意;
(二) 为订立、履行个人作为一方当事人的合同所必需,或者按照依法制定的劳动规章制度和依法签订的集体合同实施人力资源管理所必需;
(三) 为履行法定职责或者法定义务所必需;
(四) 为应对突发公共卫生事件,或者紧急情况下为保护自然人的生命健康和财产安全所必需;
(五) 为公共利益实施新闻报道、舆论监督等行为,在合理的范围内处理个人信息;
(六) 依照本法规定在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息;
(七) 法律、行政法规规定的其他情形。
11联合国科教文组织网站,https://unesdoc.unesco.org/ark:/48223/pf0000381137_chi,2024年3月17日访问。
122021年11月1日生效的《中华人民共和国个人信息保护法》第五十条规定:“个人信息处理者应当建立便捷的个人行使权利的申请受理和处理机制。拒绝个人行使权利的请求的,应当说明理由。个人信息处理者拒绝个人行使权利的请求的,个人可以依法向人民法院提起诉讼。”
13《互联网信息服务算法推荐管理规定》第十二条规定:“鼓励算法推荐服务提供者综合运用内容去重、打散干预等策略,并优化检索、排序、选择、推送、展示等规则的透明度和可解释性,避免对用户产生不良影响,预防和减少争议纠纷。”