生成式人工智能ChatGPT在数字资源建设中的挑战与应对策略
Challenges and Countermeasures of Generative Artificial Intelligence ChatGPT in Digital Resource Construction
DOI: 10.12677/SSEM.2024.131010, PDF, HTML, XML, 下载: 78  浏览: 185  科研立项经费支持
作者: 张 娟:怀化学院综合档案馆,湖南 怀化;黄丽衡:怀化学院教育科学学院,湖南 怀化;黄利军*:怀化学院物电与智能制造学院,湖南 怀化
关键词: 人工智能ChatGPT生成式数字化档案Artificial Intelligence ChatGPT Generative Digital Archives
摘要: 人工智能技术已渗透到社会发展的各个领域,基于生成式人工智能技术的ChatGPT应时而生,具有更高级智能备受业界关注。分析了决策、分析式和生成式人工智能技术的特点,基于高校档案信息归类与数字资源建设需求,提出了基于ChatGPT的数字化档案资源建设方案,剖析了ChatGPT对数字化档案资源建设的挑战,包括存在数据质量问题、存在知识产权难题、存在数据安全威胁。给出了基于ChatGPT的数字化档案资源建设的应对策略,包括加速数字化档案资源数据库建设,促进数字化资源的安全体系建设,健全网络伦理问题和法律保障体系。
Abstract: Artificial intelligence (AI) has penetrated into various fields of social development, ChatGPT based on generative AI technology has arisen and attracted the attention of the industry with more intelligence. The paper analyzes the characteristics of decision-making, analytical and generative artificial intelligence technologies. Based on the needs of archival information classification and digital resource construction in colleges and universities, a digital archival resource construction scheme based on ChatGPT is proposed, and the challenge of ChatGPT to digital archival resource construction is analyzed, including data quality problems, intellectual property problems, and data security threats. The paper gives some countermeasures for the construction of digital archival resources based on ChatGPT, including accelerating the construction of digital archival resources database, promoting the construction of digital resources security system, and improving the network ethics and legal protection system.
文章引用:张娟, 黄丽衡, 黄利军. 生成式人工智能ChatGPT在数字资源建设中的挑战与应对策略[J]. 服务科学和管理, 2024, 13(1): 70-75. https://doi.org/10.12677/SSEM.2024.131010

1. 引言

当前,基于计算机技术和通信技术的信息技术不断取得突破,典型代表为“云大物移智”技术,包括云计算、大数据、物联网、移动互联网、人工智能这五项关键技术,这些新一代信息技术不断深入融合到社会经济的发展,推动着产业的发展。例如基于物联网技术、移动互联网技术和人工智能等技术的智能制造和能源共享,加速带动工业制造、管理和运营转型。国务院于2015年5月印发实施制造强国的《中国制造2025》战略文件,是我国实施制造强国战略的第一个十年行动纲领,也是在制造技术中深度融合信息技术的数字化网络化智能化的具体体现。2021年3月,教育部发布了“关于印发《教育信息化十年发展规划(2011~2020)》的通知”文件 [1] 。文件指出了以教育信息化带动教育现代化,是我国未来十年的教育事业发展规划,能极大的提高教育质量,建成教育强国具有重大意义。其中,人工智能技术发展如火如荼,已渗透到社会发展的各个领域,带动着人们的生活节奏、产业经济的变革,引起各国政府的高度重视,并出台了相关的政策和规划文件,抢占科学技术的制高点。2016年10月,美国连续发布了《为人工智能的未来做好准备》和《国家人工智能研究与发展战略规划》两个文件,意味着在人工智能技术方面的研究已上升到了国家战略层面。英国政府分别于2016年9月和11月发布《机器人技术和人工智能》和《人工智能:未来决策制定的机遇与影响》两个文件。2017年1月,法国也发布《法国人工智能战略》,意在成为欧洲人工智能的领军者。2017年7月8日,我国也发布了《新一代人工智能发展规划》 [2] ,文件指出了人工智能技术发展的重点任务,是我国在人工智能技术方面“抢占信息化制高点”的战略举措。

2. 人工智能技术发展历程

2.1. 人工智能技术的提出

1956年,最早于达特茅斯研讨会中提出Artificial Intelligence (人工智能),简称AI,其内涵定义为机器模拟人的智能。之后,AI的内涵不断拓展,定义为模拟、延伸和拓展人类智能。1976年,由于机器翻译等项目的失败及一些学术报告的负面影响,遭遇发展瓶颈、备受冷落,人工智能研究陷入低谷期。1986年,Rumelhart发现了反向传播学习算法,突破了早期感知机的局限,人工智能开始受到广泛关注 [3] 。近些年重新引起了人们的重视。2014年,微软公司发布了全球第一款个人智能助理微软小娜,该智能软件的出现掀起了人工智能研究的热潮 [4] 。2016年,谷歌公司的基于深度学习的AlphaGo战胜了围棋世界冠军,又一次引爆了人们对人工智能的热情。同年10月,美国总统行政办公室联合美国国家科学技术委员会共同发布了《规划未来,迎接人工智能时代》(Preparing For The Future of Artificial Intelligence)报告 [5] 。该报告针对当前人工智能发展和应用现状、目前存在的问题,为美国政府及相关机构更好地应对未来人工智能的发展,提出了若干建议和对策,该报告虽是针对人工智能整个社会应用领域的,但对于人工智能的教育应用,对未来智慧教育的更好发展,都极具参考价值。

2.2. 决策和分析式人工智能技术

决策和分析式人工智能技术强调的是通过海量的数据,进行复杂关系的分析、判断各类条件的概率,进行海量数据的特征提出,提供决策模型和算法分析,帮助决策者做出准确的决策。这些方面着重体现了计算智能和感知智能等方面,计算智能彰显了计算机超强的搜索、存储和计算能力。感知智能体现了计算机的感知能力与外界进行交互能力,意味着计算机感知、识别等能力上趋向人类。决策和分析式人工智能技术发展主要体现在,ImageNet竞赛代表了基于深度学习的人工智能在计算机智能图像识别领域的应用,2015年,基于人工智能算法在图像识别方面的准确率超越了人类肉眼识别 [6] ,意味着人工智能也达到了突破性的发展。2016年,微软利用人工智能技术应用到英语语音识别方面,实现了词错率降低至5.9%,可与人类大脑相媲美。2017年堪称是中国人工智能元年,同年3月人工智能技术的规划,写入政府的工作报告,5月,阿尔法狗(AlphaGo)与世界围棋冠军柯洁对弈,因此,人工智能技术的魅力引起公众热议,同时,7月国务院颁布《新一代人工智能发展规划的通知》。之后,人工智能技术逐步应用到各个领域,例如在智能驾驶、智能搜索、智能机器人、智能制造等方面 [7] 。

2.3. 生成式人工智能技术

生成式人工智能技术是在决策式/分析式人工智能技术的基础上进一步衍生发展而来,强调的是利用归纳、分析、判断和决策后,再做出演绎创造。也就是在获得的一组海量数据基础上,实行学习训练,进行归纳分析,判断和决策底层模式,生成反映学习训练的新数据或新样本,如通过海量文本数据生成新文本、新图像,目的呈现出一个尽量反映出原信息的“新信息”。因此,决策式/分析式人工智能技术可以支撑生成式人工智能技术,生成式人工智能技术是决策式/分析式人工智能技术的递进版本,能够提供更强大的解决方案,可以使用分析结果来创建更个性化数据 [8] 。Chat Generative Pre-trained Transformer (ChatGPT)就是基于生成式人工智能技术的,是OpenAI于2022年11月30日发布的一款聊天机器人程序。

3. 高校档案信息归类与数字资源建设需求

3.1. 高校档案信息归类需求

传统的高校档案管理在信息归类方面存在许多缺陷,例如占用巨大的物理存储空间,检索查询不方便,易受自然灾害或环境因数影响,耗费大量的人力物力等方面。而数字化档案管理强调的是讲高校档案实现数字化处理,包括所有的文件转化成数字化文档,建立数字化管理数据库,进行档案按类分类处理归档。档案管理人员进行信息技术培训,熟悉数字化管理的整个流程及处理要求。档案查询人员可以到现场查询,也可以通过网络实现远程检索查询,既节省了时间,又避免了不必要的来回跑动。通过档案的数字化处理,避免了档案丢失或损坏的风险,增加了高校数字化档案的持久性和可持续性,极大地提高了高校档案的可访问性,提升了数据管理和利用的效率。

3.2. ChatGPT在数字化档案中的应用

3.2.1. 档案信息数据化

伴随着人工智能技术的发展,采用生成式人工智能技术的ChatGPT应时而生,因此,档案信息数据化可以借助ChatGPT的强度技术支撑,在文字识别、文本分类、数据判断和语音识别方面大展身手。文字识别可以采用光学字符识别纸上打印的字符,检测其暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程实现数据电子化。文本分类是通过学习捕捉文本、学习训练文本之间的相互联系,并根据海量文本属性进行判断和分类,以便将海量的文本进行分类。数据判断就是进行海量数据的归纳分析,以进行不同信息的特征提取。语音识别是基于语音识别技术,对档案中的声音、图像资料或者口述史料进行信息提取,转变成数字化数据,录入数字化档案的数据库保存。

3.2.2. 档案管理高效化

随着高校办学规模的进一步扩大,高校档案管理的数据量也呈现爆炸式增长。进一步高效地管理和利用各部门的档案数据给高校档案馆提出了一个新的挑战。其高效性涉及的档案管理和利用的各个方面,像档案文本信息录入、档案数据智能分类、档案信息智能检索。人工智能技术在面对海量信息进行处理时,其采用深度学习的信息分析、判断、归纳和提取能力,比传统的档案信息处理具有更大优势。西班牙的国家图书馆借助与人工智能技术,将350名作家使用的精选词语与匿名作品很容易地进行对比,以确定作品的作者身份 [9] 。辽宁大学王志宇采用机器学习技术,针对《黑图档》档案进行数据挖掘分析,借助文本分析和可视化方法,对比和分析了大量的数据,解决了《黑图档》档案数据知识表示和自动化分类问题 [10] 。

3.2.3. 档案信息安全化

目前,人工智能技术已经渗透到各个领域,档案信息安全化也成了档案管理的一个重要任务,也是档案管理的一个难点。相对来说,ChatGPT可以帮助档案管理者更加高效地实现档案保护和安全,利用人工智能技术对档案信息进行备份与恢复,能够防止因自然灾害、黑客攻击、断电断网等情况对档案造成损害。

4. ChatGPT对数字化档案资源建设的挑战

4.1. 存在数据质量问题

ChatGPT主要是基于深度学习技术的语言模型,其学习训练方法需要大量的数据信息,对数据集信息进行分析、判断和提取特征信息。因此,数字化档案资源中收集的数据信息质量会直接影响ChatGPT的生成数据,如果档案资源中的学习训练数据集质量不好,甚至有问题,将直接影响ChatGPT生成数据的准确性和稳定性。尤其是数据涉及到与政治相关时,虽然ChatGPT会提示“作为一个大规模语言模型,不会发表政治性的言论”,但在一些争议性话题上,却具有较强意识形态偏向,例如问询“台湾与中国的关系”问题。

4.2. 存在知识产权难题

ChatGPT发布后其传播速度非常惊人,用户数按指数方式增长,一个星期内注册用户超过100万,两个月后,其月活用户数突破1亿,超过了TikTok 9个月破亿用户量,也创下了互联网最快破亿用户纪录。越来越多的用户利用ChatGPT满足个人需求,例如通过咨询和检索信息以生成相关数据,达到撰写论文、编写程序、设计方案等要求,采用这些生成的数据,达到撰写论文、编写程序等内容能否作为当事人的知识产权,是否侵犯到其他人的知识产权,值得我们思考。

4.3. 存在数据安全威胁

因ChatGPT在产生生成式数据之前,需要利用大量的文本数据进行学习训练和处理,因此涉及隐私和安全问题。当用户使用ChatGPT检索与个人爱好相关信息时,ChatGPT也会记录下个人兴趣爱好等相关信息,从而促使ChatGPT成为最“懂”用户的角色,洞悉用户的个人行为、偏好、性格等。研判和分析个人喜好,揭露性格缺陷,因此,用户个人的私密信息会毫无保留地展示给ChatGPT,也暴露给ChatGPT产品的所属企业。因此,在数字化档案资源建设过程中,如果用户个人或组织的数据泄露或被不法分子恶意利用,将会对个人隐私和组织安全造成严重的威胁

5. ChatGPT与数字化档案资源建设的应对策略

5.1. 加速数字化档案资源数据库建设

2021年,中共中央办公厅、国务院办公厅印发发布的《“十四五”全国档案事业发展规划》文件,指出利用人工智能技术推动数字档案资源建设。相对传统的档案管理工作,ChatGPT能够容易和快速的处理海量数据,能够进行学习训练、归纳、判断和提取,根据用户需求生成用户需要的数据信息。在建设基于ChatGPT的高校数字化档案信息过程中,首先利用ChatGPT对语言处理的能力,进行高校档案数据的分析和判断,提取档案关键数据信息,生成信息摘要;其次是建立档案数据间的相互关联,整合分析所收集各个方面的档案数据,采用数据挖掘技术,设置关键词,进行数据统计,剔除敏感的或非法的数据信息,对违禁信息实行过滤和屏蔽,以建设成一个基于ChatGPT的数字化的档案管理系统。

5.2. 促进数字化资源的安全体系建设

在生成式人工智能时代,数字化资源建设的信息隐私和数据安全已成为相当重要的考虑因素。数字化档案管理也需要考虑技术、政策等多方面所带来的档案数据安全保护。基于ChatGPT的数字化的档案建设下,用户在检索或查询提交请求信息时,可能在没有防备或警觉时,输入的个人隐私信息会泄露。OpenAI的使用条款规定,OpenAI能够对用户输入和输出信息拥有使用权,也就意味着在使用数字化资源时,没有对用户输入的机密信息提供保护。安全专家也发现ChatGPT等工具可能会扩大黑客的群体规模,可能会对数字化资源建设的网络安全造成极大的威胁。

5.3. 健全网络伦理问题和法律保障体系

在基于ChatGPT的数字资源建设过程中,要健全大数据法律法规制度,制定与安全应用相关的规则,建立网络伦理管理问题,保证用户的合法权益。例如采用ChatGPT技术的文档审核过程可能会涉及到用户的隐私权和言论自由。有可能个别用户会通过刻意提问,诱导ChatGPT生产不良的数据,ChatGPT学习训练了不良的模式,输出带有偏见、歧视和意识形态问题等的不良言论。也可能引导用户出现“信息茧房”问题,导致用户认知受限,很难做出理性思考,因此,基于ChatGPT的数字资源建设过程中需要制定相应的法律法规保障体系,保障人们的权利和利益。

综上所述,加速数字化档案资源数据库建设,促进数字化资源的安全体系建设,健全网络伦理问题和法律保障体系,能够促进ChatGPT在数字化档案资源建设的成效,进一步提高现代档案管理的智能化程度。

基金项目

2023年度湖南省社会科学成果评审委员会项目(人工智能技术赋能线上浸入式教学变革探索,XSP2023JYC227)。

NOTES

*通讯作者。

参考文献

[1] 教育部. 教育部关于印发《教育信息化十年发展规划(2011-2020年)》的通知[EB/OL]. http://www.moe.gov.cn/srcsite/A16/s3342/201203/t20120313_133322.html, 2012-03-13.
[2] 国务院. 国务院关于印发《新一代人工智能发展规划》的通知[EB/OL]. https://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm, 2017-07-08.
[3] 陈晋. 人工智能技术发展的伦理困境研究[D]: [硕士学位论文]. 长春: 吉林大学, 2016.
[4] 陶雪琼. 人工智能时代人机社会性交互设计研究[D]: [硕士学位论文]. 无锡: 江南大学, 2020.
[5] (2016) Preparing for the Future of Artificial Intelligence. https://obamawhitehouse.archives.gov/blog/2016/05/03/preparing-future-artificial-intelligence
[6] The Electronic Fron-tier Foundation (2017) Measuring the Progress of AI Research. https://www.eff.org/files/AI-progress-metrics.html#Vision
[7] 李开复, 王咏刚. 人工智能[M]. 北京: 文化发展出版社, 2017: 5-25.
[8] Marr, B. (2023) The Difference between Generative AI and Traditional AI: An Easy Explanation For Anyone. https://www.forbes.com/sites/bernardmarr/2023/07/24/the-difference-between-generative-ai-and-traditional-ai-an-easy-explanation-for-anyone/?sh=7f9799bc508a
[9] 冯宇, 苏博川. 基于ChatGPT的智慧档案管理系统与安全策略[J]. 档案, 2023(8): 23-29.
[10] Wang, Z.Y., Wu, J.Y., et al. (2021) Text Analysis and Visualization Research on the Hetu Dangse during the Qing Dynasty of China. Information Technology and Libraries, 40, 1-23.
https://doi.org/10.6017/ital.v40i3.13279