1. 引言
学籍档案是高校档案中的重要部分,也是高校档案中利用者涉及人数最多、利用频次最多的档案种类之一。对档案利用者的研究是提升档案利用服务水平的有效方法。而对于学籍档案来说,由于利用者的分散性和复杂性,传统的研究方法效率较低。本文尝试结合高校学籍档案的特征,运用用户画像技术研究档案利用者的特征及其在提升档案服务水平上的作用。
2. 用户画像技术的内涵、研究现状和方法
用户画像是由“交互设计之父”Alan Coop提出的,是“表达真实用户的虚拟代表”。是指通过一定的算法对用户的特征进行分析抽象,得到刻画用户特征的模型。构建用户画像就是用户的信息数据进行建模的过程,目的是得到可以描述用户个人属性、行为偏好、接受服务倾向等的模型,同时通过对于相关特征进行统计、挖掘和研究发现用户信息中的规律和特征,最终的目标是突出用户在系统中的主体作用。
目前对于用户画像的研究主要分为在理论研究和应用实践两个方面。其中用户画像的理论研究主要集中在用户画像标签提取以及数据挖掘研究和用户画像构建常用的技术和算法。例如:高广尚[1]运用文献研究法,梳理了国内外目前研究中主要的用户画像构建方法,并对不同的构建方法在逻辑思路、性能特点和局限性等方面进行了对比;巨星海[2]等阐述了用户画像研究中被广泛关注和运用的“名实体识别”等四种关键技术的研究现状,并对用户画像技术面临的挑战和机遇做出总结。
用户画像目前主要应用于交互设计或电子商务、教育培训、旅游产业等商业运营领域中。近年来有学者开展了将其应用于图书馆、医疗健康、科研管理、舆情分析等社会服务领域的研究。例如:胡媛[3]等运用用户画像技术对数字图书馆知识社区用户进行画像和建模分析,使图书馆用户的特征得以鲜明和准确的体现和处理,为数字图书馆工作人员提供有针对性的服务提供参考;李一男[4]等将用户画像应用于医疗管理流程中,提出“患者画像”的理念,探讨了“患者画像”在医疗卫生领域应用的可行性和面临挑战;莫君兰[5]等运用用户画像技术从科研团队的成果数据中提取原始数据,整理得到合作网络图,通过会网络分析(SNA)方法计算合作网络及属性值,最后得到直观的科研团队画像,并通过某大学的数据验证了该流程的可行性;苏君华[6]等在基于档案馆精准服务研究成果,探索使用用户画像技术作为档案精准服务的抓手和切入点,提出了精准服务的策略以及实现体系;熊回香[7]等以用户画像构建步骤中不断抽象的四个层次入手,构建了面向用户的数字档案馆个性化服务模型并提出了具体策略,为档案智能化提供支持。
3. 高校学籍档案管理的特点
3.1. 高校学籍档案的含义和构成
构成学籍档案是指学生从录取到毕业派遣的整个在校学习其间参加学习、考试、实践等活动的原始记录,通过表格、名单等形式呈现的具有保存与利用价值的材料。根据国家教育委员会、国家档案局发布的《高等学校教学文件材料归档范围》的规定和高校档案管理实际,目前毕业生利用涉及到的学籍档案主要包括:1) 招生计划、录取名册;2) 学生名册、学籍异动(留降级、休复学、转学、转专业、退学等)材料;3) 第二课堂情况和获得证书情况;4) 学生实习计划、实习报告和实习成绩;5) 学生登记表或学籍卡;6) 学生奖惩材料;7) 毕业派遣情况;8) 优秀毕业生材料。
3.2. 高校学籍档案的特点
3.2.1. 档案内容散碎而复杂
高校学籍档案覆盖了学生在校期间人才培养全过程要求的知识和能力点。记录过程中,通过不同的形式(文字、数字和图表以及其他的多种格式)记录学生的知识点掌握情况,形成大量的信息点。信息点构成了教学记录,一个或者数个同类记录构成了教学文件,不同的教学文件按照一定的关系关联起来成为学籍档案。学籍档案具有涉及人数多、包含的记录多、记录联系复杂的特点,管理难度较大。
3.2.2. 档案记录严谨且个体差异大
学籍档案的每一条记录的产生都是以一定的教学文件作为依据、按照规范的流程得到的,其形成的过程严谨,记录内容精确,真实的记录了学生的知识和能力情况。
学籍档案又是随着学生学习活动的动态性而动态的形成。比如学生某门课程考试不及格之后,可能补考通过也可能选择重修,甚至多次重修;如果累计的不及格课程较多,可能跟班试读,也可能留降级甚至退学。所以,对于同一个班级的不同学生,其学籍档案中的组成、内容和复杂程度上存在较大的差别。这种也加大了学籍档案管理的难度。
3.2.3. 兼顾档案历史记录功能和社会服务功能
高校的学籍档案的首要作用是学生学籍方面真实的历史记录。它必须反映了学生在校学期期间真实的情况,形成的过程和内容必须符合历史真实和相关文件的要求,不存在归档内容失真、归档内容不全和利用过程失真的问题。
高校的学籍档案利用还兼具一定的社会服务功能。随着社会对于档案的日渐重视,学籍档案在学生学历提升、就业、晋升、退休等方面均发挥重要作用。但是由于院校和专业调整、人员变动等原因,在学籍档案利用中不可避免的存在一些查找困难、学生对档案内容存疑等情况,而学校作为学生的母校,除了档案的信息检索和复制服务之外,应该提升自己的个性化服务能力为学生提出针对性的建议和帮助,使高校档案部门成为兼具一定社会服务功能的支持系统。
在学籍档案利用的工作实践中,不同情况的利用人呈现鲜明的不同特征。利用人的需求倾向和行为偏好因其角色、离校状态、利用目的等的不同呈现一定的规律性。因此运用用户画像技术对用户进行分析,可以帮助档案工作者更加细致高速地做好档案利用工作。
用户画像技术,通过对学籍档案利用者信息提取,为不同的档案利用者选取适合的标签,运用一定的数据挖掘技术对档案利用者全部信息和特征进行挖掘,抓住关键特征对利用者进行分类。档案服务者可以参考同类型利用者既往的服务经验为学籍档案利用者提供帮助。
4. 学籍档案利用中用户画像的方法和步骤
4.1. 学籍档案利用业务流程分析
随着档案信息化的发展,很多单位已经部分或者全部完成了档案信息化工作,为了保证用户画像能够与现有档案系统相适应,必须需要对现有的学籍档案利用业务进行分析。业务流程分析的主要目的是明确学籍档案管理中信息流动的路径。我们需要弄清学籍档案利用业务的种类,申请业务的权限和需要提供的证件,每种业务标准的检索关键词和形成的材料,不同档案材料之间存在怎样的逻辑关系等。
4.2. 用户原始数据的提取
首先要明确用户的角色。常见的用户角色有校内单位、毕业生本人、毕业生委托人、毕业生关系人(用人单位、深造单位、社保中心、公证处等)。对不同角色利用者根据不同的提纲提取和收集数据。提纲的确定丰富经验的档案工作者和用户画像系统设计者共同探讨给出并在运行中不断的修正。用户的原始数据提取重点要突出准确性和全面性。通过档案利用者本人填写和确认、适当增加冗余数据等方式尽可能提高原始数据的准确性。要提高原始数据获取的全面性,这些原始数据包括利用者的个人信息、档案利用者的行为日志信息、档案利用者的网络情境信息等方面。要充分的考虑到现有各种途径。利用者个人信息可以由利用者注册账户或者电话咨询时本人提供。档案利用者的行为日志信息可以由用户交互系统收集和电话咨询记录整理,主要包含利用者档案咨询查找过程中的咨询或查阅频率、历史需求档案材料清单、查档路径、关键词选择、相关链接嵌入等信息。
4.3. 要对收集到用户数据进行整理和降噪处理
用户原始数据可以分为结构化数据、半结构化数据和非结构化数据。首先需要工作人员对原始数据进行预处理,对非结构化数据和半结构化数据进行规范,使之可以被计算机识别和处理。由于服务人员的复杂性,提供的数据有可能完全偏离了历史的真实。因此需要对于异常的数据(偏离日常应用实际)进行核实或者删除,对于缺失的必要信息,需要联系档案利用者补充信息。整理后的数据需要建立数据库进行存储,同时需要将用户数据、用户行为数据和用户网络情境数据的数据库有效关联,为用户画像提供数据支持和准备。
4.4. 用户数据签化
用户标签是一种将用户行为、属性、偏好等进行标准化定义的方式,用于描述客户的特征。其标签值具有可分类性。例如对于“离校方式”来说,标签值包含了“毕业”“退学”“结业”等。
用户数据的标签化,是通过对档案利用者的基础信息进行数据处理与分析,提取出用户的特质标签,构建用户模型的过程。信息提取方式主要由两种:第一种是机器提取,这种方式效率较高,而且容易做到标准化。方法是通过运用自然语言处理、文本挖掘、机器学习等技术,从用户基本信息种生成用户标签。机器提取适用于利用者准确知道查询档案所需的关键词内容,能够初步胜任与档案馆数据库人机交流的人员。另外一种是人工提取,由档案管理人员通过阅读档案利用者需求、回顾档案利用者查找和咨询历史等提取出档案利用者的特征。这种方法效率较低、而且不容易做到标准统一。但是对于时间久远的档案利用,利用者记不清检索需要的必要信息,或者利用者年龄较大无法与机器有效沟通的情况;只有通过人工提取才能得到符合要求的数据标签。
4.5. 用户画像的构建
个人用户画像是由一个标签体系来描述的,包含多个标签值。用户画像的构建过程就是建立标签体系并为其提取到合适的标签值的过程。档案利用用户的画像通常包括个人属性标签、行为特征标签和倾向特征标签等。
个人属性标签主要描述用户个人的基本形象。个人属性标签通常包括用户角色、身份证号、离校方式、离校年份、曾就读学院、曾就读专业、入学年份、录取方式、生源地等。主要来自于用户的注册登录信息,同时在运行过程中,可以通过工作人员矫正、档案内容矫正等方式加以修正,以保证个人标签的准确性。
用户的行为特征标签主要是描述该用户在一段时间内对档案利用的内容、频率和目的等特征,主要包括用户咨询历史、档案利用记录、档案的用途等。用户的行为特征标签主要来源自校友的咨询和利用历史。用户的行为特征表现可以在利用数量较大的情况下,迅速的为档案管理者提供备选服务推荐等。
倾向特征标签主要描述的是档案利用人在性格、表达方式、精神状态、体力情况等方面鲜明的个人特征。是比较抽象的都标签,无法从用户本人或者档案内容得到,需要通过对用户个人属性和行为特征属性进行数据挖掘得到的。倾向特征标签可以为档案工作者提示利用者的个性化特征,更好的有针对性的为档案利用者提供服务,提高档案利用的满意度。
群体用户的画像是对多个个体用户画像基础上,运用一定的聚类分析算法,比如K-means算法等,将具有某些核心特征的用户归为某一用户类别。不同类别的利用人,在学籍档案利用中呈现鲜明的不同特征。比如离校方式为“毕业”的学生的成绩单,是毕业前学生所在学院教科办以“毕业生成绩单”为案卷题目立卷存档,可以通过学生的学号、姓名、毕业年份、毕业学院专业等检索获得。而离校方式为“结业”的学生成绩单,在学生最长修业年限内由于学生随时有可能重修,因此无法形成文书档案只能由教学部门随时生成临时成绩单;在学生最长修业年限结束后,根据其是否获得毕业证分别立卷存档。因此某学生如果能够归类为最长修业年限内结业证换发毕业证,则可以在其获得毕业证的年份中检索得到毕业成绩单。
4.6. 基于群体用户画像的学籍档案服务项目和注意事项推荐
通过群体用户画像将学籍档案利用人分类成具有不同特征的群体,在学籍档案服务的实践中不断总结不同特征群体的利用需求、个人特征、解决途径、常见问题等方面的经验,形成面向不同用户群体的详细流程、推荐服务和注意事项。当收到学籍档案利用需求时,通过用户个体画像准确把握该利用人的特征,并将其归入既有的档案利用人群体中。这样即使是档案工作经验不足的工作人员,也可以为利用人提供个性化的服务。化解用户面对学籍档案的利用需求,“不知道要什么,不记得检索词,不知道怎么找”到困境。服务推荐的方法目前主流的方法有:协同过滤法、基于关联规则的推荐和组合推荐等。协同过滤法是一种基于用户相似兴趣的推荐技术,通过找到与该用户相似的用户群体的服务需求,向其推荐档案服务。例如:某人记不清他是什么时候取得的毕业证,使毕业档案的查找无从下手。但是他可以回忆起以前他同班同学某某曾在档案馆查到过毕业档案。基于群体用户画像的学籍档案推荐系统,可以通过这一线索推荐备选的档案服务项目,使查找有了一定的可选范围,档案服务也有了切入点。基于关联规则的推荐是通过挖掘数据库中的关联规则,发现学籍档案需求之间的相关性,例如毕业证勘误的学生,需要提供录取档案和毕业档案作为支撑材料,从而推荐相关的档案组合。利用者完成档案利用后,可以对群体画像推荐的详细流程或者服务做出评价,对于评分较低的我们可以重点进行分析,进一步修正群体画像模型,使之更好的服务档案利用。如图1所示。
Figure 1. The process of user profiles constructing and correcting in college student status archives
图1. 学籍档案系统中用户画像构建和修正流程
5. 用户画像在学籍档案利用的作用
1) 提升学籍档案利用服务水平。具有某些共同特征的档案利用者,在接受档案利用服务时,在需求的档案内容、材料制作要求、特殊情况的处理方法等方面具有一定的类似性。因此通过用户画像技术对档案利用者进行分类和研究,有助于档案工作人员根据用户画像为档案利用者提供个性化、便捷化的服务。于此同时在为每一个档案利用者服务过程中不断的完善和修正用户画像,使每一位档案利用者成为用户画像中的负反馈环节,从而使档案管理系统在运行中可以自调节,提高档案管理的水平。
2) 助力以档案利用者为中心的档案可持续发展策略研究。档案的收集、整理和保管,最终的目的是为了利用。档案利用者的需求被迅速而便捷的满足,是档案可持续发展的根本因素。用户画像技术通过抽象出标签使计算机可以识别和处理档案利用者的信息,从而运用现代技术手段对档案利用者特征及其需求规律展开研究。将档案利用者作为我们改善档案工作的研究对象,以利用者的需求作为档案馆管理和服务提升到出发点,从而为档案可持续发展策略研究提供参考。
6. 结语
本文是以档案利用者为研究对象,探讨了以用户画像方法来描述和研究档案利用者的基本设想,初步设计了个人用户标签体系以及数据信息获得的方法,最后分析了用户画像提升档案利用服务中的作用。值得注意点是,由于包含大量的档案利用者个人隐私、既往的工作经验以及特殊案例的处理方法,档案利用者画像管理一定要非常重视安全管理。本文的局限性在于首先仅以既往服务的记录作为研究的数据来源,没有充分发挥档案利用者的主观能动性,可以尝试针对更有效的用户画像需求设计调查问卷或者座谈环节,使标签的设计或者得到的数据更准确,得到更能指导档案利用工作有价值的研究结论。