1. 引言
自1997年中共中央、国务院正式提出了实现中医药现代化的工作任务以来,至今,已有26年,经过各位同行、科研工作者的不断努力,中医药现代化任务已经取得了许多令人举目的成果 [1] 。然而,目前仍然有一些问题研究不够深入,还有很多困难与问题等着我们去解决。随着人工智能、大数据、云计算等先进科技的快速发展,特别是最近发布的ChatGPT聊天机器人,这为中医药的现代研究提供了有力的技术支撑 [2] 。
ChatGPT (Chat Generative Pre-train Transformer)于2022年11月30日首次发布,迅速引起了社交媒体和人工智能领域的广泛关注 [3] 。短短5天时间,注册用户数就超过100万,至2023年1月末,仅仅两个月时间,月活跃用户就突破了一亿,成为人类史上用户数量增长最快的消费者应用。ChatGPT的出现,将对很多行业、领域带来巨大的影响与冲击,一是推动产业升级,二是提升劳动者生产力,三是改进生产工具 [4] [5] 。如果能将ChatGPT最新技术应用于中医药科研之中,这将会给中医药现代化带来革命性的影响 [6] 。
本文将先对ChatGPT技术进行简介,再从中医药辅助诊疗系统、中医药知识图谱的构建、中医药文献挖掘三个方面,对中医药现代化现状进行概述,并分析ChatGPT技术将会对中医药现代化现状带来的机遇与挑战,以及作为中医药人我们应该如何应对新技术带来的挑战,以期为中医药的传承和发展提供新的思路和方法。
2. ChatGPT技术
ChatGPT,其全称是生成式预训练聊天机器人,是美国OpenAI研发训练的一款模仿自然语言的应用 [7] 。它本质上是基于人工智能技术驱动的一种自然语言处理工具,可以自动生成自然语言文本,也可以进行自然语言理解。ChatGPT使用了Transformers神经网络架构,通过预训练与微调的两阶段学习模式,接受大量的语料库进行训练,这使得它具备上知天文下知地理的能力,不仅能够流畅的与用户对话,甚至还能撰写邮件、视频脚本、翻译、代码等任务。ChatGPT主体架构遵从“语料体系 + 预训练算法与模型 + 微调算法与模型”的基本模式 [8] ,下面将从工作流程、语料库、预训练算法与模型、微调算法与模型四个维度对ChatGPT技术进行简介。
2.1. 工作流程
在ChatGPT中,当我们输入一句话时,它会对该句话进行分词和向量化处理,然后将向量作为模型的输入。模型会基于之前的文本信息,生成一个新的单词作为输出,这个输出会被添加到已有的文本中,形成一个新的上下文,并用于下一次单词的生成。ChatGPT的工作原理就是将自然语言转换成数字向量,然后利用预训练模型进行预测和生成自然语言文本响应。
ChatGPT的工作流程如下:
1) 分词:将输入文本分成词语,形成一个标记化的序列。
2) 向量化:将分词后的序列转换为数字向量,这个向量可以被计算机理解和处理。
3) 模型预测:使用预训练的GPT模型进行预测,根据之前的上下文和当前输入的序列,预测下一个最有可能的词语。
4) 生成文本:将预测出的词语添加到之前的上下文中,形成新的上下文,然后重复步骤3和4,直到生成所需长度的文本。
2.2. 语料库
ChatGPT的语料库是指用于训练模型的大规模文本数据集,其质量和数量对模型的生成能力和语言理解能力具有非常重要的影响 [9] 。OpenAI使用了大量的互联网上的文本数据来训练模型,这些数据来自于多个来源,包括:
1) 维基百科:OpenAI使用了维基百科上的大量文本来训练ChatGPT模型。这些文本涵盖了多个领域的知识,包括历史、科学、文化、艺术等。
2) 互联网论坛和社交媒体:OpenAI从互联网论坛、社交媒体等渠道收集了大量的文本数据,用于训练模型。这些数据包括了日常对话、问题解答、新闻报道等多种类型的文本。
3) 其他公共数据集:除了维基百科和互联网论坛和社交媒体外,OpenAI还使用了其他公共数据集来训练ChatGPT模型。这些数据集包括新闻报道、小说、学术论文等多种文本类型。
总的来说,ChatGPT的语料库非常丰富和多样化,这使得模型能够对各种自然语言文本进行有效的理解和生成。
2.3. 预训练算法与模型
ChatGPT使用了GPT-3预训练模型,它是目前最大的预训练语言模型之一,参数数量达到了1.75万亿 [10] 。在预训练阶段,通过大规模无标注语料学习,形成GPT-3基础模型与Embedding模型。预训练目标是让ChatGPT学习到自然语言的语法和语义,同时也能够生成连贯、流畅的对话内容,为ChatGPT在自然语言理解与生成、上下文学习、文本向量表征等方面奠定基础 [11] 。
与其他常见的预训练算法和模型(如BERT、RoBERTa、XLNet等)有许多相似之处,它们都使用了大规模的语料库进行训练,并使用了Transformer架构来学习自然语言文本的表示。但是,ChatGPT的模型参数和预训练任务的设计与其他模型略有不同,它主要用于生成与用户进行交互的自然语言文本。
2.4. 微调算法与模型
将预训练的GPT-3基础模型,通过使用高质量微调语料、人类监督强化学习技术,在特定任务的数据集上进行有监督的训练,以获得更好的性能,激发多种自然语言生成能力 [11] 。微调ChatGPT通常需要两个步骤,首先,需要根据具体的任务选择合适的微调数据集,并将数据集转化为模型的输入格式,其次,需要在微调数据集上进行训练,以调整模型的参数来适应特定的任务。在微调过程中,通常需要调整学习率、迭代次数等超参数来获得最佳性能。
在预训练GPT-3模型的基础上,OpenAI主要使用了三个微调模型:
1) Codex模型:代码生成与代码理解。
2) Insert&Edit模型:可以根据对话的上下文,插入和修改生成内容。
3) InstructGPT + RLHF模型:使生成的内容更加合理,符合人类常识。
在训练完成之后,ChatGPT通过微调的方式应用于各种NLP任务,例如编写代码、生成对话、问答系统等。
3. 中医药现代化的成果与现状
中医药现代化,在中国已有近三十年的历史,通过与现代科学技术(如人工智能、大数据、自然语言处理等)相融合,研发了很多中医药辅助系统、平台,提高了中医药的研究和应用效率 [12] 。下面将从中医药辅助诊疗系统、中医药知识图谱的构建、中医药文献挖掘三个方面,以点带面,对中医药现代化成果进行概述。
3.1. 中医药辅助诊疗系统
中医药辅助诊疗系统是指通过自然语言处理、数据挖掘、人工智能等技术,能够在中医药理论指导之下,根据四诊信息实现辨证论治的计算机系统,可以为患者提供智能化的诊断和治疗建议,同时也为医生提供参考。
在一代代中医人和计算机人的不断努力下,中医药辅助诊疗系统取得了许多研究成果 [13] 。例如,有研究团队针对痛风、心绞痛、糖尿病、乳腺癌等疾病开发了相应的中医药辅助诊疗系统,能够为临床医生提供辅助决策和治疗方案,此外,也有研究使用中医药辅助诊疗系统对中风等疾病进行干预和治疗,取得了一定的效果。以下是其中一些比较有代表性的系统:
1) 中医国医大师智能诊断系统:该系统是由中国中医科学院与北京中医药大学合作研发,基于自然语言处理和深度学习技术,为患者提供智能化的中医药诊疗服务。该系统已在北京中医药大学附属医院等多家医院得到应用。
2) 中医临床大数据分析与辅助诊疗平台:该系统是由南京中医药大学研发,基于人工智能、大数据等技术,为患者提供个性化的中医药诊疗方案和健康管理服务。该系统已在南京市中医医院等多家医院得到应用。
不过由于中医药知识体系的复杂性以及相关计算机技术的局限性,使得大部分中医药辅助诊疗系统面向单一、少数病种或分科,其诊疗的辨证推理能力不够精确,没有完全拥有“理法方药”、“四诊合参”等功能,目前大部分尚处在实验室阶段,仅个别系统应用于临床实践中。
3.2. 中医药知识图谱的构建
中医药知识图谱是将中医药领域中的实体(如中药、疾病、中医证候等)及其属性以及它们之间的关系进行建模和存储的知识库,以图谱的形式直观展示这些实体和它们之间的复杂关系 [14] 。其中,实体是指中医药领域中具体存在的事物,如药物、方剂、疾病等;属性是指实体的特征,如药物的成分、功效、副作用等;关系是指实体之间的联系,如疾病与证候、证候与药物等。利用知识图谱等技术手段来对中医药知识进行建模和表达,则可以帮助研究人员更好地组织和理解中医药相关的知识。
经过10数年的发展,国内研究人员已经开发了数款中医药知识图谱,例如,中国科学院计算技术研究所和中国中医科学院合作开发了中医药知识图谱,该知识图谱包含了中医药相关的各种实体、属性和关系,并基于这些实体和关系构建了中医药本体。该知识图谱可以用于支持中医药的自动化分析、决策和推理等应用,并通过知识图谱搜索、问答等方式提供中医药智能化服务。
然而,目前开发的中医药知识图谱存在数据质量不高、模态单一、推理决策准确率低等问题,使得中医药知识谱图没有能够得到企业与高校的广泛应用 [15] 。且主要通过人工构建,人工构建需要大量的专家知识和时间成本。
3.3. 中医文献挖掘
中医文献挖掘是指利用计算机技术对中医药相关文献进行自动化、高效率地检索、分类、提取和分析等处理过程 [16] 。它的主要任务包括中医药文献的数字化、文本处理、知识挖掘、语义分析等方面。
中医药学是中国传统文化的重要组成部分,有着悠久的历史和丰富的文献资源。近年来,随着计算机技术的快速发展,中医文献挖掘成为热门研究领域之一。有研究者通过文献挖掘技术,分析《黄帝内经》中关于针灸治疗的文字,总结出了针灸治疗的基本理论和方法,以及治疗各种疾病的具体经验。也有研究者运用文献挖掘技术,对《伤寒论》中的临床案例进行分析,挖掘出了治疗伤寒病的常用方剂、常见症状、临床规律等信息。更多的研究者通过挖掘国医大师、名老中医的用药经验,建立病-证-方药之间关联网络,为治病用药规律研究提供了新的思路和方法。
中医文献挖掘也存在数据获取难、数据质量不高、挖掘方式单一等缺点,目前,大部分研究者也只是对单本书籍、单个医师、单个疾病的用药规律进行挖掘分析 [17] 。没有很好的利用中医药大数据,以实现多维度的数据挖掘。
4. ChatGPT技术下中医药现代化的历史机遇
中医药几千年的历史积累了大量的临床数据和经验,随着ChatGPT技术的出现,我们可以在预训练GPT基础模型上,通过使用高质量中医药语料库、人类监督强化学习技术,在特定中医药的数据集上进行有监督的训练,获得处理特定中医药术语、关系的能力,以高效利用中医药现有的宝贵数据与经验。中医药现代化过程中遇到的各种问题,也有望得到解决。本文将从以下自动实体识别技术、多模态融合技术、决策推理技术三个方面简述ChatGPT技术将对中医药现代化带来的技术革命。
4.1. 自动实体识别技术
随着新算法的出现,通过NLP技术可以对中医药文献进行自动化文本摘要和归纳,包括对海量中医药文献、方剂、病例等进行语义分析和关系抽取,从中自动抽取相关实体和关系,提高中医药知识图谱构建效率和准确性,减轻研究者的工作负担,从而提高中医药的研究和应用效率。
具体而言,GPT模型可以通过对大量中医药相关文献的语言模式和上下文进行学习和训练,来识别和理解中医药术语的含义和用法,并进行规范化处理,得到高质量的中医药数据集。例如,将不同的术语进行同义词归并,将相同的术语进行统一命名等等。这些规范化的结果可以被应用于中医药信息系统、临床决策支持系统等领域,这有助于中医药文献的挖掘和整理,提高中医药研究的效率和准确度,促进中医药研究的进一步发展。
4.2. 多模态融合技术
随着语音识别技术、图片识别技术的成熟应用,为了更好地理解中医药术语之间的关系,可以将GPT模型与图像、声音等多种模态数据进行联合训练。以实现能够进行“四诊合参”的辅助诊疗系统,系统不仅能够通过文字与人对话,还能通过语音、图片等模式与人沟通。可以让患者用最自然、最流畅的方式描述自己的症状,系统能够准确地理解患者的意图,从而提供更准确的诊断和治疗建议。
中医药知识涉及到多个领域的知识,例如文字、图片、音频、视频等,未来中医药知识图谱可以获得不同形式的知识的融合,以提高知识的全面性和精确性,使得中医药知识图谱的质量和应用效果得到进一步提升。
4.3. 决策推理技术
通过不断对GPT模型进行训练迭代,融合了大量中医药知识的GPT模型,中医药知识表示和推理的精度和效率将不断提高。新的系统可以学习八纲辨证、六经辨证、脏腑辨证、卫气营血辨证、三焦辨证等多种辩证体系,根据需要采用多种辨证方法综合辨证,以提高辩证的准确性。
新的算法可以因人因地因时制宜,分析患者的病情、生理特征、身体状况、生活习惯,为患者提供更加精确的治疗方案,从而提高治疗效果。中医药知识图谱的应用推广也将逐渐扩展,不仅仅局限于研究领域,也将应用于医疗领域和健康管理领域等,帮助人们更好地了解中医药知识,提高中医药的治疗效果和保健效果。
5. ChatGPT技术下中医药现代化面临的挑战及其探讨
新技术的出现,给中医药现代化带来机遇的同时,也给中医药工作者带来了一些新的挑战。
5.1. 人才培养
人才是中医药现代化的重要保障,中医药现代化离不开各行各业、各领域以及全世界的优秀跨界人才的支撑 [18] 。随着中医药现代化的进程不断推进,对于计算机、中医复合型人才的需求也越来越大,他们需要掌握计算机科学与技术的基础知识,包括编程、数据结构与算法、数据库技术、机器学习、自然语言处理等相关领域的知识;同时也需要掌握中医药的基础理论、中药药性、方剂、诊断治疗等临床知识。这类人才具备将计算机技术应用于中医药领域的能力,能够参与中医药文献挖掘、中医药知识图谱构建、中医药辅助诊疗系统开发等相关工作,推动中医药现代化进程。
我们应该加大对中医、计算机复合型人才的培养力度,解决交叉学科人才缺乏的问题。可以通过以下方式:
1) 推动中医药教育现代化:在中医药教育中,应加强计算机科学、信息科学、数据科学等相关学科的教学,让学生了解和掌握现代科技在中医药领域中的应用。
2) 加强中医药与计算机相关科学的交叉研究:建立中医药与计算机科学、人工智能、数据科学等学科的交叉研究平台,促进两个领域的交流和合作,提高研究水平。
3) 建立行业与学校的紧密联系:让学生有更多机会参与实际工作,掌握现代技术的应用,提高实践能力和专业水平。
5.2. 术语规范
中医药术语规范是中医药现代化的重要组成部分,也是中医药智能化的前提之一,它可以帮助机器更准确地理解和处理中医药相关的信息。在中医发展的历史长河中,由于时代不同或医家习惯各异,医案术语形式多样,术语具有其特定属性如一词多义、歧义词、多词一义等比较棘手的文法现象,且古今语法构成灵活多变,缺乏统一的规范 [19] 。这会给医生和研究者带来很大的困扰,同时也会限制中医药知识的共享和传播。
随着中医药现代化和智能化的不断发展,为了统一中医药术语的使用,我们应该加强中医药术语规范化的建设。虽然,中医药管理局已经发布了“中国药典”、“中医临床诊疗术语”等规范文件,取得了一定的成就。但是在“问诊客观化”、“症状体征”等术语方面还没有制定出标准化的方案 [20] 。
5.3. 算力成本
随着训练语料库的扩大和参数数量的增加,预训练模型可以获得更好的泛化性和准确性。但是,这是以巨大的财力支撑、硬件算力支持为前提的。在训练ChatGPT-3这样的大型模型时,OpenAI使用了超过1万个GPU、28.5万个CPU和多达300PB的存储空间,同时,训练时间也非常长,据报道,训练ChatGPT-3花费了数月的时间,训练费用可能高达数百万美元 [21] 。
目前,只有少数大公司才能够承担起这种高昂的算力成本,我们应该积极与商业公司寻求合作,通过量化、剪枝、蒸馏等方法对模型进行压缩 [22] ,研发出更加轻量的预训练语言模型,以减少算力成本。现在也有很多云计算平台提供了预训练模型的服务,使得我们访问这些模型变得更加容易和经济。
6. 总结
中华人民共和国成立70周年以来,在中医药事业方面成就极为辉煌,在教育方面,培养了众多的新一代中医药人才,在临床医学服务及基础医学研究方面也取得了举世瞩目的科学业绩 [23] 。ChatGPT技术的出现,这为中医药的现代研究带来了前所未有的历史机遇与挑战,我们应该把握时代机遇,克服挑战,积极跟进最前沿的技术,为中医药的传承和发展做出应有的贡献。
基金项目
贵州省中医药管理局中医药、民族医药科学技术研究课题《基于医案挖掘的中医脏腑辨证系统》编号QZYY-2022-003。