1. 引言
1.1. 研究背景
随着一体化算力网络国家枢纽节点的建设和“东数西算”工程的加快实施,计算和网络的融合走向深水区[1]。云–边–端结合的泛在计算模式兴起[2],算网融合成为一种重要的技术趋势,对跨域分布式算力高效管理和敏捷运营提出了迫切需求。
在国家层面,算力网络被列为数字经济的重要战略发展方向,并已进行全面布局规划。2021年12月,国务院印发的“十四五”数字经济发展规划提出了到2025年数字经济核心产业增加值占GDP比重达到10%的发展目标,数字化建设迈向全面扩展期[3]。规划明确指出,布局一体化算力网络、建设智能算力、推动云网协同和算网融合发展,打造新型智能基础设施的重要基石,标志着算力网络发展趋势已不可阻挡。2023年2月,中共中央、国务院发布《数字中国建设整体布局规划》,系统优化算力基础设施布局,促进东西部算力高效互补和协同联动,引导通用数据中心、超算中心、智能计算中心、边缘数据中心等合理梯次布局[4]。这些政策不仅强化了算力网络在国家新基建中的战略地位,更通过跨区域资源协同、异构算力智能调度等方向性要求,推动算网运营技术创新突破。
在企业层面,近几年企业数字化建设加速,对算力资源的要求日益提高,面临着算力与网络环境多样性带来的业务与算力匹配决策复杂、耗时的问题,响应速度缓慢,时间成本高昂。此外,传统算网业务开通模式依赖人工参与,难以满足海量业务数据即时分析与处理的需求[5],从规划到建设、再到使用的周期冗长,同时,预先占用资源的资源服务模式容易导致资源闲置浪费,利用率低下,增加了资源与时间的双重成本。随着数字化进入深水区和智能化加速发展,算力、应用、业务等方面数量庞大、架构复杂,导致专业运维难度大、人力成本居高不下,严重制约企业数字化的可持续发展。近年来,各电信运营商开启了以云网融合为目标的网络转型,中国移动构建“连接 + 算力 + 能力”新型信息服务体系,以算力为创新因素,推动算网产品创新发展;中国电信融合网络、连接、算力等全要素,打造标准化、全系列、一站式的算网产品解决方案;中国联通构建以算力为核心的一体化算网融合生态体系[6]。在云网融合业务模式下,以云为中心,打通各类接入云计算数据中心的网络连接,网络承载以下行流量为主的云端互连,实现了云上资源、服务、内容自上而下的调用,提供服务能力。
1.2. 传统方式的局限性
算力网络与传统的云计算、多云管理等技术存在显著差异与挑战,在算力类型上更加多样化、泛在化,不仅包含通用算力,还包括对超算算力、智能算力、端算力的支持;在资源分布上更加分散,涉及跨地域分布的云、边、端等各级算力资源节点,需要在边缘计算、云计算以及网络之间实现云网协同、云边协同、甚至边边协同,以实现资源利用的最优化[7];在应用模式上更加多样,云边端协同和任务式服务成为核心能力。相比之下,传统云计算或多云管理主要以资源式服务为主,即先申请资源然后自助使用,这种模式给算力网络的高效运营带来重大挑战,主要体现在以下几个方面:
首先,方案设计阶段存在业务与算力匹配问题。算力和网络环境的多样性使得选择与业务需求相匹配的算力和网络资源的决策过程复杂且耗时。传统方式依赖人工决策,难以快速应对复杂场景。例如在云边端多级算力资源管理中,云边端算力资源具有异构性强、地理分布的广泛性以及网络环境复杂性的特点,如包含高性能的云服务器、低延时的边缘服务器以及低成本的用户终端设备等,资源管理和调度更为困难,人工难以准确评估每种资源的计算性能[8]。此外,业务应用的计算任务类型也复杂多样,涵盖了深度学习推理、数据处理、视频编码等,不同类型的任务对算力的需求差异较大,业务运行不仅需要足够的算力,还需要配套的存储能力、网络能力等联合保障用户体验[9],在人工设计方案时,很难精确地将这些任务与合适的算力资源进行匹配。网络状况的动态变化进一步加剧了传统人工决策方式的局限性。业务流量的波动、网络故障等情况随时可能发生[10],而人工设计的方案往往难以快速适应这些变化。在网络出现异常时,人工决策也无法迅速调整数据传输路径,从而影响业务的正常运行。因此,需要引入大数据和人工智能等智能化技术手段,提高方案设计的准确性和效率,辅助人工决策。
其次,方案开通阶段的资源服务模式存在僵化问题。传统资源服务模式中,资源申请开通和方案部署使用分离,导致业务上线周期长,并易引发资源闲置浪费问题。不同架构的应用在管理上复杂性较高,其全生命周期包括发布、审核、开通、变更、下线等,并且在方案中需要针对不同应用指定相应的部署方式和性能要求[11],这给算力与网络资源的开通和应用的同步部署带来了挑战,需要大量人工参与,影响业务开通效率。
最后,业务上线后运维难度较大。应用的多样化与云边端架构的复杂性增加了运维难度,业务应用可能在云、边、端等各级算力节点上运行模块进行协同,需要采用智能化和自动化等技术手段准确掌握资源与业务的运行状态,提高故障识别准确率和业务恢复效率,保障业务运行质量,并为进一步优化提供基础。
2. 关键业务流程分析
Figure 1. Key business processes
图1. 关键业务流程
针对上述问题,本文聚焦算力网络运营的关键流程设计,通过将大模型、精益流程和数字孪生仿真等技术应用于算力网络运营,提升算力网络从方案规划到精益执行、到运行优化的全过程自动化能力,解决业务与算力匹配、资源服务模式僵化、运维难度大的问题,如图1。
2.1. 设计阶段
Figure 2. Solution assistant
图2. 解决方案助手
在设计阶段主要实现客户业务需求与算力网络资源的匹配方案设计,需要深入分析客户业务需求,进而设计出满足业务需求的算力与网络分配方案。由于算力网络涉及公有云、私有云、边缘云、端算力和智能算力等各类异构算力,具有跨地域、跨网络环境等特点,同时客户业务需求中涉及的数字化应用覆盖研发、设计、生产、运营、运维等各个场景,应用架构复杂,中间件与依赖库版本众多,云边端协同架构成为新的技术趋势,在架构上存在更广泛的跨域分布特性,用户在进行解决方案设计与决策时面临较大困惑,严重影响方案规划设计与决策效率。
结合当前的大模型技术,我们在意图分析和方案生成环节引入AI辅助能力,基于大模型对用户需求的理解以及算力网络运营知识库的支持,快速生成满足客户业务场景需求的推荐方案。然而大模型在面对算力网络运营领域中的专业知识时同样面临着诸多挑战。首先就是通用模型中的专业知识缺乏导致生成虚假信息的问题,算力网络运营涉及大量的专业数据,如跨云边端的CPU、GPU、FPGA、ASIC等各类异构算力资源,5G、WIFI、工业以太网、5G专网、以太网、广域网、光网络等各种不同协议和带宽网络资源,物理层、虚拟层、应用层等上千种性能指标,各类的告警事件以及面向不同行业的专业应用和业务解决方案等。这些私有数据未包含在大模型的训练数据集中,因此生成的方案也与实际的算力网络运营业务相差甚远,难以满足用户的业务需求。针对此问题,本文采用当前主流的检索增强生成(Retrieval-augmented Generation,简称RAG)和Fine-Tuning技术,通过使用算力网络运营数据构建外部专业知识库,为大模型提供专业知识的输入,同时使用一部分人工标注的高质量数据对模型进行微调,提高对算力网络业务的理解能力。其次是用户提供的大模型提示词表达不精确导致方案生成准确率不高的问题,算力网络的业务场景需求具有多样性和动态性,在面对不同场景时,用户给出的提示词会千差万别,导致在某些特定场景下的性能不佳、泛化能力有限。一方面,我们结合强化学习技术,让模型在实际运营过程中不断与环境交互,根据反馈调整自身参数,从而更好地适应不同的业务场景和需求变化;另一方面我们通过对典型行业场景进行分析,通过内置高质量Prompt的方式降低用户的参与复杂度,提升对典型场景下的方案准确率。此外,模型可解释性也是一个困扰客户的主要问题。大模型通常被视为“黑盒”模型,难以理解其决策过程和依据。我们通过引入方案评估模块,对不同的方案从算力可行性、网络可行性、应用可行性、成本可行性、业务可行性等不同维度进行评估,为用户决策提供依据,并给出参考的历史典型案例文档,提升用户对推荐方案的信任度。
基于上述分析,我们通过构建基于大语言模型(Large Language Model,简称LLM)的解决方案助手,如图2,在对算力、应用、业务、解决方案等运营数据持续学习形成知识库的基础上,采用RAG、Fine-Tuning、Prompt等方法优化通用大模型在算力网络运营领域的理解,为用户的方案规划设计提供智能化辅助,减少用户的思考和设计时间。
首先,通过对常用典型场景进行分析,内置一批高质量的Prompt,同时针对数字化转型场景,结合工信部发布的《中小企业数字化水平评测指标》[12],通过设计固化流程提供对中小企业数字化转型业务需求和场景的诊断评估。这有助于减少用户因经验不足导致的Prompt不够精确的问题,同时也为模型提供了更准确的输入,从而在一定程度上缓解了数据稀疏性问题对模型性能的影响。例如,针对用户当前的数字化水平,从数字化经营、数字化成效、数字化管理、数字化基础等四个方面进行综合评估,根据诊断评估结果结合运营知识库内容,由大模型为用户提供精准的可改进方案。用户可根据需求选择不同级别的套餐进行订购,订购后支持实现应用套餐的自动化推荐和开通。大模型助手可根据用户的业务需求描述,进行最优方案的推荐和生成,为用户提供一站式的解决方案优化和定制能力,如应用部署方案,通过结合客户使用场景需求、算力资源状态、应用自身特征和规格描述,对应用的部署模式和方案进行合理的建议。
其次,为解决通用大模型在理解算力网络运营相关知识的不足的问题,提升对算力网络运营内容的理解能力,我们在系统中采用RAG技术为大模型提供算力网络运营相关的上下文信息,以增强生成过程[13],这主要通过人工标注后的高质量算力网络运营知识内容实现。同时在生成时采用优化后的定制Prompt对上下文和查询进行整合,降低因用户Prompt经验不足导致的查询不精确问题。例如,在诊断评估场景中,可以在用户输入的基础上定制Prompt内容,增加更明确的要求,如:“{{用户输入内容}},请基于《中小企业数字化水平评测指标》,结合上面的内容从数字化基础、管理、经营、成效四个维度对当前企业的数字化状态进行分析。”
通过在通用大模型基础之上进行算力网络、应用、业务、方案、数字诊断等领域知识内容的训练和微调,构建面向算力网络运营方案的专用智能助手,为用户提供便捷灵活的互动式方案设计过程。同时,将优秀的行业实践、业务方案、流程架构融合到大模型中,形成可即开即用的Prompt提示词和问题库,如数字化应用推荐与自动化部署方案推荐等。这种针对特定领域的训练和微调过程,是一种有效的提升模型泛化能力的方法,使模型能够更好地应对不同类型的算力网络任务和场景。简单场景需求下用户只需点击快捷链接,即可轻松开启该类型方案的新会话,通过对话或答题的方式,大大降低了因用户Prompt经验不足导致的生成结果不精确的问题。
另外,在方案评估环节,一方面由解决方案助手利用历史数据和行业标准从算力可行性、网络可行性、应用可行性、成本可行性、业务可行性等方面对方案进行静态评估,确保方案的有效性,如图3。其中,算力可行性是指方案中推荐的云边端算力资源分配是否满足方案中应用的要求;网络可行性是指跨域的算力间网络在连通性、带宽、时延方面是否满足业务的要求,如视频分析场景中的推理时延小于1 s,要求网络时延不大于10 ms;应用可行性是指方案中的应用组合及其应用的依赖环境是否可行,是否具有互联互通的开放能力;成本可行性是指方案中的算力、网络、应用的综合成本是否在可行范围内;业务可行性是结合典型案例和场景评估当前业务目标是否可行。另一方面由人工参与评估确认,通过与解决方案助手交互进行互动式评估,指导解决方案助手优化方案中的问题,并从解决方案助手生成的多个方案中选择满足当前业务需求的方案。最后由解决方案助手根据评估结果和用户意见调整并最终确定可执行方案。
Figure 3. Solution feasibility evaluation
图3. 方案可行性评估
2.2. 开通阶段
完成最终可执行方案后,进入自动开通阶段,通过解析方案内容调用对应的开通流程进行自动化的业务开通。在此阶段主要是涉及流程自动化的执行,我们对流程执行过程进行全方位的监控,并采用精益方法对流程中的浪费问题进行优化,以提高开通效率。
首先对方案进行解析,识别算网资源要求、应用要求和业务要求。其中,算网资源要求是指在哪些算力节点需要开通哪些算力资源和网络资源,如在某公有云申请2台8核16 G内存256 G存储的云主机,并开通5 M的网络带宽,申请并绑定一个弹性公网IP。应用要求是需要构建部署的多个相关应用列表,如大数据处理应用、网络数据采集应用、视频监控分析应用等。业务要求主要体现在可靠性、效率、安全方面,如多副本要求、主备容灾要求等。
然后根据方案解析获得的算网资源要求、应用要求、业务要求,执行相应的开通流程进行方案开通。开通流程初始由人工针对不同场景通过编排功能完成静态设计,然后在执行过程中结合运行情况进行动态优化。其中,算网开通主要负责根据算网资源的要求,自动调用各级算力平台开放的服务接口实现对算网资源的自动化开通,例如调用公有云服务接口开通指定规格的云主机以及开通相关网络策略,此步骤可采用并行执行方式,同时对多个算力网络资源进行开通。算网资源开通后,根据方案要求将应用部署包下发并安装到相应的算力节点服务器上,根据不同的应用类型有不同的构建部署方案,如云原生应用依赖于容器平台进行构建部署、传统程序包类应用则通过解压安装的方式、虚拟机镜像类应用根据虚拟机镜像自动恢复、函数类应用直接下发函数计算平台等。应用部署时需根据业务要求进行相应配置,如多副本、主备、网络访问策略等,从而完成应用的最终构建部署。
传统运营开通模式主要以人为中心,由人工驱动业务流程的申请、审核、资源开通、应用部署等操作,消耗大量人力和时间,在算力集中、应用架构简单时可以应对。但目前云边端协同需求强烈、应用架构向超级分布式演进,若仍依靠传统模式,在流程中设立审核点,由人工驱动流程,无法满足海量算力、应用的管理要求。因此在开通阶段,我们在流程优化中融合精益思想的五项原则,即基于客户价值主张定义价值、识别价值流动路径、实现价值顺畅流动、建立拉动式生产体系、持续追求卓越运营统筹[14],协调各环节和要素,通过打通算力、网络、应用的各层级接口,建立从方案解析、资源开通、应用部署、网络配置、业务运维的全流程自动化能力,实现流程的自动解析、自动执行、自动重试、自动反馈,提高流程环节的运转效率。同时,通过精益中心主动跟踪流程执行过程,根据流程的精益分析模型,计算每个流程环节和任务的开始时间、结束时间、执行时长、等待时长,从任务组合、并行设计、缓存优化等方面进行流程的精益评估。依托优先级队列管理与智能资源空闲检测机制,结合任务间数据依赖关系图谱,运用启发式搜索与遗传算法等智能算法,制定最优的任务执行序列与时间调度方案。通过动态调整任务优先级、合理分配资源、智能协调任务执行顺序,有效避免任务之间的资源竞争与阻塞,确保任务流的高效顺畅执行。例如,在应用部署环节,基于任务依赖关系图谱,优化应用部署顺序,在流程启动时就开始应用部署包的分发,而不是等到所有算力资源完全开通完成后再开始分发,提高流程效率。在任务组合方面,通过任务打包分类方法,根据任务的目标算力、前置条件、执行方式、执行周期等参数可以将同类任务打包到一起执行。在并行设计方面,通过分析流程中的依赖关系提高并行量,减少非必要的等待时间。此外,在缓存优化方面,对应用镜像、数据、配置等内容在算力网络中根据全局算网拓扑结构进行分布式缓存优化,避免集中式的访问导致的响应缓慢问题,从而加快应用的下发效率。
2.3. 运维阶段
通过开通阶段的执行,我们能够详细的获得方案中的应用部署细节,包括开通的算网资源、应用信息、部署架构拓扑、进程间关系、中间件依赖等。基于这些信息,我们在开通完成后自动根据实际部署拓扑和实例运行关系,构建一个关于算力、网络、应用、服务一体化的孪生模型,并清晰呈现它们之间的关系。通过实时感知各要素的运行状态,孪生模型能够直观展现物理层、虚拟层、应用层、业务层等多个空间维度的信息,实现从数字体验到应用服务再到基础设施的全栈可观测性。这不仅解决了传统模式下业务运行感知滞后的问题,还通过孪生模型提升了隐患识别和故障定位的能力,进一步保障了业务可持续性。
如前所述,基于孪生模型,我们可以方便地进行隐患识别、故障定位、故障处理等一系列运维操作,保障业务高质量运行。此外,将数字孪生技术应用到仿真分析,模拟脆弱点和故障进行运维演练,有助于运维人员更好地理解故障的影响范围和可能的原因,提升业务系统的敏捷性、灵活性,进而实现算网业务一体化感知,提升业务运行健康度检测和分析能力。当业务系统出现故障时,系统利用孪生模型中的关联信息,快速定位故障的根因,结合应急预案迅速采取故障处理措施,快速恢复业务运行,保障业务连续性。
在优化建议环节,根据运维数据生成优化建议,反馈到设计阶段,为解决方案助手提供高价值的历史数据,提供助手的持续优化能力。这些建议不仅包括对现有业务系统的改进措施,还涉及到业务流程优化、资源分配调整等方面。同时,结合精益思想强调消除浪费、提高效率,通过持续改进流程和资源分配,实现业务系统的动态优化。
3. 系统设计方案
在关键业务流程的基础上提出了算力网络运营平台系统设计方案,在算力、应用、事件的基础上构建智能中心、精益中心,从而实现了从方案规划、精益执行和运行优化的全方位运营能力,打造闭环运营路径,为用户提供一致的使用体验,如图4。
Figure 4. Computing power network operation platform system design
图4. 算力网络运营平台系统设计
智能中心应用大模型技术构建智能化的诊断评估、解决方案生成等能力,支持根据用户意图和对话自动生成解决方案。诊断评估是指通过与大模型助手交互,对业务需求和场景进行诊断分析。智能推荐则根据诊断评估的结果,为用户提供精准的可改进方案,用户可根据需求进行订购及应用套餐的开通。方案生成主要由大模型助手根据用户的业务需求描述,进行最优方案的推荐和生成,为用户提供一站式的解决方案优化和定制能力,并通过自动化流程加快应用的上线部署。另外,工具库为大模型助手提供开放的可调度工具;知识库主要提供专业知识和业务知识,保证生成方案的实时性和准确性;智能客服则提供基础的问答能力。
精益中心主要构建精益运营模型,提供对业务方案、资源、应用、流程的评估和设计改进支撑,其中,针对业务方案,主要从使用率、在线率、开通时长、成功率等方面构建模型进行方案质量的评估和优化。对于资源则主要从资源的运行状态、故障情况进行评估,进而优化调度算法和方案,实现资源占用的合理优化。对于应用则主要从服务响应、健壮性、稳定性以及资源消耗等方面进行模型建立和评估,旨在平衡应用性能和资源消耗。对于流程主要从开始时间、结束时间、等待时间、并行率、串行率等方面进行模块构建和优化,以提高流程效率为目标。
此外,平台还包括算力管理、应用管理、业务中心、运营中心等模块。其中,算力管理主要实现对多元异构算力的接入和管理功能,为业务应用的运行提供可信的算力网络环境。应用管理实现对不同架构应用的统一标准化封装,完成对应用的全生命周期管理,包括发布、审核、开通、变更、下线等。业务中心面向使用者提供工作台、方案设计、业务订单、意见建议等功能,用户可以通过工作台对已开通的算力资源、业务应用等对象进行管理,同时通过数字孪生建模构建全方位的感知监控能力,实现业务运行的仿真和优化。运营中心提供统一的运营操作入口,用户可使用算力地图、应用中心、解决方案、运营分析等功能,完成运营活动的各项操作。
4. 总结
本文通过算力网络运营的关键流程分析及系统设计,融合大模型、精益流程和数字孪生仿真等在算力网络运营中的应用方法,解决了传统模式下业务与算力匹配、资源服务模式僵化、运营难度大等问题,实现了算力网络的全生命周期运营管理,提高了资源利用率,简化了决策流程,降低了人工依赖,确保了平台的可扩展性和兼容性。然而,平台在大模型准确性、方案可信性及业务场景多样性支持方面仍存在较大改进空间,下一步我们将重点从平台安全等级和隐私防护、强化平台的自主学习能力、增加决策透明度等方面进行优化。