1. 引言
1.1. AIGC赋能传统媒介宣传文化
人工智能(AIGC)介入绘画领域,为艺术创作和文化宣传带来了新的可能,结合这些新兴技术的文化周边产品更受消费者的青睐,还能较大程度上降低技术难度和节约成本。
随着科技的飞速发展,人工智能正以前所未有的深度介入绘画领域,不断挑战和重塑传统艺术创作的边界。从艺术发展史来看,绘画形式经历了从原始壁画、雕版印刷到油画艺术的演进,直至今日的数字绘画时代,技术创新始终为艺术创作开辟着新的可能性[1]。
随着人们生活节奏的加快和数字化阅读习惯的形成,传统的文化宣传方式逐渐难以满足大众的需求。新媒体平台的兴起为文化宣传提供了更广阔的空间,市面上常见的贴纸、书签、明信片、色纸、透卡等文化周边产品在文化宣传中借助美观、价格低、便携实用的特性扩大宣传范围,还能唤起情感共鸣,但现在的市场上文化产品的发展,实已相对到达了顶峰瓶颈,目前市场上充斥着大量同质化的设计方案与配套的产品工艺,同样的一套设计方案,批量生产着不同文化的文化产品,这间接体现出目前市场上的文化产品在视觉设计方面的突破,已很难在饱和的情况下再做出什么新的、独特的视觉设计突破,但在媒介形式上,仍然有很多新技术可以带来的创新突破,且结合了新兴技术的文化产品更能吸引受众的关注。如:AR色纸这一结合了新媒体与传统媒介的新型产品,在文化周边产品市场中,相较于普通色纸,因其具有更强的互动性和趣味性,更受消费者的青睐[2]。
1.2. 结合AI技术生成制作“伪Live2D”AR色纸宣传“老北京闹市五味神”
本研究旨在利用AIGC生成技术和AR技术,创作以“老北京闹市五味神”为主题的动画短片及AR色纸周边产品,实现北京传统文化的创新性宣传作用。运用AIGC技术生成高质量的“老北京闹市五味神”主题图像,展现北京人记忆中的五种来自老北京闹市的香味,拟人化成五味神的形象;结合AI视频技术生成“伪Live2D”AI动画片段,在保证动画效果的同时,节省Live2D拆分建模环节;通过剪辑制作完整的“伪Live2D”动画短片,并将其导入AR制作平台,制作出AR短片,印制成宣传色纸,吸引受众关注,宣传老北京闹市五味神文化。
本研究创新性地结合AIGC和AR技术进行“伪Live2D”动画短片制作。目前,AIGC、AR技术虽然在各自领域有一定应用,但将二者有机结合应用于制作“伪Live2D”动画短片,并运用于宣传文化IP形象的研究相对较少。利用AIGC生成图像,可以解决传统动画创作中图像素材获取和创作效率的问题,且能降低使用融合技术时,需要学习多种类技术的学习成本;AI视频生成技术在保证“伪Live2D”AI动画片段动态效果的同时,可以取代传统Live2D动画制作中最繁琐的拆分建模环节,在一定程度上节省了其中的时间、人力成本,为动画制作提供了一种新的经济高效的方式;AR技术的融入,使观众能够通过扫描色纸与动画内容进行互动,增强了作品的趣味性和沉浸感,拓展了文化传播的方式[3]-[5]。
文化传播形式创新上,以“老北京闹市五味神”为主题,通过AR色纸这一新颖的周边产品进行文化传播。区别于传统的文化宣传方式,AR色纸将虚拟动画与现实色纸相结合,为观众带来全新的体验,能够更有效地吸引受众,尤其是年轻群体的关注,提高文化传播的效果[2]。
2. 国内外相关研究现状
国内研究表明,AIGC技术在文化产业中具有巨大的潜力,能够促进文化内容的创新和传播,通过AIGC技术可以对传统文化元素进行创新转化,使其更符合当代人的审美需求[6]。
AIGC即人工智能生成内容,指借助人工智能技术自动创作文本、图像、音频、视频等各类内容的技术,其核心是通过算法让机器具备生成多样化内容的能力。AIGC技术凭借其强大的内容生成能力,为艺术创作带来了全新的可能性,能够快速生成图像、文本等多种形式的内容,极大地提高了创作效率。例如,在动画创作中,AIGC可以自动化生成角色设计、场景绘制等动画资产,缩短制作周期[4]。
近年来,国内学者在AIGC技术应用于文化传播领域进行了大量研究。例如,河南大学出版社的“中华源·河南故事:AIGC数字人传承计划”项目,通过AIGC技术生成数字人,讲述中华故事,推动了中华文化的国际传播[1]。此外,中央广播电视总台制作的《千秋诗颂》系列动画片,也利用AI技术将古诗词与动画形式相结合,实现了传统文化的创新性表达[7]。
在国外AIGC技术在动画创作领域的研究起步早且发展迅速。诸多研究聚焦于利用AIGC技术提升动画制作效率、创新动画表现形式。例如,部分学者运用深度学习算法开发自动生成动画角色动作和表情的系统,通过对大量动画数据的学习,使生成动作更自然流畅。例如:迪士尼在部分动画制作中已尝试借助AIGC技术辅助生成背景和特效,有效缩短制作周期[8]。相关研究还涉及AIGC技术对动画产业的影响,包括为艺术家提供新的创作工具和灵感来源,自动生成角色、场景等元素,提高创作效率和质量,改变传统的创作模式,重塑创作流程,动画师角色转变以及版权保护面临的新挑战等[1] [9]。
Live2D是一种通过骨骼绑定、图像形变等技术将2D平面图像转化为具有3D动态效果的角色动画技术,能让静态插画呈现出眨眼、转头、表情变化等立体生动的动态表现,广泛应用于虚拟角色、游戏、动画等领域。Live2D技术在国内外的应用较为广泛,尤其在日本的动漫和游戏产业中,Live2D技术被大量用于角色动态设计,为虚拟角色赋予生动的表情和动作。
在国内,Live2D技术的应用也逐渐深入,不仅在游戏和动画领域,还在博物馆形象设计等方面进行探索,通过Live2D技术提升文化展示的趣味性和互动性[5]。AIGC与Live2D的结合通过智能化生成与动态交互技术,推动二维角色创作与应用场景的革新,结合的案例也有不少,目前已出现能直接生成Live2D拆分图的AI模型,例如:Stable Diffusion的“LIVE2D-FLUX.safetensors”LoRA模型,能直接通过模型生成角色拆分图,使用者只需将现有的拆分图组装完成,即可获得一个角色模型;以及阿里通义实验室的Textoon项目(2025年)可根据文本描述自动生成完整的Live2D角色,包括分层图像、骨骼绑定和动画逻辑,实现“输入‘赛博朋克风格猫耳少女’即可生成可互动的虚拟形象”的高效生产流程。该技术还集成ARKit的面部混合形状能力,使角色口型同步精度提升30%。
“伪Live2D”并非官方术语,而是行业对非传统Live2D技术的统称。“伪Live2D”是一种通过分层图像、简单动画或其他非专业技术手段模拟Live2D动态效果的技术方案,其核心在于以较低成本实现二维角色的表情变化、肢体动作或场景交互。这种技术通常省略了Live2D的骨骼绑定、物理模拟等复杂机制,转而依赖预设动画循环或基础参数控制(如旋转、缩放),常见于小型游戏、网页交互、虚拟主播简易模型或教育类应用中,例如通过分层图片叠加实现角色眨眼、肢体摆动等基础动态表现,或在2D平面上模拟镜头旋转和背景流动的视觉错觉。尽管其动态细腻度和交互深度不及正版Live2D,但伪Live2D以轻量化和低成本优势,为快速开发或预算有限的场景提供了替代方案。常用的技术方向为骨骼动画替代方案,利用Spine引擎,以骨骼绑定加蒙皮技术为核心,例如《NIKKE:胜利女神》采用Spine制作战斗场景动画,效率比传统Live2D高30%。其优势在于支持复杂肢体动作(如IK约束),但表情控制精度较低。
AR技术即增强现实技术,通过计算机视觉、传感器等技术将虚拟信息(如图像、文字、模型)实时叠加到真实场景中,实现虚实融合的交互式体验,让用户在现实环境中感知和操作增强后的数字化内容。
AR技术在文化遗产保护和艺术展览领域的应用受到了国内外学者的广泛关注,利用AR技术对文化遗产进行数字化保护和展示,让观众能够更直观地感受文化遗产的魅力。AR技术在传统艺术展览中的应用,能够丰富展览形式,通过AR技术可以实现艺术作品的数字化呈现,增强观众的体验感,提供丰富的交互方式,提升观众的参与度[3]。
AR色纸是一种融合增强现实(AR)技术的彩色纸张,其上印有特定图案或标记,用户通过手机、平板等设备的专用APP扫描后,可在屏幕上看到与纸张内容相关联的动态虚拟内容(如3D动画、视频、语音解说等),实现现实画面与数字信息的叠加互动。这种技术将传统静态纸张升级为可交互的载体,常见于二次元文化(如动漫角色卡、签名色纸扫描后显示角色动态特效或背景故事)、教育(教学卡片扫描呈现知识点3D模型)、广告营销(品牌通过AR色纸展示产品细节或促销活动)等领域,通过计算机视觉技术精准对齐虚拟与现实内容,为用户带来虚实结合的体验,兼具收藏、实用与互动价值。
AR色纸作为文化IP与AR技术深度融合的创新周边产品,近年来在二次元、文旅、教育等领域快速发展,成为IP价值延伸的重要载体。国内已有AR色纸的产品品类,但大多为动漫同人创作者的自制产品,市场上暂时还没有商家大规模运用生产此类商品,及运用于文化IP的宣传。
3. 创作主题分析
本研究的创作主题为“老北京闹市五味神”。五味神作为中国传统文化中的独特形象,具有丰富的文化内涵和象征意义。北京闹市五味神融合民俗信仰、美食文化与市井生活元素。其形象代表茉莉花茶香、酒香、药铺草药香、香油芝麻香、梳头油桂花香,承载民众对过往生活的记忆,生活向往、对自然物产感恩及对多元文化包容。作为老北京文化符号之一,见证城市变迁与商业繁荣,凝聚地域精神与集体记忆,是传统文化瑰宝,为创作提供丰富素材与深刻寓意。利用AIGC技术可以促进中华优秀传统文化的传播和智能技术的跨界融合,实现文化“两创”[6]。通过AIGC技术生成关于老北京闹市五味神的图片,并结合AR技术制成互动视频,旨在让观众在欣赏传统文化的同时,获得更加生动、有趣的互动体验。
选本研究的主题意义在于“老北京闹市五味神”作为非物质文化遗产的嗅觉维度,为城市文化记忆研究提供独特视角,弥补传统文字、图像记录对感官体验的忽视,且揭示了商业空间与文化认同的互动关系,解析老字号、手工作坊等传统商业形态如何通过感官符号构建地域文化标识,并且对现代城市更新中文化传承具有实践价值,助力在商业化进程中守护和活化本土文化基因,为留住“城市味道”、增强文化辨识度提供理论支撑。
从文化宣传角度来看,本研究以“老北京闹市五味神”为主题,“老北京闹市五味神”是基于老北京城市记忆形成的典型嗅觉文化符号,指茶叶铺茉莉花茶香、同仁堂草药香、酒铺二锅头酒香、桂花梳头油油香、香油铺芝麻香五种极具代表性的市井气息,它们共同构成了老北京商业闹市中独特的感官文化标识,承载着城市历史、商贸传统与百姓生活的深层关联,是地域文化通过嗅觉记忆传承的活态载体。其核心精神体现为三个层面,一是工匠精神与商业诚信,如茶叶铺“七窨一提”的制茶文化、同仁堂“炮制虽繁必不敢省人工”的制药原则,彰显传统手工业的精益求精;二是市井生活的美学与智慧,从二锅头酒的平民化消费场景到桂花油的日常梳妆文化,展现普通人对生活质感的追求;三是文化共生与身份认同,五种香气交织于闹市,既是不同行业共存共荣的商业生态象征,也成为北京人共同的情感纽带,凝聚着对城市文化的深层归属感。
在艺术创作领域,本研究探索了AIGC技术和AR技术在动画短片制作中的应用,为Live2D动画创作提供了新的思路和方法。通过利用AIGC技术生成图像,结合AI视频生成技术生成“伪Live2D”效果的AI动画,降低Live2D动画制作成本,以及运用AR技术增强作品的互动性和沉浸感,为动画创作的发展提供了有益的参考,推动了动画创作技术的创新[4] [8]。
从商业价值角度出发,AR色纸作为一种创新的周边产品,具有较大的市场潜力。本研究为文化IP的商业化开发提供了新的模式,通过制作具有吸引力的AR色纸,能够提升文化IP的商业价值,促进文化产业的发展[5]。
4. 创作思路
4.1. 方案一:Stable Diffusion + 可灵AI + Kivicube AR
Stable Diffusion是一款图像生成模型,能够根据输入的文本描述生成高质量的图像,是目前相对功能性和自由度较高的AI图像生成模型。Stable Diffusion是2022年由Stability AI推出的开源文本生成图像扩散模型,能基于文字描述生成高质量图像,支持多模态创作并可通过插件实现精准控图。Stable Diffusion对比MidJourney等C端AI图像生成平台的核心优势在于其开源特性与高度可控性,SD允许用户本地部署并自由调整模型参数,通过ControlNet、LoRA等插件可精准控制图像构图、姿势及细节,满足专业设计中对生成结果的精细调校需求;且依托开源生态,用户能免费使用并自定义训练模型,降低技术门槛与使用成本,尤其适合企业级批量生产及个人创作者深度参与创作过程。
可灵AI是快手AI团队自研的视频生成大模型,2024年6月上线,支持生成长达2分钟、30fps、1080p的高质量视频,具备多宽高比适配能力。其采用类Sora的DiT结构,以Transformer替代传统卷积网络,并结合flow模型优化计算效率,能生成运动幅度合理、符合物理世界特性且富有想象力的视频内容,还拥有高表现模式、视频延长、大师运镜等会员专属功能,对比其他视频生成AI平台,可灵的优势在于技术架构先进,生成能力突出,在视频时长、分辨率及动态表现上表现优异。
Kivicube AR是成都弥知科技推出的国内领先在线AR制作平台,通过可视化编辑界面与自研AR底层技术,支持零基础用户在网页端与微信小程序端快速搭建AR场景,实现图像追踪、空间定位、虚实遮挡等交互效果,涵盖商业营销、艺术展览、产品展示等多元场景。相较其他AR平台,其核心优势在于提供一站式无代码创作体验,无需编程即可完成场景布局、素材调整与交互设计,支持一键发布至WebAR、微信AR、小程序AR等多平台,打破设备壁垒;同时,依托丰富的模板库、模型资源及企业级解决方案,满足从个人创意到品牌定制的全场景需求,在技术易用性、生态兼容性与应用灵活性上展现出显著优势。
使用Stable Diffusion生成5张关于北京闹市五味神的图片。通过输入关于与北京闹市五味神相关的元素描述性文本,Stable Diffusion成功生成相对统一的且具有独特风格和细节丰富的图像。以下生成图像分别代表茉莉花茶香(见图1)、酒香(见图2)、香油芝麻香(见图3)、药铺草药香(见图4)、梳头油桂花香(见图5)。
见图6将图片导入可灵1.5,输入Live2D相关的关键提示词,经参数调整优化生成“伪Live2D”动画片段,赋予静态图像动态生命,最终生成了流畅且富有表现力的动画片段,为图片所要传播的传统文化增添趣味活力。
Figure 1. The fragrance of jasmine tea
图1. 茉莉花茶香
Figure 2. The aroma of wine
图2. 酒香
Figure 3. The scent of sesame oil
图3. 香油芝麻香
Figure 4. The herbal fragrance in the pharmacy
图4. 药铺草药香
Figure 5. The osmanthus scent in the hair oil
图5. 梳头油桂花香
Figure 6. KLing AI international version
图6. 可灵AI国际版
然后,将生成的动画片段进行剪辑处理,添加适当的背景音乐,制作成一段宣传视频。可灵所生成的动画为短时间片段,所以最终剪辑的视频为动画短片。在剪辑过程中,注重视频的流畅性和节奏感,确保AI生成内容片段之间能保持关联以及符合逻辑,能准确地向观众传达出所要表达和宣传的文化精神,观众在观看时能够获得良好的视觉和听觉体验。
最后,将剪辑好的动画短片利用kivicube AR制成扫描图片即可播放的AR视频。通过AR技术,观众只需使用手机等移动设备扫描“AR色纸”上的特定的图片和二维码,即可在屏幕上观看到生动的AR视频内容。这种互动体验不仅能够增强观众的参与感,还能够提升传统文化的传播效果。
4.2. 方案二:C端AI生成平台 + Luma AI + Kivicube AR
C端AI生成平台是直接服务于普通用户的轻量化工具,聚焦个人创意与效率需求,例如:MidJourney通过云端文本生成图像服务,用户输入描述即可快速获得艺术化图片,适合灵感捕捉与个性化创作;哩布哩布、堆友等作为国内平台提供便捷的AI生成功能,降低技术门槛,让非专业用户也能轻松生成设计素材。这类平台以“即用即走”为核心,无需专业技术储备,界面友好且常含免费版本。
B端AI以Stable Diffusion为代表,是服务于企业的技术解决方案,强调与业务场景的深度融合。作为开源文本生成图像模型,Stable Diffusion支持本地部署与参数自定义,企业可通过插件(如ControlNet)精准控制生成细节,实现批量图稿生产、商品图处理等工业化需求,例如电商平台用其高效生成标准化产品图,设计公司借助模型微调适配品牌视觉风格。其核心价值在于定制化能力与稳定性,可嵌入企业现有系统,解决复杂流程中的效率与成本问题。
C端AI生成平台的优势在于易用性与普惠性:无需技术背景即可操作,即时生成满足碎片化需求,成本低且社交属性强,激发大众创造力;但缺点是功能深度不足,难以处理大规模复杂任务,定制化能力弱,更适合简单场景而非系统性商业应用。相较之下,B端AI在专业领域具备绝对优势,却存在技术门槛高、部署成本大的局限。
Luma AI是由美国LumaLab开发的AI视频生成工具,主打通过文本描述或图像输入生成高质量、物理逻辑一致的视频内容,其核心技术优势在于依托先进算法实现电影级镜头运动效果,支持快速迭代生成(如120秒内生成120帧),并擅长处理3D场景中物体与人物的动态交互,为专业创作者与普通用户提供兼具真实感与创意性的视频生成体验。
对比可灵AI,Luma AI的优点在于生成效率与物理一致性:其模型训练更聚焦于场景中物体的空间关系和运动逻辑,能较好呈现符合现实规律的动态效果,且支持更灵活的镜头运动设计;同时,作为较早布局3D生成领域的工具,其技术积累在复杂场景构建上具备一定优势。但缺点也较明显,细节处理能力较弱,在人物肢体、表情等细腻表现上易出现扭曲或失真,且生成视频的分辨率与时长上限低于可灵AI (可灵支持2分钟1080p视频,Luma在部分测试中显示时长与清晰度稍逊);此外,作为海外工具,其对中文语义的理解精准度及本地化生态整合能力不及可灵AI依托快手平台的深度场景适配。
使用Midjourney或者哩布哩布、堆友等多种C端AI生成平台,根据相应的文本描述生成5张老北京闹市五味神的图片。输入与老北京闹市五味神相关的详细文本,在生成过程中,通过调整参数,如画面风格、色彩搭配、细节程度等,多平台,多次生成,以获取更符合创作需求的图片。
之后,见图7使用Luma AI进行“伪Live2D”风格动画片段制作。最后,将生成的动画素材剪辑拼接成一段完整的视频,再导入kivicube AR中制成AR视频。
Figure 7. Luma AI
图7. Luma AI
4.3. 方案三:C端AI生成平台 + Talking Head Anime + Kivicube AR
Talking Head Anime是借助人工智能技术将静态动漫头像转化为动态说话形象的应用,通过算法驱动角色面部表情与口型变化以匹配语音,实现虚拟角色的对话效果,常见于虚拟主播、动画创作等场景。其优势在于无需复杂建模即可快速生成动态内容,支持实时交互与个性化风格定制,大幅降低创作门槛;但存在细节表现局限,复杂动作易出现面部扭曲或肢体不连贯,且对多语言语义解析及口型同步的精准度不足,生成效果受限于训练数据质量,更适合轻量级内容制作而非高精度场景。
将在C端AI生成平台生成的图像导入Talking Head Anime (见图8)中,就可自动绑定骨骼,识别摄像头前的人形进行匹配,但可动区域仅限面部。然后通过屏幕录制Talking Head Anime中的动态效果,再到剪辑软件中进行剪辑二次创作,再导入kivicube AR。
Figure 8. Talking Head Anime
图8. Talking Head Anime
5. 方案一实施技术路线
5.1. Stable Diffusion图像生成技术
在本研究中,Stable Diffusion被用于生成关于老北京闹市五味神的图片。具体步骤包括:
输入文本:详细描述老北京闹市和五味神的特征和要求。
见图1完整生成信息:
a chinese girl drinking tea, jasmine, jasmine tea, china_dress, black hair, black eyes, tea, jasmine, white flowers, flowers, teacup, cup, teapot, chinese girl, chinese style, (jasmine \(flower\): 1.2), flower pattern, tachi-e, Flat illustration style, 1girl, light smile, nothing on the lips, big china,
Negative prompt: NSFW, (worst quality: 2), (low quality: 2), (normal quality: 2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly: 1.331), (duplicate: 1.331), (morbid: 1.21), (mutilated: 1.21), (tranny: 1.331), mutated hands, (poorly drawn hands: 1.5), blurry, (bad anatomy: 1.21), (bad proportions: 1.331), extra limbs, (disfigured: 1.331), (missing arms: 1.331), (extra legs: 1.331), (fused fingers: 1.61051), (too many fingers: 1.61051), (unclear eyes: 1.331), lowers, bad hands, missing fingers, extra digit, bad hands, missing fingers, (((extra arms and legs))),
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1065013725, Size: 512x512, Model hash: b6928134bb, Model: mixProV3_v3, Denoising strength: 0.75, Clip skip: 2, Soft inpainting enabled: True, Soft inpainting schedule bias: 1, Soft inpainting preservation strength: 0.5, Soft inpainting transition contrast boost: 4, Soft inpainting mask influence: 0, Soft inpainting difference threshold: 0.5, Soft inpainting difference contrast: 2, Mask blur: 4, Inpaint area: Only masked, Masked area padding: 32, Version: v1.8.0
见图2完整生成信息:
1girl, bamboo forest, black hair, forest, holding, long hair, nature, open mouth, outdoors, sitting, solo, tree, wide sleeves, hanfu, hip flask,
(masterpiece: 1, 2), best quality, masterpiece, highres, original, extremely detailed wallpaper, perfect lighting.(extremely detailed CG: 1.2),
Negative prompt: lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry,
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 592058718, Size: 512x512, Model hash: b6928134bb, Model: mixProV3_v3, Denoising strength: 0.5, Clip skip: 2, ControlNet 0: "Module: canny, Model: control_v11p_sd15_canny_fp16 [b18e0966], Weight: 1.0, Resize Mode: Crop and Resize, Processor Res: 512, Threshold A: 100.0, Threshold B: 200.0, Guidance Start: 0.0, Guidance End: 1.0, Pixel Perfect: False, Control Mode: Balanced", Mask blur: 4, Inpaint area: Only masked, Masked area padding: 32, Version: v1.8.0
见图3完整生成信息:
1girl, chinese girl, black hair, a culinary chef, boiling fragrant oil, kitchen utensils, stirring pot, aromatic spices, bubbling liquid, heat regulation, steaming aroma, culinary art, traditional recipe, expert hands, ingredient measurement, patience, culinary delight, golden hue, flavor extraction, traditional attire, gourmet experience, safety gloves, essential oils, blending scents, culinary journey,
(masterpiece: 1, 2), best quality, masterpiece, highres, original, extremely detailed wallpaper, perfect lighting. (extremely detailed CG: 1.2), drawing, paintbrush, light smile,
Negative prompt: lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry,
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 2120337058, Size: 512x512, Model hash: b6928134bb, Model: mixProV3_v3, Clip skip: 2, Version: v1.8.0
见图4完整生成信息:
A portrayal of a traditional Chinese medicine pharmacist, standing behind a counter, meticulously measuring and dispensing herbs, surrounded by ancient jars filled with various medicinal ingredients, the scent of herbs lingering in the air, intricate prescriptions laid out, hands deftly selecting and weighing, the art of traditional pharmacy alive, herbs in hand,
(masterpiece: 1, 2), best quality, masterpiece, highres, original, extremely detailed wallpaper, perfect lighting. (extremely detailed CG: 1.2), drawing, paintbrush,
Negative prompt: NSFW, (worst quality: 2), (low quality: 2), (normal quality: 2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly: 1.331), (duplicate: 1.331), (morbid: 1.21), (mutilated: 1.21), (tranny: 1.331), mutated hands, (poorly drawn hands: 1.5), blurry, (bad anatomy: 1.21), (bad proportions: 1.331), extra limbs, (disfigured: 1.331), (missing arms: 1.331), (extra legs: 1.331), (fused fingers: 1.61051), (too many fingers: 1.61051), (unclear eyes: 1.331), lowers, bad hands, missing fingers, extra digit, bad hands, missing fingers, (((extra arms and legs))),
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 2623059194, Size: 512x512, Model hash: b6928134bb, Model: mixProV3_v3, Clip skip: 2, Version: v1.8.0
见图5完整生成信息:
a Chinese girl, poised with elegance, meticulously brushing her lush, black hair, traditional attire adding charm, delicate strands cascading, morning light accentuating her serene beauty, comb, brushing hair,
(masterpiece: 1, 2), best quality, masterpiece, highres, original, extremely detailed wallpaper, perfect lighting.(extremely detailed CG: 1.2), drawing, paintbrush, osmanthus, osmanthus decoration, yellow flowers, flower, the pattern of flowers, cinnamon Filled Background,
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 3687080477, Size: 512x512, Model hash: b6928134bb, Model: mixProV3_v3, Denoising strength: 0.75, Clip skip: 2, ControlNet 0: "Module: canny, Model: control_v11p_sd15_canny_fp16 [b18e0966], Weight: 1.0, Resize Mode: Crop and Resize, Processor Res: 512, Threshold A: 100.0, Threshold B: 200.0, Guidance Start: 0.0, Guidance End: 1.0, Pixel Perfect: False, Control Mode: Balanced", Version: v1.8.0
优化图像:将AI生成的符合大致效果的图片,导入PS中,对生成的图像修改不合适的部分,并进行细节优化和调整,确保图像的质量和效果。
5.2. 可灵AI“伪Live2D”AI动画生成
使用可灵1.5模型将生成的图片转换成动画片段。具体步骤包括:
导入图片:将Stable Diffusion生成的图片导入到可灵中。
设置动画参数:输入“伪Live2D”相关的提示词,调整动画的帧率、过渡效果等参数。
提示词:A sweet and whimsical promotion video (PV) featuring a Live2D anime character with a little bit emotions and with hair and clothes slightly swaying and with very very limited motion. The character should be in a sweet, charming style with a detailed and vibrant illustration (添加当前所使用图像的动作提示词).
camera stays still, character’s mouth closes, blinks, slight head shake (根据实际效果参考是否需要添加的部分增强Live2D效果的提示词).
反提示词:Blur, distortion, torsion, deformity, low quality.
生成动画:由于目前可灵AI不能批量生成视频,为保证效率,同时使用可灵和可灵国际版,同时两边一起生成同一张图,提示词一个只使用“伪Live2D”提示词,另一个在此基础上添加图片画面的简单描述。生成后,对比效果,选择质量最佳的。
5.3. 视频剪辑与AR技术
在生成动画片段后,利用PR、AE等剪辑软件进行剪辑处理,并添加适当的背景音乐。最后,将剪辑好的短视频利用kivicube AR技术制成扫描图片即可播放的AR视频。
具体步骤包括:
视频剪辑:对动画片段进行剪辑和编辑,确保视频的流畅性和节奏感。
添加音频:为视频添加适当的背景音乐,并进行卡点剪辑处理。
制作AR视频:利用kivicube将视频与特定的图片和二维码关联起来,实现扫描播放功能。
6. 作品展示与分析
6.1. 作品展示
通过Stable Diffusion生成的图片展示了北京闹市五味神的独特形象和细节。动画片段则通过流畅的过渡效果和生动的表现形式,将图片中的五味神形象生动地呈现出来。最终制作的AR视频让观众只需扫描特定的二维码与图片(见图9),即可在屏幕上观看到生动的AR视频内容(见图10)。
Figure 9. Scan recognition image
图9. 扫描识别图
6.2. 作品分析
本作品通过AIGC与AR技术的结合,实现了传统文化传播的创新性表达。Stable Diffusion技术的应用使得图片生成过程更加高效和便捷;可灵AI的“伪Live2D”AI动画生成则为作品增添了生动性和趣味性,且缩短了传统Live2D技术制作所需要的周期,节省了拆分图层这一复杂且繁琐的步骤;视频剪辑和AR技术的结合则进一步提升了作品的互动性和传播效果。通过本作品的展示和分析,可以看出AIGC与AR技术在传统文化传播中具有巨大的潜力和价值。
Figure 10. Screenshot of actual scanning effect
图10. 实际扫描效果截图
6.3. 研究成果总结
本研究成功将AIGC与AR技术融合应用于传统文化传播,创作以“老北京闹市五味神”为主题的创新作品。总结出科学创作流程与方法,在一定程度上节省了绘画创作以及Live2D效果动画的拆分、制作的精力和成本,降低使用多种融合技术进行创作的门槛,以及为传统文化宣传创新开辟AR色纸这一新型产品的新路径,提供理论与实践范例。
以Stable Diffusion为代表的扩散模型(Diffusion Models),通过逐步去噪过程还原高质量图像,打破了传统艺术创作对“手工技艺”的依赖,作为“外脑”拓展人类创意边界,例如通过输入“老北京闹市五味神”的文化符号茶香、酒香等,算法可快速关联历史图像、民俗特征等数据,生成符合地域文化意象的视觉表达,起到了认知延伸的作用;以及在传统动画创作中,一般情况下角色设计与场景绘制占比超40%,Stable Diffusion生成的五味神图像经参数调校后,直接作为动画素材,实现“文化符号–视觉生成–动态演绎”的无缝衔接,可灵AI生成“伪Live2D”动画通过AI视频技术省略拆分建模环节,AI视频技术将该环节耗时压缩至分钟级,使创作者聚焦文化内涵的深度挖掘而非基础劳作,大程度上重构了动画制作的效率,体现工具对创作流程的重构,证明AIGC并非替代人类创作,而是成为文化转译的“智能助手”;而且开源模型(如Stable Diffusion)降低了文化作品制作的技术门槛,使非专业用户通过文本描述即可参与文化内容生产,实现“全民创作”的文化传播生态。
本研究的AR色纸相较于传统静态媒介如:海报、明信片等,可以通过多种丰富的模态交互如:视觉、听觉、动作等形式来提升信息传递的丰富度,使用户通过扫描动作触发AI动画,让身体参与以达到强化文化体验的沉浸感的效果,符合“数字在场理论”(Digital Presence Theory)中“身体–技术–文化”的三元互动关系,且将老北京闹市的拟人形象以AI动画形式叠加于现实色纸,实现“过去”与“现在”的时空并置,契合“城市记忆理论”对地域文化符号的活态传承。AR色纸还突破地域限制实现了从“物理限制”到“数字延展”的空间拓展,用户可通过手机在全球任意地点激活文化内容,形成“实体商品 + 数字孪生”的传播矩阵。例如,海外华人扫描五味神色纸即可观看“老北京闹市五味神”AI动画,这种“虚实融合”的传播形态,实现了技术对文化传播时空边界的消解,使地域文化转化为可跨媒介流通的数字资产。
6.4. 创新点与不足
创新点在于实现AIGC与AR的融合,以及利用AI生成技术制作“伪Live2D”动画,挖掘小众文化主题,创新视觉表达与互动体验,且“AR色纸”在市场上是一种比较新的品类,市场开拓性强。
但也存在不足:首先,AIGC生成内容在文化深度与艺术原创性上需提升,在AI生成图像的效果方面,由于AI对“老北京闹市五味神”的理解力低,无法高效地生成符合预期效果的可用图像,需要通过同元素提示词提示,引导AI达到类似的效果,且在目前的实验中,AIGC生成图像任需依赖大量提示词调校,如本研究中“老北京闹市”的语义拆解耗时占比达30%,将画面质量保持在预期的可控范围内的控制操作所需耗费的一系列时间及精力,目前在工作效率上的优化效果甚微,反映技术效率提升的同时,仍需使用者对文化内涵的精准把控。未来可构建“文化知识库 + 生成模型”的耦合系统,通过预设地域文化特征参数如五味神的嗅觉符号、历史典故,实现算法对文化细节的深度理解;其次,后续有可能产生所生成的AI画面内容是否涉及侵权的相关版权问题;再者,AR技术受设备性能网络环境制约,体验稳定性待优化,“AR色纸”的本体交互效果单一,但后续研究可以开发创新更多具有丰富、创新交互效果的AR产品;最后,文化传播精准度与受众细分市场的拓展略显不足。这些可在后续研究继续改进。
7. 结语
未来应聚焦提升AIGC的文化理解创作能力,研发融合技术优化策略,构建文化大数据知识图谱与智能创作系统,让AI真正理解文化内涵、文化元素的细节,完善生成技术中AI的“特有文化关键词”链接知识库,更便于使用者使用生成,做到真正提高效率、提高质量。例如:为AIGC生成模型搭载已链接中华传统文化知识库的语言类模型,使用者只需输入特定的文化关键词,例如本研究中宣传的小众文化主题“老北京闹市五味神”,搭载了知识库的AI就能开始调用数据库中的数据,理解这一文化关键词的意思、内涵、元素、特点等,一键生成出与文化关键词贴切的图像,生成信息中还能附带语言模型的推理过程,标注所生成图像的每个出现在画面中的元素的缘由,是否符合知识库中的信息以及使用者输入的提示词,是否符合使用者的预期效果。以上设想的技术的实现,将大大降低文化宣传者在使用时的技术难度,提高传统文化产业的生产效率,让更多的人打破技术壁垒参与进来,大大推动传统文化产业升级与可持续发展,让传统文化在数字时代焕发光彩、传承创新。
基金项目
北京印刷学院校内研发项目——科普动画研发模式研究(项目编号:Ee202211);北京印刷学院学校基础研究一般项目——网络强国新时代动画创作及动画人才个人IP开发研究(项目编号:Ec202215)。