1. 引言
用户画像(User Profile)作为一种数据建模方法,最初广泛应用于互联网、市场营销等领域,通过整合用户行为、属性与偏好等多维度信息,构建出具有代表性的虚拟用户模型,以实现精准服务与个性化推荐[1] [2]。近年来,用户画像方法逐渐拓展至风险管理领域,其通过对风险主体或风险行为进行多维度刻画,实现对风险来源、传播路径与影响程度的系统识别与预测[3]-[5]。在技术治理与科技伦理等新兴场景中,用户画像具备将复杂风险要素“可视化”“可量化”的潜力,为构建前瞻性风险预警机制提供了新路径。
CRISPR基因编辑技术自问世以来,已成为生命科学领域的核心支柱技术之一,在疾病治疗、作物育种、生态修复等方面展现出巨大潜力[6] [7]。然而,其强大的基因编辑能力也使其成为一柄公认的“双刃剑”,伴随而来的风险问题日益凸显[8]-[10]。这些风险主要包括主观恶意应用与客观意外事件两类:前者如种族特异性基因武器、农业生态破坏等生物恐怖威胁;后者则包括技术本身存在的脱靶效应、操作失误、非预期扩散等引发的安全与伦理问题。目前,学术界对CRISPR技术风险的研究多集中于来源分析、评估模型与立法监管等方面,但普遍缺乏系统化、量化的风险表征手段。现有方法多属于“亡羊补牢”式,依赖专家在事件发生后的经验判断,难以从宏观层面全面把握技术扩散中不断演化的风险态势。因此,在风险识别与预警中,基于统计结果进行评估显得尤为重要——它能够将分散的风险信息转化为可量化、可比较的数据指标,从而为风险判断提供客观依据,弥补主观经验的局限性。在此背景下,引入用户画像技术,构建能够动态反映人员、工具、物种等多维风险要素的画像体系,具有重要的理论必要性与现实紧迫性。
然而,将用户画像方法应用于CRISPR基因编辑技术风险治理仍面临若干关键难点。首先,风险来源具有高度异构性,涉及科研人员、技术工具、目标物种、应用场景等多个维度,数据分散且结构不一;其次,风险行为具有隐蔽性与动态演化特征,单一指标难以全面捕捉其扩散路径与影响范围;此外,缺乏统一的风险标签体系也导致画像构建过程中维度不清晰、标准不统一,难以支撑跨领域、跨层级的风险整合与比对分析。因此,系统构建一套覆盖“人员–工具–物种”的多级标签体系,成为实现CRISPR技术风险精准画像的核心基础,也是克服当前风险治理中“碎片化”“滞后性”瓶颈的关键所在。
2. CRISPR基因编辑技术风险的来源
笔者认为,CRISPR基因编辑技术风险来源于其不确定性,不确定性的本质是技术扩散过程中人员、工具、物种三大动态要素相互作用的结果。在基因编辑技术的发展和应用过程中,人员是技术行为的执行与决策主体,其专业背景、伦理观念与行为意图直接决定了技术是被规范应用还是恶意使用;工具是技术能力的直接载体,CRISPR系统本身的编辑效率、特异性(如脱靶风险)及其持续演进(如新型编辑器涌现)构成了风险的客观技术基础;物种则是技术作用的客体与风险传导的终端,不同物种的遗传背景、生态位及社会价值(如模式生物、经济作物或人类自身)使得同一种技术操作可能引发截然不同的伦理、生态或社会后果。
这三大要素并非孤立存在,而是通过复杂的互动网络共同驱动着风险的生成与演化:一项新型工具(工具维度)被更多元背景的研究者(人员维度)应用于更广泛的生物体(物种维度),其技术可达性与应用不可预测性便同步激增。任何单一维度的监测都无法刻画这种动态耦合关系——仅关注工具会忽略使用者的意图,仅聚焦物种会脱离具体的技术语境,仅分析人员则无法预判其可能采用的技术路径。因此,构建风险画像标签体系必须从这三方面协同入手,通过结构化、可量化的标签,系统性地解构与认知CRISPR技术的内在不确定性,为前瞻性风险治理奠定基石。
3. CRISPR基因编辑技术风险标签体系
如表1所示,基因编辑技术风险画像标签体系由物种标签和工具标签构成。
Table 1. Gene editing technology risk profile labeling system
表1. 基因编辑技术风险画像标签体系
标签主体 |
一级标签 |
二级标签 |
基因编辑技术风险 |
物种可编辑性风险 |
物种能力 |
物种工具能力 |
物种人员能力 |
工具编辑能力风险 |
工具能力 |
工具物种能力 |
工具人员能力 |
为计算上述标签,本研究定义下列具体指标:
(1) 工作总数:指已完成的基因编辑工作数量,用Num表示。
(2) 物种流行度:指某物种S在基因编辑工作中的流行程度,用PopularityS表示,计算方式定义为:
其中,NumS代表以物种S为基因编辑对象的工作数量。
(3) 工具流行度:指某工具T在基因编辑工作中的流行程度,用PopularityT表示,计算方式定义为:
其中,NumT代表以工具T为基因编辑工具的工作数量。
(4) 物种覆盖度:指成功被作为基因编辑对象的物种种类数,用SpecyWidth表示。
(5) 工具覆盖度:指成功被应用于基因编辑工作的基因编辑工具种类数,用ToolWidth表示。
(6) 人员覆盖度:指成功实施过基因编辑工作的人员数量,用PersonWidth表示。
一级标签以向量形式定义,定义如下:
物种可编辑性风险 = [物种能力,物种工具能力,物种人员能力]。
工具编辑能力风险 = [工具能力,工具物种能力,工具人员能力]。
各二级标签计算方法如下:
物种能力(SpecyAbilityS),为当前物种流行度和未来物种流行度之和,
。
物种工具能力(ToolAbilityS),为当前物种工具覆盖度和未来物种工具覆盖度之和,
(ToolWidthS:物种工具覆盖度,指应用于物种S上的工具覆盖度,即应用于物种S上的工具种类数)。
物种人员能力(PersonAbilityS),为当前物种人员覆盖度和未来物种人员覆盖度之和,计算公式为:
(PersonWidthS:物种人员覆盖度,指成功对物种S实施基因编辑的人员覆盖度,即成功对物种S实施基因编辑的人员数量)。
工具能力(ToolAbilityT),为当前工具流行度和未来工具流行度之和,
。
工具物种能力(SpecyAbiliguangdutyT),为当前工具物种覆盖度和未来工具物种覆盖度之和,
(SpecyWidthT:工具物种覆盖度,指成功使用工具T完成基因编辑的物种覆盖度,即工具T可编辑的物种种类数)。
工具人员能力(PersonAbilityT),指成功利用该工具实施过基因编辑的人员数量,本发明中定义人员覆盖度为当前工具人员覆盖度和未来工具人员覆盖度之和,计算公式为:
(PersonWidthT:工具人员覆盖度,指成功使用工具T的人员覆盖度,即成功使用工具T的人员数量)。
4. CRISPR基因编辑技术风险标签体系应用示例
假定从文献中通过深度学习、自然语言处理等技术抽取出五元组得到二维表如表2。
Table 2. Five-tuple list of gene editing technologies
表2. 基因编辑技术五元组列表
doi号 |
物种 |
工具 |
日期 |
通讯作者名 |
1 |
霍乱弧菌 |
CRISPR/Cas9 |
2012-01-01 |
Tom |
2 |
霍乱弧菌 |
CRISPR/Cas9 |
2012-09-01 |
Bob |
3 |
猪 |
CRISPR/dCas9 |
2013-03-01 |
Lily |
4 |
猪 |
CRISPR/Cas9 |
2014-07-01 |
May |
5 |
霍乱弧菌 |
CRISPR/Cas9 |
2013-05-01 |
Lucy |
6 |
猪 |
CRISPR/dCas9 |
2015-08-01 |
Tom |
7 |
霍乱弧菌 |
CRISPR/dCas9 |
2015-12-31 |
Abel |
计算过程如下:
第一,遍历五元组,分别抽取物种、工具信息,得到物种集合Sp = {霍乱弧菌,猪},工具集合To = {CRISPR/Cas9, CRISPR/dCas9}。
第二,遍历五元组。
(1) 抽取日期信息并从小到大排序,定义t0代表最小日期2012-01-01,tk代表最大日期2015-12-31,将t0到tk时间段等分为4份:[2012-01-01, 2012-12-31],(2012-12-31, 2013-12-31],(2013-12-31, 2014-12-31],(2014-12-31, 2015-12-31],得到四个关键时间点:
t1 = 2012-12-31
t2 = 2013-12-31
t3 = 2014-12-31
t4 = 2015-12-31
(2) 对每一个关键时间点,计算得到其
如下:
t1:
t2:
t3:
t4:
第三,① 对物种集合Sp中的每个物种S,对每个关键时间点t,计算该物种截止该关键时间点t的
、
、
、
:
霍乱弧菌(用D表示):
猪(用X表示):
② 对每个关键时间点t,对工具集合To中的每个工具T,计算该工具截止该关键时间点t的
、
、
、
,方法如下:
CRISPR/Cas9 (用Cas表示):
CRISPR/dCas9 (用dCas表示):
第四,① 根据前面结果,对物种集合Sp中的每个物种S,建立一元线性回归模型预测其在
时间点的
、
、
,记为
、
、
。一元线性回归模型如下:
根据前面的结果数据,确定w1、w2、w3、b1、b2、b3的值,计算
、
、
。
对霍乱弧菌(用D表示)建模如下:
根据前面结果,可得到各参数值如下:
对猪(用X表示)建模如下:
根据前面结果,可得到各参数值如下:
② 根据前面结果,对工具集合To中的每个工具T,,建立一元线性回归模型预测其在
时间点的
、
、
,记为、
、
、
。一元线性回归模型如下:
根据前面结果,确定w4、w5、w6、b4、b5、b6的值,计算
、
、
对CRISPR/Cas9 (用Cas表示)建模如下:
根据前面结果,可得到各参数值如下:
对CRISPR/dCas9 (用dCas表示)建模如下:
根据前面结果,可得到各参数值如下:
第五,① 根据前面的结果,计算物种集合Sp中的每个物种S的工具能力SpecyAbilityS、物种工具能力ToolAbilityS、物种人员能力PersonAbilityS,得到各物种基因可编辑风险CS。
霍乱弧菌(用D表示)基因可编辑风险CD如下:
猪(用X表示)基因可编辑风险CX如下:
② 根据前面的结果,计算工具集合To中的每个工具T的物种能力ToolAbilityT、工具物种能力SpecyAbilityT、工具人员能力PersonAbilityT,得到各工具编辑能力风险。
CRISPR/Cas9 (用Cas表示)编辑能力风险CCas如下:
CRISPR/dCas9 (用dCas表示)编辑能力风险CdCas如下:
第六,计算物种间、工具间基因编辑能力差异如下:
① 霍乱弧菌和猪基因可编辑性差异为:
② CRISPR/Cas9和CRISPR/dCas9的基因基因编辑能力差异为:
5. 结语
本文构建了CRISPR基因编辑技术风险画像标签体系,实现了从技术扩散角度对风险进行量化表征。本方法具有以下优势:
(1) 客观性:基于大数据统计分析,减少主观判断偏差;
(2) 前瞻性:通过回归模型预测未来风险趋势,实现未雨绸缪;
(3) 全面性:覆盖人员、工具、物种等多维风险源。
在应用层面,该体系可服务于多个具体场景:例如,科研资助机构可借此评估项目风险等级,实现精准监管;生物安全审查部门可用于对高风险基因编辑操作进行提前识别与重点防控;此外,在合成生物学公司准入、跨境生物材料流通等领域,该体系也能为风险评估提供量化依据。总之,CRISPR基因编辑技术风险画像标签体系为技术治理提供了新思路,有助于在技术扩散早期识别潜在风险,推动负责任创新。
致 谢
感谢闫晓东、韦洁瑶、施娜、马佳骥对本工作的建议。
声 明
本文相关内容已经申报专利(202311313336.9)。