1. 引言
随着生物技术的发展,人们对于癌症治疗的理解和掌握越来越详细和深入,国际范围内许多机构和学术界展开了癌症预防、筛查和早期诊断的研究,以提高癌症治疗成功率和患者的生存质量 [1] [2] 。随着我国医疗水平的逐步提升和人工智能技术的迭代更新,医工交叉的精准肿瘤学的研究报道和临床调查呈爆炸式增长并取得重大的理论进展 [3] 。计算机技术、物联网技术以及现代各种智能终端技术的发展,使得癌症诊疗过程中产生大量数据信息,由于该数据具有大体量以及多样化的特性,对于非专业的人员而言理解数据代表的含义相对困难,急需一种可以直观的展现数据关联性方法帮助医疗机构对癌症数据进行观察和分析。
数据可视化交互系统作为新兴数字媒体产业的一项衍生产物,其特点有三:1) 用户可以方便地以交互的方式管理和开发数据;2) 由于对象或事件的数据具有多维变量或属性,而数据可以按其每一维的值分类、排序、组合和显示,体现了其多维性;3) 数据可以用图像、曲线、二维图形、三维体和动画来显示,用户可对其模式和相互关系进行可视化分析 [4] [5] 。影响癌症死亡率的因素复杂,以前的大数据分析方法难以快速得到癌症死亡率的各类因素以及其中的联系,分析出直观的结果。本文使用Tableau,从国家地区,癌症种类以及患者年龄导致的死亡率三个方面,对癌症死亡率的影响构建信息可视化模型,用数据可视化的方式来展现中国以及世界因癌症死亡的患者人数,可以使医生和民众通过数字化手段监测健康数据,通过主动健康管理的模式,有效降低大病发病率,减少健康问题带来的费用成本。
2. 数据可视化相关概述
2.1. 数据可视化
数据可视化技术是指将数据信息转化为视觉形式的过程,以增强数据呈现的效果,通过人机交互方式帮助用户更加直观地进行数据观察和分析,从而发现数据之间的关联性 [6] 。数据的视觉表现形式被定义为一种以某种概要形式抽提处理的信息,借助于图形化手段,如花瓣图、南丁格尔图、跑道图、桑基图、地图、面积图等直观的表达数据与数据之间关系,获得数据的内在信息,从而清晰有效的传达信息。智慧医疗数据可视化通过将诊疗过程中产生的大量病况数据转换为图、表等形式,将枯燥不易理解、复杂的数据以图形化的形式进行直观地表达,加强医生、患者对病况信息的理解,从而高效、准确的对病情风险进行提早干预,制定治疗方案。
数据可视化工具可自动提高视觉交流过程的准确性并提供详细信息,常见的数据可视化工具有PowerBI、Tableau、Echarts、帆软等。用户可以利用这些工具从原始数据中提取可行的见解进行可视化表示。本文对癌症数据可视化过程选择使用Tableau工具进行。
2.2. Tableau工具简介
Tableau是一个灵活的、轻量级的数据可视化分析平台,提供从连接到协作的一整套功能,支持多人协作,可以实现交互的、可视化的分析和仪表板应用。本文进行的数据可视化分析主要使用了Tableau Public和Tableau Desktop。
Tableau Desktop提供了用户对数据进行访问,可视化和分析所需的全部功能。借助直观的拖放界面,用户可以发现更快做出有影响力的业务决策所需的隐藏见解,同时还可以在安全的自助环境中利用受信任和受管控的数据。其中含有大量函数提供使用,也可以自己进行函数编写高效地制作出各类图表。Tableau Public是一个免费平台,用户可以在其中在线探索,创建和公开分享数据可视化。其拥有全球范围内规模极大的数据可视化库,可供用户参考学习,因此可以轻松培养用户的数据技能。用户可以通过Tableau软件、网页、甚至移动设备来随时浏览已生成的图表,或将这些图表嵌入到报告、网页或软件中。
3. 癌症数据可视化实验方法
3.1. 需求分析
通过对社会背景的调研发现,癌症是世界上最大的健康问题之一。据《全球疾病负担》估计,世界上每六人中就有一人死亡是由于癌症。由于癌症是导致死亡的主要原因之一,因此在防治这种疾病方面取得进展是世界上最紧迫的问题之一。本文通过对可能引发癌症的原因进行分析,希望可以通过数据可视化的方式,让更多的人了解有关癌症的影响因素,了解各国在癌症上取得的研究成果。
3.2. 癌症数据可视化研究思路及方法
数据可视化是将数据转换为图形或图表的过程,使人们更容易理解和分析数据。癌症诊疗产生了大量数据,许多医疗组织和机构存储了大量的癌症数据,其可视化的研究工作是以更简单的方式去分析数据和找到海量数据背后隐藏的信息。在分析原始数据集时因注重各项因子之间的逻辑,需要先对各项因素进行拆分单独分析,最后综合各因子之间的相互作用再总结分析。本文使用Tableau工具,分析数据的维度和度量来设计可视化图表,并进行分析,从而得出有关数据的结论和见解,主要图表有:热力地图、花瓣图、桑基图、南丁格尔玫瑰图、双向条形图等 [7] 。
1) 地图热力图。热力图是一种数据可视化的图表类型,通常使用颜色映射的方式,将数据点在二维平面上呈现出来。通过热力图可以直观的表达数据的趋势和分布情况。为了清晰直观的了解世界范围内因患癌死亡的高发地带,本文选择将不同地区癌症死亡数据制成地图热力图。首先,将数据点按照二维坐标位置分布到图表中;然后,统计并计算每个数据点周围的密度值或权重值,在此基础上生成颜色映射规则;最后,使用规定的颜色映射法为每个数据点上色。
2) 花瓣图。又称韦恩图,是一种关系型图表,通过图形之间的重叠来反映数据集之间的相交关系。对于数据集之间交叠关系的可视化,花瓣图是表达数据的最好方式。在制作花瓣图中,我们需要两种信息,一个为共有信息,一个为每个样本独有信息。本文将数据集中不同类型癌症死亡人数制成花瓣图,每片花瓣对应一个癌症类型为每个样本的独有信息,花瓣的大小对应该癌症死亡人数作为样本的共有信息。
3) 桑基图。是一种表现流程的示意图,用于描述一组值到另一组值的流向。分支的宽度对应了数据流量的大小。其一大特点在于“能量守恒”,即起始流量和结束流量相同。适合表现分配情况、归类情况,以及变化和流动情况。由于我国胃癌发病率死亡率远高于世界标准胃癌发病率和死亡率,所以本文选取了我国1990~2019年的胃癌死亡人数来制作桑基图,首先进行数据源的处理,制作左右堆,本文将死亡人数作为右堆,年份作为左堆,然后经行流向绘制,通过左右堆及流向拼接形成桑基图。
4) 南丁格尔玫瑰图。是在极坐标下绘制的柱状图或堆叠柱状图,不同于饼图是以扇形的弧度来表示数据,而玫瑰图是用扇形半径反映数值大小。由于半径和面积之间是平方的关系,在视觉上玫瑰图会将数据的比例夸大。当要对比非常相近的数值时,适当的夸大会有助于分辨,可以选择玫瑰图。由于胃癌是导致人口发病率和死亡率升高的重要原因,为展现不同国家胃癌的死亡变换,本文选取部分国家1990和2019年患胃癌死亡数据制作玫瑰图。通过创建多个计算字段,计算角度,片数,X和Y轴等,将不同国家不同年份信息转化成颜色,将图形选则为多边形,再将数据桶拖入行,通过修改X和Y的计算依据配置,完成玫瑰图。
5) 双向条形图。又称正负条形图,是使用正向和反向的柱子显示类别之间的数值比较,其中分类轴表示需要对比的分类维度,连续轴代表相应的数值,可以很直观地比较具有相同参数的两组数据之间的差异。由于年龄是影响癌症死亡的重要因素,为了更好的看到在有无年龄影响的条件下,癌症死亡和年份间的关系,本文选择癌症死亡率的年龄标准化和非标准化来制作双向条形图。
3.3. 建立可视化场景
建立可视化场景是对数据进行分析处理的成果,创建前期综合数据集确认了不同年龄与不同国家地区的人患癌症情况、按癌症类型划分的年龄标准化死亡率、癌症是由遗传因素还是外部因素引起等主要分析问题,根据分析问题变量结合不同图表的表现特征,从而确定图表类型,使用户能够借此从多个角度查看癌症的死亡率,按照不同的方式探查癌症研究的核心数据,从而做出更精准的预测和判断。
4. 实验及结果分析
4.1. 数据来源
本文共使用3个数据集,分别来自健康计量与评估研究所(Institute for Health Metrics and Evaluation, IHME)、世界卫生组织的国际癌症研究机构(International Agency for Research on Cancer, World Health Organization, IARC-WHO)以及美国国家癌症研究所监测,流行病学和最终结果数据库,简称SEER数据库(The Surveillance, Epidemiology, and End Results (SEER) Program of the National Cancer Institute (NCI))。数据集包含数据统计年份、国家、患癌人数、年龄、性别、癌症类型、不同癌症类型的死亡人数等。
本文将3个数据集导入tableau,通过对造成癌症的可能因素的组合并设置计算字段得出分析图表,数据来源可靠。
4.2. 数据抽取、清洗、转换、加载(ETL)
本文对数据集中的空值进行了筛选,以“Cancer”用作探究变量,但由于数据集类是失衡的,故在可视化图表数据的研究的过程中,大多使用类别占比作为衡量指标。同时由于各类图表对于表格数据不同的要求,本文在数据集中增添了数据接口方便数据表格的链接,同时主要依托两个数据集进行了数据提取制作了相关子类表格,进行数据分析以及可视化制作。
4.3. 可视化实现
通过查阅癌症影响因素以及各国对癌症的研究有关论文,癌症死亡率是癌症控制进步证据的黄金标准。本文将3个数据集以“按国家/地区”、划“年龄”、“癌症类型”为指标将癌症死亡率的数据进行可视化分析,本文分析了世界患癌人数分布、中国癌症死亡人数、其他国家癌症死亡人数、不同年龄段癌症患者死亡人数等。
4.3.1. 世界患癌人数分布热力图
热力图是一种通过对色块着色来显示数据的统计图表。可以显示不同区域发生的事情,将数据量大小转化成颜色差异,图形化表达了业务场景下的数据差异,帮助用户了解真实的数据量分布情况和规律,为用户决策提供数据依据。在Tableau中将数据集地区的地理角色分配为“国家/地区”生成颗粒度地图后即可实现。
本文使用热力图将世界地图与1990~2019年间患癌人数相结合进行了统计,将显示全球疾病可归因于癌症的死亡人数分布,如图1所示。从图中可以看出,采用热力图可以直观看出世界各地死亡人数的多少。癌症死亡人数最多的国家集中在中亚、非洲和南美洲等经济较落后的国家,说明癌症患者人数以及患癌后的治疗效果与当地的经济水平、医疗水平有明显关联,该区域的癌症发病率和死亡率最高。

Figure 1. The distribution of world deaths due to cancer in 1990~2019
图1. 1990~2019年世界因癌症死亡人数分分布
4.3.2. 2016年中国各类型癌症死亡人数
2022年2月,国家癌症中心发布了最新一期(2016年)的全国癌症统计数据 [8] ,癌症数据统计通常会延迟3~5年。本文对2016年中国癌症的死亡人数进行可视化分析,肺癌、结直肠癌、胃癌、肝癌是我国癌症发病率最高的癌症类型。
花瓣图是一定数量的花瓣与一个圆心相结合,可以清晰地反映各因素对总体影响的程度。其主要代码如下:
Bore=0.003;External=0.1;
Radius=[Bore]+IIF(ATTR([Path])=0,0,SUM([Cancer Numbers])/WINDOW_MAX(SUM([Cancer Numbers]))*([External]-[Bore]));
Angle=(INDEX()-1)*(1/WINDOW_COUNT(COUNT([Cancer Numbers])))*2*PI();
X=[Radius]*COS([Angle]);Y=[Radius]*SIN([Angle])。
本文数据集中包含癌症的种类如胃癌、乳腺癌、胰腺癌等多种类型,选择花瓣图对比各个因素对同一目标(死亡人数)的影响。各个花瓣分别对应不同的癌症种类,花心对应该种类的癌症导致的死亡人数。图2所示为2016年中国癌症死亡人数的类型分布。从图中可以看出,目前气管癌、支气管癌和肺癌仍然是我国癌症死亡率最高的肿瘤,其次是胃癌,结肠癌和直肠癌居第三。

Figure2. The distribution of cancer deaths in China in 2016
图2. 对于2016年中国癌症死亡人数的类型分布
4.3.3. 中国胃癌死亡人数变化
根据GLOBOCAN数据,中国人群胃癌的发病率和死亡率为全球人群世标发病率和死亡率的2倍。研究胃癌发病人数与死亡人数的趋势有助于了解中国胃癌疾病负担现状,为后续相关筛查提供数据支撑。桑基图是一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,起始流量总和始终与结束流量总和保持平衡,比如能量流动等,适合用来表示数据的流向,使得更清晰的展现出不同年份与胃癌死亡人数的对应关系。
桑基图是一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,通常应用于能源、材料成分、金融、零售等数据的可视化分析。左侧堆叠条代表死亡人数分布区间,右侧堆叠条代表年份区间,中间的S型连线图将二者联系起来。其主要代码如下:
X=(INDEX()-25)/4;
Logistic=1/(1+EXP(1)^-[X]);
Y=RUNNING_AVG(SUM([Total_Cancer_Death]));
Left=RUNNING_SUM(SUM([Total_Cancer_Death]))/TOTAL(SUM([Total_Cancer_Death]));
Right=RUNNING_SUM(SUM([Total_Cancer_Death]))/TOTAL(SUM([Total_Cancer_Death]));
F(X)=[Left]+([Right]-[Left])*[Logistic]。
图3所示是1990~2019年中国因胃癌死亡人数趋势,采用桑基图,将各年代人群死亡情况进行区分统计。从图中可以看出,我国20世纪90年代胃癌死亡人数相对较少,在20世纪末时死亡人数开始逐渐增多,死亡人数达到历史最高,2010年以后死亡率呈下降趋势。这表明国民经济实力的提高,提倡大家进餐使用公筷,胃癌早筛查早诊早治项目的有效实施等一系列措施息息相关。

Figure 3. Sankey chart analysis of the number of deaths due to gastric cancer in China from 1990~2019
图3. 桑基图对于1990~2019年中国因胃癌死亡人数的分析
4.3.4. 世界其他国家胃癌死亡人数变化
在全球许多地区,胃癌是导致人口发病率和死亡率升高的重要原因,并且每年胃癌的发生和死亡的总数都在上涨。南丁格尔玫瑰图将柱图转化为更美观的饼图形式,是极坐标化的柱图,其夸大了数据之间差异的视觉效果,适合展示数据原本差异小的数据。本文将数据集中的对象作为多边形进行制作,创建计算字段X、Y、Angles并且通过在X和Y之间绘制线来创建多边形,从而创建一个封闭的形状。而由于多边形的起点在圆的中心处为(0, 0),因此本文选用两个pathid = 1102作为多边形的开始和结束。其主要代码如下:
X=IIF([Index]=1 OR[Index]=WINDOW_MAX([Index]),0,WINDOW_MAX([R]) * COS([Angles]+([Index]-2) * WINDOW_MAX(2 * PI())/([Cancer Number] * 120)));
Y=IIF([Index]=1 OR[Index]=WINDOW_MAX([Index]),0,WINDOW_MAX([R]) * SIN([Angles]+([Index]-2) * WINDOW_MAX(2 * PI())/([Cancer Number] * 120)));
即当点为第一个点([Index]=1)和最后一个点([Index]=WINDOW_MAX([Index]))时,坐标为(0, 0)。
图4所示为1990~2016年部分国家因胃癌死亡人数变化,东亚国家是胃癌的高发国家,而欧美等发达国家的胃癌死亡率较低,但是同区域的国家胃癌发病率接近。本文采用的南丁格尔图,用不同颜色区分不同时期的直观展示了不同国家胃癌的死亡人数的不同,以及各国家死亡人数的变化趋势,其中印度的死亡人数变化最大且逐年死亡人数上升,日本的死亡人数在缓慢上升,美国等国家的胃癌死亡人数逐年降低。

Figure 4. Analysis of the changes in the number of deaths due to gastric cancer in some countries from 1990~2016
图4. 对于1990~2016年部分国家因胃癌死亡人数变化的分析
4.3.5. 中国癌症年龄标准化与非标准化死亡率
年龄因素是恶性肿瘤发病的重要危险因素,随着年龄的增长,发生肿瘤的危险性增大。统计不同年龄段因癌症死亡的人数分布,便于查找患癌风险年龄段,提前进行人群筛查和干预。癌症的年龄标化死亡率,是指去除年龄影响因素之后的死亡率,用年龄对死亡率进行标化的理由是年龄是癌症发生和死亡的一个重要影响因素,年龄越大,发病率和死亡率就越高 [9] 。本文通过R语言将数据集中的癌症年龄进行标准化,由于数据集中的患癌率人数基值在10,000人,所以采用公式10000*(sum(a$case)/sum(a$pop))计算得到年龄标准化后的死亡率 [10] 。
当特定人群中某癌种的死亡率的变化趋势逐年升高,但经过年龄标化后的死亡率出现下降趋势,则说明实际死亡率的上升主要为人口老龄化所致,而其实际致癌因素的作用再逐年减弱。双向条形图用于更加直观的对数据进行比较。每个条形的长度,表示该种类占总体的比例,由于本文研究问题的年份数据较多,故使用双向条形图清晰地反应各项数据占比。
图5所示为1990~2019年中国年龄标准化与非年龄标准化癌症死亡率双向条形图,将不同年份癌症死亡率的年龄标准化与非标准化进行对比。因为年龄越大患癌几率以及死亡几率都更大,年龄标准化可以减弱这一因素的影响,图表中可以看出中国癌症死亡人数事实上是在不断减少的。

Figure 5. Two-way bar chart analysis of age-standardized and non-age-standardized cancer mortality in China from 1990~2019
图5. 对于1990~2019年中国年龄标准化与非年龄标准化癌症死亡率双向条形图分析
5. 小结
本文立足当今社会有关癌症研究的发展现状和未来趋势,从样本不同地区,不同癌症种类以及不同年龄段,三个方面分析了其对癌症死亡率的影响构建了信息可视化模型,整理网络公开数据及宏观统计数据评估了21万个样本的癌症死亡数据,用数据可视化的方式来展现中国以及世界因癌症死亡的患者人数。分析结果表明贫富差距和医疗水平是影响癌症死亡的重要因素。在中国,气管、支气管癌和肺癌是我国死亡癌症的最主要癌症。中国降低癌症负担的有效策略是采取全面的预防和控制措施,培训公众意识,扩大有效筛查,教育和疫苗接种计划的覆盖面,以减少已确定的风险因素。
目前的智能医疗数据可视化系统更倾向于全面、完整地展示临床病例分析,记录病人信息、病情、用药剂量,比较研究和治疗效果。监测患者的实时情况,如显示病人患病部位的监测、基本生命体征的监测等 [11] 。本文所研究的“癌症数据可视化”则是根据历史数据结果,提前高效准确地干预病情风险,帮助筛查风险因素,节约医疗资源和设备,培养公众健康意识,创造经济社会价值。同时,在数据可视化系统下,用户与数据的友好交互能方便用户控制数据,更有利于完善的信息存储,使医疗数据更加严谨,便于反复探索和研究。此外,“癌症数据可视化”可以持续积累数据,便于医疗单位基于历史数据进行更深入的数据分析及数据价值挖掘,也可基于历史数据搭建医疗预测AI算法模型,通过数据的不断积累与算法模型的完善持续提升预测准确率,形成宝贵的医疗以及计算机数据资产,为后续医疗发展铺平道路。
基金项目
成都信息工程大学本科教学工程项目(JYJG202345);
成都信息工程大学2023年大学生创新创业训练计划项目(202310621153)。
NOTES
*通讯作者。