注册

人工智能与临床创新研究院月刊 总第006期

其他分类其他2020-06-16
975

影像前沿技术跟踪月刊

Monthly Journal

06

2020第6期

主办单位:
人工智能与临床创新研究院

*  本月刊仅供内部员工个人学习参考,请勿外传

1

Journal of Neuro-Oncology:基于多模态磁共振预测
胶质瘤患者的IDH和1p/19q基因状态

2

3

强势推出脑疾病诊断最新利器-侧支循环

4

Contents

目录

人工智能在医学影像计算机辅助诊断系统中的应用

医学图像分割中的不确定性估计

02

03

Journal of Neuro-Oncology:基于多模态磁共振预测胶质瘤患者的IDH和1p/19q基因状态

编者:聂可卉

研究方法:
数据收集:纳入病理检查证实为WHOⅡ~Ⅳ级的胶质瘤患者,收集包含基因分型信息和术前影像资料(注射钆造影剂后的T1W增强图像、T2-FLAIR)的患者数据共744例,其中538例训练数据来自多家医疗机构,206例验证数据来自于TCGA。
分子数据处理:对于训练数据,采用免疫组学和基因测序技术获取IDH突变状态,通过荧光原位杂交(FISH)和聚合酶链反应(PCR)获得1p/19q缺失状态。验证数据包含影像和基因测序信息。
影像数据处理:
1.肿瘤区域分割:由医生在FLAIR序列Axial轴的每层图像上手动勾画肿瘤区域,并将勾画的肿瘤区域掩模映射到T1W增强图像。
2.影像数据预处理操作包括颅骨去除、颅脑图像像素值归一化和颅脑影像及肿瘤区域重采样等步骤。
3.MRI特征提取:对于每位患者,从其T1W增强图像和FLAIR图像以及肿瘤掩模中提取直方图特征、纹理特征和形状特征共216个。

2019年毕业于福州大学信号与信息处理专业,目前担任东软医疗人工智能与临床创新研究院临床合作科学家。研究方向包括:图像处理、计算机视觉和神经影像分析。曾获欧洲计算机视觉会议(ECCV)图像增强挑战赛第三名。

聂可卉  硕士

04

05

相关背景和研究目的:
脑胶质瘤是最常见的原发性颅内肿瘤。根据肿瘤在组织病理学上的良恶程度,世界卫生组织(WHO)中枢神经系统(Central Nervous System,CNS)肿瘤分类将脑胶质瘤分为Ⅰ-Ⅳ级,Ⅰ、Ⅱ级为低级别脑胶质瘤(LGG),Ⅲ、Ⅳ级为高级别脑胶质瘤(HGG)。随着免疫组化和基因测序技术的进步,WHO在2016年更新了其分类标准,将IDH1 / 2和1p/19q分子参数整合到胶质瘤分类标准中。美国癌症和肿瘤基因组图谱计划(The Cancer Genome Atlas,TCGA)将LGG分为三种分子型:IDH突变和1p/19q联合缺失(IDHmut-codel)、IDH突变和1p/19q未缺失(IDHmut-non-codel)和IDH野生型(IDHwt),同时大量研究表明,在这三种分子分型中, IDHwt型预后较差,而IDHmut-codel型预后最好。早期对患者进行基因分型可以帮助判断患者预后。因此,本研究基于多家医疗机构的大量临床数据,旨在探究LGG患者常规MRI影像和IDH突变、1p/19q缺失状态,帮助在疾病早期指导患者管理。

研究概况:文章利用机器学习方法探索胶质瘤患者多模态磁共振影像与基因信息之间的关系,并基于MRI实现胶质瘤患者的基因分型。论文标题为《Machine learning reveals multimodal MRI patterns predictive of isocitrate dehydrogenase and 1p/19q status in diffuse low and high-grade gliomas》,该文章由中南大学湘雅医院神经内科和哈佛医学院放射科于2019年1月联合发表在Journal of Neuro-Oncology期刊。

06

07

图1. A、B组(IDH野生型)代表胶质母细胞瘤(IV级)患者;C、D组(IDH突变型)代表低级别星形细胞瘤(Ⅱ级)患者;E、F组(IDH突变和1p/19q联合缺失型)代表少突胶质细胞瘤(Ⅱ级)患者。

算法训练:使用随机森林对不同基因型进行分类。将上述所有患者的影像组学特征和年龄作为随机森林的输入,构建模型Model1实现对IDH突变的预测。对于预测结果为IDH突变型的患者,取其影像资料和年龄构建子训练集并作为Model2的输入,Model2实现预测IDH突变患者中1p/19q基因缺失状态。

研究结果和结论:
在所有训练集(N=538)上,Model1 的受试者曲线下面积(AUC)达到0.921,验证集上达到0.919。Model2在其子训练集(N=197)上 AUC为0.685,在TCIA测试集上(N=84)得到AUC值为0.716。在所有模型中,年龄对预测结果的准确性具有最大的贡献度,其次是形状特征和直方图特征。本研究可以实现对IDHmut-codel、IDHmut-non-codel以及IDHwt三种亚型的分类。
研究价值和思考总结:
胶质瘤属于神经上皮肿瘤,占颅脑肿瘤的30%~60%,患者中位生存时间和无进展生存时间分别为14.6个月和6.9个月,5年生存率仅为9.8%[1]。肿瘤间和肿瘤内异质性极高,导致疾病表现和预后不同,临床实际疗效非常有限。因此,胶质瘤一直是医学界努力攻克的热点和难点问题。下图展示了不同基因型的胶质瘤患者的MR影像。
The Cancer Genome Atlas (TCGA)、The Cancer Imaging Archive (TCIA)和中国脑胶质瘤基因组图谱(CGGA)等大型数据库为胶质瘤的研究发展做出了巨大的贡献,在胶质瘤的基因组学和影像研究上给予了强大的数据支持。

08

09

预测脑胶质瘤的分子遗传标志物(例如IDH突变和1p/19q缺失等)有利于临床治疗方案的制定及预后的评估。目前评估胶质瘤的IDH基因分型需有创地获取肿瘤组织标本,另外,价格昂贵、免疫组化检测准确率较低、诊断较为滞后等问题也在一定程度上限制了基因测序技术的临床应用。磁共振成像和图像分析技术提供了非侵袭性的诊断和评估肿瘤的方法:MRS可以评估胶质瘤内2-羟基戊二酸(2-hydroxyglutarate,2-HG)的水平,但由于MRS不是临床常规使用的成像技术且其技术本身仍存在局限性,故而多模态影像分析技术被国内外广泛使用。多模态MRI可以通过分析与肿瘤微结构和代谢改变相关的定量或半定量影像特征实现达到在体无创评价胶质瘤IDH基因表型。例如,PWI和SWI中发现IDH突变型的rCBV值、肿瘤微出血及血管数目明显小于野生型, 扩散加权成像中发现IDH突变型的ADC值大于野生型[2];T2w和FLAIR图像中出现的信号“不匹配征(Mismatch)”与IDHmut-nonCodel型有很高的相关性(100%阳性预测率)[3]。随着影像和基因的关系逐步被证实,通过识别某些特定的影像标志物,可以帮助医生对胶质瘤患者快速分型从而制定相应的诊疗计划。
2016 CNS WHO肿瘤分类打破了仅依靠显微镜对脑肿瘤进行病理分类的原则,将分子信息整合进入脑肿瘤诊断,并据此对CNS肿瘤分类进行了更新。今天病理学已经达到分子和基因水平,迈入了精准医学的大门。医学影像的无创诊断价值不容置喙,胶质瘤分子遗传学特性与影像技术的结合一定是未来胶质瘤分子诊断与治疗的必然趋势,如何在整合了分子基因型的弥漫型胶质瘤分类和分级诊断中继续发挥作用,对这些新分类进行归纳和总结,并找到合适的影像学标记物对IDH基因突变亚型做出预测,是目前亟待解决的问题。与此同时,尽管利用影像信息对胶质瘤基因分型取得了不错的成果,但大多研究都是回顾性研究,且存在小样本、单中心、影像模态较为单一、外部数据验证缺乏的问题,多模态MR成像和分子生物信息之间的关系需要前瞻性、多中心的大样本研究进一步探索。

主要参考文献:
【1】 Linz U . Commentary on effects of radiotherapy with concomitant and adjuvant temozolomide versus radiotherapy alone on survival in glioblastoma in a randomised phase III study: 5-Year analysis of the EORTC-NCIC trial ( Lancet Oncol. 2009;10:459-466)[J]. Cancer, 2010, 116(8):1844-1846.
【2】 Leu K, Ott GA, Lai A et al (2017) Perfusion and diffusion MRI signatures in histologic and genetic subtypes of WHO grade II–III diffuse gliomas. J Neurooncol 134:177–188
【3】 T2-FLAIR Mismatch, an Imaging Biomarker for IDH and 1p/19q Status in Lower Grade Gliomas: A TCGA/TCIA Project .    

医学图像分割中的不确定性估计

医学图像分割是疾病辅助诊断、病灶生长测量、手术规划和治疗评估等许多应用中的一项重要任务[1]。尽管目前研究的广度和深度都很大,但要对多种目标实现精确可靠的分割仍然极具有挑战性[2]。这通常是由于分割图像质量较差,病灶表观不均匀,成像协议不同以及患者之间分割目标差异较大造成的。当前大部分基于深度学习的医学图像分割、分类等方法只给出预测结果,而没有对该预测结果相应的置信度,即我们不知道模型对哪些预测结果是置信度高的,哪些是不太确定的。但在实际应用中,尤其是在临床中,医生希望模型在给出预测结果的同时,还能给出预测的结果中哪些是肯定对的,哪些有点拿不准。这样的话医生就只需在那些模型不确定的地方话花精力重点去复查,不用对模型所有的预测结果都逐一检查。因此,分割结果的不确定性估计对于理解分割的可靠性至关重要。
与用于自然图像识别的方法相比,当前基于深层卷积神经网络(convolutional neural networks, CNN)的医学图像分割方法使用的数据集相对较小[3]。这可能会给分割结果带来更多的不确定性,也会导致下游分析的不确定性,例如目标的体积测量。因此,基于CNN的

研究背景和目的

1

编者:蔡文娟

清华大学博士,目前就职于在人工智能与临床创新研究院,AI算法资深工程师,从事人工智能与医学影像相关研究工作,在基于人工智能技术的医学图像病灶分割、配准,疾病辅助检测与诊断等领域有较丰富的研究经验。

蔡文娟  博士

10

11

深度医学图像分割方法非常需要不确定性估计。一些工作已经研究了深度神经网络的不确定性估计[4-7]。它们主要集中在图像分类或回归任务上,而关于医学图像分割的此类研究则相对较少。

Kendall和Gal[4]提出,对于深层CNN,有两种主要类型的预测不确定性:认知型不确定性(epistemic uncertainty)和任意型不确定性(aleatoric uncertainty)。认知型不确定性也称为模型不确定性,可以在给定足够的训练数据的情况下加以解释,而任意型不确定性则取决于输入图像中的噪声或随机性以及输入图像的空间变换。
a) 用来估计认知型不确定性的方法包括:
Monte carlo dropout

图1. 测试时的Monte carlo dropout[8]

深度医学图像分割方法非常需要不确定性估计。一些工作已经研究了深度神经网络的不确定性估计[4-7]。它们主要集中在图像分类或回归任务上,而关于医学图像分割的此类研究则相对较少。
Deep ensembles
如图2(b)所示,以随机初始化的方法训练多个网络,测试时以多个网络的预测结果的平均值作为分割结果,获得结果的差异性来模拟模型的认知型不确定性。

12

13

Multiple-heads
如图2(c)所示,在深度神经分割网络的输出端添加多个头(multiple heads),使得网络一次能有多个输出,以多个输出结果的差异性来模拟模型的认知型不确定性。

Probabilistic Unet
如图3所示,基于分割网络和条件变分自动编码器相结合产生的分割模型[9]

图2. 用来估计认知型不确定性的几种方法[9]。(a) dropout Unet; (b) Unet ensemble; (c) multiple-heads。

图3. Probabilistic Unet[9]

研究方法和结果

2

Test time augmentation
本文选取test time augmentation(TTA)来估计任意型不确定性。图像扩增的方法有很多,本研究将重点放在空间变换和噪声上,并强调添加更复杂的强度变化或其他形式的图像扩增(如弹性变形)。图像扩增可以表达为:

其中X0是原始图像,β是空间变换算子,e是噪声,X是扩增后的图像。
在给定β和e的分布的情况下,输出Y的分布是:

对于第n次蒙特卡罗数据扩增模拟实验,预测的结果是:

b) 用来估计任意型不确定性的方法包括:
Test time augmentation
在测试时,对图像进行数据扩增包括旋转、缩放、翻转等等,通过多次蒙特卡罗测试,得到分割结果差异性,从而来模拟与输入图像空间变换相关的不确定性。
Probabilistic deep learning
通过对输入添加一定的噪声,测试分割结果的差异性来模拟与输入测试图像中的噪声相关的不确定性[10]
本文选取论文[0]的部分研究内容作为示例,包括估计认知型不确定性的Monte carlo dropout方法和估计任意型不确定性的test time augmentation方法。

14

15

通过最大似然估计从n次蒙特卡罗预测结果中得到最终分割结果:

不确定度是通过测量给定图像的预测差异程度来估计的。分布p(Y|X)的方差和熵都可以用来估计不确定度。然而,在多模态分布的情况下,方差不具有足够的代表性。在本文中,我们使用熵来度量不确定度:

其中       是yi中第m个唯一值的频率。

对于分割任务,需要像素级的不确定性估计。让Yi表示第i个像素的预测标签。通过蒙特卡罗模拟,得到了yi={yi1,yi2,…,yiN}的一组Yi值。因此,Yi分布的熵近似为:

Monte carlo dropout
本文选取Monte carlo dropout又叫test time dropout(TTD)来估计任意型不确定性。在测试时,在分割网络不同层中添加dropout操作,通过多次模拟实验获得n次预测结果,通过上述公式获得最终的分割结果,为了与评估任意型不确定性保持一致,本研究使用熵作为不确定度的评估指标。
基于结构水平的不确定度估计
Roy 等人[11]提出用体积变异系数(volume variation coefficient, VVC)来评估基于结构/病灶水平的不确定度,本文也采用这个指标来评估TTA和TTD的不确度。

Μv和σv分别代表结构/病灶的体积平均值和体积方差。VVC的值与结构/病灶的大小无关。

实验设计

3

本文选择两个分割任务来进行实验,即从MRI切片中分割二维胎儿脑,从多模态MRI体积中分割三维脑肿瘤。在这两个任务中,我们比较了不同类型的不确定性对分割结果的影响:1)基于TTA的任意型不确定性,2)基于TTD的认知型不确定性,以及3)基于TTA+TTD的结合任意型和认知型的混合不确定性。对于TTD和TTA+TTD,dropout概率被设置为0.5。
本研究还评估了这几种预测方法包括TTA、TTD、TTA+TTD以及不使用TTA和TTD的单一预测基准分割模型的分割精度。对于给定的训练集,所有这些方法都使用相同的模型,该模型在训练时使用数据扩充和dropout进行训练。
为了了解哪种不确定性更能代表潜在的分割误差,本文研究了每种类型的不确定性与分割误差之间的关系。分割精度的定量评估基于Dice评分和平均对称表面距离(average symmetric surface distance, ASSD)。

二维胎儿脑部分割
图4显示了不同类型的不确定度在视觉上的比较,分别在冠状面、矢状面和轴面上分割胎儿大脑图像。TTD、TTA和TTA+TTD都是基于同一种训练好的Unet模型,且蒙特卡罗模拟次数N都为20,分别得到认知型不确定性、任意型不确定性和混合不确定性。图中,第一行表示输入图像和单一预测基准模型的分割结果,其他行分别显示了这三种类型的不确定性及其对应的分割结果。奇数列中的不确定性图由像素N个预测的熵来表示,并由左上角的颜色条编码。在不确定性图中,紫色像素的不确定度值较低,而黄色像素的不确定度值较高。图4(a)显示了冠状面的胎儿大脑。在这种情况下,基准模型预测取得了较好的分割效果。可以观察到,对于TTD计算的认知型不确定性,大多数不确定分割位于分割前景的边界附近,而距离边界较远的像素具有很高的置信度(即,低不确定性)。此外,认知型不确定性图在大脑区域包含一些随

16

17

机噪声。相比之下,TTA获得的任意型不确定性包含的随机噪声较少,它不仅在边界上显示不确定分割,而且在右下角的一些具有挑战性的区域也显示不确定的分割,如白色箭头所突出显示的那样。在该区域内,TTA得到的结果存在过度分割,这与任意型不确定性图的同一区域内的高信号值相对应。由TTA+TTD计算的混合不确定度是认知型不确定度和任意型不确定度的混合,如图4(a)的最后一行所示,除了一些随机噪声外,它看起来与任意型不确定性图相似。

图4(b)和(c)显示了单一预测基准分割模型分别获得过度分割和欠分割的另外两种情况。可以观察到,认知型不确定性图在这些错误分割的区域中显示出高的置信度(低的不确定性)。这导致了许多过于自信的错误分割,如图4(b)和(c)中的白色箭头所强调的那样。相比之下,TTA得到的任意型不确定度图显示出较大的不确定区域,主要对应于基准分割模型的误分割区域。在这两种情况下,混合不确定性图也类似于任意型不确定性图。比较表明,任意型不确定性比认知型不确定性具有更好的识别非边界像素误分割的能力。对于这些像素,分割输出更多地受到输入的不同变换(任意型不确定性)的影响,而不是模型参数(认知型不确定性)的变化。图4(b)和(c)还显示,使用不同模型参数的TTD与基准模型相比似乎没有什么改善。相比之下,使用不同输入变换的TTA纠正了较大的误分割,并且比基准模型获得了更明显的改善。还可以观察到,TTA+TTD得到的结果与TTA得到的结果非常相似,说明TTA比TTD更适合于提高分割效果。

图4.不同类型的不确定性及其对应的胎儿大脑分割效果的比较。奇数列中的不确定度图基于N=20的蒙特卡罗模拟次数,并由左上角的颜色条编码(紫色显示的是低不确定度,黄色显示的是高不确定度)。(a)中的白色箭头显示了具有挑战性的区域中的任意和混合不确定性,而(b)和(c)中的白色箭头显示了认知型不确定性非常低的错分割区域。TTD:test time dropout,TTA:test time augementation。

定量评价
为了定量评价分割结果,我们用FCN[12]、U-Net[13]和P-Net[14]三种网络结构,通过不同的测试方法测量了Dice评分和预测的ASSD。对于所有这些CNN,我们在训练时使用数据扩增来扩大训练集。在推断时,我们比较了基准模型 (没有进行蒙特卡罗模拟)与TTD、TTA和TTA+TTD的差异。我们首先研究了分割精度如何随着蒙特卡罗模拟运行次数N的增加而变化,所有测试图像的测量结果如图5所示。我们发现,对于这三个网络,TTD的分割精度都

保持在与单一预测基准模型接近的水平。对于TTA和TTA+TTD,当N从1增加到10时,分割精度会有所提高;当N>20时,这两种方法的分割精度达到平台期。除了前面在训练和测试时使用扩增的场景外,我们还评估了在不使用数据扩增进行训练时TTD和TTA的性能。不同训练方法和测试方法的组合(N=20)的定量评估如表1所示。可以观察到,无论是在数据增加的情况下还是在没有数据增加的情况下,TTA都比TTD具有更好的提高分割精度的能力。将TTA和TTD相结合可以进一步提高分割精度,但并不明显优于TTA(p值>0.05)。

18

19

多模态MRI三维脑肿瘤分割
本实验采用BraTS 2017比赛的285组训练数据,对于每组数据,包括T1w, T1wce, T2w和FLAIR四种模态的图像。
分割结果与分割不确定度
图6展示了通过不同测试方法对脑肿瘤分割的不确定度估计的三个例子。TTD、TTA和TTA+TTD都是基于同一种训练好的3D Unet模型,且蒙特卡罗模拟次数N都为40,分别得到认知型不确定性、任意型不确定性和混合不确定性。图6(a)显示一例高级别胶质瘤(high grade glioma,HGG)图像。单次预测的基准模型在图像的上部出现过分割。TTD获得的认知型不确定图突出了分割边缘和一小部分过分割区域。相比之下,TTA得到的任意型不确定度更好地突出了整个过分割区域,TTA+TTD得到的混合不确定度图与任意型不确

定度图相似。图6(a)的第二栏显示了这些不确定性相应的分割结果。可以观察到,基于TTD的结果与基准模型相似,而基于TTA和TTA+TTD的结果比基准模型有较大的改善。图6(b)展示了HGG脑瘤的另一个病例,它表明基准模型预测中的过分割区域由基于TTA的任意型不确定性比基于TTD的认知型不确定性更能突出显示。图6(c)显示一例低级别胶质瘤(low grade glioma,LGG)图像。单项预测基准模型在肿瘤中部出现欠分割。TTD获得的认知型不确定性只突出了预测边界上的像素,对欠分割区域的不确定性较低(置信度较高)。相比之下,TTA得到的任意型不确定性更能反映分割不足。实验结果还表明,TTA比TTD具有更好的分割效果。

表1. DICE(%)和ASSD(mm)对不同训练和测试方法的二维胎儿脑分割的评价。TR-AUG:不使用数据扩增进行训练。TR+AUG:使用数据扩增进行训练。∗代表分别在Tr-AUG和Tr+AUG基准模型基础上有显著改善(p值<0.05)。†代表与Tr-AUG相比有显著改善(p值<0.05)。

图5.在n次蒙特卡罗模拟实验中二维胎儿脑部分割的Dice分数

图6. 不同类型的不确定性及其对应的三维脑肿瘤分割视觉效果的比较。奇数列中的不确定度图基于N=40的蒙特卡罗模拟次数,并由左上角的颜色条编码(紫色显示的是低不确定度,黄色显示的是高不确定度)。TTD:test time dropout,TTA:test time augementation。

20

21

定量评价
我们分别结合不同的分割模型3D U-Net[15]、V-Net[16]和W-Net[17]与不同测试方法,将得到的分割结果计算Dice评分和ASSD(如表2)。可以观察到,对于每种网络和每种训练方法,多个预测方法的性能优于单一预测的基准模型,并且TTA的性能优于具有较高Dice得分和较低ASSD值的TTD。TTA与TTD联合应用较TTA略有改善,但改善不显著(p值<0.05)。
不确定度与分割误差的相关性
为了研究体素水平上的预测不确定性与分割误差之间的关系,我们测量了不同不确定性水平下的体素不确定度和体素错误率。对于基于TTD的(认知型)、基于TTA的(任意的)和基于TTA+TTD的(混合)体素方向不确定性,我们得到了体素方向不确定性和体素方向错误率的归一化联合直方图。图7显示了基于3D Unet的结果,该3D Unet经过数据扩增训练,并使用N=40进行推理。红色曲线显示了体素不确定性的函数的平均错误率。在图7(a)中,当基于TTD的认知型不确定度大于0.2时,平均预测错误率略有变化。相反,图7(b)和(c)显示,随着任意和混合不确定性的增加,平均预测错误率有更平稳的增加。比较表明,基于TTA的任意型不确定性比基于TTD的认知型不确定性导致更少的过度自信的误分割。对于结构水平的评估,我们还研究了表示结构级不确定性(VVC)与表示的结构级误差(1-Dice)之间的关系。图8显示了使用3D Unet的三种不同测试方法的联合分布。对分割网络进行数据扩充训练,将N设为40进行推理。图8显示基于TTA的VVC随着1-Dice的增长而增加,并且斜率大于基于TTD的VVC。TTA和TTA+TTD的结果类似,如图8(b)和(c)所示。结果表明,基于TTA的结构不确定性比基于TTD的结构不确定性更能反映分割错误。

表2. DICE(%)和ASSD(mm)对不同训练和测试方法的三维脑肿瘤分割的评价。TR-AUG:不使用数据扩增进行训练。TR+AUG:使用数据扩增进行训练。∗代表分别在Tr-AUG和Tr+AUG基准模型基础上有显著改善(p值<0.05)。†代表与Tr-AUG相比有显著改善(p值<0.05)。

图7. 在三维脑肿瘤分割中,预测不确定性分析和错误率的归一化联合直方图。红色曲线描绘了不同不确定性水平下的平均错误率。

图8. 在三维脑肿瘤分割中,不同测试方法的结构级不确定性(体积变异系数VVC与1−Dice)。

22

23

研究结论

4

思考

5

在我们的实验中,与Pascal VOC、CoCo和ImageNet等自然图像数据集相比,训练图像的数量相对较少。在数据集较小的情况下,对不确定性估计的需求也更大。除了模型参数的可能值的变化之外,预测结果还依赖于输入数据,例如与对象相关的图像噪声和变换。因此,一个好的不确定度估计应该考虑到这些因素。图4和图6显示,仅模型不确定性就可能获得过于自信的错误预测,而TTA在减少这种预测方面起着重要作用。表1显示了基于所有测试图像的统计结果。我们发现,对于较少的测试图像,TTA+TTD不能获得比TTA更高的Dice分数,但对于整个测试图像,TTA+TTD的平均Dice略大于TTA。因此,这导致了TTA+TTD并不总是比TTA性能更好的结论,并且TTA+TTD的平均性能接近于TTA,图4和图6中也展示了这一点。
我们已经演示了基于图像分割任务获取模型的TTA,但是它对于不同的图像识别任务(例如图像分类、目标检测和回归)是通用的。表2显示了TTA在提高分割精度方面的优势,它还说明了W-Net在不同视图中的组合有助于提高性能。这是一个由三个网络组成的集合,这样的集合可以用作认知型不确定性估计的替代方案,如[5]所示。我们发现,对于本文所述的两个任务,蒙特卡罗样本N的适当值在20-40左右。然而,对于不同的数据集,超参数N的最佳值可能会改变。
综上所述,我们通过比较和结合模型(认知型)和输入型(任意型)不确定性,分析了基于CNN的医学图像分割的不同类型的不确定性。我们提出了一种基于TTA的医学图像任意型不确定性估计方法,该方法同时考虑了图像噪声和空间变换的影响。我们还提出了TTD的理论和数学公式,其中我们通过蒙特卡罗模拟和对图像采集模型中参数的先验分布进行建模,得到了预测的分布。对二维和三维医学图像分割任务的实验表明,使用我们所提出的TTA进行不确定性估计有助于减少基于模型的不确定性估计所遇到的过度自信的错误预测,并且TTA比单一预测基准模型和使用TTD具有更高的分割精度。

最后,总结一下估计分割模型的不确定性的意义:1.预测分割结果的质量,在模型给出分割结果的同时,也告诉我们当前的分割结果中哪些是模型较为确定的分割,哪些是模型不太确定的分割,而不太确定的分割往往意味着错误率较高,需要人工介入去复查或者修正。这在高风险应用中如医学图像分割十分重要,它能帮助模型降低其中的一些错误分割,又能使得医生集中精力应对不确定度高的区域,帮助提升诊断的效率。2.估计分割模型的不确定度能帮助提高分割的性能,实验证明N次蒙特卡罗模拟实验的平均分割结果的性能都优于单次预测的基准模型的分割性能。3.检测异常分布(out-of-distribution)的样本,关于这一点本文中没有涉及,详细内容可以参考文献[18],论文比较了多种估计不确定性的方法在一系列自然图像数据集中的性能,并得出结论deep ensembles是当前性能最好的不确定性估计方法。

参考文献

[0] Wang G, Li W, Aertsen M, et al. Aleatoric uncertainty estimation with test-time augmentation for medical image segmentation with convolutional neural networks.[J]. Neurocomputing, 2019: 34-45.
[1] N. Sharma, L.M. Aggarwal, Automated medical image segmentation techniques, J. Med. Phys. 35 (1) (2010) 3–14, doi:10.4103/0971-6203.58777.
[2] D. Withey, Z. Koles, Medical image segmentation: methods and software, in: Noninvasive Functional Source Imaging of the Brain and Heart and the International Conference on Functional Biomedical Imaging, 2007, pp. 140–143.
[3] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A.C. Berg, L. Fei-Fei, ImageNet large scale visual recognition challenge, Int. J. Comput. Vis. 115 (3) (2015) 211–252, doi:10.1007/ s11263-015-0816-y.
[4] A. Kendall, Y. Gal, What uncertainties do we need in Bayesian deep learning for computer vision? in: Advances in Neural Information Processing Systems, 2017, pp. 5580–5590, doi:10.1109/TDEI.2009.5211872. 

24

25

[5] B. Lakshminarayanan, A. Pritzel, C. Blundell, Simple and scalable predictive uncertainty estimation using deep ensembles, in: Advances in Neural Information Processing Systems, 2017, pp. 6405–6416.
[6] Y. Zhu, N. Zabaras, Bayesian deep convolutional encoder-decoder networks for surrogate modeling and uncertainty quantification, arXiv:1801.06879 (2018).
[7] M.S. Ayhan, P. Berens, Test-time data augmentation for estimation of heteroscedastic aleatoric uncertainty in deep neural networks, in: Medical Imaging with Deep Learning, 2018, pp. 1–9.
[8] Kendall A, Badrinarayanan V, Cipolla R, et al. Bayesian SegNet: Model Uncertainty in Deep Convolutional Encoder-Decoder Architectures for Scene Understanding[J]. arXiv: Computer Vision and Pattern Recognition, 2015.
[9] Kohl S, Romeraparedes B, Meyer C, et al. A Probabilistic U-Net for Segmentation of Ambiguous Images[C]. neural information processing systems, 2018: 6965-6975.
[10] Kendall A, Gal Y. What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision[J]. arXiv: Computer Vision and Pattern Recognition, 2017.
[11] A.G. Roy, S. Conjeti, N. Navab, C. Wachinger, Inherent brain segmentation quality control from fully convnet Monte Carlo sampling, in: International Conference on Medical Image Computing and Computer-Assisted Intervention, 2018, pp. 664–672.
[12] J. Long, E. Shelhamer, T. Darrell, Fully convolutional networks for semantic segmentation, in: IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3431–3440, doi:10.1109/CVPR.2015.7298965.
[13] O. Ronneberger, P. Fischer, T. Brox, U-Net: convolutional networks for biomedical image segmentation, in: International Conference on Medical Image Computing and Computer-Assisted Intervention, 2015, pp. 234–241.

[14] G. Wang, W. Li, M.A. Zuluaga, R. Pratt, P.A. Patel, M. Aertsen, T. Doel, A.L. David, J. Deprest, S. Ourselin, T. Vercauteren, Interactive medical image segmentation using deep learning with image-specific fine-tuning, IEEE Trans. Med. Imaging 37 (7) (2018) 1562–1573.
[15] A. Abdulkadir, S.S. Lienkamp, T. Brox, O. Ronneberger, 3D U-Net: learning dense volumetric segmentation from sparse annotation, in: International Conference on Medical Image Computing and Computer-Assisted Intervention, 2016, pp. 424–432.
[16] F. Milletari, N. Navab, S.-A. Ahmadi, V-Net: fully convolutional neural networks for volumetric medical image segmentation, in: International Conference on 3D Vision, 2016, pp. 565–571.
[17] G. Wang, W. Li, S. Ourselin, T. Vercauteren, Automatic brain tumor segmentation using cascaded anisotropic convolutional neural networks, in: Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, Springer International Publishing, 2018, pp. 178–190.
[18] Ovadia Y, Fertig E, Ren J, et al. Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift[J]. arXiv: Machine Learning, 2019.

人工智能在医学影像计算机辅助诊断系统中的应用

医学影像诊断是指临床医生通过非侵入的方式获得患者体内组织影像数据,以定量或定性的方式进行疾病诊断[1, 2]。在此过程中,仅依靠影像医生解读大量的医学影像数据,可能会导致诊断结果受影像医生认知能力和主观意识限制、带来漏诊和误诊等问题。据统计,医学影像的疾病误诊率可达到10%-30%[3]。由此产生的假阴性结果会使病人错过最佳的治疗时机,而假阳性病例一般要依靠活检等临床手段排除,这不但增加了病人的费用,也给他们增加了痛苦和病情恶化风险。因此,医学影像数据的全面、深入和快速解读,成为临床诊断中一项繁重且具有挑战性的工作。在此形势下,计算机辅助诊断(computer assisted diagnosis, CAD)的出现,成为时代发展的刚需。

编者:钱山

26

27

背景

图1 人工智能的发展历程[4]

人工智能(artificial intelligence, AI)自1956年达特茅斯会议(Dartmouth Conferences)提出后,先后经历了两次大起大落。近年来,随着数据量的骤然上涨、图形处理单元(Graphic processing unit, GPU)的广泛应用以及深度学习(deep learning, DL)的出现,第三次人工智能热潮正蓬勃发展,如图1所示[4]。深度学习是当前最具应用前景的机器学习(machine learning, ML)算法,是革新人工智能+医学影像即CAD系统的关键技术。医学影像数据通常包含丰富的人体健康信息,为人工智能和深度学习的持续发展提供了肥沃的土壤;计算机辅助诊断的流程繁琐严格,为人工智能和深度学习的应用落地提供了良好的条件。

随着人工智能技术的发展,CAD系统功能也在逐渐扩展和完善,作为医生诊断决策的参考,已广泛应用于多种疾病诊断中[3]。本文将概述CAD系统的发展历程,特别是基于深度学习的CAD,即AI-CAD系统的发展现状,列举了典型AI-CAD应用的实例,总结AI-CAD发展面临的问题并指出未来的发展方向。

2020年硕士毕业于北京航空航天大学生物医学工程专业。目前担任人工智能与临床创新研究院 前沿临床技术创新部 前沿产品研究员,研究方向包括心血管流体动力学,动脉粥样硬化建模仿真,磁共振成像。

钱山 硕士

28

29

深度学习是一种自动学习样本数据的内在规律和表征层次的复杂机器学习算法,人为设计并建立适量的神经元计算节点和多层运算层次结构,选择合适的输人层和输出层,通过网络的迭代学习和调优训练网络模型,建立起从输入到输出的函数关系,完成对疾病的自动检测和诊断。基于深度学习的AI-CAD系统开发通常需要大规模、高质量的医学数据,以及高性能GPU和算法等的支持,如图3所示。一项关于传统CAD与基于深度学习的AI-CAD在数据量上的性能比较研究表明,随着图像数据量的增加,数据驱动的深度学习AI-CAD表现出比传统CAD具有更好的性能,如图4所示[4]

图2 世界上第一台商业化CAD设备[4]

1963年,Lodwick等发表了将X光图像数字化的方法,基于医学影像的CAD开始出现,此领域的CAD研究也开始活跃[3]。1998年,第一个获得美国食品药品监督管理局(Food and Drug Administration,FDA)批准的商业化CAD设备是由R2 Technology公司制造的乳腺钼靶X线摄影系统,如图2所示[4]。之后,CAD系统在更多的诊断成像领域,包括胸部X光成像、胸部CT成像和CT结肠镜成像等陆续发展。但目前研究表明,美国临床实践中使用最成功的仍是乳腺钼靶X线摄影CAD系统。据统计,2016年乳腺钼靶X线摄影CAD系统完成了约92%的乳腺钼靶筛查[4]。此外,研究人员应用传统CAD软件回顾性分析了乳腺肿块及钙化灶的检出实验中病理资料显示,传统CAD对病灶的细微结构显示欠佳,漏诊率达到8.8%,假阳性率较高,影响医生对病灶恶性程度的认知[5]

本文总结传统CAD发展受限的原因如下:开发成本高、假阳性高可能导致召回率增加和不必要的活检、临床评估中效果不佳、工作流程繁琐、成本效益低、仅限于特定病变等[4]。鉴于临床治疗对CAD的广泛需求以及人工智能技术的快速发展,研究者预测:基于人工智能技术,特别是结合深度学习算法的新一代CAD系统有望解决上述问题。

传统CAD

基于深度学习的AI-CAD

  • 深度学习

图3 深度学习的执行环境[4]

图4 传统CAD与AI-CAD的性能比较[4]

30

31

深度学习技术加速了CAD系统的开发进程并改善了CAD系统的综合性能。在传统CAD的开发中,开发人员需要人为定义并提取图像特征,如癌变区域的形状、密度等信息,开发过程费时费力,如图5a所示[4]。而深度学习的优势在于,它可以通过自身的学习过程自主创造出目的特征,节省了大量的时间和精力,开发过程如图5b所示[4]。据统计,传统CAD开发需要数年才能完成,但是AI-CAD开发在数月内即可完成,且系统性能更优越。

  • AI-CAD分类

图5a 传统CAD开发流程

图5b AI-CAD开发流程

目前,AI-CAD能够辅助医生解读医学影像信息,有效减轻医生的工作负担,但还不能完全替代医生完成临床诊断。根据临床中医生结合CAD解读医学影像信息的方式不断发展,可分为第二阅片者模式CAD、交互模式CAD、共同阅片模式以CAD及第一阅片者模式CAD。
1) 第二阅片者模式CAD
1998年,FDA批准的乳腺钼靶检测CAD系统是第二阅片者模式CAD的代表。在这个系统中,医生首先根据临床经验自行阅片,然后再参考CAD解读结果诊断病情,如图7a所示[4]。该系统支持检测乳腺癌的可疑部位,例如肿块和成簇的微钙化,但整体阅片时间较长。随后,肺部X线摄影CAD、肺结节CT摄影CAD以及结肠息肉CT摄影CAD等第二阅片者模式CAD逐渐发展并商业化。

2) 交互模式CAD
交互模式CAD由荷兰研究人员首次开发,支持在病变及可疑部位显示CAD标记。如果医生单击可疑区域的CAD标记,则显示计算机评估的恶性评分来辅助医生解读分析结果,如图7a所示[4]。研究表明,放射科医生使用基于深度学习的交互模式CAD系统不会增加阅片时间,还能显著提高癌症检测率。进一步的研究发现,该系统的乳腺癌检测性能类似于放射科医生的平均水平。2018年12月,FDA批准了荷兰ScreenPoint Medical的乳腺X线摄影CAD系统。
3) 共同阅片模式CAD
共同阅片模式CAD是一种和医生同时解读、利用解读结果辅助医生阅片的系统,如图7b所示[4]。首个共同阅片模式CAD是由Riverin Technologies开发的ClearRead CT,于2016年9月获得了FDA的批准。该系统由两部分组成,包括用于处理胸部CT图像中血管阴影的抑制处理单元和检测器,能够有效缩短阅片时间。2016年11月,QView Medical 3D乳腺超声成像CAD系统获得了FDA的批准。2017年3月,iCAD,Inc.的数字化乳腺断层合成CAD系统也获得了FDA的批准。
4) 第一阅片者模式CAD
如图7c所示,首先由第一阅片者模式CAD分析并标记医学影像,随后医生只查看CAD标记过的图像,进行疾病诊断[4]。因此,诊断过程的整体阅片时间会大大减少。从临床医生的角度考虑,第一阅片者模式CAD的临床需求很大,特别是乳腺癌检测中,需要大规模筛查肿块、微钙化等情况。研究人员基于深度学习模型筛选出正常图像、不确定的图像和乳腺癌图像,放射科医生只需查看深度学习模型判断为不确定的图像和乳腺癌的图像,进行进一步的诊断。在不降低诊断准确性的前提下,能够减少阅片时间,提高诊断效率。但是,此类产品还需要一定时间才能应用于临床。

32

33

图7 三种类型的CAD,其中交互模式CAD包含在(a)中[4]

经过近50年的发展,医学影像CAD系统研究成果丰硕,已经成为医学影像学和放射诊断学领域的热门课题,在各种疾病诊断中被广泛应用[3]。本节将列举AI-CAD典型的应用示例,其中AI-CAD表现出比临床医生相同甚至更好的性能。
1) 乳腺图像诊断
近年来,基于卷积神经网络(Convolutional neural network,CNN)的乳腺钼靶CAD在致密型乳腺中检出乳腺癌的准确度有所提升。Al-Masni等研发的乳腺钼靶CAD通过深度CNN提取病灶特征,全连接神经网络预测病灶良恶性,其判断乳腺肿块位置和良恶性的准确度分别为99.7%和97%,对胸肌附近及腺体高密度区域的肿块检出有独特优势[6]。此外,在一项传统CAD与AI-CAD采用相同的数据集的情况下、比较乳腺X线图像假阳

  • AI-CAD典型应用

性(FP)标记的检测试验中,Mayo等发现几乎一半的病例未显示AI-CAD标记,而只有17%的病例未显示传统CAD标记;而且,与传统CAD系统相比,AI-CAD可使FP总体降低69%,可减少每位放射科医生17%的阅片时间[4]

2) 肺部图像诊断
近年来,CNN在肺非实性结节检测上有突破性进展。Yang等使用拓扑结构为CamsNet的级联结构深度CNN抑制骨组织,在约0.194mm像素大小的胸片上平均骨抑制率达83.8%,能够生成高质量、高分辨率的胸部软组织影像[6]。此外,Ciompi等提出的多流多尺度CNN对肺部结节(实性结节、非实性结节、部分实性结节、钙化结节、叶间裂周围结节、分叶状结节)CT预测结果和医生诊断结果的一致性,与2名医生间诊断结果的一致性相近;尺度为3的CNN和医生识别各类型肺结节的平均准确度为69.6%,而2名医生识别各类型肺结节的平均准确度为72.9%,此研究表明适度增大CNN尺度有利于分辨不同类型的肺结节和血管断面[6]
3) 病理图像检测
在一项乳腺癌前哨淋巴结转移的检测试验中,Ehteshami等模拟临床病理切片诊断过程,比较了结合检测DL算法的AI-CAD与平均16年临床经验的11位病理学家的检测结果。结果表明,AI-CAD检测结果的AUC(ROC曲线下面积)平均为0.994,而11位病理学家检测结果的AUC平均为0.810(有阅读时限);另外,即使11位病理学家检查图像时间不受限的条件下,其AUC(AUC=0.966)仍低于AI-CAD[4]
4) 眼底成像诊断
于2018年4月获得FDA批准的IDX-DR,是一种通过眼底图像自动检测糖尿病的系统,其功能已经超出了现有AI-CAD的水平,被称为自主诊断系统或AI医生。IDX-DR通过分析由Topcon Healthcare Solutions,Inc.制造的非散瞳眼底照相机TRCNW400拍摄的眼底照片,自动输出以下结果:建议医生就诊

34

35

面临的问题和研究展望

,表明检测到糖尿病相关症状;建议在12个月内重新检查,表明未检测到糖尿病相关症状;重新拍摄,表明图像质量不好。而且,在性能评估中,IDX-DR临床测试的检测灵敏度为87%,特异性为90%[4]。该设备是新一代AI医疗设备,可由初级保健医生(医疗保健提供者)使用,而无需专家核实诊断图像或分析结果。

近些年,越来越多的CAD系统被提出来,但由于CAD系统性能评估困难、临床应用困难等原因,在医学影像CAD系统研究方面依然面临着挑战。

1) CAD系统的性能评估困难
公用的标准库是公平、正确地对比衡量CAD系统性能的基础条件之一。目前,医学类的公共库有美国肺部图像数据库联盟的LIDC/IDRI 库、日本放射技术学会的JSRT库、弗雷德里克国家实验室的RIDER、ELCAP公用库、南佛罗里达州大学的DDSM、Mini-MIAS 乳腺征象库、NCIA、TCIA Collection 库、promise12前列腺库,国内的有LISS库。由于标注量和征象种类的限制,这些库只能满足某些CAD系统的评估。而且大部分现有的CAD 系统研究文献中的CAD性能评估也不是建立在这些公共的库上。有些研究是基于上面所提到的公共库做的,但一般只选用了库中的一部分图像,没有说明使用了哪些图像或选择使用的标准,实验环境无法重现。大部分文献中的系统性能评估使用的是自己的标准库,不同标准库图像的产生设备和电气条件不同,库的规模和征象类别的比例等也不同。除此之外,目前没有一个通用、可行的性能评估流程标准,正确地衡量一个系统的性能是非常困难的[3]
2) CAD 系统临床应用困难
CAD系统临床应用需要考虑的实际因素有很多。首先,由于人体器官的医学影像构成复杂,如肺部器官

  • 存在的问题

  • 未来展望

多、内部结构显示多态化、医学影像上各种组织灰度相近等,一个实验室研发的CAD研究实验往往针对某一类征象,而临床应用通常需要检测多类征象,甚至是几种疾病同时出现的征像组合。因此CAD系统在临床应用中需要灵活处理各种不同情况复杂的医学图像[3]。另外,虽然乳腺的图像相对简单,但中国女性的乳房结构和欧美相比差异较大,腺体遮蔽和结构噪声更为明显,正常的乳腺组织和病灶区分度更小,对乳腺CAD提出严峻的挑战,导致目前我国乳腺CAD可靠性较低。因此CAD系统临床应用还要考虑目标人群的差异性。此外,深度学习算法要求的医学图像质量高、临床应用实际环境参差不齐、患者体验感差等因素,导致谷歌基于深度学习算法检测糖尿病性视网膜病变的临床试验最终失败。因此CAD系统临床应用还应综合考虑落地场所不同的实际环境。综上所述,虽然目前研究人员在医学影像领域开展的AI-CAD研究较多,但临床应用难度较大。

基于深度学习的医学影像AI-CAD系统研究还处于未成熟阶段,有很多工作需要去探索。对未来医学影像AI-CAD系统的可能发展方向,展望如下。
1) 与医院HIS系统或PACS系统相结合的临床应用
目前的AI-CAD研究中基于实验室样本库的较多,仅有少数商用系统的临床应用研究。临床应用是AI-CAD系统的最终目标,结合临床应用,可以检测AI-CAD系统在复杂应用场景下的准确性、鲁棒性和实用性。
2) 半监督学习
传统的分类器只使用标记数据进行训练,但充足的标记样本通常难以获得(如医学影像)、昂贵或耗时,因为它们需要经验丰富的标注专家的努力。

36

37

同时,未标记的数据可能相对容易收集,但几乎没有办法加以使用。半监督学习通过使用标记的数据及大量未标记的数据来解决这个问题,构建更好的分类器[3]。由于半监督学习需要较少的人力且能达到更高的准确性,所以研究其在医学影像AI-CAD领域的应用,对解决训练样本不足的现状非常有意义。

3) 算法融合
每种算法都有其局限性,目前的单一分类器都不能完全解决所有的问题或者达到应用系统的要求[3]。多算法融合,综合运用各种方法的优势、扬长避短,组合起来可以得到更高鲁棒性的系统。算法融合不是算法简单地相加或捆绑,而是通过合适的策略把不同的算法有机结合起来,得到一个更高效、鲁棒的AI-CAD系统,是值得关注的。
4) 引入医生反馈,实现人机混合智能
技术的本质,最终是服务于人类。为了解决临床中诊疗效率低、人机契合弱的问题,在检测、分割阶段,AI-CAD系统可基于深度学习和医学影像检测可疑病灶、自动分割病灶区域,随后医生对系统的输出结果进行更准确的修改;在分类阶段,系统可基于深度学习和图像特征对疾病分类,医生再对分类正确的结果给予奖励、对分类错误的结果给予惩罚。与此同时,AI-CAD系统根据医生回馈的结果再进行强化学习,实现医生与系统的混合智能交互,逐步完善系统性能,让机器真正成为医生诊疗的实用帮手、同时医生也成为机器专业的指导专家,有效提升临床诊疗的效率和准确性。

参考文献

[1] 刘丰伟, 李汉军, 张逸鹤, et al. 人工智能在医学影像诊断中的应用. 北京生物医学工程[J]. 2019,38(02): 206-211.
[2] Bigler ED. Neuroimaging as a biomarker in symptom validity and performance validity testing. Brain Imaging and Behavior[J]. 2015,9(3).
[3] 郑光远, 刘峡壁, 韩光辉. 医学影像计算机辅助检测与诊断系统综述[J]. 软件学报. 2018,29(05): 1471-1514.
[4] Fujita H. AI-based computer-aided diagnosis (AI-CAD): the latest review to read first[J]. Radiol Phys Technol, 2020,13(1): 6-19.
[5] 杨涟, 王鸿雁, 顾金林. 计算机辅助检测在乳腺癌影像诊断中的价值. 江苏医药[J]. 2012,38(23): 2818-2820.
[6] 潘亚玲, 王晗琦, 陆勇. 人工智能在医学影像CAD中的应用. 国际医学放射学杂志[J]. 2019,42(01): 3-7.

强势推出脑疾病诊断最新利器-侧支循环

调查显示,脑血管疾病是全球健康领域的热点问题,特别地,脑卒中已成为我国第一位致死疾病,也是中国成年人残疾的首要原因。其中缺血性脑卒中的发病率显著高于出血性脑卒中,占脑卒中总数的60%~70%。在缺血性脑血管病所导致的初始动脉狭窄、供血不足、血栓栓塞、血流动力学减低等情况下,保护性侧支血管通路能够稳定脑血流量、减轻缺血对脑组织的损伤以及改善预后。相关研究表明,侧支循环与缺血性卒中的发生、病情进展、治疗方式的选择以及预后都密切相关,因此影像评估脑梗死患者侧支情况已经成为缺血性脑卒中诊治中的重要一环。
2019年《中国脑血管病影像指南》罗列了多项目前临床在用的侧支循环的评分方法。中国高级卒中中心苏州大学第一附属医院孔岩教授团队做了一项长达3.5年的侧支循环评分方法间的对比研究,研究共收纳了230多例患者,综合评价推出了Tan评分标准。MDaaS BG脑疾病专科组第一时间

作者:马丽娟

哈尔滨工程大学本硕连读,从事算法及软件研发工作6年多。主要研究领域:缺血性脑卒中影像辅助诊断软件的研发,擅长CT、MR缺血半暗带及核心梗死区的定量分析。目前担任MDaaS BG 脑疾病专科组灌注算法研发,主攻脑卒中领域前沿技术的产品转化。曾发表高水平学术期刊及会议论文4篇,申请专利4项,参与多项国家十二五、十三五课题。

马丽娟 硕士

38

39

对Tan评分进行了科研产品的转化,并采用230余套临床病志的数据验证了该科研产品的评分正确率为100%。此外,MDaaS BG脑疾病专科组于2020年4~5月份提交该产品到301医院试用,产品得到了多位专家的一致肯定。
      本文首先对侧枝循环的概念、分类及评价方法进行了简要介绍,其次对苏大附一的试验及Tan评分标准进行了详细介绍,最后对科研产品的成果进行了展示。

一、 背景现状

二、 侧支循环概念

当供应脑的动脉严重狭窄或闭塞时,血流可以通过侧支或新形成的血管吻合到达缺血区,从而使缺血组织得到不同程度的灌注代偿,对急性缺血性卒中后最终梗死体积和缺血半暗带的形成具有保护作用。最新的研究进展表明,侧支循环与颈动脉闭塞患者的预后[1]、急性缺血性脑梗死的体积[2]、急性缺血性脑梗死的预后[3]、脑卒中的接入治疗效果[4]、缺血性脑卒中的介入治疗效果等相关[5],丰富的侧支循环可减少缺血性脑卒中介入治疗后的出血性转化[6],可改变颅内动脉粥样硬化患者卒中的风险[7]。

图 1 CTA显示人脑丰富的侧支循环

40

41

2. 侧枝循环按照代偿层次可分为三级侧支循环,即初级侧枝循环、次级侧支循环以及三级侧支循环,如图4所示。初级侧支循环指脑底的Willis环,即一级侧支,是最快速和最主要的侧支循环代偿途径;次级侧支循环亦称二级侧支,即眼动脉、软脑膜侧支吻合血管以及其他颅内外动脉分支的吻合等,二级侧支循环在缺血后需要一定的时间进行代偿。脑缺血后诱发新生成的血管为三级侧支,这一代偿过程需要数天才能完成。

三、 侧支循环的分类

1. 侧支循环按照部位可分为颅外侧支循环和颅内侧支循环。
1) 颅外侧支循环:通过面动脉(a),上颌动脉(b),脑膜中动脉(c)与眼动脉建立侧支。脑膜中动脉吻合支(d)及枕动脉通过乳突孔(e)及顶孔(f)与颅内脑膜吻合,建立侧支循环,如图2所示。

2) 颅内侧支循环:后交通动脉(a)联系前后循环,大脑前与大脑中动脉(b),大脑中动脉与大脑后动脉(c),大脑后动脉与小脑上动脉(d), 小脑动脉远端(e)通过丰富的脑膜吻合支广泛联系,如图3所示。

图 2 颅外侧支循环

图 3 颅内侧支循环示意图

图 4 大脑侧支组成示意图

(a) 一级侧支Willis环 

(b) 二级侧支眼动脉及软脑膜侧支

42

43

图 6 MRA显示人脑一级侧支Willis环(圆圈)
及大脑后动脉与大脑中动脉间二级侧支(箭头)

四、 侧支循环的评价方法

Willis 环是脑内主要侧支循环途径,变异大,直接影响到侧支循环通路能否建立,如图5所示。研究表明,仅有31%的中国人具有完整的Willis环。大多数人脑主要供血动脉急性闭塞后,Willis环不足以提供良好的侧支循环代偿,会发生梗死[8]。最新的研究表明,基因构造的不同可导致侧支循环编译及重构的差异,其中QTL是主要影响侧支循环编译及重构差异的基因[9]。

1. 评价方法主要分为一级侧支评价法和二级侧支评价法,具体的评价方法和评价效果如表1和表2所示:

2. 各个评价方法的优缺点
1) MRA
优点:无创、无辐射等特点,可以清楚的显示一级侧支循环,如图6所示红圈部分所示。
缺点:空间分辨率有限,对于二级侧支循环显示较CTA及DSA差,如图6绿色箭头所示。

2) CTA
优点:无创、快速、空间分辨率高等特点,可以清楚的显示一级侧支循环,对二级侧支循环显示良好。可以在显示动脉侧支的同时观察静脉侧支,如图7所示。
缺点:不能动态观察血流方向,评估血流速度。
3) DSA
优点:空间分辨率高,可以清楚的显示一级侧支循环,对二级侧支循环显示良好,如图8所示。此外,可动态观察血流方向及血流速度,可以分别显示动脉象和静脉象。
缺点:不能同时显示全脑血管动静脉及其吻合侧支。

44

45

2019年《脑血管病影像规范化应用中国指南》指出,侧枝循环的评分方法主要包括:单时相CTA评估侧支循环、多时相CTA评估侧支循环。
1. 单时相CTA评估侧支循环
单时相CTA 已被广泛应用于急性缺血性脑血管病的侧支循环评价。比较常用的是源图像和MIP 图像,MIP 图像相对用的更多。单时相CTA 评价侧支循环的量化方法评分系统很多,目前的评分系统主要是针对前循环单侧大动脉(主要是MCA)闭塞,即将缺血区域作为一个整体或指定某一个区域为对比区,将软膜支对比剂充盈状态相对于对侧分为2~5 分不同等级,可根据情况采用不同的评分量表。

图 8 DSA 显示通过前交通动脉供应对策大脑前动脉的侧支循环

图 7 CTA显示人脑侧支

五、 侧支循环的评分方法

46

47

1. 病人信息:女,67岁。
2. 扫描信息:CTA头颈联合多相3期扫描,采用GE Revolution CT扫描,层间距0.625mm。

六、 科研转化成果展示

图 9 模板与多相计算结果

2. 多时相CTA评估侧支循环
多时相CTA 将侧支血管对比剂充盈状态与充盈时间延迟相结合,与单时相CTA 相比,可更好地评估侧支循环状态,预测临床结局。
3. Tan评分
    针对侧支循环评估方法较多,临床中如何选择有一定争议的问题,苏州大学附属第一医院孔岩教授团队基于CTA进行了的侧支循环评分方法的比较研究[10],即对临床常用的rLMC 评分、Miteff 评分和 Tan 评分进行了比较,选取 2013 年 8 月至 2017 年 2 月苏州大学附属第一医院神经内科、重症医学科、介入科和脑外科住院治疗的急性缺血性卒中患者200多例。其中患者入组条件为:CTA 检查证实为大脑中动脉 M1、M2 段或颈内动脉闭塞;首次发作的急性缺血性卒中或既往卒中史但未遗留明显神经功能缺损症状[mRS<2 分]。采用 rLMC 评分、Miteff 评分和 Tan 评分评估每例患者的侧支循环以及完成每种评分所需时间,并由同一名评估者于 24 小时后再次进行评分。DSA 检查的患者同时采用 ASITN/SIR 评分对侧支循环进行评估。随访患者 3 月时 mRS 评分,0-2 分为预后良好,3-6 分为预后不良。采用 SPSS18.0 软件进行统计学处理。Spearman 相关系数表示效度,Kappa 系数表示评估者间信度和复测信度。应用二分类 Logistic 回归分析确定影响急性缺血性卒中预后的独立相关因素,并计算优势比(odds ratio,OR)和 95%可信区间(confidenceinterval,CI)。采用 MedCalc 软件绘制受试者工作特征(ROC)曲线,比较三种评分对急性缺血性卒中预后的预测价值。P<0.05 差异有统计学意义。
研究表明,a. 与 Miteff 评分和 Tan 评分相比,rLMC 评分的信度和效度高,真实可靠;b. 三种评分定义的侧支循环均与急性缺血性卒中预后相关;c. 与 Miteff 评分和 Tan评分相比,rLMC 评分对预后的预测价值高,Tan评分次之;由于rLMC实际使用操作复杂,从实用的角度出发,优先对Tan评分进行了科研转化,Tan评分满分3分,评分量表如表3所示。

48

49

3. 产品输出结果包括:a. 矢状位、轴位、冠状位血管状态;b. 明示异常侧;c. 给出充盈范围比例;d. Tan评分结果,如图10所示。其中矢状位与冠状位是三维动画效果,局限于表达形式,采用单张罗列的形式给出,如图11、图12所示。

 从图9(a)可以看出,该病人左侧大脑中动脉M1段闭塞(蓝色圈部位),因为该病人侧支循环非常好,左侧大脑中动脉血管在第一期就达到了充盈状态(左侧全红),对图9(b)绿色区域与蓝色区域进行充盈范围对比,侧支血流充盈范围几乎在闭塞血管供血区的 100%,评分结果为3分。

图 10 产品输出形式

图 11 矢状位多角度血管状态显示(角度间隔10°)

50

51

图 12 冠状位多角度血管状态显示(角度间隔10°)

参考文献

1. Henderson, R, D,等. Angiographically Defined Collateral Circulation and Risk of Stroke in Patients With Severe Carotid Artery Stenosis[J]. Stroke, 2000.;31:128–132
2. Bang O Y , Saver J L , Buck B H , et al. Impact of collateral flow on tissue fate in acute ischaemic stroke[J]. Journal of neurology, neurosurgery, and psychiatry, 2008, 79(6):625-629.
3. Ferdinand M , Levi C R , Bateman G A , et al. The independent predictive utility of computed tomography angiographic collateral status in acute ischaemic stroke[J]. Brain(8):8.
4. Bang O Y , Saver J L , Kim S J , et al. Collateral Flow Predicts Response To Endovascular Therapy For Acute Ischemic Stroke[J]. Stroke, 2011, 42(3):693-699.
5. Bang O Y , Saver J L , Kim S J , et al. Collateral Flow Predicts Response To Endovascular Therapy For Acute Ischemic Stroke[J]. Stroke, 2011, 42(3):693-699.
6. Bang OY et al. Collateral flow averts hemorrhagic transformation after endovascular therapy for acute ischemic stroke. Stroke. 2011 ;42(8):2235-9
7. Liebeskind D S , Cotsonis G A , Saver J L , et al. Collaterals Dramatically Alter Stroke Risk in Intracranial Atherosclerosis[J]. Annals of Neurology, 2011, 69(6):963-974.
8. Li Q, Li J, Lv F,Li K, Luo T, Xie P. A multidetector CT angiography study of variations in the circle of Willis in a Chinese population. J Clin Neurosci. 2011;18(3):379-83.
9. Wang S , Zhang H , Dai X , et al. Genetic Architecture Underlying Variation in Extent and Remodeling of the Collateral Circulation[J]. Circulation Research, 2010, 107(4):558-568.
10. 王国防. 基于CTA的侧支循环评分方法比较研究[D].

人工智能与临床创新研究院

主编:
编辑:

杨明雷
韩冬    杨俊    程爽
王赛萌    陈聪

NMS-AICIR@neusoftmedical.com

投稿方式

Copyright © 2024 陕西妙网网络科技有限责任公司 All Rights Reserved

增值电信业务经营许可证:陕B2-20210327 | 陕ICP备13005001号 陕公网安备 61102302611033号