肿瘤浸润淋巴细胞在病理图像上的空间组织与分子相关性
SpatialOrganizationandMolecularCorrelationofTumor-InfiltratingLymphocytesUsingDeepLearningonPathologyImages
背景
TCGA的HE扫描切片库是未被充分的利用资源。在以往的研究中仅进行了零星的人工分析,而缺乏可用的各种分析工具和分析方法进行更系统的挖掘。多数的研究都是由病理学家手工完成的过程,没有自动化的尝试。
在本文研究中作者采用自动图像处理技术来评估TCGA中多种肿瘤类型的淋巴细胞浸润,分析淋巴细胞浸润与临床结果关系。
文章大致可以分为三部分:
1.构建卷积神经网络模型,生成淋巴细胞浸润图
2.分析不同肿瘤类型淋巴细胞浸润分数
3.分析淋巴细胞浸润的空间结构与免疫和临床指标的关联:
(1)局部空间(病灶部位的组织)结构的免疫浸润
(2)整体(肿瘤组织+癌旁组织)淋巴细胞浸润模式
用卷积神经网络生成肿瘤浸润淋巴细胞图
图1用于模型培训、测试和后续生成淋巴细胞浸润图的流程
首先展示的是用于模型培训、测试和后续生成淋巴细胞浸润图的流程:人工对一组切片图像分类,标记淋巴细胞和坏死区域。为提高计算效率,使用分割后的小图形块而不是独的区域和单元进行训练。
图2
在图片识别部分,作者使用了两个卷积神经网络:淋巴细胞浸润分类CNN(淋巴细胞CNN)和坏死切片CNN(坏死CNN)。
淋巴细胞CNN是一个半监督CNN,由一个无监督卷积自编码器(CAE)初始化,负责将输入图像分为有淋巴细胞浸润的和没有淋巴细胞浸润的小块。
因为坏死区域的细胞核可能具有类似于淋巴细胞浸润区域的特征,所以作者使用坏死组织CNN将坏死区域分割开来,旨在消除坏死区域的假阳性。
具体来说,识别淋巴细胞的卷积神经网络CNN首先将放大20倍后的HE切片图像分割成图像块,预测这些图像块是否有淋巴细胞浸润,并将预测结果以热图的形式叠加在HE图像上的(图片中肿瘤浸润淋巴细胞阳性图像块显示为深橙色)。
负责识别坏死组织负责的卷积神经网络将HE切片图像分割后来预测是否存在坏死(图片中坏死区域图像块是浅橙色),这一步的目的是为了降低识别淋巴细胞的假阳性
再将两个结果合并,剔除坏死区域的假阳性信号信号后,得到最终肿瘤浸润淋巴细胞预测结果,即最右侧图中深橙色部分。
图3
初始训练后是一个循环的审核和优化的过程,以提高淋巴细胞CNN的预测精度。具体来说就是机器产生为每个patch生成淋巴细胞浸润的概率值,人工从中抽样,检查机器预测的概率值,并将人工校正后的数据反馈给机器。机器在利用反馈的结果进行训练,直至预测准确度符合人工要求。
图4
通过查阅文献,作者选取了存在淋巴细胞浸润,并有相应分子评估信息的13种癌症进行研究。将这13种肿瘤共计5,幅数字化病理图像输入训练后的算法。剔除部分图像文件损坏、无法读取或图像仅包含整个载玻片的一小部分等问题图片后,得到张淋巴细胞浸润图。
图5
为了评估模型的优劣,作者首先将模型与CNNVGG16这一广泛使用的算法进行了比较。使用来自TCGA肺腺癌(LUAD)病例的切片图像,分割得到20,个图像块构成训练集。每个图像块中通常含有0至30个细胞核,并由病理学家标记为淋巴细胞浸润或无淋巴细胞浸润。负责检测坏死部分训练集由个图像块组成,人工标记过。
个图像块用于构建测试数据集,通过绘制ROC曲线比较两种算法的预测性能,结果显示相对于ROC曲线下面积(AUROC)指标,作者提出的模型面积比VGG16的多3.1%,提示模型预测性能略微优于VGG16。
图6
此外,作者还对比模型与人工的表现:
人工评估了张大小为8X8图像块构成的图像,按照淋巴细胞浸润程度将图片分为分别为低、中、高三组。
同时机器也对这张图像进行评分,存在淋巴细胞浸润的图像块记作1分,所以机器评分的介于0-64之间。
图中可以看到,在低、中、高三组中,机器评分依次增高,与人工的分类具有明显的相关性。
肿瘤浸润淋巴细胞分数
图7
作者计算了TCGA数据库中13中肿瘤的淋巴细胞分数,公式如上,肿瘤浸润淋巴细胞阳性图块除以总的含有组织的图块,结果显示:
不同肿瘤类型浸润分数差异很大,胃癌(STAD)的平均浸润率为14.6%,直肠癌(READ)为13.0%,肺鳞状细胞癌(LUSC)为11.6%,而葡萄膜黑色素瘤(UVM)仅有1%的图块浸润阳性。
图8
这种差异也存在与不同肿瘤免疫亚型中,再次之前托尔松等人曾对10,多种肿瘤进行免疫组织化学分析,鉴定出包含多种癌症类型的6种免疫亚型。
C1(组织愈合型)有升高的血管生成基因表达,高增值比例(图1C)和Th2偏向的获得性免疫浸润。
C2(IFN-γ主导型)有最高的M1/M2巨噬细胞极化,强烈的CD8信号,并且和C6一样,有最高的TCR多样性。C2也有高增值比例,
C3(炎症型)被定义为Th17和Th1基因升高(图1C),不能有效节制肿瘤细胞增殖,并且和C5一样,相比其它亚型,有更少的非整倍体和总体细胞拷贝数改变。
C4(淋巴细胞耗竭型)巨噬细胞特征显著(图2A),Th1抑制,M2高反应。
C5(免疫静默型)淋巴细胞最少,巨噬细胞反应最高(图2A),M2型巨噬细胞主导。
C6(TGF-β主导型),由各癌症混合而成,不在任何TCGA亚型中占主要地位。有最高的TGF-β特征,高淋巴浸润。I型和II型T细胞相同分布。
在本文中作者比较了肿瘤不同的免疫亚型的浸润分数,发现不同亚型存在很大差异。免疫活性最强的免疫亚型如C1、C2,对应的淋巴细胞空间浸润分数高
图9
在有记录的TCGA亚型中,不同肿瘤以及同一肿瘤不同亚型之间的淋巴细胞空间浸润分数有很大的差异。
图10
正文中作者分别以胃癌、肺癌、乳腺癌为例,说明不同分子亚型之间淋巴细胞空间浸润分数的差别:在胃癌中EBV阳性亚型中TIL特别丰富,平均25%的空间区域被TIL浸润。肺鳞癌中,分泌亚型浸润分数最高,平均17%。在乳腺癌肿瘤中,基底亚型的浸润最多。依据这些结果,作者提出浸润的性质与肿瘤微环境有很强的联系,浸润的性质可能反映了肿瘤细胞特殊的分子突变状态。
图11
随后,作者比较了通过图像获得的淋巴细胞浸润分数与基因组学检测得到的淋巴细胞浸润分数,图中横轴代表分子方法获得的结果,纵轴代表图像中获得的结果
图12
注:TIL分数的分子估计值是通过将基于DNA甲基化阵列的总体白细胞分数估计值乘以通过将CIBERSORT应用于RNA测序数据获得的白细胞中淋巴细胞比例估计值获得的。
作为阴性对照的葡萄膜黑色素瘤无显著性外,其他肿瘤类型中两种方法得到的结果具有明显的显著性,斯皮尔曼相关系数相关值范围为0.20介于0.45,说明两种方法相关性不高。
作者认为分子估计值和图像获得的浸润度之间存在差异的原因包括:
(1)分子评估的取样部位与石蜡切片之间取样部位之间相邻,但是可能存在差别
(2)通过分子水平进行评估时,结果与淋巴细胞的数量成正比,而图片评估浸润时是通过组织面积来评估的
(3)图像分析时,纳入了非肿瘤部分对应的图像
相比之下分子评估时,样本采集部位肿瘤细胞高度富集
图13
接下来,作者展示了经两种方法计算结果具有明显差异的样本:
图像从左到右依次是:低放大倍率下的HE诊断图像、肿瘤浸润淋巴细胞图和低放大倍率下分子基因组学检测的新鲜冰冻切片。
HE切片中几乎全部由肿瘤细胞构成,不含淋巴细胞,而对应的冷冻切片当中具有淋巴细胞的分布。
图14
在第二个例子中,则相反HE切片中包含大量淋巴细胞,但是细胞分布在瘤周区域和远端基质中,相比之下冷冻切片所采用的组织主要以肿瘤细胞为主,缺乏淋巴细胞
作者提出图像分析时由于纳入了非肿瘤区域内的淋巴细胞,是造成两种评估方法差异的主要原因。为了提高图像检测的准确性,作者建议可以通过人工剔除或使用卷积算法排除这些区域,不过在本文中作者没有继续深究这个问题
TIL浸润的局部结构的自动评估,以及与分子和临床读数相关的免疫浸润的局部空间结构
图15
相比与分子生物学方法,作者指出机器学习可以从图像中获得淋巴细胞浸润程度之外,淋巴细胞空间分布的信息。所以作者接下来使用AP算法,分析肿瘤浸润淋巴细胞图中淋巴细胞分布、各个分布区域之间的联系。图中从左到右依次是低倍镜下诊断图像、TIL图、聚类结果图。聚类中心用圆点表示,聚类中心与各个成员之间由线段连接,不同颜色用来区分不同的淋巴细胞簇。
图16
对于每个聚类结果,作者使用简单的计数和范围统计方法来获取淋巴细胞浸润的进本信息,并使用一系列聚类指数评估聚类形状等更复杂的特征。
例如:
Ncluster代表聚类后获得的细胞簇的绝对值
NP代表细胞簇中淋巴细胞阳性的patch的平均数
WCD代表簇内每个观测点与聚类中心的距离,表征簇内观测点与聚类中心的离散程度
CE代表簇内到聚类中心最远距离
ball-hall指数:簇中的观测点相对于其中心的距离的平方的均值
Banfield-Raftery:平均离散度的对数的加权和
图17
作者分析得到,BALL-HALL指数与平均群集程度CE相关,斯皮尔曼系数Spearman=0.95
Banfield-Raftery指数与聚类后的簇数相关,斯皮尔曼系数Spearman=0.95
图18
不同癌症的BALL-HALL指数差别很大,并且该指数的高低并不和浸润分数直接相关。例如乳腺癌BRCA和前列腺癌PRAD的ball-hall指数比较高,但右侧图中显示样本浸润分数较低。说明在一些淋巴细胞中等浸润肿块的一些肿瘤类型,淋巴细胞浸润范围相较大。
总之,作者试图说明图像分析,在一些淋巴细胞低浸润的肿瘤类型中,能够获得关于肿瘤更多的信息。
图19
接下来作者研究淋巴细胞空间分布对总生存率的影响程度,使用Cox回归,将年龄和性别作为额外的临床协变量进行生存分析。
为了排除淋巴细胞密度对生存分析的干扰,作者使用线性回归模型对聚类指数进行校正获得,得到聚集指数和肿瘤类型之间的5个显著相关的组合
图20
图21
例如在黑色素瘤中SKCM中,BanfieldRaftery指数的增加与存活率较高相关,而在BRCA中,Ball-Hall指数的增加与存活率较低相关。作者认为Ball-Hall指数升高的肿瘤患者的生存期较差,证明了淋巴细胞浸润的整体结构与生存期之间的相关性,可以作为患者肿瘤分选的潜在指标描述整个TIL的结构模式和与分子估计的关联
图22
在临床中,对肿瘤组织的诊断需要结合癌旁组织,因此作者接下来试图结合癌旁组织对肿瘤浸润淋巴细胞的空间结构进行进一步研究,首先根据淋巴细胞浸润程度和空间分布,并对其进行分类:
“快速、弥散”型,淋巴细胞分散在至少30%的肿瘤区域;
“快、带状”型,淋巴细胞在肿瘤周边形成带状边界;
“非快速、多灶性”代表淋巴细胞分散,面积占肿瘤5%-30%;
“非快速、局灶”型,淋巴细胞占肿瘤面积大于1%小于5%
“无”浸润型,淋巴细胞涉及肿瘤面积小于或等于1%。
图23
不同肿瘤淋巴细胞浸润模式不同,图中每一行对应右侧TCGA肿瘤类型,每一列对应下方的浸润类型,用颜色深浅代表观察计数与随机预期计数的比值。
结果显示乳腺浸润癌呈现“非快、局灶”表型(观察到例;预期例;)。胰腺癌富集于“非快速、多病灶”表型
黑色素瘤skcm呈现“快速、带状”表型
图24
不同免疫亚型免疫亚型中也观察到浸润情况的差异,其中C4亚型富集于“非快、局灶性”
免疫亚型C3总体预后良好,几乎不呈现快、带状结构,反映了机体更温和免疫反应
C2的预后相对较差,呈现“快速”表型,与此类肿瘤中相对较大程度的淋巴细胞浸润不能充分控制肿瘤生长的预期一致。
总之,整体结构模式显示了不同肿瘤类型免疫应答的不同,提示不同淋巴细胞浸润模式在影响肿瘤免疫应答。
图25
作者还研究了不同组间浸润的淋巴细胞类型是否存在差异,从TCGA数据库中获取相应样本的分子数据,用于分析cd4t细胞、cd8t细胞、B细胞和NK细胞比例估计值。结果显示
相比非轻快表型,快速表型CD8T细胞比例高
非轻快表型CD4T细胞比例高(p=0.03)。
表明特定的T细胞亚群可能在整体结构模式的形成中发挥作用。
小结
在本文中作者运用机器学习快速识别病理图像中的肿瘤浸润淋巴细胞,绘制TIL分布图将13种癌症病理图像信息与相关临床和基因组数据相结合。从而帮助临床专家从常规病理切片中快速获得肿瘤免疫信息。
作者:魏永甲校审:罗泽龙往期回顾:
TME文献精读
在具有代谢障碍的肿瘤微环境中增强CD8+T细胞脂肪酸分解代谢可提高黑色素瘤免疫治疗的疗效
TME文献精读
肿瘤微环境的转录组分析揭示了肾透明细胞癌不同亚组的差异-数据来自随机III期试验
TME文献精读
骨髓肿瘤微环境影响CML的治疗疗效
TME文献精读
基于机器学习的体细胞突变检测方法TME文献精读
基于单细胞测序的肺癌肿瘤免疫微环境中基质细胞的图谱
TME文献精读
使用深度学习从结直肠癌组织学切片中预测生存:一项回顾性多中心研究
TME文献精读
单细胞测序揭示乳腺癌免疫微环境
TME文献精读
肿瘤免疫微环境介导的膀胱癌亚型及其与预后的相关性
校审专家介绍罗泽龙,住院医师
熟悉常见恶性肿瘤的介入微创治疗:如动脉化疗/栓塞术、经皮动脉药盒导管系统植入术--系统化疗灌注、经皮实体瘤消融治疗、放射性粒子植入、经皮穿刺活检,特别是肝原发及转移性癌、门脉癌栓、肺癌等的综合介入微创治疗,并熟悉其化疗、靶向治疗、免疫治疗。恶性肿瘤的内支架治疗:上腔静脉狭窄、门静脉癌栓狭窄、食管癌吞咽困难、胆道狭窄或阻塞引起梗阻性黄疸。输液港的植入与管理。
熟悉良性肿瘤硬化栓塞治疗,如肝血管瘤、子宫肌瘤、肾错构瘤等。脾功能亢进栓塞治疗。经皮胃造瘘术、经皮囊肿硬化治疗。
门诊时间:周一下午
专业方向:肝胆胰恶性肿瘤、肿瘤介入微创综合治疗
预览时标签不可点收录于合集#个上一篇下一篇