测脑龄:基于原始影像数据的深度学习模型预测脑龄可获得可靠的遗传生物标志物

基于机器学习对神经影像数据进行分析可以准确预测健康人的年龄。预测年龄与健康大脑的年龄的偏差被证明与认知障碍和疾病有关。在这里,我们基于深度学习的预测建模方法,特别是卷积神经网络(CNN),进一步测试了脑龄预测的影响因素,并表明脑龄可以作为大脑发育过程中的个体差异的生物标志物,该模型可应用于数据预处理后的结构像和原始T1加权MRI结构数据。

首先,作者们用一个健康成人的大数据集来证明CNN模型预测大脑年龄的准确性(N=2001);接下来,通过单卵和双卵女性双胞胎的样本验证预测的遗传性特征(N= 62);第三,使用两个额外样本来验证测试集和多中心脑龄预测模型的可信度(同一个扫描仪内(N=20);不同扫描仪之间(N= 11))。

具体来说,本文基于CNN模型分别利用GM(脑预测年龄与年龄相关系数r=0.96;平均绝对误差4.16年)和原始数据(r= 0.94,平均绝对误差 4.65年)对脑龄进行预测。本文的深度学习方法与基于GPR(高斯过程回归)方法使用GM数据的脑年龄预测结果相似(r= 0.95,平均绝对误差4.66年)。对于所有模型和输入数据,脑龄预测代表了一种在遗传学上有效的表型(h2=0.5)。脑龄预测有较高的重测信度(组内相关系数=0.90-0.99)。多中心重测信度在ICC较高的GM(0.83-0.96)、ICC处于低中度水平的WM上以及原始数据(0.51-0.77)上变化较大。

脑龄预测是一种准确的、高度可靠的、受基因影响的表型,其结果可作为脑衰老的潜在生物标志。此外,年龄预测可以由原始T1-MRI数据准确地预测,大大减少了新数据的计算时间,使这一过程更接近于在临床环境中提供大脑健康的实时信息。本文发表在Neuroimage杂志。

1 引言

人的大脑在整个成年期都会发生变化。这种大脑老化的过程与认知能力普遍下降、认知老化是一致的。尽管与大脑老化相关的变化并不明显是病理性的,但随着年龄的增长,导致神经退行性疾病和痴呆症的风险增加。然而,年龄相关性脑疾病的发病年龄范围很广,这表明年龄对大脑的影响在个体之间存在很大差异。因此,提高我们对大脑老化的理解和识别这个过程的生物标志物对于提高早期神经退行性变的检测和预测与年龄相关的认知下降疾病是至关重要的。

识别大脑老化个体差异的一个有意义的方法来自于已有研究,该类研究基于机器学习方法利用神经成像数据可以准确预测健康个体的年龄。机器学习算法通过“学习结构或功能性神经影像数据中的模式与年龄标签之间的对应关系”,可以建立大规模的高维回归模型,将大型神经影像数据集拟合为自变量,以预测年龄作为因变量。由此产生的基于大脑的年龄预测通常是高度准确的,特别是当算法从大型训练数据集学习并应用于新的或测试集数据时。

神经影像学衍生的年龄预测已经在不同的脑部疾病背景下进行了探索。通过训练健康个体的模型,可以在独立的临床样本中进行基于大脑的年龄预测。如果“大脑预测年龄”大于一个人的实际年龄,这被认为反映了大脑中年龄相关变化的异常积累。这种脑龄的“增加”程度可以简单地通过从大脑预测年龄中减去实际年龄来量化。这种方法被更频繁地使用,并且已经在由轻度认知障碍进展为阿尔茨海默氏症的成年人研究脑外伤后遗症研究,精神分裂症、HIV、癫痫、唐氏综合征和糖尿病等研究中均得到了证实。同时,大脑预测年龄已被用于证明对大脑老化的保护性影响,包括冥想和提高教育和体育锻炼水平。显然,大脑与适宜年龄的典型结构或功能相似的程度可能受到积极和消极的影响。通过这种方式对大脑老化进行概念化,高度复杂的多元数据集和统计过程可以转化为直观的、广泛适用的生物标志物。然而,在临床上,这种标记物的实用性、其对正常脑老化变异的可靠性和相关性有待进一步论证。

神经成像临床应用的一个障碍通常是图像采集后的后处理(被神经成像仪称为“预处理”)所需的时间,这可能需要数小时或数天,而临床决策通常需要几分钟或更少的时间。不管学习算法如何,以前的大脑预测年龄研究都需要几个预处理阶段。这些步骤通常是一系列数据转换,这些数据转换产生原始图像的表示,这些图像具有足够的结构、紧凑性和信息量,以支持机器学习。其中包括去除非脑组织(即颅骨剥离或脑提取)、仿射或非线性图像配准、插值和平滑。虽然预处理可以减少噪声并允许个体间的体素统计比较,但是任何预处理过程都需要许多额外的假设。这些假设往往得不到满足,尤其是在分析包含大量病理学的大脑图像时,甚至可能是导致错误结果的原因。然而,最近,需要很少或不需要图像预处理的建模方法应运而生,包括所谓的“深度学习”。

由于计算基础设施的改进,人们对人工神经网络学习数据表示(deep learning)的兴趣重新兴起,为神经成像中的统计建模提供了一种新的方法。当有足够大的数据量可用时,不需要“手工工程”(即手动选择应使用哪些先验特征作为输入),因为深度学习算法能够推断数据的紧凑表示,仅从原始图像作为输入开始,它是为手头的特定预测建模任务量身定制的。在这方面,深度学习为高维预测任务提供了一些实际优势,这将使学习生理相关表征和潜在关系成为可能。我们特别感兴趣的是深层学习技术的潜力,如卷积神经网络(CNN),从原始的、未经处理的神经影像数据进行预测,从而避免了对耗时的预处理的依赖,提高了大脑老化模型的临床适用性。

除了提高临床适用性之外,大脑老化的生物标志物还与自然发生的变异相关,比如由遗传因素引起的变异。大脑老化和易患老年性脑疾病在许多方面被认为受到遗传影响。因此,证明一个大脑老化的生物标志物对遗传影响的敏感性,便可以得到一些外在的、遗传的、有效的方法。此外,如果一个神经影像生物标记物是可遗传的,这就激发了对可能影响大脑老化这一方面的特定候选基因或基因组的进一步研究。这些候选基因可以反过来为旨在改善老年人大脑健康的药物干预提供生物靶点。

任何生物标志物的另一个重要性质是可靠性。如果要在临床试验或研究环境中对生物标志物进行纵向评估,以跟踪随时间的变化,那么建立重测信度至关重要。此外,由于许多神经影像学研究现在是国际合作的成果,数据收集往往发生在多个扫描中心。因此,扫描设备之间的可靠性,这意味着获得生物标记物的方法可推广到从其他地点获得的数据,这具有越来越重要的意义。

在这项工作中,我们试图通过三种不同的方式建立CNN脑龄预测模型作为大脑老化的潜在生物标志物的凭证:

1)证明CNNs可以使用结构神经成像数据准确预测年龄,并使用预处理后数据和“原始”输入数据进行比较;

2)利用同卵和双卵双胞胎样本建立大脑预测年龄的遗传性评估方法;

3)评估大脑预测年龄的重测性(即同一个扫描仪内)和多中心重测信度(即多个扫描仪间)。


2 材料和方法

2.1 数据集

研究中使用的所有神经影像数据均为T1加权MRI扫描。具体样本中参与者的详细信息和使用的各自采集参数概述如下:

2.1.1 脑龄预测评估数据集

利用脑年龄健康对照(BAHC)数据集对神经影像学年龄预测建模的准确性进行评估。该组由N=2001名健康人(男/女= 1016/985,平均年龄=36.95± 18.12岁,年龄范围18-90岁)。

这些数据是从14个公开的数据集(见补充材料表S1)汇编而成,这些数据是通过各种数据中心共享的。根据当地研究方案,所有参与者均被筛选为无重大神经或精神疾病诊断。所有数据均在1.5T或3T MR采用标准T1加权序列扫描获得(详细信息见补充资料)。每个贡献数据的研究都得到了伦理上的认可,随后的数据共享也是如此。根据当地指南,参与者在每个当地研究地点获得知情同意。


2.1.2 遗传性评估数据集

遗传性评估的参与者是来自英国成人双胞胎登记处(TwinsUK)的个体,他们被邀请参加一项神经影像学的子研究。共扫描62名女性(平均年龄= 61.86± 8.36),包括27对单卵双胞胎和4对双卵双胞胎。所有受试者均无重大神经或精神疾病诊断和MRI扫描禁忌症。使用飞利浦Achievea 3T MR获得T1加权三维超快速场回波(TFE)磁共振图像,具体参数如下:TE为 3.21ms,TR为6.89ms,翻转角为 8°,FOV为240 mm,层数133层,层厚为1.2 mm,平面内分辨率为1.07mm ×1.07mm。每位参与者都提供了书面知情同意书,以便在学术研究上使用这些数据。实验得到了伦敦-威斯敏斯特国家研究伦理服务委员会(NRES)的批准。


2.1.3 同一扫描仪内样本的可信度评估数据集

共有20名参与者(男/女=12/8,首次扫描时的平均年龄=34.05± 8.71)参与了伦敦帝国理工学院MRI(STORM)的可靠性研究。受试者平均扫描间隔28.35±1.09天。所有参与者均无重大神经或精神疾病诊断。西门子Verio 3T扫描仪用于获取磁化准备的快速梯度回波(MPRAGE)图像,参数如下所示:TE 为2.98 ms, TR为2300 ms, TI 为900 ms, flip angle 为9°,FOV 为256 mm, 层数160, 层厚1.0 mm , 平面内分辨率1.0 ×1.0 mm. 该研究得到了西伦敦NRES委员会的批准,并在参与研究前获得了每位参与者的书面同意。


2.1.4 各扫描仪之间样本可信度评估数据集

该数据集包括11名参与者(男性/女性= 7/4,首次扫描时的平均年龄为30.88± 6.16),在两个不同地点扫描(伦敦帝国理工学院,阿姆斯特丹学术医学中心)。每次扫描之间的平均间隔时间为68.17± 92.23天,8名参与者首先在阿姆斯特丹接受扫描,3名参与者首先在伦敦接受扫描。获得高分辨率T1加权磁共振成像如下:伦敦西门子Verio 3T 磁共振;磁化制备快速梯度回波(MPRAGE),TE 为2.98 ms,TR 为2300 ms, TI 为900 ms, 翻转角为9°, FOV为 256 mm, 160层,层厚 1.0 mm , 平面内分辨率1.0 mm×1.0 mm.阿姆斯特丹飞利浦Ingenia 3T 磁共振;矢状面涡轮磁场回波(T1-TFE),TE 为3.1 ms, TR 为6.6 ms, 翻转角9°,FOV为270 mm, 170层,层厚1.2mm,平面内分辨率1.1mm×1.1 mm。这项研究分别得到了西伦敦NRES和阿姆斯特丹学术医学中心机构审查委员会的批准。在参与研究之前,每个参与者都要获得书面同意。


2.2 神经成像过程

对所有数据集的T1-MRI数据进行处理,生成标准化脑容积图和适合分析的“原始”数据。


2.2.1 标准化脑容积图

我们按照之前概述的方案(Cole等人,2017a、2017b、2017c)生成体积图,作为分析中的特征。同时分析灰质(GM)和白质(WM)图像,生成全脑年龄预测,以及每个组织的年龄预测。总之,使用SPM12(伦敦大学学院,伦敦,英国)对所有图像进行预处理,根据组织分类(例如GM、WM或脑脊液)对原始T1图像进行分割。为了保证分割的准确性,对运动损伤图像(即由于头动影响的数据)进行了全面的视觉质量控制。然后在MNI152空间生成GM和WM体积的标准化三维图。 使用DARTEL进行非线性配准和重采样,包括调制和4mm平滑。这一过程独立地应用于第2.1节中描述的所有四个数据集的图像,从而为所有参与者生成具有体素对应关系的标准化脑图。


2.2.2 原始数据

虽然这项研究的目的是以尽可能原始的形式使用数据,但为了便于不同数据源之间的比较,进行了一些最少的预处理。这包括使用来自mricron的dcm2nii将DICOM格式转换为Nifti格式(Rorden和Brett,2000),与我们的内部软件兼容。然后对原始Nifti文件进行MNI152空间的刚性配准(即六个自由度),(FMRIB软件库[FSL]Trigger,Jenkinson and Smith,2001),以确保方向一致性(右、后、下[RPI])。使用三次样条插值法对图像进行重采样,得到共同的体素大小和尺寸(1mm3,182×218 × 182),因为不同的研究获得了不同维度的数据。虽然技术上不是“原始”形式,但我们断言这是多中心数据集有可能的最原始形式,这里使用的假设是最小的和不受控制的。图1示出了研究中使用的不同数据类型的示例。

图1.用于年龄预测模型的神经成像输入数据示例。

A)在轴向视图中,使用SPM-DARTEL进行非线性配准、4mm平滑和调制,将灰质体积图归一化为MNI152空间。

B)白质体积图,标准化为MNI152空间,轴向视图。

C)原始的,或最低限度的处理,T1加权MRI,严格配准到MNI152空间,并重新采样到一个共同的体素空间。

2.3 机器学习脑龄预测模型

2.3.1 卷积神经网络

CNN(Lecun et al.,1998)自第一次提出以来,一直备受关注,尤其是近几年。以往的研究已经提出了几种不同的网络架构,使得在许多计算机视觉和语音识别任务中能够达到最精确的预测性能。我们的假设是,CNN将能够提供一个合适的架构,从处理和未处理的脑部MRI扫描中推断出最佳预测大脑年龄的成像特征。经过适当训练后,CNN已被证明对几种可变性源(如旋转或对比度)具有不变性,这使得CNN对我们的应用特别有吸引力。鉴于磁共振成像的性质,我们开发了一种基于3D卷积的网络模型,这在处理脑体积图像时是合适的。最近,3D卷积神经网络也被用于阿尔茨海默病分类,脑损伤分割和颅骨剥离。

我们提出的3D CNN模型使用MRI体积维度大小(z×h×w) 作为输入。在我们的应用中,若输入为原始数据,则具体维度为182×218 ×182;若输入数据为配准后GM/WM数据时,则具体维度为121×145× 121,输出为需要预测的表示年龄的单个标量。图2中给出了3D CNN结构的示意图。该结构包含重复的5个模块(3×3×3):卷积层(步长为1)和校正线性单元(ReLU); 3×3×3卷积层(步长为1),3D BN标准化层,和ReLU,最后是一个2×2×2的最大池层(步长为2)。在第一个块中,特征通道的数量被设置为8个,并且在每个最大池层之后被加倍,以推断大脑的足够丰富的表示。最后的年龄预测是通过使用一个全连接层,它将最后一个块的输出映射到一个单一的输出值。5个区块的总参数数分别为1992、10464、41664、166272和663808,最后一个完全连通层的参数数为5760。因此,我们模型的参数总数为889960。我们使用的mini-batch size为28。对于同时使用GM和WM数据的大脑预测年龄,我们首先只使用GM和WM输入数据对两个单独的网络进行预训练,然后创建一个单一的结构,将这两个网络的最高级别块连接起来。最后添加一个完全连接的层,使用这两个输入来预测年龄。

图2.三维卷积神经网络结构示意图。三维框表示输入和特征映射。箭头表示网络操作:蓝色箭头表示三维卷积层和校正线性单元(ReLU),绿色箭头表示三维卷积层、三维BN归一化和ReLU,红色箭头表示最大池操作。我们的脑年龄预测模型包含5个重复的3D卷积,ReLU,3D卷积,3D batch归一化,ReLU和最大池化层,最后一个全连接层,生成回归模型输出脑年龄预测值。

在每一个应用中,网络权重都是通过使用动量随机梯度下降优化算法最小化平均绝对误差(MAE)来训练。利用反向传播方法计算了目标函数相对于模型各参数的梯度。在训练阶段,对所有数据集通过生成附加的人工训练图像来实现数据增强,以防止模型过度拟合。数据增强方法包括平移(±10像素)和旋转(±40°),并且根据经验上表明,与没有数据增强相比,它能产生更好的性能。

第2.4节中报告的所有结果均指三个模型中最好的一个,在这些实验中,模型用随机参数初始化并且进行端到端的训练。最好的结果是使用0.01的学习率,每个epoch后的恒定衰减为3%,动量为0.9,权重衰减为0.00005。使用四个GPU(nvidia titanx)分别训练仅GM或WM输入、GM和WM组合输入以及原始数据输入的CNN结构,分别花费18、42和83h的训练时间。然而,重要的是,在所有情况下,测试时间范围仅为290–940毫秒,这取决于单个GPU上的输入类型。所有软件都是用PyTorch编写的,PyTorch是一个支持机器学习算法和GPU计算的科学计算框架。


2.3.2 高斯过程回归

为了在当前研究背景下对CNN的年龄预测性能进行分析,使用高斯过程回归(GPR,高斯过程回归方法是机器学习中的一种重要方法,在这种方法中使用的样本与一般机器学习的样本区别在于,高斯过程中样本各特征之间存在相关关系,这种相关关系是通过协方差矩阵 [公式] 来体现的。比如在一些时间序列模型里面,各个变量输出的时间序列在时间前后都会体现出一种相关性(比如平滑过渡等),这种模型输出就很适合使用高斯过程来模拟。结构图像中的空间相关性使用这种方法来做,同样可以获得好的效果)进行比较,因为它先前显示了从T1-MRI数据预测年龄的高准确性。高斯过程(GP)可以被认为是多元高斯分布的函数的扩展,它可以应用于无限多个变量。GPs中的假设是,数据的任何有限子集都具有多元高斯分布。关于变量之间关系的先验信息通过这些(无限数量的)多元高斯函数的定义来确定,以便生成表示观测方差的模型。由于多变量高斯函数能够反映各点之间协方差的局部模式,因此将多个高斯函数组合在一个GP中可以很容易地建立非线性关系,并且这比依赖于拟合全局模型的传统参数模型更加灵活。GPs可以应用于分类数据(GP分类)或连续数据(GP回归方法)。

高斯过程方法是使用神经影像模式识别工具箱来完成的(PRoNTo v2.0). 标准化的体积图像被转换成向量,对于每个样本得到的GM和WM向量被连接起来。然后,通过计算一个N×N的相似矩阵,得到这些数据的线性核表示,其中矩阵中的每个点是两个受试者图像向量的点(标量)积。此步骤以更紧凑的表示形式保留所有原始图像方差,大大减少后续计算时间。以年龄为因变量,以图像数据(相似矩阵形式)为自变量,定义高斯过程回归函数,建立健康结构脑龄在成人寿命内的老化模型。然后使用如下所述的交叉验证过程,对模型进行训练和测试,以评估预测准确性。


2.4 统计分析

2.4.1 机器学习脑龄预测评估

CNN和GPR方法均采用结构神经成像作为输入数据来预测年龄。输入数据有四种不同的形式;三个使用标准化脑容积图(仅GM、仅WM、GM和WM组合[即串联向量]),一个使用原始T1数据。每种学习方法用每种数据类型进行评估,得出八种准确性评估。

脑龄健康对照(BAHC)数据集(N=2001),随机分为训练集(N=1601),验证集(N= 200)和测试集(N= 200)。各样本的年龄分布见补充材料(图S2)。所有准确度评估报告都使用了测试集上的预测结果。模型准确度表示为年龄与预测年龄的相关性(Pearson's 相关)、总方差解释变异量(R2)、均方误差(MAE)和均方根误差(RMSE)。


2.4.2 遗传性分析

利用TwinsUK样本(N=62名女性)评估脑龄预测的遗传性。使用BAHC数据集上训练的模型(N=1601),对TwinsUK参与者进行无偏年龄预测,为每个个体生成大脑预测年龄得分。利用结构方程模型(SEM)进行遗传性估计,在OpenMx软件中实现。SEM中的遗传力是由遗传因素解释的表型变异的比例来估计的。对生成的大脑预测年龄(未校正模型)和年龄校正值(年龄校正模型)进行分析。年龄校正采用线性回归模型比较大脑预测年龄与真实年龄的差。结果的残差被用作遗传力分析的表型。SEM评估了A(基因)C(环境)E(个体差异)方差分量的组合,能较好地解释单合双卵和双合子双卵数据的表型方差和协方差。单个方差分量的显著性是通过从嵌套模型集中依次删除分量来评估的:ACE→AE→E。在子模型之间进行选择时,根据Akaike信息标准(Akaike,1974)评估,在模型拟合中没有显著变化,则方差分量被排除在选择过程之外。E分量表示随机误差,必须保留在所有模型中(Rijsdijk和Sham,2002)。通过对模型拟合的评估,利用对数似然比检验,在结构方程模型和饱和模型之间,在表型协方差上没有结构,可以获得遗传性结果的可靠性评估。空比试验模型与SEM(结构方程模型)相对应,而饱和模型则是替代模型。似然比检验的低值意味着,与替代方法相比,在零模型下,结果发生的可能性较小。另一方面,统计数据的高值意味着结果在空值下和备选方案下发生的可能性相同,并且空值模型不能被拒绝。检验统计量是渐近的卡方分布,自由度等于两个模型之间的参数数之差。AE模型的遗传力估计值使用公式h2=a2/(a2+e2),其中a和e是SEM(结构方程模型)中a和e方差分量的通径系数。关于SEM的更多细节可以在补充文本中找到。


2.4.3 可靠性分析

用组内相关系数(ICC)计算同一扫描设备内和多个扫描设备之间的可靠性。具体来说,根据Shrout和Fleiss(1979)的注释,ICC用于评估各中心(如扫描仪)之间的绝对一致性。再次使用BAHC训练集上训练的模型(N= 1601),在扫描仪内和扫描仪间的可靠性数据集中,对每个参与者的扫描进行无偏年龄预测。通过从大脑预测年龄中减去实际年龄(扫描时),计算出脑龄差(brain predicted age difference,Brain-PAD)得分。计算脑龄差的ICC评分,比较相隔约四周的扫描数据(在扫描仪样本内),并比较伦敦西门子扫描仪和阿姆斯特丹飞利浦扫描仪的数据(在扫描仪样本间)。


3 结果

3.1 用神经影像基于卷积神经网络精确预测年龄

分析表明,无论是使用处理后的脑体积图还是原始的T1-MRI数据,CNN方法可以准确预测健康成年人的年龄,(见表1)。预测精度与高斯回归结果相似。最低的MAE是使用GM数据和CNN分析(MAE= 4.16年),与使用每个受试者的所有可用输入数据(即GM+WM 或原始数据)相比,使用单个组织(即GM或WM)不会明显改变预测精度。不同的预测方法和输入数据组合都提供了高精度的预测结果。测试集上的三个预测示例(N= 200)如图3所示。

图3. CNN和高斯过程回归预测年龄的准确性。描绘了BAHC数据集(N= 200)中测试集数据年龄预测的散点图,X轴表示实际年龄,Y轴表示预测脑龄. A)使用GM+WM作为输入数据的CNN的脑龄预测。B)使用GM+WM作为输入数据的高斯过程回归(GPR)方法的脑龄预测。C)使用原始T1-MRI作为输入的基于CNN方法的脑龄预测。所有图中的r值均为大脑预测年龄与实际年龄的皮尔逊相关系数。进一步分析表明,脑龄差是随年龄的变化而变化的,对于所有的预测模型,脑龄差与年龄呈显著负相关(Pearson 相关系数介于0.2和0.4之间)。这表明对年轻的脑龄预测可能存在系统性高估,而对老年人大脑年龄预测存在系统性低估。对训练样本中接近平均年龄的个体进行更准确的估计。
3.2 大脑预测的年龄是中度遗传的

进行两组遗传性分析。首先,我们使用各种模型的预测来评估大脑预测年龄的遗传率。随后,我们使用线性回归模型,评估预测脑龄与实际年龄的差。然后估计年龄校正测量值的遗传性(即回归模型的残差)。

在所有的预测方法中,AE模型的拟合度最好,而ACE和E模型的拟合度最低。表2包括AE模型的遗传率估计,以及通过传播模型系数a和e的标准误差计算的标准误差,最后是对数似然比检验p值。对于所有的AE模型,比率检验统计量为7个自由度的渐近卡方分布。

无论使用的数据和预测模型如何,脑预测的年龄遗传性估计值始终高于0.5。P值均在0.05以上,表明数据与AE模型一致。CNN和GPR预测年龄也获得了类似的估计。在未调整和年龄校正的情况下,基于CNN模型使用GM+WM的脑龄预测达到最高估计值,然而脑龄预测的遗传性降低。

遗传性估计由h2=a2/(a2+e2)计算,其中a和e是SEM模型中a和e方差分量的通径系数,± 为估计的标准误差;GM灰质;WM白质;CNN为 卷积神经网络;GPR为 高斯过程回归。


3.3 脑龄预测的显著性

无论是使用CNN还是GPR模型对大脑年龄预测,脑龄差评分都具有高度的可重复性。同一扫描仪内(测试集扫描)的可靠性和不同扫描仪间(即多中心)可靠性都是如此(见表3,图4和5)。所有不同的输入数据组合(GM、WM、GM+WM或原始数据)和不同预测模型(CNN、GPR)均具有显著的ICC可靠性(p<0.0 5),基于CNN的WM数据和基于GPR的原始数据除外。广义上讲,扫描仪内的可靠性评估高于扫描仪间的评估,这种差异在CNN预测的脑龄差比GPR脑龄差更为显著。对于后者,基于GM和GM+WM的输入数据的各个扫描仪之间的可靠性与扫描仪内的可靠性一样高。值得注意的是,基于CNN的原始数据在同一扫描仪内的可靠性非常高(ICC= 0.94),但在比较扫描仪间的估计值时大幅降低(ICC=0.66)。

图4.卷积神经网络和高斯过程回归的同一扫描仪内可靠性。图中显示了在同一台扫描仪(Siemens Verio 3T)上相隔四周采集的扫描数据,大脑预测年龄差异(脑龄差)之间的对应关系(N=20),x轴表示扫描1,y轴表示扫描2(四周后)。A) 使用CNN基于GM的脑龄差评估。B) 利用CNN基于WM的脑龄评估。
C) 基于GM和WM组合使用CNN的脑龄差评估。D) 基于原始T1-MRI的CNN脑龄差评估。E) 使用高斯过程回归(GPR)基于GM脑龄差评估。F) 使用GPR基于WM图的脑龄差评估。G) 基于GM和WM的GPR方法脑龄差评估。H) 基于原始T1-MRI的GPR脑龄差评估。红线为标准线。

图5。卷积神经网络和高斯过程回归扫描仪之间的可靠性。图中显示了在两个不同的扫描系统之间(西门子Verio 3T和飞利浦Intera 3T)上获得的扫描结果,x轴为飞利浦扫描,y轴为西门子扫描(N=11)。A) 使用CNN基于GM地图的脑龄评估。B) 利用CNN进行基于WM图的脑龄评估。C) 使用CNN基于GM和WM组合的脑龄评估。D) 基于原始T1-MRI的CNN脑龄评估。E) 使用高斯过程回归(GPR)的基于GM脑龄评估。F) 使用GPS基于WM脑龄评估。G) 使用GPR基于GM和WM组合的脑龄评估。H) 基于原始T1-MRI使用GPR的脑龄评分。红线为标准线。

4 讨论

这项研究是首个基于三维卷积神经网络从神经影像数据准确预测年龄的研究。基于CNN的预测与之前采用的GPR方法(Cole et al.,2015)预测结果相似,预测模型本身与每种方法高度相关。当使用GM和WM体积的体素图像时,两种方法年龄预测的MAE小于5岁。重要的是,当使用原始(或最小预处理)T1图像作为输入时,基于CNN的年龄预测精度同样高,并且符合该领域的标准。这意味着可以从3D图像中提取足够的年龄相关特征,以实现准确的年龄预测,并且避免了图像预处理的必要性。这带来了两个关键的好处,具体来说:1)消除了预处理图像数据所需的额外假设;2)增加了这种方法在实时(或近实时)使用的可行性,以帮助临床决策。

数据预处理在神经成像中几乎无处不在,包括在以前使用基于大脑的年龄预测的研究中。对于预处理的每个阶段,可从不同的软件包中获得多种不同的方法,包括偏置场校正、非脑组织去除、组织分类、运动校正、伪影去除、线性配准、非线性配准、目标图像(例如,图谱、平均模板),插值方法和平滑核等。虽然我们选择在这里使用SPM,但不同方法的相对优点仍存在激烈的争论。在没有达成共识的情况下,在不进行任何预处理步骤对结果变量进行建模是很有意义的。由于预处理方法的选择会影响后续的数据处理,因此使用原始数据进行预测便消除了一个关键的偏差来源。此外,由于在处理含有非典型脑形态个体的临床人群时,许多不同预处理步骤背后的假设往往无法满足,因此使用原始数据也消除了额外的混淆和潜在的偏见。然而,我们的方法将需要进一步验证这种非典型输入。

神经影像学研究的一个关键目标是为临床应用提供工具,为临床医生治疗脑部疾病提供客观可靠的信息。这个目标的一个要素是生成实时方法,从成像数据中生成可解释的输出,以便在临床决策中立即使用。图像预处理可能需要24小时以上,因此删除此步骤意味着将信息传递给临床医生所需的效率大大加快。诚然,深层人工神经网络的训练阶段是计算密集和耗时的。然而,一旦训练好,模型就可以在几秒钟内应用到新数据中。考虑到软件的有效操作,当病人还在扫描仪中时,大脑预测的年龄数据便可以提供给临床医生。在本研究中,训练/测试CNN算法时,采用微小的预处理,以确保图像之间的图像方向和体素维数一致。这些过程需要非常有限的假设,并且可以很容易地自动进入MR扫描仪软件。

CNN脑预测年龄的遗传率均在0.5以上,所有预测方法的遗传率均在0.5以上,说明中等水平的遗传相关性影响脑预测年龄。这与先前的研究一致,该研究估计大脑结构体积测量的遗传力在0.45到0.9之间。这种遗传力的证明很重要,因为它为大脑预测年龄提供了一定程度的外部有效性。如果大脑预测的年龄仅仅是疾病相关萎缩的反映或噪声的驱动,那么遗传模型将不能显著解释观察到的数据。这进一步表明可使用脑龄预测作为大脑老化的生物标志物。此外,正如以前的研究所指出的,大脑预测年龄与认知能力的测量有关(Cole等人,2015;Gaser等人,2013),它可能被用来预测未来认知能力下降的风险和随后痴呆症的风险。我们对大脑老化的测量是在某种遗传控制下进行的,这证实了研究表明认知老化也受到遗传因素的影响。直观地说,大脑老化(即潜在的解剖结构变化)和认知老化(即明显的行为变化)必须联系在一起。因此,我们的研究结果,以及先前关于大脑结构遗传性的研究激发了对可能影响大脑和认知老化率的特定基因的研究。这些基因有可能为药物干预提供新的靶点,旨在降低老年性神经退行性变和认知能力下降的风险,甚至减缓大脑老化的速度。

为了评价年龄对脑龄遗传力的影响,我们对两组不同的遗传力进行了分析,分别是在控制时间年龄之前还是之后。两例患者的遗传力差异是表明年龄确实发挥重要作用的一个强有力的指标。这与之前关于脑容量遗传力的研究和认知功能的研究一致。这对大脑老化的遗传研究,包括研究的设计和样本的选择都有一定的意义。然而,目前研究中双胞胎数量有限,年龄分布有限,因此无法详尽分析遗传力随年龄的变化。

脑龄预测是高度可重复的。信度估计因输入数据和算法的不同组合而不同,然而即使使用原始数据,同一扫描仪内的重测信度也很高(ICC=0.90)。这对于纵向研究中使用的任何方法都至关重要,并且对评估重测性显著影响所需的样本量有重要影响。T1-MRI脑结构测量的重测信度已得到证实(Morey等人,2010;Nugent等人,2013),我们的结果与这些估计一致。这种高重复性支持在纵向研究或潜在的临床环境中的脑龄预测。

关于不同扫描仪之间脑龄预测的可靠性,结果更具对比性。GPR在扫描仪间的可靠性一般高于CNN,GM一般优于WM。这与先前研究多中心环境下T1-MRI测量可靠性的结果基本一致。原始数据的扫描可靠性大大降低。可能的解释包括不同供应商在T1-MRI上观察到的对比噪声比差异,不同扫描仪之间填隙效果的差异。用于生成归一化GM和WM图像的预处理步骤通过执行偏置场校正和估计组织概率,在很大程度上消除了不一致梯度失真的影响。相反,CNN模型可以在模型的给定级别上描述这些解释性特征。目前,使用原始数据的深度学习模型似乎最适合在同一台扫描仪上对大脑老化进行纵向研究,因为扫描仪间的变异性导致的图像异质性问题并不存在。因此,像多中心研究中的情况一样,当汇集来自多个扫描仪的数据时,数据预处理可能仍然有好处,以消除与大脑老化无关的技术变异的明确可识别来源。

本研究存在一些局限性。遗传力估计的样本量很小,特别是关于双卵双胞胎的数量,而且样本是由女性组成的,因此对于男性,我们不能轻易推断出结果。然而,标准误差考虑了样本量,虽然通过增加样本量可以大大提高估计的精度,但遗传相关性脑龄预测的方差依然存在。另一个限制是年龄预测模型的绝对准确性。由于MAE为4-5年,很明显,单个病例的估计精度不足以做出有临床意义的估计。为了进一步降低MAE,还需要进一步的研究。其中一个途径是深入探索不同的数据增强方法,以优化CNN分析,包括提高图像对比度或使用解剖先验。


总结:

总的来说,本文利用三维卷积神经网络,准确地估计了健康成人原始T1加权MRI脑扫描的年龄。基于CNN模型使用经过处理的GM和WM体素图像作为输入时,预测的准确性也较高,与GPR的年龄估计值相似。脑龄预测具有显著遗传性,且单个扫描仪内和各个扫描仪之间的可靠性均较高。这些发现支持了这样一个观点:深度学习方法可以预测一个可靠的脑龄发育的生物标志物,即脑龄预测。除此以外,本文还对脑龄预测的遗传学特征进行了有效地探索,为脑龄预测提供了生理机制上的一种可能解释。



如需原文及补充材料请添加思影科技微信:siyingyxf或18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,如果我们的解读对您的研究有帮助,请给个转发支持以及右下角点击一下在看,是对思影科技莫大的支持,感谢!

相关推荐

相关文章