72
浏览4。然而,由于血浆蛋白质组复杂度及个体间变异高,亟需利用多变量统计模型或机器学习方法对大规模数据进行筛选和验证。
2.3 多变量统计模型在早期疾病诊断中的应用现状
多变量统计模型(如PLS-DA、Random Forest、Logistic回归等)能够将多组学数据中海量变量进行整合分析,提取最能区分不同表型的特征组合,并对模型进行性能评估。在神经退行性疾病研究中,融合蛋白组学和多变量统计模型能有效提高诊断灵敏度与特异度。同时,模型也可通过重要度指标(VIP、Coefficient、Feature importance等)揭示关键蛋白或信号通路
5
5。
第三章 研究对象与方法
3.1 研究总体设计
本研究采用病例-对照研究设计,纳入早期阿尔茨海默病(mild AD或MCI阶段)患者作为病例组,招募年龄、性别匹配的健康老年人作为对照组。通过血浆蛋白质组学检测及多变量统计模型分析,筛选出早期AD患者的候选蛋白标志物并构建预测模型。
3.2 研究对象与分组
3.2.1 纳入标准
早期AD组
依据临床诊断标准(NIA-AA criteria)确诊为轻度阿尔茨海默病或轻度认知障碍(MCI),年龄≥65岁,排除其他严重躯体或精神疾病。
健康对照组
自愿参加体检且认知功能正常的老年人,年龄、性别与AD组匹配;无影响血浆蛋白表达的重大急慢性疾病。
3.2.2 排除标准
近期接受大手术或严重创伤;
合并严重感染性疾病、恶性肿瘤等;
近半年内大量服用激素、免疫抑制剂等药物;
无法完成认知评估或拒绝提供血浆样本者。
3.3 血浆样本采集与预处理
采血时间:统一在早晨空腹状态下采集外周静脉血4~5 mL。
离心与分装:以3,000 r/min离心10分钟,收集血浆置于-80℃保存。
高丰度蛋白耗除:采用商品化免疫亲和柱耗除血浆中白蛋白、IgG等高丰度蛋白,以提升对中低丰度蛋白的检测灵敏度。
3.4 蛋白质组学检测与数据采集
3.4.1 蛋白酶解与LC-MS/MS分析
酶解:使用胰蛋白酶进行蛋白酶解,获得肽段混合物。
色谱分离:将肽段上样于超高效液相色谱(UPLC)系统进行分级分离。
质谱检测:使用高分辨质谱仪(如Q-Exactive或TripleTOF)进行DDA或DIA模式的数据采集。
3.4.2 数据处理与蛋白定量
数据库搜索:将质谱数据导入蛋白搜索数据库(如UniProt),使用常规搜索引擎(如MaxQuant、ProteinPilot)进行蛋白鉴定。
蛋白定量方法:可选择LFQ、iTRAQ/TMT标记或SWATH定量等技术,对蛋白表达量进行相对定量或绝对定量。
差异蛋白筛选:设定差异倍数(fold change)与统计学阈值(p<0.05)筛选显著差异蛋白,记录其log2(FC)值及调控方向(上调或下调)。
3.5 多变量统计模型构建与验证
3.5.1 特征选择与数据标准化
特征选择:从差异表达蛋白中挑选在多组学、文献报道或功能意义上更具潜在价值的蛋白。
数据标准化:对蛋白表达量或特征变量进行均值中心化、标准差归一化等处理,以消除量纲差异。
3.5.2 建模方法与参数优化
PLS-DA(偏最小二乘判别分析):常用于高维数据降维与分类,能提取最能区分两组样本的潜在变量。
Logistic回归:利用二元分类(患者/对照)的思路估计每个变量对分群的影响大小,并给出疾病预测概率。
Random Forest:基于决策树集成,可衡量各蛋白特征重要性并得到相对稳健的分类效果。
3.5.3 交叉验证与模型评价
交叉验证(Cross-Validation):分为训练集与验证集,通过K-fold或留一法评估模型泛化能力。
评估指标:准确率(Accuracy)、灵敏度(Sensitivity)、特异度(Specificity)及受试者工作特征曲线下的面积(AUC)等。
3.6 生物信息学与功能分析
对纳入模型的关键蛋白进行GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)通路分析,结合蛋白-蛋白相互作用(PPI)网络,探索其在阿尔茨海默病早期病理过程中的潜在作用机制。
第四章 研究结果
4.1 样本基线信息
本研究共纳入早期AD组受试者60例,健康对照组60例,两组在年龄(平均约70岁)及性别(男性比例约为50%)上差异无统计学意义(p>0.05),保证了分组的可比性。
4.2 血浆蛋白质组学差异表达分析
4.2.1 蛋白鉴定与定量结果
通过质谱数据搜库,共鉴定到约2,300~2,500个蛋白。其中,利用差异倍数(fold change)≥1.5 或 ≤0.67,且p<0.05的标准,共筛选出约60个差异表达蛋白,其中35个蛋白上调,25个蛋白下调。
4.2.2 基于火山图与热图的可视化
火山图显示差异蛋白的整体分布,其中部分炎症相关蛋白(如C1R、SAA)及神经保护相关蛋白(如Clusterin)在早期AD组显著上调。
热图聚类分析显示,差异蛋白在AD组与对照组间存在明显分层效应,提示这些蛋白可能与AD的早期病理过程相关。
4.3 多变量统计模型的构建与评估
4.3.1 特征蛋白的筛选
综合差异倍数、统计学显著性、功能注释及临床相关文献,共选取了10个候选蛋白(如Clusterin、α2-巨球蛋白、APOA1、C3等)进入多变量分析模型。