IF=8.0，解决临床前研究瓶颈！CT影像+可解释机器学习，临床转化价值拉满！

学无止境，但科研成果可以先发表！在想小样本医学影像分析的困难？今天这篇文章，将大规模预训练模型迁移至小样本动物实验，解决了临床前研究数据稀缺的核心瓶颈。该模型在数据效率上实现质的飞跃——仅需10%训练数据即可保持稳定性能。一起来看详情！

Predicting homologous recombination deficiency and treatment responses using a computed tomography-based foundation model: a preclinical study

利用基于计算机断层扫描的基础模型预测同源重组缺陷和治疗反应：一项临床前研究

期刊：npj Precision Oncology

IF：8.0

发布时间：2026/02/10

技术路线

临床前模型构建与CT影像采集

建立HRD与同源重组 proficient（HRP）的对比模型，获取治疗前后影像数据。

使用307只小鼠，携带三种同基因异种移植瘤（LNCaP AR前列腺癌、HCT116和DLD-1结直肠癌），包括FANCA-/-、FANCD2-/-、BRCA2-/-（HRD）及野生型/DNA-PKcs-/-（HRP）。在CP-506（缺氧激活前药）或对照治疗前及治疗后6、24、48、72小时进行显微CT扫描（40kVp和80kVp双能量）。

获得543张可分析CT扫描（414张无治疗扫描用于分类任务，129张治疗后扫描用于反应预测）。

肿瘤区域（ROI）分割

采用半自动化流程：先用20例手动标注训练DynUNet分割模型，生成候选轮廓，再经四人联合审核校正，获得所有扫描的标准化肿瘤ROI。

HRD状态分类模型开发（三种方法对比）

1 手工影像组学（HCR）

提取93个基础特征（一阶统计、GLCM、GLSZM等）及372个LoG滤波后特征；经Z-score归一化、相关性聚类、Lasso降维后，用SVM分类。评估传统预定义特征对HRD的预测能力。

训练集AUC 0.77–0.79，测试集AUC 0.70–0.76，性能有限且对数据量敏感（10%数据时AUC<0.5）。

2 监督式深度学习（sDL）

使用简化通道的ResNet-50，输入40kVp、80kVp或双通道图像，经数据增强（旋转、翻转、噪声等）训练1,000轮。评估从头训练的深度网络性能。

训练集AUC 0.71–0.78，测试集AUC 0.77–0.85，优于HCR但仍受限于小样本。

3 基础模型（FM，核心方法）

采用基于大规模人类CT预训练的ResNet-50编码器，添加三层MLP（4096→512→64→2）作为分类头，微调学习率10⁻⁶，五折交叉验证。利用预训练权重克服临床前数据稀缺问题。

训练集AUC 0.89–0.90，测试集AUC 0.87–0.88，准确率约85%，显著优于HCR和sDL（p<0.05）。sDL与FM共识亚组（71%病例）AUC达0.93。

治疗反应预测：DNA损伤强度（DDI）

验证HRD相关影像特征能否预测CP-506诱导的微观DNA损伤。

治疗后48小时取肿瘤组织，γ-H2AX免疫组化染色定量DNA损伤；以FM提取的64维HRD相关特征+治疗状态为输入，逻辑回归预测高/低损伤（以中位数二分）。

训练集AUC 0.92，测试集AUC 0.75；预测HRD组在治疗后显示出显著更高的DNA损伤（p<0.001），证实影像特征可捕捉治疗敏感性。

生存分析（事件无生存期，EFS）

评估HRD特征对肿瘤生长延迟的宏观预后价值。

因主实验动物需处死后取组织，采用平行实验（151只小鼠）的肿瘤体积数据拟合Weibull分布，合成主实验的EFS数据（肿瘤体积增至4倍的时间）。使用Cox比例风险模型基于HRD特征计算风险评分，Kaplan-Meier分析比较高/低风险组。

低风险组EFS显著延长（HR=0.25, p<0.0001, C-index=0.69）；结合预测HRD状态与风险分层，低危/预测HRD组生存最优，证实影像特征具有预后预测价值。

模型可解释性分析

解析FM决策的生物学基础，识别关键影像特征。

采用回归概念向量（RCV）方法，计算各影像组学特征的可学习性（R²）和双向相关性（Br）评分；对比HCR模型的SHAP值。

87%的特征（269/309）被FM有效学习；纹理异质性（如Coarseness、ClusterShade）是HRD分类的关键，低Coarseness（高异质性）与HRD概率正相关；HCR与FM在12个关键特征中的8个方向一致，但FM捕捉了更多传统方法遗漏的异质性特征。

统计验证

DeLong检验比较ROC曲线，Mann-Whitney U检验比较组间差异，Fisher精确检验评估混淆矩阵，Benjamini-Hochberg校正多重比较，Bootstrap计算95%置信区间。确保结果稳健性。

FM显著优于传统方法（p<0.05），所有主要发现均经多重检验校正后仍显著。

研究结果

Fig 2 基于CT图像的人类乳头瘤病毒相关肿瘤分类与治疗反应预测工作流程

Fig 3 不同CT能量水平下HRD分类的受试者工作特征（ROC）曲线及其曲线下面积（AUC）

Fig 4 基础模型在不同肿瘤类型HRD分类中的测试集表现（40 kVp CT）

Fig 5 基础模型预测DNA损伤的性能

Fig 6 测试集（n=82）中CP-506治疗后按风险评分分层的无事件生存（EFS）Kaplan-Meier生存曲线

Fig 7 基础模型学习的放射组学特征可解释性

✦

•

✦

有的小伙伴，之前已掌握了基本的生信分析知识，但在日新月异的套路迭代中，开始力不从心；更多的小伙伴，因工作或学业要求开始了解生信和临床数据挖掘，但面对多种套路、复杂代码以及论文写作，缺乏科研经历，不知从何做起。

如何在2026“马上”掌握新的、好的、可持续复用的发文技巧？

如何在AI应用大幅普及的今天跟上AI浪潮？

✦

•

✦

首次专设AI coding课程的生信&临床数据挖掘体系课——新一期卓越计划，来了！（AI辅助写/改代码，比vibe coding更精准符合医学科研需求，代码学习门槛更低、不惧报错）

深耕医学SCI陪跑的分析工程师作为讲师、助教，全流程答疑，无限次回放，帮助大家从深入理解到实操应用。

👇想要升级自己的发文技能，来找雪球，添加后回复“卓越计划”开始咨询吧！

👆添加雪球后回复“卓越计划”详细咨询

一位往期学员深度参与了这篇文章的发表🎉雪球与团队全体成员，也期待你的发文好消息！

雪梨的复现妙妙屋，每月更新生信文章SCI复现教程！想上进的同学，已经点进合集查缺补漏了👆

雪球的医学科研课堂每周周中讲解

星标⭐才不会错过更新哦