Py学习  »  机器学习算法

IF=8.0,解决临床前研究瓶颈!CT影像+可解释机器学习,临床转化价值拉满!

挑圈联靠 • 1 月前 • 91 次点击  

学无止境,但科研成果可以先发表!在想小样本医学影像分析的困难?今天这篇文章,将大规模预训练模型迁移至小样本动物实验,解决了临床前研究数据稀缺的核心瓶颈。该模型在数据效率上实现质的飞跃——仅需10%训练数据即可保持稳定性能。一起来看详情!


Predicting homologous recombination deficiency and treatment responses using a computed tomography-based foundation model: a preclinical study

利用基于计算机断层扫描的基础模型预测同源重组缺陷和治疗反应:一项临床前研究


期刊:npj Precision Oncology

IF:8.0

发布时间:2026/02/10


 技术路线 


临床前模型构建与CT影像采集

建立HRD与同源重组 proficient(HRP)的对比模型,获取治疗前后影像数据。

使用307只小鼠,携带三种同基因异种移植瘤(LNCaP AR前列腺癌、HCT116和DLD-1结直肠癌),包括FANCA-/-、FANCD2-/-、BRCA2-/-(HRD)及野生型/DNA-PKcs-/-(HRP)。在CP-506(缺氧激活前药)或对照治疗前及治疗后6、24、48、72小时进行显微CT扫描(40kVp和80kVp双能量)。

获得543张可分析CT扫描(414张无治疗扫描用于分类任务,129张治疗后扫描用于反应预测)。


肿瘤区域(ROI)分割

采用半自动化流程:先用20例手动标注训练DynUNet分割模型,生成候选轮廓,再经四人联合审核校正,获得所有扫描的标准化肿瘤ROI。


HRD状态分类模型开发(三种方法对比)

1 手工影像组学(HCR)

提取93个基础特征(一阶统计、GLCM、GLSZM等)及372个LoG滤波后特征;经Z-score归一化、相关性聚类、Lasso降维后,用SVM分类。评估传统预定义特征对HRD的预测能力。

训练集AUC 0.77–0.79,测试集AUC 0.70–0.76,性能有限且对数据量敏感(10%数据时AUC<0.5)。


2 监督式深度学习(sDL)

使用简化通道的ResNet-50,输入40kVp、80kVp或双通道图像,经数据增强(旋转、翻转、噪声等)训练1,000轮。评估从头训练的深度网络性能。

训练集AUC 0.71–0.78,测试集AUC 0.77–0.85,优于HCR但仍受限于小样本。


3 基础模型(FM,核心方法)

采用基于大规模人类CT预训练的ResNet-50编码器,添加三层MLP(4096→512→64→2)作为分类头,微调学习率10⁻⁶,五折交叉验证。利用预训练权重克服临床前数据稀缺问题。

训练集AUC 0.89–0.90,测试集AUC 0.87–0.88,准确率约85%,显著优于HCR和sDL(p<0.05)。sDL与FM共识亚组(71%病例)AUC达0.93。


治疗反应预测:DNA损伤强度(DDI)

验证HRD相关影像特征能否预测CP-506诱导的微观DNA损伤。

治疗后48小时取肿瘤组织,γ-H2AX免疫组化染色定量DNA损伤;以FM提取的64维HRD相关特征+治疗状态为输入,逻辑回归预测高/低损伤(以中位数二分)。

训练集AUC 0.92,测试集AUC 0.75;预测HRD组在治疗后显示出显著更高的DNA损伤(p<0.001),证实影像特征可捕捉治疗敏感性。


生存分析(事件无生存期,EFS)

评估HRD特征对肿瘤生长延迟的宏观预后价值。

因主实验动物需处死后取组织,采用平行实验(151只小鼠)的肿瘤体积数据拟合Weibull分布,合成主实验的EFS数据(肿瘤体积增至4倍的时间)。使用Cox比例风险模型基于HRD特征计算风险评分,Kaplan-Meier分析比较高/低风险组。

低风险组EFS显著延长(HR=0.25, p<0.0001, C-index=0.69);结合预测HRD状态与风险分层,低危/预测HRD组生存最优,证实影像特征具有预后预测价值。


模型可解释性分析

解析FM决策的生物学基础,识别关键影像特征。

采用回归概念向量(RCV)方法,计算各影像组学特征的可学习性(R²)和双向相关性(Br)评分;对比HCR模型的SHAP值。

87%的特征(269/309)被FM有效学习;纹理异质性(如Coarseness、ClusterShade)是HRD分类的关键,低Coarseness(高异质性)与HRD概率正相关;HCR与FM在12个关键特征中的8个方向一致,但FM捕捉了更多传统方法遗漏的异质性特征。


统计验证

DeLong检验比较ROC曲线,Mann-Whitney U检验比较组间差异,Fisher精确检验评估混淆矩阵,Benjamini-Hochberg校正多重比较,Bootstrap计算95%置信区间。确保结果稳健性。

FM显著优于传统方法(p<0.05),所有主要发现均经多重检验校正后仍显著。


 研究结果 


Fig 2 基于CT图像的人类乳头瘤病毒相关肿瘤分类与治疗反应预测工作流程


Fig 3 不同CT能量水平下HRD分类的受试者工作特征(ROC)曲线及其曲线下面积(AUC)


Fig 4  基础模型在不同肿瘤类型HRD分类中的测试集表现(40 kVp CT)


Fig 5 基础模型预测DNA损伤的性能


Fig 6 测试集(n=82)中CP-506治疗后按风险评分分层的无事件生存(EFS)Kaplan-Meier生存曲线


Fig 7 基础模型学习的放射组学特征可解释性



有的小伙伴,之前已掌握了基本的生信分析知识,但在日新月异的套路迭代中,开始力不从心;更多的小伙伴,因工作或学业要求开始了解生信和临床数据挖掘,但面对多种套路、复杂代码以及论文写作,缺乏科研经历,不知从何做起。


如何在2026“马上”掌握新的、好的、可持续复用的发文技巧?


如何在AI应用大幅普及的今天跟上AI浪潮



首次专设AI coding课程的生信&临床数据挖掘体系课——新一期卓越计划,来了!(AI辅助写/改代码,比vibe coding更精准符合医学科研需求,代码学习门槛更低、不惧报错)


深耕医学SCI陪跑的分析工程师作为讲师、助教,全流程答疑,无限次回放,帮助大家从深入理解到实操应用。


👇想要升级自己的发文技能,来找雪球,添加后回复“卓越计划”开始咨询吧!

👆添加雪球后回复“卓越计划”详细咨询


一位往期学员深度参与了这篇文章的发表🎉雪球与团队全体成员,也期待你的发文好消息!


 雪梨的复现妙妙屋,每月更新生信文章SCI复现教程!想上进的同学,已经点进合集查缺补漏了👆

 雪球的医学科研课堂 每周周中讲解 

星标⭐才不会错过更新哦

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/193602