样本外信息泄漏普遍虚增药效预测精度

今日概览

  • 样本外信息泄漏普遍虚增药效预测精度 全样本预筛选特征导致交叉验证信息泄漏,使均方误差被低估 16.6%。

也值得关注

02
9 万条 pKa 实验值公开基准测试通用 AIDD

用自建含 9 万实验值的 pKahub 数据,系统比较 7 种 pKa 预测工具(3 商业+4 开源 ML),发现开源机器学习模型整体误差略高但成本优势明显。 链接(Chem)

今日观察

今日观察
跨研究汇总显示,72% 近年药效预测模型因“全样本预筛选特征”产生信息泄漏,仅交叉验证阶段平均低估均方误差 16.6%,虚增幅度与相对基线声称的改进几乎等同;泄漏模型把特征集扩大 5 倍却未提升靶点召回,提示多数新增维度为统计噪声。该现象在 in silico 评估层面最为突出,尚无系统的 in vitro 或 in vivo 重验证报告,亦未讨论不同训练-测试拆分比例对结论稳健性的影响。

给 AI 药物发现团队的提醒:上线模型前,务必采用时间切分或分子骨架拆分代替随机交叉验证,并在独立外部批次(含新靶点、新化学型)中复现;若预筛选不可避免,应把特征选择嵌入每一折内部,同时记录特征稳定性。否则,即使交叉验证指标亮眼,后续实验仍可能因噪声特征失效,浪费合成与测试资源。

以上内容为个人解读,仅供参考。权威内容请以原论文为准。