方法论
MindDance 如何获取、筛选、分层并解读 AIDD 相关论文
MindDance 是一个面向 AIDD 从业者的每日研究简报站点。 它不做泛论文聚合,而是尽量把"真正落在药物发现链路上的 AI 论文"从更大的候选池里筛出来,再生成简明、克制、可追溯的解读。
站点定位
网站当前的内容优先级按 Drug > Chem ≈ Bio > Med 排列。只要论文与 AIDD 强相关,不论它来自方法、机制、生物、化学还是期刊综述,都有机会进入候选池;但纯 AI、纯生物、纯物理、纯化学且不服务于药物研发的问题,会在后续层级被清掉。
这套口径参考了通用 AI 简报站点的透明分层做法,同时针对 AIDD 做了更强的领域约束。站点的目标不是"每天塞满论文",而是让候选池足够大、筛选逻辑足够清楚、最后成稿足够相关。
每天如何运行
默认按北京时间早上 8 点运行。发布日期是当天,论文日期语义采用 T+1:重点覆盖北京时间昨天,以及到当天运行前各源站已经能检索到的相关论文。实际效果取决于不同源站的索引速度,因此它更接近"运行时可被搜到的昨日相关论文集合",而不是一个完全理想的小时级切面。
论文从哪里来
当前主来源是 arXiv、bioRxiv、PubMed。它们不是交集关系,而是候选并集:只要来源本身能提供与 AIDD 相关的论文,就应该有机会进入原始池。
- arXiv:覆盖 q-bio.* 核心分类和 cs.LG / cs.AI / chem-ph / bio-ph 等扩展分类,用于补充方法类和预印本论文。
- bioRxiv:补充蛋白设计、计算生物学、生物物理和药理方向的预印本。
- PubMed:承担期刊型内容的主要召回,尤其是药化、计算化学、结构生物学、计算生物学相关期刊。
- 辅助信号:社区热度、引用、代码仓库等信息目前主要作为增强信号,而不是站点主召回来源。
先尽量召回,再逐层过滤
第一层:规则过滤
规则层要求论文同时具备 AI 方法信号 和 AIDD 领域信号。这一步的目标不是最终决定 featured,而是尽量把明显不相关的论文挡在外面,同时保留足够大的候选池供后续打分和 LLM judge 使用。
过滤关键词围绕 AIDD 的真实工作流展开,包括但不限于:靶点发现、结合位点与亲和力、虚拟筛选、分子生成与优化、蛋白和抗体设计、ADMET、逆合成、反应预测、生物标志物、多组学和临床转化。
第二层:多信号评分
规则通过后,每篇论文会进入评分层。当前评分体系更偏向从业者使用价值,而不是单纯学术热度,重点观察:
- 来源与发表形态:期刊通常优先于预印本,顶级期刊和顶级会议会获得更高权重。
- 机构背景:来自顶尖学术机构、药企 AI 团队、AIDD 公司或知名实验室的论文会被加权。
- 代码与可复现性:公开代码、仓库信息、可复现实验会提升排序。
- 领域强度:论文是否真正落在药物发现主链路,而不只是沾到生物或 AI 关键词。
- 社区与引用信号:作为补充,不作为唯一决策依据。
第三层:分级而不是二元淘汰
当前网站保留三层结构:
这样做的目的,是让站点既能保留编辑判断,又不把前面已经抓到的论文直接"吞掉"。对于内容还在扩充阶段的网站,这一点尤其重要。
第四层:LLM judge 做语义清洗
LLM judge 不是第一道门,而是第二道门。它会复核 featured、notable,并额外查看一批高分 candidate。如果论文虽然带有关键词,但整体语义并不属于 AIDD,就会被打回 candidate;相反,如果规则层略保守,但论文整体上明显符合站点定位,也可以被提升。
网站怎么呈现
当前覆盖的 AIDD 主题
结合近期行业综述和 AIDD 研究脉络,站点更适合按以下几类理解,而不是只看粗粒度学科名:
当前已知局限
- 来源还不够宽:目前主召回仍集中在 arXiv、bioRxiv、PubMed,尚未完全覆盖更多期刊站点和元数据源。
- 日期语义受源站限制:不同 API 的索引速度不一致,运行时能查到什么并不完全可控。
- 规则与主题体系仍在迭代:AIDD 的边界本身就比通用 AI 简报更难定义,评分与 topic 仍在持续调整。
- 解读基于标题与摘要:用于快速理解研究,不替代对原文全文的精读。
FAQ
- MindDance 和通用论文索引站有什么区别?
- 通用索引站解决的是"怎么找到论文",MindDance 解决的是"今天哪些 AIDD 论文值得看,以及为什么"。它不追求全量收录,而追求更接近从业者决策场景的筛选与解读。
- 为什么 sources 页要公开 candidate?
- 因为透明度本身就是产品的一部分。公开 candidate 可以让读者看到当天候选池的边界,判断筛选是"抓少了""抓偏了"还是"最终排序不合理",而不是只看最后几篇成稿。
- LLM judge 在这里扮演什么角色?
- LLM judge 是第二层语义过滤,不负责主观写稿。它的主要任务是把前面规则层放进来的边缘论文再清掉,避免纯 AI、纯物理、纯化学、纯生物但并不属于 AIDD 的论文进入 featured 或 notable。
- 解读为什么不强调第一人称?
- 因为站点目标是研究简报,而不是作者随笔。当前解读采用中性、克制的分析口吻,重点讲研究问题、方法、验证层级和潜在意义,不刻意突出"我认为""我觉得"。