今日概览
- PATTY 算法:校正 Tn5 酶偏好性,提升表观基因组测序精度 CUT&Tag 测序中 Tn5 转座酶对开放染色质的偏好会系统性扭曲组蛋白修饰信号,现有高盐优化方案仍无法消除该偏差
- 跨同源蛋白迁移适应性数据:低至35%序列同源性也能提升突变效应预测 提出fitness translocation方法,通过蛋白质语言模型嵌入空间将同源蛋白的突变适应性数据迁移到目标蛋白,解决训练数据稀缺问题
- 基因组基础模型的预训练困境:随机初始化基线竟然够强? 在 52 个基因组任务的 in silico 评估中,随机初始化模型提供了强劲基线,预训练收益高度依赖 tokenizer 选择(字符级 tokenization 常优于预训练的 k-mer/BPE 模型)
- Cenote-Taker 3:高通量测序中的病毒基因组发现与注释新工具 Cenote-Taker 3 针对病毒基因组的高遗传多样性和多聚蛋白编码特性,整合了病毒发现、前噬菌体提取和基因注释功能
重点关注
01 PATTY 算法:校正 Tn5 酶偏好性,提升表观基因组测序精度
表观基因组测序技术 CUT&Tag 因低细胞量需求和单细胞兼容性而被广泛采用,但其核心工具——超活性转座酶 Tn5 存在固有缺陷:它对开放染色质区域(open chromatin)的偏好性会系统性扭曲测序读数分布,这种 **open chromatin bias** 在稀疏的单细胞数据中尤为严重,可能导致将 Tn5 的酶切偏好误判为真实的组蛋白修饰信号。研究者通过分析已发表数据集发现,即使是优化后的高盐实验方案也无法消除这一偏差。
为解决这一问题,本研究开发了 PATTY(Propensity Analyzer for Tn5 Transposase Yielded bias)算法框架。该方法的核心策略是利用配套的 ATAC-seq 数据(专门检测染色质开放性的技术)来量化和校正 Tn5 的酶切偏好。通过整合转录组数据并结合机器学习模型,PATTY 能够区分真实的表观修饰信号与技术偏差。**实验验证(in vitro 层级)** 表明,校正后的数据在检测活性标记 H3K27ac 和抑制性标记 H3K27me3、H3K9me3 的结合位点时准确性显著提升。在单细胞层面,基于 PATTY 校正的数据进行细胞聚类分析,能更准确地区分细胞亚群。该方法不仅适用于 CUT&Tag,也为所有基于 Tn5 的高通量测序技术(如 ATAC-seq、ChIP-nexus)的偏差校正奠定了基础,对表观基因组学研究具有普遍意义。
原文:PATTY corrects open chromatin bias for improved bulk and single-cell CUT&Tag profiling
02 跨同源蛋白迁移适应性数据:低至35%序列同源性也能提升突变效应预测
蛋白质工程中的核心难题是预测氨基酸突变对蛋白功能的影响(variant effect prediction),但高质量的适应性(fitness)数据稀缺严重限制了预测模型的训练。现有深度突变扫描实验虽能系统评估突变效应,但成本高昂且难以覆盖所有目标蛋白。本研究提出了一种名为**fitness translocation**的数据增强策略,核心思路是将同源蛋白家族中已有的突变适应性数据迁移到目标蛋白上进行模型训练。
方法上,研究者利用蛋白质语言模型(protein language model)提取野生型和突变体的嵌入表示,计算同源蛋白突变前后的嵌入差异向量,再将这些差异向量应用到目标蛋白的野生型嵌入上,从而在嵌入空间中生成目标蛋白的合成突变体及其预测适应性标签。这种方法在三个蛋白家族(IGPS代谢酶、GFP荧光蛋白、SARS-CoV-2刺突蛋白)上进行了**in silico验证**,测试了不同预测模型和训练数据规模的组合。结果显示,即使同源蛋白序列同一性仅为35%的远缘同源关系,fitness translocation仍能显著提升预测准确性,在训练数据极度受限时改善尤为明显。这表明蛋白质家族内积累的历史适应性数据具有可复用价值,为数据高效的蛋白质工程提供了新思路。
03 基因组基础模型的预训练困境:随机初始化基线竟然够强?
大语言模型(LLM)在自然语言处理领域的成功催生了基因组基础模型(Genomic Foundation Models, GFMs)的研发热潮,研究者们试图通过类似的预训练策略在基因组序列上复制这一成功。然而,一个根本性问题始终未得到充分验证:这些耗费巨大算力的预训练过程,是否真的学到了对下游任务有价值的基因组表征?
本研究对七个不同的 GFMs 进行了系统性评估,在 52 个不同的基因组任务上将它们与**随机初始化权重**的对照模型进行对比(**in silico 验证**)。结果令人意外:随机初始化的模型提供了异常强劲的基线性能,而预训练带来的提升高度依赖于 **tokenization 策略**和模型架构选择。具体而言,使用字符级 tokenization 的模型往往能匹敌甚至超越更大规模的预训练 k-mer 或 BPE 模型,而 subword 模型似乎才能从预训练中获益。
更关键的发现是,现有 GFMs 在捕获**临床相关的遗传突变**(clinically relevant genetic mutations)方面表现不佳,其生成的 embeddings 和 log-likelihood ratios 对已标注的变异位点(annotated variants)显示出有限的敏感性。这表明直接照搬 NLP 的预训练范式可能并不适合基因组数据的特性。研究结果提示,当前的预训练策略仅能在特定 tokenizer 配置下提供适度改进,亟需发展更符合生物学机制的 tokenization 方法和变异感知型(variant-aware)预训练目标。
原文:Tokenization to Transfer: Do Genomic Foundation Models Learn Good Representations?
04 Cenote-Taker 3:高通量测序中的病毒基因组发现与注释新工具
病毒是地球上数量最多、遗传多样性最高的生物实体,感染几乎所有类型的细胞生命,但其基因组学研究面临独特挑战。病毒的遗传多样性超过所有其他生命形式的总和,它们的基因组在测序数据中常被忽略,且编码大量 **polyproteins**(多聚蛋白),其中绝大多数蛋白质功能无法通过序列同源性推断。这些特性要求开发能够从高通量测序数据中敏感且特异地发现病毒基因组——包括与已知参考高度分化的序列——并准确注释其基因的生物信息学工具。
本研究开发了 **Cenote-Taker 3**,这是一个命令行工具,用于处理基因组组装和宏基因组组装数据,集成了病毒发现、**prophage extraction**(前噬菌体提取)以及基因和其他遗传特征注释等模块。在 **in silico** 基准测试中,Cenote-Taker 3 在病毒基因注释任务上的速度(wall time)和准确性均优于大多数现有工具。在病毒发现任务中,该工具与 geNomad 表现相当,且两者结果具有互补性,提示联合使用可能提升发现效率。工具已通过 Bioconda 免费发布,源代码在 GitHub 开源维护。该工具为宏基因组学研究中的 **virome**(病毒组)分析提供了高效解决方案,特别适用于环境样本和微生物组测序数据中病毒序列的系统性鉴定。
原文:Cenote-Taker 3 for Fast and Accurate Virus Discovery and Annotation of the Virome
也值得关注
今日观察
今天的四篇论文呈现出一个共同的主题:**当我们在生物数据上应用机器学习时,数据本身的质量和偏差往往比模型架构更关键**。PATTY 算法针对 CUT&Tag 等表观基因组测序技术中 Tn5 转座酶的序列偏好性问题,提出了系统性的校正方法。这个问题长期被忽视,但实际上 Tn5 对特定 DNA motif 的偏好会在染色质可及性图谱中引入系统性偏差,影响下游的转录因子结合位点识别和调控网络推断。对于做表观遗传药物靶点发现或染色质状态预测模型的团队,这提示了一个实际问题:**训练数据中的技术偏差可能比模型优化更值得关注**,尤其是当你的模型需要区分真实生物学信号和测序工件时。
第二篇关于蛋白质工程中跨同源蛋白迁移学习的研究,则从另一个角度验证了数据质量的重要性。研究发现即使序列同源性低至 35%,来自同源蛋白家族的突变效应数据(fitness landscape)仍能显著提升目标蛋白的变体效应预测准确性。这对实际的蛋白质设计项目有直接启示:**在为新靶点构建预测模型时,不必局限于该蛋白自身的少量实验数据,可以系统性地挖掘同家族蛋白的深度突变扫描(DMS)数据作为迁移学习的来源**。这种策略在抗体人源化、酶工程改造等场景中尤其实用,因为很多工程靶点缺乏充分的实验标注,但其同源蛋白可能在 ProteinGym 等公开数据集中已有丰富的 fitness 数据。
第三篇论文则提出了一个更根本的质疑:基因组基础模型(genomic foundation models)的预训练是否真正学到了生物学规律,还是仅仅记住了统计模式?研究发现在某些下游任务上,**精心设计的随机初始化基线竟然能接近甚至超越大规模预训练模型的性能**。这对正在构建或采用基因组大模型的团队是个警示:不要盲目相信"预训练即有效"的假设,需要针对具体任务(如启动子预测、剪接位点识别、变体效应预测)设计严格的对照实验,包括随机初始化、打乱序列等消融实验,以验证模型是否真正捕获了生物学约束而非数据集的统计捷径。这与第一篇论文的观察呼应:**技术偏差和数据质量问题可能被复杂模型掩盖,但会在实际应用中暴露**。第四篇关于病毒基因组发现的工具虽然侧重宏基因组学应用场景,但其强调的快速准确注释能力,对于需要从高通量测序数据中识别病毒载体、噬菌体展示文库或基因治疗相关序列的团队也有参考价值。