Gengram:基因组AI外挂记忆库,提升模型效率与性能
Gengram:基因组AI的“外挂记忆库”,如何让模型更懂生命密码?
今年初,DeepSeek发布了一项名为Engram(条件记忆)的创新技术,其核心思想是为大语言模型配备一个“外挂记忆库”。它不再让模型费力地死记硬背“人工智能”、“光合作用”这类常见概念,而是将它们预先存入一个高效的哈希表中。当模型需要时,直接查询即可,从而将宝贵的计算资源解放出来,专注于更复杂的逻辑推理任务。
这个巧妙的设计思路,能否迁移到其他专业领域?一支来自杭州的交叉学科团队给出了肯定的答案,并且效果远超预期。在Engram论文发布仅16天后,他们推出了专为基因组学设计的Gengram(Genomic Engram)模块,成功将“外挂字典”的理念引入了DNA序列分析的世界。

Gengram模块概念示意图:为基因组AI模型提供外部知识库
- 开源代码:https://github.com/zhejianglab/Gengram
- 模型下载:https://huggingface.co/ZhejiangLab/Gengram
- 研究论文:https://github.com/zhejianglab/Gengram/tree/main/paper
传统方法的瓶颈:在碱基的海洋中迷失
当前主流的基因组基础模型(如DeepMind的AlphaGenome)普遍采用“单碱基分词”策略。这种方法将DNA序列拆解成A、T、C、G四个孤立的字母进行处理,虽然符合生物学直觉,却带来了显著的效率问题。
想象一下,模型为了识别一个像“TATAAAA”这样的关键功能片段(称为Motif),需要像拼图一样,通过复杂的多层注意力机制,从零开始逐个字母地拼凑。在动辄数万甚至数十万碱基的长序列中,模型极易“只见树木,不见森林”。人类的基因组更是一串长达30亿字符的连续文本,传统方法在此面前显得力不从心。
一个生动的比喻是:人类看到“魑魅魍魉”时,能立刻理解这是一个整体成语。而传统基因组模型却要逐个分析这四个“鬼”字分别是什么,既费力又容易出错。
Gengram的工作原理:给AI一本基因组“短语手册”
Gengram继承了Engram的核心哲学:将“静态知识检索”与“动态上下文推理”分离开来。
它预先构建了一个可微分的哈希表,其中存储了所有长度为1到6的DNA短片段(称为k-mer,例如“ATG”、“CGTA”)所对应的语义向量。这些k-mer很多本身就是生物学中已知的功能单元,如转录因子结合位点。这相当于为AI模型配备了一本《基因组学实用短语手册》。
得益于DNA仅由4种碱基(A、T、C、G)构成的极小字符集,Gengram的查表操作极其高效,几乎不会增加额外的计算负担。
更巧妙的是,Gengram引入了动态门控机制。模型能够根据当前所处的基因组上下文,自主决定何时需要“翻阅手册”。例如,在遇到外显子、启动子等关键区域时,它会激活检索功能;而在经过非编码的背景区域时,则关闭检索,依靠自身进行推理。研究团队测试表明,这个门控机制已经学会了“何时该查资料,何时该独立思考”。
轻量插件,显著提升:性能数据令人瞩目
Gengram本身是一个仅含约2000万参数的轻量级插件,对于动辄百亿参数的大模型而言微不足道,但其带来的性能增益却非常可观。
在多项基准测试中,集成了Gengram的模型表现全面领先:
- 剪接位点预测:AUC指标提升了16.1%(从0.776提升至0.901)。
- 表观遗传标记预测(H3K36me3):AUC指标提升了22.6%(从0.656提升至0.804)。
这种提升带来了惊人的“数据杠杆效应”。在与主流DNA基础模型的横向对比中,集成Gengram的模型仅使用极少的训练数据和激活参数量,就能在核心任务上媲美甚至超越那些训练数据规模是其数十倍的公开模型。
同时,Gengram展现了优秀的架构通用性,无论是稠密(Dense)模型还是混合专家(MoE)模型,都能无缝集成,并有效加速模型收敛,改善MoE架构中的专家负载均衡问题。

Gengram显著改善了混合专家(MoE)模型在不同稀疏度下的负载均衡
意外的涌现:模型“悟出”DNA的物理结构
最令人惊叹的发现来自参数调优过程。当团队测试Gengram局部聚合窗口的最佳大小时,发现窗口宽度设置为21个碱基对(bp)时,模型性能达到峰值。
21这个数字并非偶然。在结构生物学中,标准的B型DNA双螺旋每10.5个碱基对旋转一圈。21bp正好对应两个完整的螺旋周期。这意味着,在物理空间中,每隔21bp的碱基实际上位于双螺旋的同一侧,共享相似的化学微环境。
令人惊讶的是,Gengram在从未被明确告知这一结构知识的前提下,纯粹通过数据驱动的方式,“自行发现”了这一空间相位规律。这标志着模型开始触及DNA序列背后的物理本质。

DNA双螺旋每10.5个碱基对旋转一圈

不同窗口大小下的验证损失,21bp时性能最优
范式创新:Gengram为科学AI开辟新路径
Gengram的成功意义深远,它不仅仅是一个工具,更代表了一种构建“懂科学”的AI的新范式:
- 从暴力记忆到知识外挂:改变了过去依靠堆叠参数和数据来让模型“记住”一切的思路,转而将领域内确定性的结构化知识(如功能Motif)作为外部插件,让模型核心专注于推理与组合创新。
- 注入领域先验(归纳偏置):巧妙地将DNA双螺旋的物理结构(21bp的双周期规律)转化为模型的内在架构约束,使模型能天然地捕捉生物物理规律。
- 提升可解释性:通过显式的哈希查询和门控机制,模型的“思考过程”变得更加透明。例如,它能清晰显示出对TATA-box等关键元件的敏感性,其内部信号与基因组的功能边界高度吻合。
- 解决长序列依赖:实验表明,仅在8K长度序列上训练的模型,在集成Gengram后获得了处理32K长序列的强大能力。这为分析基因调控、表观遗传等涉及长程相互作用的问题提供了新思路。
背后的团队:低调的“Genos Team”
尽管论文署名仅为低调的“Genos Team”,但从其开源代码库归属(Zhejianglab 和 BGI-HangzhouAI)不难推断,这支团队融合了之江实验室在智能计算领域的顶尖实力,以及华大生命科学研究院在基因组学方面的深厚积淀。这种“AI+生命科学”的跨界融合,构成了纯计算机科学或纯生物学团队难以企及的优势壁垒。
据悉,Gengram的多数实验基于其开发的人类基因组基础模型“Genos”完成。从已公开的评测数据看,Genos在多项关键指标上已超越了当前的业界标杆Evo-2,预示着AI for Science在生命科学领域正迈入一个全新的阶段。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/226eeb91-ceb3-46c4-a1ab-b7bc81a3da90