您的位置:首页 >综合 > 市场 >

梁文锋署名新论文曝光:DeepSeek V4 或引入全新记忆架构-实时


(资料图片)

今日凌晨,DeepSeek 开源全新架构模块「Engram」,并同步发布技术论文,署名作者中再次出现梁文锋。据悉,Engram 模块通过引入可扩展的查找式记忆结构,为大模型提供了区别于传统 Transformer 与 MoE 的全新稀疏性维度。

DeepSeek 在论文中指出,当前主流大模型在处理两类任务时存在结构性低效:一类是依赖固定知识的「查表式」记忆,另一类是复杂推理与组合计算。传统 Transformer(无论 Dense 或 MoE)均需通过多层注意力与 MLP 重建这些静态模式,导致计算资源被大量消耗在「重复构造已知模式」上。

Engram 的核心机制是基于现代化哈希 N-Gram 嵌入的 O(1) 查找式记忆。模块会对输入 Token 序列进行 N-Gram 切片,并通过多头哈希映射到一个规模可扩展的静态记忆表中,实现常数时间的检索。

论文强调,这种查找与模型规模无关,即便记忆表扩展至百亿级参数,检索成本仍保持稳定。与 MoE 的条件计算不同,Engram 提供的是「条件记忆」。模块会根据当前上下文隐向量决定是否启用查找结果,并通过门控机制与主干网络融合。

论文显示,Engram 通常被放置在模型早期层,用于承担「模式重建」职责,从而释放后续层的计算深度用于复杂推理。DeepSeek 在 27B 参数规模的实验中,将部分 MoE 专家参数重新分配给 Engram 记忆表,在等参数、等算力条件下,模型在知识、推理、代码与数学任务上均取得显著提升。

在 X 平台上,相关技术讨论认为 Engram 的机制有效减少了模型早期层对静态模式的重建需求,使模型在推理部分表现得更「深」。部分开发者指出,这种架构让大规模静态记忆得以脱离 GPU 存储限制,通过确定性寻址实现主机内存预取,从而在推理阶段保持低开销。多位观察者推测,Engram 很可能成为 DeepSeek 下一代模型「V4」的核心技术基础。

最新动态
相关文章
梁文锋署名新论文曝光:DeepSeek V4 ...
OpenAI 宣布收购医疗保健初创公司 Tor...
本地生活2025:流量退潮,生态浮现
首款机器人交警,奇瑞墨甲“芜优”智警...
美光:存储供应短缺之困或将持续至 202...
每日精选:腾讯研发AI Coding智能全栈...