最近把日常使用的 AI Agent 从 OpenClaw 切到了 Hermes Agent。用了一段时间之后,体感上有明显的差异,不只是功能层面的,更多是设计哲学上的。
Hermes 让我第一次觉得,一个 AI Agent 的"聪明"可能不取决于底层模型有多强,而取决于它的记忆架构设计得有多好。
Hermes 在几个维度上明显优于 OpenClaw。
1. 回复速度快。 这不是玄学,Hermes 的冻结快照机制让 system prompt 在整个会话中保持不变,直接利用了 LLM 的 prefix cache。每一轮推理不用重新处理变化的上下文前缀,省下来的时间用户能直接感受到。
2. 权限边界隔离清晰。 哪些工具可用、哪些命令需要审批、子代理的权限范围,Hermes 把这些做成了显式配置,而不是隐式的默认行为。作为一个对安全有洁癖的人,这让我用起来安心很多。
3. 可观测性强。 每次会话的 token 消耗、成本估算、压缩触发时机、记忆使用率,这些数据都是透明的。我能清楚地知道 Agent 在做什么、花了多少钱、记忆快满了没有。
4. 多 Agent 配置简单。 通过子代理委派和隔离的 session,可以让多个 Agent 并行处理不同任务。配置成本比 OpenClaw 低很多。
当然也有坑。网关偶尔会突然断联,需要手动重启 gateway 进程。这种稳定性问题在日常使用中还是挺影响体验的,希望后续版本能改进。
但真正让我觉得 Hermes 值得深入研究的,不是这些表面的体验差异,而是它的记忆系统。
五层记忆架构
Hermes 的记忆不是一个简单的"存储越多越好"的系统。它被设计成了五个层级,每层解决不同的问题。
第一层:Memory Store。 两个 Markdown 文件,MEMORY.md 存 Agent 对环境的认知(2,200 字符),USER.md 存 Agent 对你的认知(1,375 字符)。加起来不到 4,000 字符。
这个容量限制是故意的。
第二层:Sessions Database。 所有会话的完整历史,存在 SQLite 里,用 FTS5 做全文索引。当你说"我们之前讨论过这个",Agent 会搜索历史会话,截取相关片段,用辅助模型生成摘要返回,不是原文回放,而是“重建性回忆”。
第三层:Context Compression。 对话长度达到模型上下文窗口的 50% 时自动触发。保护首尾消息,压缩中间部分,清理过期的工具输出。
第四层:Skills(程序性记忆)。 技能文件存在磁盘上,按需加载。Agent 每 15 次工具调用做一次自我评估,判断当前经验是否值得沉淀为技能。已有的技能在使用中会自动 patch 改进。
第五层:External Memory Providers。 8 个可选的外部记忆扩展,包括 Mem0(向量+知识图谱)、Honcho(辩证推理用户建模)、Letta/MemGPT(OS 级分页)等。
这五层不是堆砌出来的,它们之间有清晰的分工:核心记忆小而精,情景记忆无限但按需检索,程序性记忆独立演化,外部扩展可插拔。
“睡眠”沉淀记忆
整个记忆系统里最让我眼前一亮的设计是冻结快照模式(Frozen Snapshot Pattern)。
逻辑很简单:会话启动时,从磁盘读取 MEMORY.md 和 USER.md,注入 system prompt,然后整个会话期间这个快照不再改变。如果 Agent 在对话中学到了新东西并写入了磁盘,这些更新要到下一次会话才会生效。
第一反应可能是:这不是 bug 吗?为什么不实时更新?
但仔细想想,这恰恰是正确的设计。
首先是工程层面的原因:LLM 的 prefix cache 依赖于 system prompt 的稳定性。如果每次记忆更新都修改 system prompt,缓存就失效了,每轮推理都要重新计算前缀,速度和成本都会受影响。
更深层的原因是认知一致性。一个 Agent 如果在同一次对话中不断修改自己的"世界观",它的行为会变得不可预测。冻结快照保证了 Agent 在一次会话内有一致的认知基础。
这让我想到人脑的记忆巩固机制。神经科学研究表明,人类的长期记忆巩固主要发生在睡眠期间,白天经历的事件通过海马体暂存,在夜间慢波睡眠阶段才被转移到大脑皮层形成长期记忆。我们不会在清醒时不断重组记忆,那样会导致注意力分散和认知混乱。
Hermes 的冻结快照本质上模拟了同样的模式:在线时保持认知稳定,离线时(会话间隙)完成记忆巩固。
有限容量的智慧
MEMORY.md 只有 2,200 字符的上限,大约 800 个 token。这个数字小得让人不安,毕竟现在的模型动辄支持 200K 的上下文窗口。但回过头看,这个约束恰好是 Hermes 的特点,对比OpenClaw 经常燃烧不必要的token 来说,Hermes 这种“精简”和“克制”的做法反而高效。
但人类工作记忆的容量同样小得惊人。George Miller 1956 年的经典论文提出了"7±2"法则,后来 Nelson Cowan 在 2001 年的研究进一步修正为大约 4 个 chunk。我们的大脑并没有因为容量小就变笨,恰恰相反,有限的容量迫使大脑进行“信息压缩和优先级排序”。
Hermes 的字符限制制造了同样的压力。当记忆快满时,Agent 必须做出决策:哪些信息可以合并?哪些已经过时可以丢弃?哪些需要从 Memory 转移到 Skills 里去?
这个过程本身就是一种元认知能力的训练。
相比之下,"给 Agent 无限记忆"的思路反而是有问题的。无限记忆意味着不需要做淘汰决策,也意味着 Agent 永远不会学会什么是"真正重要的"。信噪比会随着时间推移不断恶化。
好的记忆不是记住一切,而是知道什么值得记住。
程序性记忆 vs 陈述性记忆
认知科学把人类记忆分为陈述性记忆(知道什么)和程序性记忆(知道怎么做)。这两者在大脑中存储在完全不同的区域,陈述性记忆依赖海马体和颞叶皮层,程序性记忆依赖基底神经节和小脑。
Hermes 的架构完美映射了这个分离:
- MEMORY.md + USER.md = 陈述性记忆中的语义记忆(环境事实、用户偏好)
- Sessions Database = 陈述性记忆中的情景记忆(过去经历的回忆)
- Skills = 程序性记忆(怎么做事情)
为什么这个分离重要?因为它允许 Skills 独立于 Memory 无限增长。一个 Agent 的核心记忆可以保持精简(不到 4,000 字符),但它的技能库可以有几十甚至上百个技能文件。技能按需加载,不用的时候不占用 context window。
这和人类专家的认知模式一致:一个经验丰富的医生不需要时刻想着每种疾病的诊断流程,但在遇到具体病例时,相关的程序性知识会被自动激活。
自我改进循环
Hermes 每 15 次工具调用会触发一个自我评估检查点(Self-Evaluation Checkpoint)。Agent 会暂停当前任务,问自己四个问题:
- 这 15 步我完成了什么?
- 哪些方法有效,哪些失败了?
- 有没有值得沉淀为技能的可复用流程?
- 有没有需要写入记忆的环境事实或用户偏好?
这个机制直接对应认知科学中的元认知(Metacognition),即对自己思维过程的监控和调节。研究表明,元认知能力是区分新手和专家的关键因素之一。专家不只是"知道得更多",而是更擅长反思自己的决策过程。
社区用户的反馈也验证了这一点:使用 Hermes 一个月后,同样的任务从 25 次工具调用降到了 8-10 次。这不是模型变强了,而是技能积累减少了重复的探索过程。
我自己还没有深度体验这个自我改进循环,目前的使用时间还不够长,技能积累不多。但从机制设计上看,这是一个方向正确的飞轮:使用 → 反思 → 沉淀 → 下次更快 → 更多使用。
我的思考
深入研究 Hermes 的记忆架构之后,我对 AI Agent 产品有了几个新的认识。
记忆架构比模型能力更重要。 同一个底层模型,配上好的记忆系统,表现可以有质的差异。Hermes 支持 200+ 模型无缝切换,但无论用哪个模型,记忆架构的价值都在。
记忆更新应该是异步的。 实时同步记忆看起来很"先进",实际上会导致 Agent 在同一次对话中自相矛盾。冻结快照是更好的模式。就像睡眠于人一样重要一样,AI也需要Dreaming的时间。
有限容量是特性,不是限制。 给 Agent 无限记忆不是好设计。受限的记忆迫使 Agent 学会优先级排序和信息压缩,这是更高级的智能。
程序性知识和事实性知识必须分离。 前者可以无限增长并按需加载,后者必须保持精简且始终在线。混在一起管理注定会失败。
AI Agent 的竞争,最终不是比谁的模型参数更大,而是比谁的认知架构设计得更符合智能的本质。Hermes 在这个方向上走得比大多数竞品都远。
参考
- NousResearch/hermes-agent — GitHub 仓库:github.com/NousResearch/hermes-agent
- Hermes Agent 官方文档 — Memory:hermes-agent.nousresearch.com/docs/user-guide/features/memory
- Marco Rodrigues, "How The Hermes Agent Memory Really Works" (2026.4.15):blog.dadhalfdev.com/p/how-the-hermes-agent-memory-really
- DeepWiki — NousResearch/hermes-agent Memory and Sessions:deepwiki.com/NousResearch/hermes-agent/4.3-memory-and-sessions
- Packer et al., "MemGPT: Towards LLMs as Operating Systems" (2023, UC Berkeley):arxiv.org/abs/2310.08560
- Honcho by Plastic Labs — Dialectic User Modeling:honcho.dev
- Miller, G.A., "The Magical Number Seven, Plus or Minus Two" (1956), Psychological Review
- Cowan, N., "The Magical Number 4 in Short-Term Memory" (2001), Behavioral and Brain Sciences
- Hermes Agent — Self-Improving AI Guide:hermes-agent.ai/blog/self-improving-ai-guide
- OpenClaw 官方文档:docs.openclaw.ai