LoCoMo —— Hebb Mind vs Zep

系统	LoCoMo 得分	指标	来源
Hebb Mind	95.75%（bge-large + 重排）/ 94.14%（bge-large 默认）/ 91.41%（MiniLM-384），各为全量 1,978 题	session 级 Recall@10（评分时无 LLM）	LoCoMo
Hebb Mind	77.9%（宽松判分器）/ 73.8%（严格判分器），cat 1–4	端到端 QA 准确率（LLM-as-judge）—— 与 Zep 同指标	LoCoMo
Zep	75.14% ± 0.17，cat 1–4	端到端 QA 准确率（J score）	Zep 博客

同指标：端到端 QA 准确率

Zep 的 75.14% 是一个 J score —— 由 LLM-as-judge 在 LoCoMo 类别 1–4 上对生成的答案与 ground truth 评分（排除 446 个对抗性问题）。这正是我们也用来为 Hebb Mind 评分的指标与子集，所以两者确实可比：

系统	cat 1–4 QA 准确率	判分器
Hebb Mind	77.9%	标准 LoCoMo QA 判分 prompt（宽松）
Hebb Mind	73.8%	我们自己的严格判分器
Zep	75.14% ± 0.17	LoCoMo QA 判分器

应读作一个区间而非单点：Hebb Mind 视判分器严格程度落在约 74–78%，Zep 为 75.14% —— 彼此都在噪声范围内。在标准（更宽松）的 LoCoMo QA 判分 prompt 下，Hebb Mind 的 77.9% 略微领先；在我们更严格的判分器下则稍低于它。这不是受控比较 —— 答案生成的 LLM 不同（我们用 DeepSeek-V4-Pro），且两套完整 QA 管线从未在同一 harness 中运行过。

支配两个数字的注意点。 LoCoMo 的 LLM 判分器被记录会接受多达 约 63% 的故意写错的答案，且 ground truth 有约 99 个错误/张冠李戴的金标答案（dial481/locomo-audit，经 MemPalace #29）。在带有那种误差棒的指标上，约 1 pp 的差距毫无意义 —— 应把 Hebb Mind 与 Zep 视为在 LoCoMo QA 上打平。

检索 vs QA：为什么我们的头条是 95.75% 而 QA 是约 77%

我们的头条 LoCoMo 指标是 session 级 Recall@10 = 95.75% —— 检索结果集是否召回了某个 evidence session 的一条记忆？它只评分检索，不生成答案。它与我们 QA 准确率之间 18 pp 的差距不是检索差距（检索接近天花板）；它来自答案生成模型的推理 —— 几乎全部集中在 LoCoMo 的推理型 temporal 类（QA 准确率 33.7%，如*「X 会被视为 Y 吗？」*）与 multi_hop（64.5%）。J score 受那种推理能力的上限约束；召回数字则不受。所以 95.75% R@10 与 77.9% QA 描述的是同一系统在不同维度上的表现，且只有 QA 这一行可与 Zep 的 J score 比较。

关于 Zep 的 LoCoMo 数字

Zep 主要公布的基准是 LongMemEval（Graphiti 在那里报告 >90% R@5 —— 见 LongMemEval —— vs Zep / Graphiti）。在 LoCoMo 上，Zep 在一篇博客文章中报告 75.14% ± 0.17（J score）。应将其视为在一次有争议的基准交锋中由单一厂商自报的数字 —— 而非我们在自己 harness 中复跑出来的数字。

结论

在端到端 QA（Zep 公布的指标）上： 大致打平 —— Hebb Mind 约 74–78% vs Zep 在 cat 1–4 上的 75.14% —— 且差距远在 LoCoMo 判分器已知误差棒之内。我们不主张在此击败 Zep。
在检索 Recall@10（我们的头条）上： 无从比较 —— Zep 未公布 LoCoMo 召回数字，我们也未把 Zep 接入自己的 harness 复跑。不要把 95.75% vs 75.14% 当作正面对决；它们是不同维度。

如果你有同 harness 的 Zep 数字（无论是 LoCoMo Recall@10，还是把 Hebb Mind 接入 Zep 的 QA harness），欢迎提交 PR。

LoCoMo

LongMemEval

LoCoMo —— Hebb Mind vs Zep ​

同指标：端到端 QA 准确率 ​

检索 vs QA：为什么我们的头条是 95.75% 而 QA 是约 77% ​

关于 Zep 的 LoCoMo 数字 ​

结论 ​

LoCoMo —— Hebb Mind vs Zep

同指标：端到端 QA 准确率

检索 vs QA：为什么我们的头条是 95.75% 而 QA 是约 77%

关于 Zep 的 LoCoMo 数字

结论