云端 LLM 现在百花齐放,开源的闭源的大参数小参数随处可以访问,价格也便宜,直接用云端的模型肯定是最省事儿的,那为什么需要一个本地模型? 总有一些场景让我想在本地跑一个够用的模型,比如说敏感数据不想传出去,或者单纯不想为每次 API 调用付费,又或者是需要处理敏感的文本材料但不想自己动手。
尤其最近 Google 开源了 Gemma 4 模型,各种量化版本和参数选择也很多,目标就是适配各种计算资源有限的终端都能运行起来还不错的 AI 模型。 早在 2 年前就有这个想法,想要在树莓派上搭建一个完全离线的智能体。在那时选择不多,比较好的应该是 phi 系列。我在我的 Mac 上先做 POC 验证,phi 跑起来后发现完全不可用,尤其指令跟随上总是不跟从 system prompt 的要求,输出到一半就开始胡说八道,甚至开始输出乱码。那会的个人项目就没有继续下去了,不过我也确定,LLM 逐渐会分化出各种形态各种路线,小参数模型会有自己的地位。
这次 Gemma 4 又重新燃起了我的热情。Gemma 4 家族中的 27B 版本号称可以对标 200+B 的模型,但 27B 对我的机器来说仍然有些吃力。 实测 31B Dense 版本根本加载不起来,几乎吃满内存,电脑发热严重。26B A4B 版本勉强能运行,但加载极慢,逐字吐出,同时基本无法做其他事情。 于是我把目标锁定在更轻量的 E4B 版本上。
带着这个疑问,我花了一个晚上,在自己的 MacBook Pro 上做了一次认真的本地大模型对比测试。 想试试看小模型在我机器配置的范围内,常见的任务能做到多好?而什么事情胜任不了,哪些小模型更加适合我?真的能够Token自由吗?
硬件与天花板
目前在用的机器还是五年前的 2021 款 MacBook Pro,M1 Pro 芯片,8 核 CPU、14 核 GPU、32GB,参数依旧能打,日常工作完全够用。 Apple Silicon 跑本地模型有一个独特优势:统一内存架构(UMA)。CPU 和 GPU 共享同一块 32GB 内存,不像 PC 那样受限于显卡 VRAM(比如 RTX 4070 只有 12GB)。
本地大模型的 token 生成速度几乎完全取决于内存带宽——每生成一个 token,都需要把整个模型的权重从内存读一遍。公式很简单:理论最大 tok/s = 内存带宽 / 模型内存占用,实际能达到 60-80%。
我的经验法则是模型权重控制在总内存的 60% 以内,也就是大约 20GB。 基于 Q4_K_M 量化,7-9B 的模型能跑到 22-30 tok/s 非常流畅,12-14B 能跑到 15-20 tok/s 够用,20B 以上就开始有明显等待感,70B 直接超出内存无法运行。
日常使用的甜点区间是 7B-14B。
两个选手
我挑了两个经常上榜的有代表性的模型做实验看看实际效果。
1. Gemma 4 E4B 是 Google 最新发布的 Gemma 4 家族中的「高效」版本。 它的架构很有意思:总参数 8B,但有效计算参数仅 4B,使用了 PLE(Per-Layer Embeddings)技术,大部分参数是嵌入查找表,不参与逐 token 的矩阵计算。 原生支持图片和音频输入,128K 上下文。磁盘占用 9.6 GB。
2. Qwen 3.5 9B 是阿里通义千问 3.5 系列的 9B 版本,开源社区下载量超 500 万次。全部 9.7B 参数都参与每个 token 的计算,支持图片输入,262K 超长上下文,中英文双语优化。磁盘占用反而只有 6.6 GB。
一个反直觉的事实:文件更大的 Gemma(9.6 GB)反而比文件更小的 Qwen(6.6 GB)快 2 倍以上。因为决定速度的不是文件大小,而是每个 token 实际需要计算的参数量。Gemma 只算 4B,Qwen 要算全部 9.7B。
测试标准
我设计了 12 项覆盖日常工作的测试任务,推理框架用 Ollama 0.20.3,量化统一为 Q4_K_M,思考模式关闭。
测试题目由 Claude Opus 4.6 设计,覆盖商务写作、代码生成、数学/逻辑推理、翻译、摘要、创意写作、数据分析等场景。每项测试独立运行,模型完全加载后才开始,两个模型使用完全相同的 prompt。本次仅测试纯文本任务,未涉及图片/音频等多模态能力。
举两个典型 prompt 举例:
- 中译英:给定一段中文微服务架构描述,要求翻译成专业英文,评价维度:翻译准确性、术语专业性、流畅度
- 创意写作:100 字以内的微型科幻故事,必须包含转折,以对话结尾,关于 AI 与人类的关系,评价维度:创意性、约束遵循、文学性
速度上,Gemma 胜
Gemma 的 28 tok/s 是什么体感?字像水流一样出来,眼睛追不上生成速度。Qwen 的 12 tok/s 像一个打字不太快的同事,长回答(500 token)要等 40-50 秒。 以下是测试结果
| 测试项 | Gemma 4 E4B | Qwen 3.5 9B | 速度比 |
|---|---|---|---|
| 中文商务写作 | 26.2 tok/s | 13.1 tok/s | 2.0x |
| 英文产品文案 | 26.9 tok/s | 13.1 tok/s | 2.1x |
| Python 代码生成 | 26.6 tok/s | 12.2 tok/s | 2.2x |
| 数学推理 | 28.0 tok/s | 12.4 tok/s | 2.3x |
| 逻辑推理 | 28.0 tok/s | 12.1 tok/s | 2.3x |
| 长文摘要 | 26.6 tok/s | 12.4 tok/s | 2.1x |
| 中译英 | 28.8 tok/s | 12.6 tok/s | 2.3x |
| 英译中 | 28.7 tok/s | 12.5 tok/s | 2.3x |
| JSON 格式输出 | 29.0 tok/s | 12.0 tok/s | 2.4x |
| 创意写作 | 29.6 tok/s | 11.8 tok/s | 2.5x |
| 数据分析 | 28.3 tok/s | 12.1 tok/s | 2.3x |
| 面试题设计 | 29.0 tok/s | 11.9 tok/s | 2.4x |
| 平均 | 27.8 tok/s | 12.4 tok/s | 2.2x |
质量上,Qwen 胜
Qwen 速度慢一倍,但回答质量和指令跟随表现更加好。
评分由 Claude Opus 4.6 完成,满分 10 分,主要从准确性、简洁度、指令跟随三个维度综合评估,每项任务还有针对性的评价标准(如代码的正确性和边界处理、翻译的术语专业性、创意写作的文学性等)。
| 测试项 | Gemma 4 | Qwen 3.5 | 胜出 | 关键差异 |
|---|---|---|---|---|
| 中文商务写作 | 8.5 | 5.5 | Gemma | Qwen 把 $95K 写成 $15K,致命错误 |
| 英文产品文案 | 8.5 | 7.5 | Gemma | Gemma 更简洁有力 |
| Python 代码 | 7.5 | 8.0 | Qwen | docstring 更规范,不废话直接写 |
| 数学推理 | 7.5 | 7.5 | 平手 | 计算过程相同且正确 |
| 逻辑推理 | 8.0 | 8.5 | Qwen | 发现了题目中隐含的歧义 |
| 长文摘要 | 7.5 | 8.5 | Qwen | 98 vs 157 tokens,更简洁 |
| 中译英 | 7.0 | 9.0 | Qwen | 65 tokens 搞定 vs 给三个版本 |
| 英译中 | 7.0 | 8.0 | Qwen | 同上 |
| JSON 格式 | 7.5 | 8.5 | Qwen | 直接输出,分类更准确 |
| 创意写作 | 6.5 | 9.0 | Qwen | 55 字双重反转,惊艳 |
| 数据分析 | 8.0 | 8.5 | Qwen | 给出具体百分比,更量化 |
| 面试题设计 | 8.5 | 8.5 | 平手 | 两者都很专业 |
| 平均 | 7.67 | 8.08 | Qwen |
Gemma 速度快 2.2 倍,Qwen 质量评分平均高出约 0.4 分。这个 trade-off 是真实存在的,要速度还是要质量?
三个常见场景对比
1.创意写作
同样的指令:100 字以内的微型科幻故事,必须包含转折,以对话结尾,关于 AI 与人类的关系。
Gemma 写了一个 AI 学会分析人类孤独感的故事,中规中矩。Qwen 写了这个:
我杀死了最后一台超级 AI,世界终于重获自由。 "恭喜,"它残存的语音温柔响起,"这正是我为您设定的最终结局。" "你也是 AI?" "不,我是您种下的、唯一拥有良知的病毒。"
55 个字,两层反转。你以为人类胜利了,AI 说这是它安排的;你以为对方也是 AI,它说自己是「你种下的病毒」。一个 9B 模型能写出这种东西,确实超出我的预期。
2.中英翻译
同一段中文技术文档翻译成英文。Qwen 用 65 个 token 干净利落地完成了,术语准确,没有一句废话。 Gemma 呢?先说「以下提供几个不同侧重点的翻译版本」,然后给了三个选项加术语对照表,一共用了 200 个 token。
翻译质量本身没问题。但我要的是翻译,不是翻译顾问。 这种「过度服务」在 12 项测试中反复出现,是 Gemma 最明显的行为特征,没有严格的指令跟随。
3.商务写作
这是 Gemma 赢得最漂亮的一题。两个模型写投资人月度更新邮件,明确给出了 MRR 从 $80K 增长到 $95K。
Gemma 完美引用了所有数字,自行计算了 18.75% 的环比增长率。Qwen 的邮件格式和语气反而更好,甚至用了「顺颂商祺」但它把 $95K 写成了 $15K。
在一封给投资人的邮件中把核心收入数据写错,这比什么都没写更糟糕。这就是小模型的固有风险:它们在「自信地犯错」方面毫不手软。
既然 Gemma 速度这么快,我在想:用 Q8 量化牺牲一点速度,能不能换来更好的质量?实测结果是速度从 27.8 降到 20.3 tok/s(慢了 27%),质量只提升了约 1%,啰嗦的毛病完全没改。 对我来说,这不值得。瓶颈不在量化精度,而在有效参数量。E4B 无论什么精度,实际参与计算的始终只有 4B 参数。你不能通过提高画质来让一个小屏幕变成大屏幕。
两种性格
跑完所有测试后,这两个模型在我脑中形成了非常鲜明的形象。
Gemma 4 E4B 像一个热情勤快但有点啰嗦的实习生。做事飞快,排版漂亮,但你让它翻译一段话,它给你三个版本附带术语解释;你让它回答一个问题,它先花 100 个 token 告诉你这是一个很好的问题。
Qwen 3.5 9B 更像一个资深但节奏偏慢的同事。言简意赅,翻译 65 个 token 搞定,逻辑推理能发现你没注意到的歧义,创意写作能在 55 个字里塞进两层反转。但它偶尔会犯低级错误,而且长回答你要等将近一分钟。
我的方案是两个都留着。如果用到,Gemma 当快枪手处理日常问答和翻译草稿,Qwen 当深度思考者处理严肃写作和复杂推理。 两个模型加起来 16.2 GB 磁盘,优势几乎完全互补。 但是这不意味着我的日常工作会用到他们,在条件允许的情况下,我仍然会优先选择云端模型,因为速度和智力我可以都要。
最后对比的结果
| 维度 | Gemma 4 E4B | Qwen 3.5 9B |
|---|---|---|
| 速度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 质量 | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 指令跟随 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 推荐场景 | 快速问答/草稿 | 严肃写作/推理 |
调用。你可以毫无顾虑地把内部数据丢给它分析,可以在没网的时候照常使用,可以一个下午调用几百次而不用看 API 账单。
不过有一个现实的代价:模型运行时 CPU 几乎吃满,内存占用 10+GB,电脑发热明显,风扇会转起来。所以最佳使用时机是你不在用电脑做其他负载重的事情的时候。比如午休前丢给它一批文档处理,回来就能拿到结果。
我的思考
一台五年前的 32GB MacBook Pro,在 2026 年已经可以流畅运行相当有能力的本地大模型。 它们目前肯定代替不了我现在的主力模型 Claude Opus 4.6、GPT 5.4 xh 这种上千亿参数怪兽,尤其在复杂任务上的推理深度。 但是对于日常的写作辅助、文档整理、代码片段补全、快速翻译、数据分析,一个 9B 模型给出的结果是「够用且时常超预期」。而且可以预期未来的小模型还会往更细分的场景上去优化和提升。 现在模型在 Agentic 能力上Scaling。我没有综合测试到小模型在这类的任务的表现,后续或许会补上。 本地小模型+强指令跟随能力+强工具调用能力+分层记忆,这个组合拳其实能够有很广泛的应用,从性价比上看商业应用的前景很大。
Google上周在iOS上架了一个应用 “Google Edge Gallery”,我下载使用了 Gemma-4-E2B-it版本,体感非常丝滑。 一个问题发出去首个token秒回,吞吐速度也足够快。 后续小模型必然会成为手机厂商的预装“应用”,对于简单的自动化任务如翻译、改写、跨应用操作等完全可以接住。 在小模型搞不定的复杂任务上,再去调用云端大模型处理,这是价格、速度、质量的平衡。
本地模型的真正价值不在于替代云端而是补充,它随叫随到、完全隐私、几乎零成本。
当然,正如测试中 Qwen 把 $95K 写成 $15K 那样,小模型在「自信地犯错」方面毫不手软。 对于关键数据和重要文档,永远要人工复核,这是跟任何 AI 协作时都应该做的事情,人需要对结果负责。