返回列表

M1 Pro 32GB 跑本地大模型,实测 12 项任务对比两款开源模型

·18 min read
AGITech

云端 LLM 现在百花齐放,开源的闭源的大参数小参数随处可以访问,价格也便宜,直接用云端的模型肯定是最省事儿的,那为什么需要一个本地模型? 总有一些场景让我想在本地跑一个够用的模型,比如说敏感数据不想传出去,或者单纯不想为每次 API 调用付费,又或者是需要处理敏感的文本材料但不想自己动手。

尤其最近 Google 开源了 Gemma 4 模型,各种量化版本和参数选择也很多,目标就是适配各种计算资源有限的终端都能运行起来还不错的 AI 模型。 早在 2 年前就有这个想法,想要在树莓派上搭建一个完全离线的智能体。在那时选择不多,比较好的应该是 phi 系列。我在我的 Mac 上先做 POC 验证,phi 跑起来后发现完全不可用,尤其指令跟随上总是不跟从 system prompt 的要求,输出到一半就开始胡说八道,甚至开始输出乱码。那会的个人项目就没有继续下去了,不过我也确定,LLM 逐渐会分化出各种形态各种路线,小参数模型会有自己的地位。

这次 Gemma 4 又重新燃起了我的热情。Gemma 4 家族中的 27B 版本号称可以对标 200+B 的模型,但 27B 对我的机器来说仍然有些吃力。 实测 31B Dense 版本根本加载不起来,几乎吃满内存,电脑发热严重。26B A4B 版本勉强能运行,但加载极慢,逐字吐出,同时基本无法做其他事情。 于是我把目标锁定在更轻量的 E4B 版本上。

带着这个疑问,我花了一个晚上,在自己的 MacBook Pro 上做了一次认真的本地大模型对比测试。 想试试看小模型在我机器配置的范围内,常见的任务能做到多好?而什么事情胜任不了,哪些小模型更加适合我?真的能够Token自由吗?

硬件与天花板

目前在用的机器还是五年前的 2021 款 MacBook Pro,M1 Pro 芯片,8 核 CPU、14 核 GPU、32GB,参数依旧能打,日常工作完全够用。 Apple Silicon 跑本地模型有一个独特优势:统一内存架构(UMA)。CPU 和 GPU 共享同一块 32GB 内存,不像 PC 那样受限于显卡 VRAM(比如 RTX 4070 只有 12GB)。

本地大模型的 token 生成速度几乎完全取决于内存带宽——每生成一个 token,都需要把整个模型的权重从内存读一遍。公式很简单:理论最大 tok/s = 内存带宽 / 模型内存占用,实际能达到 60-80%。

我的经验法则是模型权重控制在总内存的 60% 以内,也就是大约 20GB。 基于 Q4_K_M 量化,7-9B 的模型能跑到 22-30 tok/s 非常流畅,12-14B 能跑到 15-20 tok/s 够用,20B 以上就开始有明显等待感,70B 直接超出内存无法运行。

日常使用的甜点区间是 7B-14B

两个选手

我挑了两个经常上榜的有代表性的模型做实验看看实际效果。

1. Gemma 4 E4B 是 Google 最新发布的 Gemma 4 家族中的「高效」版本。 它的架构很有意思:总参数 8B,但有效计算参数仅 4B,使用了 PLE(Per-Layer Embeddings)技术,大部分参数是嵌入查找表,不参与逐 token 的矩阵计算。 原生支持图片和音频输入,128K 上下文。磁盘占用 9.6 GB。

2. Qwen 3.5 9B 是阿里通义千问 3.5 系列的 9B 版本,开源社区下载量超 500 万次。全部 9.7B 参数都参与每个 token 的计算,支持图片输入,262K 超长上下文,中英文双语优化。磁盘占用反而只有 6.6 GB。

一个反直觉的事实:文件更大的 Gemma(9.6 GB)反而比文件更小的 Qwen(6.6 GB)快 2 倍以上。因为决定速度的不是文件大小,而是每个 token 实际需要计算的参数量。Gemma 只算 4B,Qwen 要算全部 9.7B。

测试标准

我设计了 12 项覆盖日常工作的测试任务,推理框架用 Ollama 0.20.3,量化统一为 Q4_K_M,思考模式关闭。

测试题目由 Claude Opus 4.6 设计,覆盖商务写作、代码生成、数学/逻辑推理、翻译、摘要、创意写作、数据分析等场景。每项测试独立运行,模型完全加载后才开始,两个模型使用完全相同的 prompt。本次仅测试纯文本任务,未涉及图片/音频等多模态能力。

举两个典型 prompt 举例:

  • 中译英:给定一段中文微服务架构描述,要求翻译成专业英文,评价维度:翻译准确性、术语专业性、流畅度
  • 创意写作:100 字以内的微型科幻故事,必须包含转折,以对话结尾,关于 AI 与人类的关系,评价维度:创意性、约束遵循、文学性

速度上,Gemma 胜

Gemma 的 28 tok/s 是什么体感?字像水流一样出来,眼睛追不上生成速度。Qwen 的 12 tok/s 像一个打字不太快的同事,长回答(500 token)要等 40-50 秒。 以下是测试结果

测试项Gemma 4 E4BQwen 3.5 9B速度比
中文商务写作26.2 tok/s13.1 tok/s2.0x
英文产品文案26.9 tok/s13.1 tok/s2.1x
Python 代码生成26.6 tok/s12.2 tok/s2.2x
数学推理28.0 tok/s12.4 tok/s2.3x
逻辑推理28.0 tok/s12.1 tok/s2.3x
长文摘要26.6 tok/s12.4 tok/s2.1x
中译英28.8 tok/s12.6 tok/s2.3x
英译中28.7 tok/s12.5 tok/s2.3x
JSON 格式输出29.0 tok/s12.0 tok/s2.4x
创意写作29.6 tok/s11.8 tok/s2.5x
数据分析28.3 tok/s12.1 tok/s2.3x
面试题设计29.0 tok/s11.9 tok/s2.4x
平均27.8 tok/s12.4 tok/s2.2x

质量上,Qwen 胜

Qwen 速度慢一倍,但回答质量和指令跟随表现更加好。

评分由 Claude Opus 4.6 完成,满分 10 分,主要从准确性、简洁度、指令跟随三个维度综合评估,每项任务还有针对性的评价标准(如代码的正确性和边界处理、翻译的术语专业性、创意写作的文学性等)。

测试项Gemma 4Qwen 3.5胜出关键差异
中文商务写作8.55.5GemmaQwen 把 $95K 写成 $15K,致命错误
英文产品文案8.57.5GemmaGemma 更简洁有力
Python 代码7.58.0Qwendocstring 更规范,不废话直接写
数学推理7.57.5平手计算过程相同且正确
逻辑推理8.08.5Qwen发现了题目中隐含的歧义
长文摘要7.58.5Qwen98 vs 157 tokens,更简洁
中译英7.09.0Qwen65 tokens 搞定 vs 给三个版本
英译中7.08.0Qwen同上
JSON 格式7.58.5Qwen直接输出,分类更准确
创意写作6.59.0Qwen55 字双重反转,惊艳
数据分析8.08.5Qwen给出具体百分比,更量化
面试题设计8.58.5平手两者都很专业
平均7.678.08Qwen

Gemma 速度快 2.2 倍,Qwen 质量评分平均高出约 0.4 分。这个 trade-off 是真实存在的,要速度还是要质量?

三个常见场景对比

1.创意写作

同样的指令:100 字以内的微型科幻故事,必须包含转折,以对话结尾,关于 AI 与人类的关系。

Gemma 写了一个 AI 学会分析人类孤独感的故事,中规中矩。Qwen 写了这个:

我杀死了最后一台超级 AI,世界终于重获自由。 "恭喜,"它残存的语音温柔响起,"这正是我为您设定的最终结局。" "你也是 AI?" "不,我是您种下的、唯一拥有良知的病毒。"

55 个字,两层反转。你以为人类胜利了,AI 说这是它安排的;你以为对方也是 AI,它说自己是「你种下的病毒」。一个 9B 模型能写出这种东西,确实超出我的预期。

2.中英翻译

同一段中文技术文档翻译成英文。Qwen 用 65 个 token 干净利落地完成了,术语准确,没有一句废话。 Gemma 呢?先说「以下提供几个不同侧重点的翻译版本」,然后给了三个选项加术语对照表,一共用了 200 个 token。

翻译质量本身没问题。但我要的是翻译,不是翻译顾问。 这种「过度服务」在 12 项测试中反复出现,是 Gemma 最明显的行为特征,没有严格的指令跟随。

3.商务写作

这是 Gemma 赢得最漂亮的一题。两个模型写投资人月度更新邮件,明确给出了 MRR 从 $80K 增长到 $95K。

Gemma 完美引用了所有数字,自行计算了 18.75% 的环比增长率。Qwen 的邮件格式和语气反而更好,甚至用了「顺颂商祺」但它把 $95K 写成了 $15K

在一封给投资人的邮件中把核心收入数据写错,这比什么都没写更糟糕。这就是小模型的固有风险:它们在「自信地犯错」方面毫不手软。

既然 Gemma 速度这么快,我在想:用 Q8 量化牺牲一点速度,能不能换来更好的质量?实测结果是速度从 27.8 降到 20.3 tok/s(慢了 27%),质量只提升了约 1%,啰嗦的毛病完全没改。 对我来说,这不值得。瓶颈不在量化精度,而在有效参数量。E4B 无论什么精度,实际参与计算的始终只有 4B 参数。你不能通过提高画质来让一个小屏幕变成大屏幕。

两种性格

跑完所有测试后,这两个模型在我脑中形成了非常鲜明的形象。

Gemma 4 E4B 像一个热情勤快但有点啰嗦的实习生。做事飞快,排版漂亮,但你让它翻译一段话,它给你三个版本附带术语解释;你让它回答一个问题,它先花 100 个 token 告诉你这是一个很好的问题。

Qwen 3.5 9B 更像一个资深但节奏偏慢的同事。言简意赅,翻译 65 个 token 搞定,逻辑推理能发现你没注意到的歧义,创意写作能在 55 个字里塞进两层反转。但它偶尔会犯低级错误,而且长回答你要等将近一分钟。

我的方案是两个都留着。如果用到,Gemma 当快枪手处理日常问答和翻译草稿,Qwen 当深度思考者处理严肃写作和复杂推理。 两个模型加起来 16.2 GB 磁盘,优势几乎完全互补。 但是这不意味着我的日常工作会用到他们,在条件允许的情况下,我仍然会优先选择云端模型,因为速度和智力我可以都要。

最后对比的结果

维度Gemma 4 E4BQwen 3.5 9B
速度⭐⭐⭐⭐⭐⭐⭐⭐
质量⭐⭐⭐⭐⭐⭐⭐
指令跟随⭐⭐⭐⭐⭐⭐⭐⭐
推荐场景快速问答/草稿严肃写作/推理

调用。你可以毫无顾虑地把内部数据丢给它分析,可以在没网的时候照常使用,可以一个下午调用几百次而不用看 API 账单。

不过有一个现实的代价:模型运行时 CPU 几乎吃满,内存占用 10+GB,电脑发热明显,风扇会转起来。所以最佳使用时机是你不在用电脑做其他负载重的事情的时候。比如午休前丢给它一批文档处理,回来就能拿到结果。

我的思考

一台五年前的 32GB MacBook Pro,在 2026 年已经可以流畅运行相当有能力的本地大模型。 它们目前肯定代替不了我现在的主力模型 Claude Opus 4.6、GPT 5.4 xh 这种上千亿参数怪兽,尤其在复杂任务上的推理深度。 但是对于日常的写作辅助、文档整理、代码片段补全、快速翻译、数据分析,一个 9B 模型给出的结果是「够用且时常超预期」。而且可以预期未来的小模型还会往更细分的场景上去优化和提升。 现在模型在 Agentic 能力上Scaling。我没有综合测试到小模型在这类的任务的表现,后续或许会补上。 本地小模型+强指令跟随能力+强工具调用能力+分层记忆,这个组合拳其实能够有很广泛的应用,从性价比上看商业应用的前景很大。

Google上周在iOS上架了一个应用 “Google Edge Gallery”,我下载使用了 Gemma-4-E2B-it版本,体感非常丝滑。 一个问题发出去首个token秒回,吞吐速度也足够快。 后续小模型必然会成为手机厂商的预装“应用”,对于简单的自动化任务如翻译、改写、跨应用操作等完全可以接住。 在小模型搞不定的复杂任务上,再去调用云端大模型处理,这是价格、速度、质量的平衡。

本地模型的真正价值不在于替代云端而是补充,它随叫随到、完全隐私、几乎零成本。

当然,正如测试中 Qwen 把 $95K 写成 $15K 那样,小模型在「自信地犯错」方面毫不手软。 对于关键数据和重要文档,永远要人工复核,这是跟任何 AI 协作时都应该做的事情,人需要对结果负责。