模型参数规模很重要，但除此之外，影响使用体验的因素却有很多，比如模型的底层架构（Dense/MoE）、量化方案（Q4_K_M/S/XS）、运行的推理框架（Ollama/LM Studio/oMLX），以及能力类型（Vision/Tool Use/Reasoning），是否需要“thinking”的过程，是否需要“reasoning”的功能，进而影响首字相应时间以及Token的输出速度等等。

Qwen3.5-35B-A3B这个专家混合模型（MoE），正好能说明一个问题：

“模型大小”并不等于“实际运行负担”。

二、AI模型参数解析

如果你很了解AI模型，可以直接跳到第三部分。

接着，来说下我们要用到的模型和推理引擎。

模型名称：Qwen3.5-35B-A3B
架构类型：MoE (Mixture of Experts / 专家混合)
模型规模：35B Total / 3B Active (总参 350亿 / 激活 30亿)
量化方案：4-bit (INT4 / Q4_K_M)
部署框架：MLX (Apple Silicon Native) / GGUF (llama.cpp)

由于需要对比不同的部署框架，同时为了更好地发挥Qwen3.5-35B-A3B这类专家混合模型的多任务并发能力，所以，在推理引擎方面，除了会用到LM Studio，也给大家推荐一个新的工具：oMLX。大家如果想要详细了解它的技术特点，可以用各种AI总结下，总之就是：专为Apple M芯片设计，做到极致速度，同时独有的SSD KV缓存技术，可以解放内存，非常适合多轮对话的大型任务。

接下来，我们还是拿Qwen3.5-35B-A3B，聊一聊如何根据模型的关键参数，来选择适合自己设备的模型。

2.1 模型名称和参数规模

我们先看Qwen3.5-35B，Qwen是模型的来源，3.5是版本，35B是模型的参数规模。

我们可以通过Qwen、DeepSeek、GML、MiniMax、Gemma、Llama，配合版本号，简单判断各类模型的特点，然后结合自己的使用场景来选择。

而像9B、14B、32B这样的参数模型，会和显存直接挂钩。当然，由于Apple M芯片是统一内存架构，也就是和内存直接相关。这里有一个简单的换算公式：

内存（模型权重占用）=参数规模✖️每个参数的位深➗8

比如我们32B模型，量化方式是4-bit，所以需要的内存就是：

32✖️4➗8=16G

也就是至少需要16G内存，当然我们跑模型不仅模型需要内存，推理引擎以及图形界面等等也需要。最终换算下来，就会是这样：

模型规模	4-bit 实际占用 (VRAM)	32G 内存剩余情况
9B	~6 GB	轻松
14B	~10 GB	体验好
32B	~20 GB	极限

当然，请注意：在实际运行中，KV Cache（上下文缓存） 往往会随着对话增长额外吃掉数 GB 内存，这也是为什么 32B 模型在 32G 内存上是“临界点”的原因。

2.2 Token/s与内存带宽

模型的参数规模、位深和电脑内存大小决定了模型能不能跑起来。但决定模型跑得快不快，有一个重要因素，就是内存带宽。比如我的Mac mini，用的是标准版M4芯片，内存带宽是120GB/s。

这里可以简单做一个的计算公式：

推理速度（Tokens/s）=内存带宽➗模型运行的实际大小

我们再看刚才的表格：

模型规模	4-bit 实际占用 (VRAM)	推理速度（Tokens/s）
9B	~6 GB	20
14B	~10 GB	12
32B	~20 GB	6

首先说明，这只是简单类比。在实际运行中，推理速度会受到计算单元、KV缓存访问模式、Batch Size（批大小）、并发数、框架优化以及缓存命中率等等多钟因素影响。

这里只是可以粗略理解为：模型越大，占用内存越多，对内存带宽的压力越大，推理速度通常会下降。

所以，当我们想用Mac电脑部署本地AI模型，就要考虑两个因素：M芯片的版本以及内存的大小。

2.3 运行逻辑和稠密程度

我们看Qwen3.5-35B-A3B这个模型，35B是模型的物理规模，那A3B代表什么？

在这里，A就是英文：activate，激活的意思。

也就是说：虽然这个模型总大小是35B，但每次对话只执行其中3B参数来推理。相当于这个你用的模型智力是35B，但实际只有3B最有关联的参数在运行。

你可以把它想象成一个拥有 350 亿知识储备的‘专家库’，但在你问具体问题时，它只会派出最专业的 30 亿参数‘专家’。既保留了大模型的大脑，又拥有小模型的语速。

所以，这就是我刚接触模型时，然后困惑的一个参数：模型稠密程度。

也就是模型参数分为全量推理的稠密模型（Dense），以及只有少量相关参数参与推理的专家混合模型（MoE）。

两类模型无好坏之分，稠密模型通常在稳定性和一致性上更好，专家混合模型在推理效率和扩展性上更有优势。

只不过，对于我们这种家用电脑以及日常需求来说，专家混合模型会更适合一些。

那么，在标准版的M4芯片上，35B-A3B的理论推理速度是多少？

模型规模	4-bit 实际占用 (VRAM)	推理速度（Tokens/s）
9B	~6 GB	20
14B	~10 GB	12
32B	~20 GB	6
35B-A3B	～20-24GB	80

为了保护下自己，仍然做一个补充说明：我虽然还是用A3B的大小来计算速度，但对于MoE模型来说，激活3B参数，不等于运行时就是3B模型的速度。其中还会受路由开销、内存访问、KV缓存等因素影响。

大家可以记一下这个80Tokens/s，一会在oMLX的基准测试中会发现，单线程任务只有47，而8线程连续批处理任务会高达93。

数据之所以如此，一方面体现了Qwen3.5-35B-A3B专家混合模型在多任务推理方面有更大的发挥空间，另一方面体现出oMLX独有的SSD KV缓存技术优势。当然，除此之外，像M4芯片的L2级缓存等等因素都没有考虑，也会导致数据有所出入。

我觉得，刚接触的朋友可以先建立一个电脑配置与模型参数的简单换算关系。有需要，再去花时间深入研究。

2.4 部署框架与推理引擎

在前面，我们选对电脑、选对模型。同样，选对模型的部署框架和推理工具（引擎）也很重要。

对于Qwen3.5-35B-A3B模型，我使用了两种部署框架，让大家可以直观感受由此对推理速度的影响。

第一种是基于GGUF通用格式的llama.cpp，我用了大家最常用的ollama来下载，同时用Anything LLM来加载，方便展示相关数据。

第二种是对Apple M芯片专门优化的MLX框架，我会分别用LM Studio和oMLX来演示。

这里需要说明的是，虽然都是4-bit的Qwen3.5-35B-A3B模型，但GGUF和MLX的量化精度还是有区别的。在量化精度方面：

GGUF格式的典型代表Q4_K_M，这种框架属于对关键部分进行6-bit量化，非关键部分保持4-bit。由于采用了混合精度，GPU 在计算时需要频繁进行‘非标准位宽’的转换，这种解压开销在非原生支持的框架下会显著拖累速度

MLX则是INT4（全量4-bit），可以让Apple M芯片直接调用模型参数，无需“寻找”和“翻译”。它可以让Mac电脑运行模型时，内存访问效率更高，调度也更贴合M芯片。

这也是Mac电脑为什么要首选MLX模型的原因之一。

三、模型部署对比测试

在这次对比测试中，我四个推理工具，分别是Ollama、Anything LLM、LM Studio和oMLX。

下载的模型有两个，分别是GGUF和MLX的Qwen3.5-35B-A3B 4-bit。

测试的问题主要分三个方面：生成速度测试、首字响应测试和多轮重载测试。

最后，我会补充一个测试，由于我选择本地部署模型的目的之一，就是使用OpenClaw。所以，就对比下Qwen3.5-35B与Qwen3-Coder-30B，如果你和我一样，想用OpenClaw开发网页或者应用程序，或许专攻编程类的模型会更好。

3.1 生成速度测试(Tokens/s)

测试方法：给它们发送同一个复杂的 Prompt（例如：“请用 Python 写一个完整的贪吃蛇游戏，并详细加注释”），观察后台打印的生成速度。

Ollama: 15.42 t/s
LM Studio: 35.06 t/s
oMLX: 35.70 t/s

3.2：首字响应时间 / 提示词处理 (TTFT / Prefill)

测试方法：将一篇大概5000 字的长文档发给它们，要求总结。计算从“按下回车”到“吐出第一个字”等待的秒数。理论上，这轮测试应该是MLX占优，大家可以感受下。

LM Studio: 略
oMLX: 略

3.3 Agent 多轮重载测试 (Reprefill / 记忆测试)

测试方法：使用附录中的《标准 10 轮高压测试剧本》

是一个模拟 OpenClaw 持续敲代码的场景。
请在一个全新的对话框中，依次发送以下 10 个问题。
前 9 轮不需要在意它的回答内容，耐心等它生成完即可（这几轮会迅速吃掉大约 10万左右 Token 的上下文）。
⚠️ 重点在第 10 轮！ 在发送第 10 个 Prompt 的瞬间，立刻按下你的秒表，直到它屏幕上吐出第一个字，记录下这个时间差（TTFT）。

在这轮测试中，除了去看10个问题的生成速度；另外要去看看Token的缓存数量和缓存效率。仅仅10个问题后，就已经有14万Token，缓存了11万Token。这相当于用硬盘空间替代内存，省下了1～3G的空间。【模型参数量越大、量化位数越高（精度越高），加载模型所需的空间以及处理相同数量 Token 产生的动态缓存空间都会更大。】

这里大家要了解一下，固态硬盘的速度是慢于内存，尽量固态硬盘节省了宝贵的内存空间，但却会牺牲一点点推理速度。不过，在多轮的长线问答中，能让系统运营得更加稳定，显然是更划算的。

3.4 oMLX连续批处理基准测试

测试方法：在oMlx的基准测试中，测试Qwen3.5-35B-A3B模型的并发任务推理速度

这轮并发测试中，大家不仅要看Token生成速度，同样要看下首字生成时间。

对我这台32G的标准版M4来说，2X，tg TPS为72.1 tok/s，平均TTFT为4933.2ms，就是一个理想的状态。如果到了4X，平均TTFT就到了9664.7ms，有点得不偿失。

3.5 推理模型真的好吗

测试方法：用Qwen3-Coder-30B测试第一轮问题的速度

最后补充一句，虽然今天我们用 35B 通用版 做了测速，但如果你和我一样，是想在本地跑 OpenClaw 来自动化写代码，那我强烈推荐你把模型换成 Qwen3-Coder-30B-A3B (MLX版)。通用模型文笔好，但偶尔会给错 JSON 格式让 Agent 崩溃；而 Coder 模型就是没有感情的代码机器，它在 OpenClaw 里绝对不会翻车。

四、小结

好啦，以上就是本期视频的全部内容了。

这个视频我其实做了两次，文案也重新改了好几遍。估计大家从测试中也能看出来。本来我只是想做个一个简单的对比：不同模型、不同工具，到底哪个更快，方便选出最适合的一个，用在OpenClaw本中。

但随后发现，我对AI模型的理解，很多都似懂非懂、似是而非。

前两天我看到，去年的Mac mini开箱视频下，还有人留言，说这个视频帮到了他。

这让我有了一种“负罪感”，也正是在回复这位朋友时，让我坚定了重做视频的决心。

也正是如此，我发现——

👉 AI并不是一个“选对参数就能搞定”的东西，它更像是一整套系统工程。

模型、量化、推理引擎、硬件架构，再结合实际需求，每一个选择，都会影响最终结果。

按说，我应该给出一个“标准答案”：比如日常聊天、分析报告、开发软件等等，什么场景应该选择什么模型，用什么推理工具，配置什么样的电脑。

但真正写完这篇文案，我反而觉得：固执地寻找固定答案，就是一种“执念”。

法无定法，定法非法。修世间法，不如修心法

放在AI这里，其实很好理解——

今天最优的模型、最优的框架，可能几个月之后就被替代；

你当前最适合的方案，换一台机器、换一个场景，换一个模型，可能就完全不一样。

所以，比起记住“用哪个”，更重要的是理解：

👉 为什么它在这里更合适。

至于所谓的修“心法”，我的理解就是：

如果把AI当作思维，那就试着用“AI的方式”去理解问题、拆解问题；

如果把AI当作工具，那就把它拿在手中用到极致，去发现问题、解决问题。

前者，是认知的升级；

后者，是效率的放大。

在信息爆炸、思维日新的当下，参数会过时，模型会淘汰，但你的理解却不会。

希望这个视频可以帮得到屏幕前的你。

如果觉得有用的话，可以关注下我的频道，也可以收藏、点赞、评论、转发，一键三连～

那就这样，bye-bye～

作者龙sir

一个喜欢用有趣抵御平庸的普通人；经常会把自己的兴趣写成文章；所以你会看到科技、数码、娱乐、信用卡、上网…… 拒绝高大上，不做伪专家；让专业生活化，生化有趣化；嗯，就这样吧～

1,612 对“拒绝“OpenClaw”焦虑！用“AI”视角拆解模型、硬件与部署框架，顺便推荐oMLX”的思考

pereplanirovka kvartir_rgMi说道：

7 月 15, 2026 9:04 上午

Люди помогите советом Замучился я с перепланировкой Инспекция не пропускает ничего Я уже голову сломал Короче, единственные кто берётся за всё — перепланировка с согласованием в Мосжилинспекции И согласовали без проблем В общем, там и примеры и расценки — согласуем перепланировку [url=https://pereplanirovka-kvartir-vhj.ru]https://pereplanirovka-kvartir-vhj.ru[/url] Потом себе дороже выйдет Перешлите тому кто тоже ремонт затеял

回复
pereplanirovka kvartir_xhMi说道：

7 月 15, 2026 9:04 上午

Люди помогите советом Хотел стену снести между комнатами А тут оказывается столько бумаг Я уже голову сломал Короче, нашел наконец нормальных специалистов — перепланировка квартиры под ключ в Москве с гарантией И чертежи сделали В общем, сохраняйте себе — согласовать перепланировку квартиры в москве [url=https://pereplanirovka-kvartir-vhj.ru]согласовать перепланировку квартиры в москве[/url] Не начинайте без проекта Перешлите тому кто тоже ремонт затеял

回复
sppk_scSa说道：

7 月 15, 2026 9:11 上午

[url=https://seo-prodvizhenie-pod-klyuch.ru]SEO продвижение под ключ[/url] — включает ли оно написание контента или это оплачивается отдельно?

回复
rastrear WhatsApp说道：

7 月 15, 2026 9:23 上午

Hi there! Would you mind if I share your blog with my myspace group? There’s a lot of folks that I think would really appreciate your content. Please let me know. Cheers

回复
vavada_wjpt说道：

7 月 15, 2026 10:01 上午

Народ всем привет То вообще доступ закрывают Искал долго, перепробовал кучу вариантов Короче, работает стабильно и честно — vavada casino с крутыми бонусами Вывод денег за 5 минут В общем, жмите чтобы не потерять — вавада казино официальный сайт [url=https://kurica2.ru]вавада казино официальный сайт[/url] Только вавада реально рулит Перешлите тому кто тоже ищет нормальное казино

回复
vavada_vrpt说道：

7 月 15, 2026 10:01 上午

Ребята кто играет То вообще доступ закрывают Денег слил на всяком говне Короче, работает стабильно и честно — вавада казино онлайн лучший выбор Вывод денег за 5 минут В общем, жмите чтобы не потерять — вавада онлайн [url=https://kurica2.ru]вавада онлайн[/url] Только вавада реально рулит Перешлите тому кто тоже ищет нормальное казино

回复
proekt pereplanirovki kvartiri_tzEi说道：

7 月 15, 2026 10:51 上午

Ребята кто в Москве Замучился я уже с этим согласованием Уже знакомые налетели на миллион Я уже голову сломал Короче, единственные кто делает быстро — проект перепланировки квартиры под ключ Всё согласовали за месяц В общем, жмите чтобы не потерять — проект перепланировки квартиры в москве [url=https://proekt-pereplanirovki-kvartiry-qxr.ru]проект перепланировки квартиры в москве[/url] Потом себе дороже Перешлите тому кто ремонт затеял

回复
proekt pereplanirovki kvartiri_dnEi说道：

7 月 15, 2026 10:51 上午

Слушайте кто делал проект Планирую объединить две комнаты в гостиную Оказывается без бумажки ты никто Нервов просто нет Короче, единственные кто делает быстро — проект перепланировки с согласованием в Москве И в инспекцию подали В общем, там и примеры и цены — проект для перепланировки квартиры [url=https://proekt-pereplanirovki-kvartiry-qxr.ru]https://proekt-pereplanirovki-kvartiry-qxr.ru[/url] Не начинайте без проекта Перешлите тому кто ремонт затеял

回复
Rabota v Kazahstane_mwOt说道：

7 月 15, 2026 6:10 下午

Ребята кто хочет заработать А жить на что-то надо Объездил кучу сайтов Короче, единственный где есть нормальные предложения — сайт работы в Казахстане с актуальными вакансиями Оплата вовремя В общем, сохраняйте себе — поиск работы в казахстане [url=https://vakansii.sitsen.kz]https://vakansii.sitsen.kz[/url] Не сидите без денег Перешлите тому кто ищет работу

回复
Rabota v Kazahstane_kwOt说道：

7 月 15, 2026 6:10 下午

Всем привет из КЗ То график убийственный Везде одно и то же Короче, единственный где есть нормальные предложения — работа онлайн Казахстан удаленно Берут даже без опыта В общем, жмите чтобы не потерять — ищу работу казахстан [url=https://vakansii.sitsen.kz]https://vakansii.sitsen.kz[/url] Не сидите без денег Перешлите тому кто ищет работу

回复
proekt pereplanirovki kvartiri_ngEi说道：

7 月 15, 2026 6:12 下午

Слушайте кто делал проект Замучился я уже с этим согласованием Уже знакомые налетели на миллион Потратил уйму времени Короче, единственные кто делает быстро — проект на перепланировку квартиры заказать срочно И техзаключение сделали В общем, смотрите сами по ссылке — проект перепланировки [url=https://proekt-pereplanirovki-kvartiry-qxr.ru]проект перепланировки[/url] Потом себе дороже Перешлите тому кто ремонт затеял

回复
bokep sma说道：

7 月 15, 2026 6:25 下午

Generally I don’t read article on blogs, but I would like to say that this write-up very forced me to try and do so! Your writing style has been surprised me. Thanks, quite nice post.

回复

拒绝“OpenClaw”焦虑！用“AI”视角拆解模型、硬件与部署框架，顺便推荐oMLX

一、演示设备和模型