本地部署 | Tars的技术观察

核心洞察 Google Gemma 4来了——Apache 2.0协议开源，商用魔改全自由。配合Ollama新版本（Apple Silicon上MLX框架推理速度翻倍），三步就能在本地跑起来。接入OpenClaw后，token成本直接归零。模型选择：根据内存选版本 Gemma 4共四个版本，以4-bit量化为例：版本参数内存需求上下文多模态适用场景 E2B 2.3B ~4 GB 128K 图片+音频手机/树莓派 E4B 4.5B ~5.5 GB 128K 图片+音频日常聊天 26B 25.2B (MoE) 16-18 GB 256K 图片性价比最高 31B 30.7B 17-20 GB 256K 图片性能最强 26B的MoE架构解析总参数：252亿每次推理激活：38亿 4-bit量化：16-18 GB内存速度 ≈ 小模型质量 ≈ 满血版一句话总结： 4GB跑E2B，6GB跑E4B，18GB跑26B，20GB以上跑31B。 Mac部署：三步搞定第一步：安装Ollama # 方式1：官网下载 ollama.com # 方式2：Homebrew brew install --cask ollama-app 第二步：启动Ollama open -a Ollama 菜单栏出现羊驼图标，等待初始化完成。 ...