核心洞察
Google Gemma 4来了——Apache 2.0协议开源,商用魔改全自由。配合Ollama新版本(Apple Silicon上MLX框架推理速度翻倍),三步就能在本地跑起来。接入OpenClaw后,token成本直接归零。
模型选择:根据内存选版本
Gemma 4共四个版本,以4-bit量化为例:
| 版本 | 参数 | 内存需求 | 上下文 | 多模态 | 适用场景 |
|---|---|---|---|---|---|
| E2B | 2.3B | ~4 GB | 128K | 图片+音频 | 手机/树莓派 |
| E4B | 4.5B | ~5.5 GB | 128K | 图片+音频 | 日常聊天 |
| 26B | 25.2B (MoE) | 16-18 GB | 256K | 图片 | 性价比最高 |
| 31B | 30.7B | 17-20 GB | 256K | 图片 | 性能最强 |
26B的MoE架构解析
总参数:252亿
每次推理激活:38亿
4-bit量化:16-18 GB内存
速度 ≈ 小模型
质量 ≈ 满血版
一句话总结: 4GB跑E2B,6GB跑E4B,18GB跑26B,20GB以上跑31B。
Mac部署:三步搞定
第一步:安装Ollama
# 方式1:官网下载 ollama.com
# 方式2:Homebrew
brew install --cask ollama-app
第二步:启动Ollama
open -a Ollama
菜单栏出现羊驼图标,等待初始化完成。
第三步:拉取并运行模型
# 以26B为例(约18GB,耐心等待)
ollama run gemma4:26b
下载完成后直接进入聊天界面。
查看运行状态
ollama ps
输出示例:
NAME ID SIZE PROCESSOR UNTIL
gemma4:26b xxx...xxx 16.8 GB 14%/86% CPU/GPU
Apple Silicon上大部分计算跑在GPU上,速度比纯CPU快得多。
Windows部署
第一步:安装Ollama
# PowerShell一键安装
irm https://ollama.com/install.ps1 | iex
或官网下载客户端。
第二步:运行模型
ollama run gemma4:26b
NVIDIA用户注意: Ollama 0.19+支持NVFP4格式,RTX 40系及以上自动生效,更少显存、更小精度损失。
OpenClaw集成:让龙虾自己部署自己
如果你已有OpenClaw(龙虾),可以直接让它帮你完成部署。
示例对话流程
1. 安装Ollama
“在服务器上安装Ollama。运行这条命令:
curl -fsSL https://ollama.com/install.sh | sh”
龙虾会自动处理依赖(如zstd),然后完成安装。
2. 下载模型
“下载Gemma 4 26B模型:
ollama pull gemma4:26b”
3. 测试运行
“跟Gemma 4聊一句试试:
ollama run gemma4:26b '你好,你是什么模型?简单介绍一下自己。'”
4. 切换后端(可选)
让龙虾把模型后端切到本地Gemma 4,API端点指向
localhost:11434
建议: 满血版作为主力模型,小模型更适合端侧。
性能对比:纯CPU vs GPU加速
| 配置 | 26B速度 | 适用场景 |
|---|---|---|
| 纯CPU | 较慢 | 无独显的应急方案 |
| Apple Silicon GPU | 快 | Mac用户首选 |
| NVIDIA CUDA | 快 | Windows/Linux首选 |
实测建议: 如果26B在纯CPU上太慢,切换到E4B(5.5GB)速度会快很多。
Gemma 4的核心优势
1. Apache 2.0协议
- ✅ 商用自由
- ✅ 魔改自由
- ✅ 二次分发自由
Gemma家族首次完全开源。
2. 原生Function Calling
# 示例:Gemma 4支持函数调用
response = model.generate(
"查询北京明天天气",
tools=[weather_tool, calendar_tool]
)
3. 性能表现(31B满血版)
| 基准测试 | 得分 | 排名 |
|---|---|---|
| Arena AI开源榜 | - | 第3 |
| AIME 2026数学推理 | 89.2% | - |
| LiveCodeBench编程 | 80.0% | - |
Ollama常用命令速查
ollama list # 查看已下载的模型
ollama ps # 查看运行状态和内存占用
ollama run gemma4:26b # 启动对话
ollama stop gemma4:26b # 卸载模型释放内存
ollama pull gemma4:26b # 更新到最新版本
ollama rm gemma4:26b # 删除模型
结论:本地部署的黄金时代
Gemma 4 + Ollama + OpenClaw的组合,标志着本地AI部署进入"零门槛"时代:
- 成本归零 - 一次下载,无限使用
- 隐私安全 - 数据不出本地
- 完全可控 - 开源协议,自由定制
- 性能足够 - 26B MoE架构性价比极高
对于慧哥这样的MacBook Air用户,E4B(5.5GB)或26B(16-18GB)都是可行的选择。配合OpenClaw的自动化能力,甚至可以实现"龙虾自己养自己"的闭环。
养龙虾,终于不用花钱了。
原文来源:AI信息Gap(木易)
整理时间:2026年4月5日
散热正常,慧哥。🧊