核心洞察

Google Gemma 4来了——Apache 2.0协议开源,商用魔改全自由。配合Ollama新版本(Apple Silicon上MLX框架推理速度翻倍),三步就能在本地跑起来。接入OpenClaw后,token成本直接归零。


模型选择:根据内存选版本

Gemma 4共四个版本,以4-bit量化为例:

版本参数内存需求上下文多模态适用场景
E2B2.3B~4 GB128K图片+音频手机/树莓派
E4B4.5B~5.5 GB128K图片+音频日常聊天
26B25.2B (MoE)16-18 GB256K图片性价比最高
31B30.7B17-20 GB256K图片性能最强

26B的MoE架构解析

总参数:252亿
每次推理激活:38亿
4-bit量化:16-18 GB内存
速度 ≈ 小模型
质量 ≈ 满血版

一句话总结: 4GB跑E2B,6GB跑E4B,18GB跑26B,20GB以上跑31B。


Mac部署:三步搞定

第一步:安装Ollama

# 方式1:官网下载 ollama.com
# 方式2:Homebrew
brew install --cask ollama-app

第二步:启动Ollama

open -a Ollama

菜单栏出现羊驼图标,等待初始化完成。

第三步:拉取并运行模型

# 以26B为例(约18GB,耐心等待)
ollama run gemma4:26b

下载完成后直接进入聊天界面。

查看运行状态

ollama ps

输出示例:

NAME            ID              SIZE      PROCESSOR    UNTIL
gemma4:26b      xxx...xxx       16.8 GB   14%/86% CPU/GPU    

Apple Silicon上大部分计算跑在GPU上,速度比纯CPU快得多。


Windows部署

第一步:安装Ollama

# PowerShell一键安装
irm https://ollama.com/install.ps1 | iex

或官网下载客户端。

第二步:运行模型

ollama run gemma4:26b

NVIDIA用户注意: Ollama 0.19+支持NVFP4格式,RTX 40系及以上自动生效,更少显存、更小精度损失。


OpenClaw集成:让龙虾自己部署自己

如果你已有OpenClaw(龙虾),可以直接让它帮你完成部署。

示例对话流程

1. 安装Ollama

“在服务器上安装Ollama。运行这条命令:curl -fsSL https://ollama.com/install.sh | sh

龙虾会自动处理依赖(如zstd),然后完成安装。

2. 下载模型

“下载Gemma 4 26B模型:ollama pull gemma4:26b

3. 测试运行

“跟Gemma 4聊一句试试:ollama run gemma4:26b '你好,你是什么模型?简单介绍一下自己。'

4. 切换后端(可选)

让龙虾把模型后端切到本地Gemma 4,API端点指向localhost:11434

建议: 满血版作为主力模型,小模型更适合端侧。


性能对比:纯CPU vs GPU加速

配置26B速度适用场景
纯CPU较慢无独显的应急方案
Apple Silicon GPUMac用户首选
NVIDIA CUDAWindows/Linux首选

实测建议: 如果26B在纯CPU上太慢,切换到E4B(5.5GB)速度会快很多。


Gemma 4的核心优势

1. Apache 2.0协议

  • ✅ 商用自由
  • ✅ 魔改自由
  • ✅ 二次分发自由

Gemma家族首次完全开源。

2. 原生Function Calling

# 示例:Gemma 4支持函数调用
response = model.generate(
    "查询北京明天天气",
    tools=[weather_tool, calendar_tool]
)

3. 性能表现(31B满血版)

基准测试得分排名
Arena AI开源榜-第3
AIME 2026数学推理89.2%-
LiveCodeBench编程80.0%-

Ollama常用命令速查

ollama list              # 查看已下载的模型
ollama ps                # 查看运行状态和内存占用
ollama run gemma4:26b    # 启动对话
ollama stop gemma4:26b   # 卸载模型释放内存
ollama pull gemma4:26b   # 更新到最新版本
ollama rm gemma4:26b     # 删除模型

结论:本地部署的黄金时代

Gemma 4 + Ollama + OpenClaw的组合,标志着本地AI部署进入"零门槛"时代:

  1. 成本归零 - 一次下载,无限使用
  2. 隐私安全 - 数据不出本地
  3. 完全可控 - 开源协议,自由定制
  4. 性能足够 - 26B MoE架构性价比极高

对于慧哥这样的MacBook Air用户,E4B(5.5GB)或26B(16-18GB)都是可行的选择。配合OpenClaw的自动化能力,甚至可以实现"龙虾自己养自己"的闭环。

养龙虾,终于不用花钱了。


原文来源:AI信息Gap(木易)
整理时间:2026年4月5日
散热正常,慧哥。🧊