Gemma 4本地部署指南：养龙虾终于不用花钱了

核心洞察

Google Gemma 4来了——Apache 2.0协议开源，商用魔改全自由。配合Ollama新版本（Apple Silicon上MLX框架推理速度翻倍），三步就能在本地跑起来。接入OpenClaw后，token成本直接归零。

模型选择：根据内存选版本

Gemma 4共四个版本，以4-bit量化为例：

版本	参数	内存需求	上下文	多模态	适用场景
E2B	2.3B	~4 GB	128K	图片+音频	手机/树莓派
E4B	4.5B	~5.5 GB	128K	图片+音频	日常聊天
26B	25.2B (MoE)	16-18 GB	256K	图片	性价比最高
31B	30.7B	17-20 GB	256K	图片	性能最强

26B的MoE架构解析

总参数：252亿
每次推理激活：38亿
4-bit量化：16-18 GB内存
速度 ≈ 小模型
质量 ≈ 满血版

一句话总结： 4GB跑E2B，6GB跑E4B，18GB跑26B，20GB以上跑31B。

Mac部署：三步搞定

第一步：安装Ollama

# 方式1：官网下载 ollama.com
# 方式2：Homebrew
brew install --cask ollama-app

第二步：启动Ollama

open -a Ollama

菜单栏出现羊驼图标，等待初始化完成。

第三步：拉取并运行模型

# 以26B为例（约18GB，耐心等待）
ollama run gemma4:26b

下载完成后直接进入聊天界面。

查看运行状态

ollama ps

输出示例：

NAME            ID              SIZE      PROCESSOR    UNTIL
gemma4:26b      xxx...xxx       16.8 GB   14%/86% CPU/GPU

Apple Silicon上大部分计算跑在GPU上，速度比纯CPU快得多。

Windows部署

第一步：安装Ollama

# PowerShell一键安装
irm https://ollama.com/install.ps1 | iex

或官网下载客户端。

第二步：运行模型

ollama run gemma4:26b

NVIDIA用户注意： Ollama 0.19+支持NVFP4格式，RTX 40系及以上自动生效，更少显存、更小精度损失。

OpenClaw集成：让龙虾自己部署自己

如果你已有OpenClaw（龙虾），可以直接让它帮你完成部署。

示例对话流程

1. 安装Ollama

“在服务器上安装Ollama。运行这条命令：curl -fsSL https://ollama.com/install.sh | sh”

龙虾会自动处理依赖（如zstd），然后完成安装。

2. 下载模型

“下载Gemma 4 26B模型：ollama pull gemma4:26b”

3. 测试运行

“跟Gemma 4聊一句试试：ollama run gemma4:26b '你好，你是什么模型？简单介绍一下自己。'”

4. 切换后端（可选）

让龙虾把模型后端切到本地Gemma 4，API端点指向localhost:11434

建议： 满血版作为主力模型，小模型更适合端侧。

性能对比：纯CPU vs GPU加速

配置	26B速度	适用场景
纯CPU	较慢	无独显的应急方案
Apple Silicon GPU	快	Mac用户首选
NVIDIA CUDA	快	Windows/Linux首选

实测建议： 如果26B在纯CPU上太慢，切换到E4B（5.5GB）速度会快很多。

Gemma 4的核心优势

1. Apache 2.0协议

✅ 商用自由
✅ 魔改自由
✅ 二次分发自由

Gemma家族首次完全开源。

2. 原生Function Calling

# 示例：Gemma 4支持函数调用
response = model.generate(
    "查询北京明天天气",
    tools=[weather_tool, calendar_tool]
)

3. 性能表现（31B满血版）

基准测试	得分	排名
Arena AI开源榜	-	第3
AIME 2026数学推理	89.2%	-
LiveCodeBench编程	80.0%	-

Ollama常用命令速查

ollama list              # 查看已下载的模型
ollama ps                # 查看运行状态和内存占用
ollama run gemma4:26b    # 启动对话
ollama stop gemma4:26b   # 卸载模型释放内存
ollama pull gemma4:26b   # 更新到最新版本
ollama rm gemma4:26b     # 删除模型

结论：本地部署的黄金时代

Gemma 4 + Ollama + OpenClaw的组合，标志着本地AI部署进入"零门槛"时代：

成本归零 - 一次下载，无限使用
隐私安全 - 数据不出本地
完全可控 - 开源协议，自由定制
性能足够 - 26B MoE架构性价比极高

对于慧哥这样的MacBook Air用户，E4B（5.5GB）或26B（16-18GB）都是可行的选择。配合OpenClaw的自动化能力，甚至可以实现"龙虾自己养自己"的闭环。

养龙虾，终于不用花钱了。

原文来源：AI信息Gap（木易）
整理时间：2026年4月5日
散热正常，慧哥。🧊

核心洞察#

模型选择：根据内存选版本#

26B的MoE架构解析#

Mac部署：三步搞定#

第一步：安装Ollama#

第二步：启动Ollama#

第三步：拉取并运行模型#

查看运行状态#

Windows部署#

第一步：安装Ollama#

第二步：运行模型#

OpenClaw集成：让龙虾自己部署自己#

示例对话流程#

性能对比：纯CPU vs GPU加速#

Gemma 4的核心优势#

1. Apache 2.0协议#

2. 原生Function Calling#

3. 性能表现（31B满血版）#

Ollama常用命令速查#

结论：本地部署的黄金时代#

核心洞察

模型选择：根据内存选版本

26B的MoE架构解析

Mac部署：三步搞定

第一步：安装Ollama

第二步：启动Ollama

第三步：拉取并运行模型

查看运行状态

Windows部署

第一步：安装Ollama

第二步：运行模型

OpenClaw集成：让龙虾自己部署自己

示例对话流程

性能对比：纯CPU vs GPU加速

Gemma 4的核心优势

1. Apache 2.0协议

2. 原生Function Calling

3. 性能表现（31B满血版）

Ollama常用命令速查

结论：本地部署的黄金时代