免费跑最强开源大模型！Llama 4 保姆级入门教程（2026最新版）

Llama 4 是什么？先用 1 分钟搞清楚

Llama 4 是 Meta（Facebook 母公司）开源的大语言模型家族，2025 年 4 月发布。它有三个主要版本：

版本	参数量	适合场景	本地跑得动吗？
Llama 4 Scout	17B（激活参数）	日常对话、文档处理	✅ 16GB 内存可跑
Llama 4 Maverick	17B（激活参数）	图文理解、复杂推理	✅ 需要 GPU
Llama 4 Behemoth	288B（激活参数）	顶级推理任务	❌ 需要数据中心级硬件

ℹ️

小白解释：参数量就像模型的"脑细胞数量"，越多越聪明，但也越吃硬件。Llama 4 用了 MoE（混合专家）架构，每次只调用一部分参数来回答问题，所以实际运行比参数总量看起来轻得多。

Llama 4 的几个亮点：

多模态：能看图、理解图片内容（Maverick 版本）
超长上下文：Scout 支持 10M token 上下文窗口，相当于能一次性读完几十本书
Apache 2.0 协议：可以免费商用，不用担心版权问题

选哪种方式上手？

根据你的情况，有 3 条路可以走：

想直接聊天，不折腾？→ 路线 1：Meta AI 网页版（最简单）
想免费调 API，做点小应用？→ 路线 2：Groq 云端 API（免费额度）
想完全本地跑，数据不出门？→ 路线 3：Ollama 本地部署

路线 1：Meta AI 网页版（5 分钟上手）

这是最快的方式，打开浏览器就能用。

Step 1：打开 Meta AI 官网

访问 meta.ai，点击右上角 「Sign in」 登录。用 Facebook 或 Instagram 账号授权即可。

ℹ️

此时你应该看到一个简洁的对话界面，左侧有历史记录栏，中间是输入框。

Step 2：选择模型

在输入框上方，点击模型选择下拉菜单，选择 「Llama 4」（默认已经是 Llama 4 Maverick）。

Step 3：开始对话

直接在输入框里打字提问就行了。点击输入框左侧的 📎 图标可以上传图片，让 Llama 4 帮你分析图片内容。

💡

小技巧：Meta AI 网页版在中国大陆访问需要科学上网。如果访问不稳定，推荐直接跳到路线 2 或路线 3。

路线 2：Groq 免费 API（开发者友好）

Groq 是一家提供超高速 AI 推理服务的平台，目前免费托管了 Llama 4 Scout 和 Maverick，速度极快（每秒输出 800+ token），而且有免费额度。

Step 1：注册 Groq 账号

访问 console.groq.com，点击 「Sign Up」 注册账号，支持 Google 账号一键登录。

ℹ️

注册完成后，你会进入 Groq Console 控制台，左侧菜单有「Playground」和「API Keys」两个核心入口。

Step 2：在 Playground 里直接试用

点击左侧 「Playground」，在右上角的模型选择框里找到：

meta-llama/llama-4-scout-17b-16e-instruct（文字对话）
meta-llama/llama-4-maverick-17b-128e-instruct（支持图片）

选好模型后，在底部输入框里直接提问，点击发送。

ℹ️

此时你应该看到模型以极快的速度流式输出回答，Groq 的推理速度比普通云端 API 快 5-10 倍，这是它的核心卖点。

Step 3：获取 API Key（可选，用于接入自己的应用）

点击左侧 「API Keys」 → 「Create API Key」，给 Key 起个名字，点击创建。

⚠️

注意：API Key 只会显示一次，创建后立刻复制保存到安全的地方。关掉弹窗后就再也看不到完整的 Key 了。

拿到 API Key 之后，你就可以在 Dify、n8n 等工具里接入 Llama 4 了。具体接入方法可以参考用 Dify 搭建自己的 AI 应用这篇教程。

免费额度参考（2026年4月数据，以官网为准）：

Llama 4 Scout：每天 14,400 次请求，每分钟 30 次
Llama 4 Maverick：每天 14,400 次请求，每分钟 30 次

路线 3：Ollama 本地部署（数据完全不出门）

如果你对数据隐私有要求，或者想在没有网络的环境下使用，本地部署是最好的选择。

⚠️

注意：本地跑 Llama 4 Scout（量化版）至少需要 16GB 内存，推荐 32GB。如果你的电脑内存不够，建议选路线 1 或路线 2。

关于 Ollama 的完整安装和使用方法，我们之前已经写了一篇非常详细的 Ollama 保姆级入门教程，这里只补充 Llama 4 专属的部分。

Step 1：安装 Ollama

访问 ollama.com，下载对应系统的安装包：

Windows：下载 .exe 安装包，双击安装
Mac：下载 .dmg，拖入 Applications
Linux：终端运行 curl -fsSL https://ollama.com/install.sh | sh

ℹ️

此时你应该在系统托盘（Windows 右下角 / Mac 顶部菜单栏）看到一个羊驼图标，说明 Ollama 已经在后台运行了。

Step 2：拉取 Llama 4 模型

打开终端，输入：

# 拉取 Llama 4 Scout（推荐，约 10GB）
ollama pull llama4:scout

# 或者拉取 Maverick（支持图片，约 24GB）
ollama pull llama4:maverick

💡

小技巧：模型文件比较大，下载时间取决于你的网速。如果下载中断，重新运行同一条命令会从断点续传。

Step 3：启动对话

模型下载完成后，直接在终端运行：

ollama run llama4:scout

ℹ️

此时你应该看到终端出现 >>> 提示符，说明模型已经加载完毕，可以直接输入问题开始对话了。输入 /bye 可以退出对话。

Step 4：用 Open WebUI 获得更好的界面（可选）

命令行对话体验不太好？可以安装 Open WebUI，给 Ollama 套一个漂亮的网页界面。确保你已经安装了 Docker，然后运行：

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

运行完成后，打开浏览器访问 http://localhost:3000，就能看到类似 ChatGPT 的界面，并且已经自动连接到你本地的 Llama 4 了。

效果验证：怎么确认跑起来了？

不管用哪条路线，可以用这几个问题测试一下效果：

测试 1：基础对话

用中文介绍一下你自己，你是什么模型？

正常情况下，Llama 4 会用流畅的中文回答，并说明自己是 Meta 的 Llama 4 模型。

测试 2：长文本处理（Scout 的强项）

帮我总结以下内容的要点：[粘贴一篇长文章]

测试 3：图片理解（Maverick 专属）

这张图片里有什么？请详细描述。

常见问题 FAQ

Q：Llama 4 中文能力怎么样？
A：Llama 4 的中文能力相比 Llama 3 有明显提升，日常对话和文档处理没有问题。但在中文创作和细腻表达上，和专门针对中文优化的模型（如 Qwen、DeepSeek）相比还有差距。

Q：本地跑 Llama 4 需要 GPU 吗？
A：不是必须的。Scout 的量化版本（Q4）在纯 CPU 模式下也能跑，只是速度会慢一些（每秒 5-15 个 token）。有 GPU 的话速度会快很多。

Q：Groq 的免费额度够用吗？
A：对于个人日常使用完全够用。每天 14,400 次请求，相当于每分钟可以发 10 条消息，普通用户根本用不完。

Q：Llama 4 和 GPT-4o、Claude 3.5 比怎么样？
A：在多项基准测试中，Llama 4 Maverick 的综合得分接近 GPT-4o，在某些任务上甚至超过。最大的优势是完全免费、可商用、可本地部署。

Q：ollama pull 下载太慢怎么办？
A：可以尝试配置国内镜像源，或者在网络条件好的时候（比如深夜）下载。也可以直接用路线 2 的 Groq 云端方案，完全不需要下载模型文件。

下一步：用 Llama 4 做更多事

跑起来之后，你可以：

接入 Dify 搭建知识库问答：把 Llama 4 作为底层模型，配合 RAG 技术让它回答你的私有文档问题，参考用 Dify 搭建自己的 AI 应用
了解 AI Agent 的工作原理：搞清楚大模型是怎么被组装成一个能自主干活的 Agent 的，可以看AI Agent 的四大核心模块
用 Groq API 接入 n8n 自动化工作流：让 Llama 4 帮你自动处理邮件、生成报告

参考来源

Meta Llama 4 官方博客 — Meta AI, 2025-04
Llama 4 官方 GitHub — Meta, 2025
Groq 官方文档 - Llama 4 支持说明 — Groq, 2025
Ollama 官方文档 — Ollama, 2025