Llama 4 保姆级入门教程封面图

Llama 4 是什么?先用 1 分钟搞清楚

Llama 4 是 Meta(Facebook 母公司)开源的大语言模型家族,2025 年 4 月发布。它有三个主要版本:

版本参数量适合场景本地跑得动吗?
Llama 4 Scout17B(激活参数)日常对话、文档处理✅ 16GB 内存可跑
Llama 4 Maverick17B(激活参数)图文理解、复杂推理✅ 需要 GPU
Llama 4 Behemoth288B(激活参数)顶级推理任务❌ 需要数据中心级硬件
ℹ️
小白解释:参数量就像模型的"脑细胞数量",越多越聪明,但也越吃硬件。Llama 4 用了 MoE(混合专家)架构,每次只调用一部分参数来回答问题,所以实际运行比参数总量看起来轻得多。

Llama 4 的几个亮点:

选哪种方式上手?

Llama 4 三种使用路径示意图

根据你的情况,有 3 条路可以走:

路线 1:Meta AI 网页版(5 分钟上手)

这是最快的方式,打开浏览器就能用。

Step 1:打开 Meta AI 官网

访问 meta.ai,点击右上角 「Sign in」 登录。用 Facebook 或 Instagram 账号授权即可。

ℹ️
此时你应该看到一个简洁的对话界面,左侧有历史记录栏,中间是输入框。

Step 2:选择模型

在输入框上方,点击模型选择下拉菜单,选择 「Llama 4」(默认已经是 Llama 4 Maverick)。

Step 3:开始对话

直接在输入框里打字提问就行了。点击输入框左侧的 📎 图标可以上传图片,让 Llama 4 帮你分析图片内容。

💡
小技巧:Meta AI 网页版在中国大陆访问需要科学上网。如果访问不稳定,推荐直接跳到路线 2 或路线 3。

路线 2:Groq 免费 API(开发者友好)

Groq 是一家提供超高速 AI 推理服务的平台,目前免费托管了 Llama 4 Scout 和 Maverick,速度极快(每秒输出 800+ token),而且有免费额度。

Step 1:注册 Groq 账号

访问 console.groq.com,点击 「Sign Up」 注册账号,支持 Google 账号一键登录。

ℹ️
注册完成后,你会进入 Groq Console 控制台,左侧菜单有「Playground」和「API Keys」两个核心入口。

Step 2:在 Playground 里直接试用

点击左侧 「Playground」,在右上角的模型选择框里找到:

选好模型后,在底部输入框里直接提问,点击发送。

ℹ️
此时你应该看到模型以极快的速度流式输出回答,Groq 的推理速度比普通云端 API 快 5-10 倍,这是它的核心卖点。

Step 3:获取 API Key(可选,用于接入自己的应用)

点击左侧 「API Keys」「Create API Key」,给 Key 起个名字,点击创建。

⚠️
注意:API Key 只会显示一次,创建后立刻复制保存到安全的地方。关掉弹窗后就再也看不到完整的 Key 了。

拿到 API Key 之后,你就可以在 Dify、n8n 等工具里接入 Llama 4 了。具体接入方法可以参考用 Dify 搭建自己的 AI 应用这篇教程。

免费额度参考(2026年4月数据,以官网为准):

路线 3:Ollama 本地部署(数据完全不出门)

如果你对数据隐私有要求,或者想在没有网络的环境下使用,本地部署是最好的选择。

⚠️
注意:本地跑 Llama 4 Scout(量化版)至少需要 16GB 内存,推荐 32GB。如果你的电脑内存不够,建议选路线 1 或路线 2。

关于 Ollama 的完整安装和使用方法,我们之前已经写了一篇非常详细的 Ollama 保姆级入门教程,这里只补充 Llama 4 专属的部分。

Step 1:安装 Ollama

访问 ollama.com,下载对应系统的安装包:

ℹ️
此时你应该在系统托盘(Windows 右下角 / Mac 顶部菜单栏)看到一个羊驼图标,说明 Ollama 已经在后台运行了。

Step 2:拉取 Llama 4 模型

打开终端,输入:

# 拉取 Llama 4 Scout(推荐,约 10GB)
ollama pull llama4:scout

# 或者拉取 Maverick(支持图片,约 24GB)
ollama pull llama4:maverick
💡
小技巧:模型文件比较大,下载时间取决于你的网速。如果下载中断,重新运行同一条命令会从断点续传。

Step 3:启动对话

模型下载完成后,直接在终端运行:

ollama run llama4:scout
ℹ️
此时你应该看到终端出现 >>> 提示符,说明模型已经加载完毕,可以直接输入问题开始对话了。输入 /bye 可以退出对话。

Step 4:用 Open WebUI 获得更好的界面(可选)

命令行对话体验不太好?可以安装 Open WebUI,给 Ollama 套一个漂亮的网页界面。确保你已经安装了 Docker,然后运行:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

运行完成后,打开浏览器访问 http://localhost:3000,就能看到类似 ChatGPT 的界面,并且已经自动连接到你本地的 Llama 4 了。

效果验证:怎么确认跑起来了?

不管用哪条路线,可以用这几个问题测试一下效果:

测试 1:基础对话

用中文介绍一下你自己,你是什么模型?

正常情况下,Llama 4 会用流畅的中文回答,并说明自己是 Meta 的 Llama 4 模型。

测试 2:长文本处理(Scout 的强项)

帮我总结以下内容的要点:[粘贴一篇长文章]

测试 3:图片理解(Maverick 专属)

这张图片里有什么?请详细描述。

常见问题 FAQ

Q:Llama 4 中文能力怎么样?
A:Llama 4 的中文能力相比 Llama 3 有明显提升,日常对话和文档处理没有问题。但在中文创作和细腻表达上,和专门针对中文优化的模型(如 Qwen、DeepSeek)相比还有差距。

Q:本地跑 Llama 4 需要 GPU 吗?
A:不是必须的。Scout 的量化版本(Q4)在纯 CPU 模式下也能跑,只是速度会慢一些(每秒 5-15 个 token)。有 GPU 的话速度会快很多。

Q:Groq 的免费额度够用吗?
A:对于个人日常使用完全够用。每天 14,400 次请求,相当于每分钟可以发 10 条消息,普通用户根本用不完。

Q:Llama 4 和 GPT-4o、Claude 3.5 比怎么样?
A:在多项基准测试中,Llama 4 Maverick 的综合得分接近 GPT-4o,在某些任务上甚至超过。最大的优势是完全免费、可商用、可本地部署。

Q:ollama pull 下载太慢怎么办?
A:可以尝试配置国内镜像源,或者在网络条件好的时候(比如深夜)下载。也可以直接用路线 2 的 Groq 云端方案,完全不需要下载模型文件。

下一步:用 Llama 4 做更多事

跑起来之后,你可以:

  1. 接入 Dify 搭建知识库问答:把 Llama 4 作为底层模型,配合 RAG 技术让它回答你的私有文档问题,参考用 Dify 搭建自己的 AI 应用
  2. 了解 AI Agent 的工作原理:搞清楚大模型是怎么被组装成一个能自主干活的 Agent 的,可以看AI Agent 的四大核心模块
  3. 用 Groq API 接入 n8n 自动化工作流:让 Llama 4 帮你自动处理邮件、生成报告

参考来源