Llama 4 是什么?先用 1 分钟搞清楚
Llama 4 是 Meta(Facebook 母公司)开源的大语言模型家族,2025 年 4 月发布。它有三个主要版本:
| 版本 | 参数量 | 适合场景 | 本地跑得动吗? |
|---|---|---|---|
| Llama 4 Scout | 17B(激活参数) | 日常对话、文档处理 | ✅ 16GB 内存可跑 |
| Llama 4 Maverick | 17B(激活参数) | 图文理解、复杂推理 | ✅ 需要 GPU |
| Llama 4 Behemoth | 288B(激活参数) | 顶级推理任务 | ❌ 需要数据中心级硬件 |
Llama 4 的几个亮点:
- 多模态:能看图、理解图片内容(Maverick 版本)
- 超长上下文:Scout 支持 10M token 上下文窗口,相当于能一次性读完几十本书
- Apache 2.0 协议:可以免费商用,不用担心版权问题
选哪种方式上手?
根据你的情况,有 3 条路可以走:
- 想直接聊天,不折腾?→ 路线 1:Meta AI 网页版(最简单)
- 想免费调 API,做点小应用?→ 路线 2:Groq 云端 API(免费额度)
- 想完全本地跑,数据不出门?→ 路线 3:Ollama 本地部署
路线 1:Meta AI 网页版(5 分钟上手)
这是最快的方式,打开浏览器就能用。
Step 1:打开 Meta AI 官网
访问 meta.ai,点击右上角 「Sign in」 登录。用 Facebook 或 Instagram 账号授权即可。
Step 2:选择模型
在输入框上方,点击模型选择下拉菜单,选择 「Llama 4」(默认已经是 Llama 4 Maverick)。
Step 3:开始对话
直接在输入框里打字提问就行了。点击输入框左侧的 📎 图标可以上传图片,让 Llama 4 帮你分析图片内容。
路线 2:Groq 免费 API(开发者友好)
Groq 是一家提供超高速 AI 推理服务的平台,目前免费托管了 Llama 4 Scout 和 Maverick,速度极快(每秒输出 800+ token),而且有免费额度。
Step 1:注册 Groq 账号
访问 console.groq.com,点击 「Sign Up」 注册账号,支持 Google 账号一键登录。
Step 2:在 Playground 里直接试用
点击左侧 「Playground」,在右上角的模型选择框里找到:
meta-llama/llama-4-scout-17b-16e-instruct(文字对话)meta-llama/llama-4-maverick-17b-128e-instruct(支持图片)
选好模型后,在底部输入框里直接提问,点击发送。
Step 3:获取 API Key(可选,用于接入自己的应用)
点击左侧 「API Keys」 → 「Create API Key」,给 Key 起个名字,点击创建。
拿到 API Key 之后,你就可以在 Dify、n8n 等工具里接入 Llama 4 了。具体接入方法可以参考用 Dify 搭建自己的 AI 应用这篇教程。
免费额度参考(2026年4月数据,以官网为准):
- Llama 4 Scout:每天 14,400 次请求,每分钟 30 次
- Llama 4 Maverick:每天 14,400 次请求,每分钟 30 次
路线 3:Ollama 本地部署(数据完全不出门)
如果你对数据隐私有要求,或者想在没有网络的环境下使用,本地部署是最好的选择。
关于 Ollama 的完整安装和使用方法,我们之前已经写了一篇非常详细的 Ollama 保姆级入门教程,这里只补充 Llama 4 专属的部分。
Step 1:安装 Ollama
访问 ollama.com,下载对应系统的安装包:
- Windows:下载
.exe安装包,双击安装 - Mac:下载
.dmg,拖入 Applications - Linux:终端运行
curl -fsSL https://ollama.com/install.sh | sh
Step 2:拉取 Llama 4 模型
打开终端,输入:
# 拉取 Llama 4 Scout(推荐,约 10GB)
ollama pull llama4:scout
# 或者拉取 Maverick(支持图片,约 24GB)
ollama pull llama4:maverick
Step 3:启动对话
模型下载完成后,直接在终端运行:
ollama run llama4:scout
>>> 提示符,说明模型已经加载完毕,可以直接输入问题开始对话了。输入 /bye 可以退出对话。Step 4:用 Open WebUI 获得更好的界面(可选)
命令行对话体验不太好?可以安装 Open WebUI,给 Ollama 套一个漂亮的网页界面。确保你已经安装了 Docker,然后运行:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
运行完成后,打开浏览器访问 http://localhost:3000,就能看到类似 ChatGPT 的界面,并且已经自动连接到你本地的 Llama 4 了。
效果验证:怎么确认跑起来了?
不管用哪条路线,可以用这几个问题测试一下效果:
测试 1:基础对话
用中文介绍一下你自己,你是什么模型?
正常情况下,Llama 4 会用流畅的中文回答,并说明自己是 Meta 的 Llama 4 模型。
测试 2:长文本处理(Scout 的强项)
帮我总结以下内容的要点:[粘贴一篇长文章]
测试 3:图片理解(Maverick 专属)
这张图片里有什么?请详细描述。
常见问题 FAQ
Q:Llama 4 中文能力怎么样?
A:Llama 4 的中文能力相比 Llama 3 有明显提升,日常对话和文档处理没有问题。但在中文创作和细腻表达上,和专门针对中文优化的模型(如 Qwen、DeepSeek)相比还有差距。
Q:本地跑 Llama 4 需要 GPU 吗?
A:不是必须的。Scout 的量化版本(Q4)在纯 CPU 模式下也能跑,只是速度会慢一些(每秒 5-15 个 token)。有 GPU 的话速度会快很多。
Q:Groq 的免费额度够用吗?
A:对于个人日常使用完全够用。每天 14,400 次请求,相当于每分钟可以发 10 条消息,普通用户根本用不完。
Q:Llama 4 和 GPT-4o、Claude 3.5 比怎么样?
A:在多项基准测试中,Llama 4 Maverick 的综合得分接近 GPT-4o,在某些任务上甚至超过。最大的优势是完全免费、可商用、可本地部署。
Q:ollama pull 下载太慢怎么办?
A:可以尝试配置国内镜像源,或者在网络条件好的时候(比如深夜)下载。也可以直接用路线 2 的 Groq 云端方案,完全不需要下载模型文件。
下一步:用 Llama 4 做更多事
跑起来之后,你可以:
- 接入 Dify 搭建知识库问答:把 Llama 4 作为底层模型,配合 RAG 技术让它回答你的私有文档问题,参考用 Dify 搭建自己的 AI 应用
- 了解 AI Agent 的工作原理:搞清楚大模型是怎么被组装成一个能自主干活的 Agent 的,可以看AI Agent 的四大核心模块
- 用 Groq API 接入 n8n 自动化工作流:让 Llama 4 帮你自动处理邮件、生成报告
参考来源
- Meta Llama 4 官方博客 — Meta AI, 2025-04
- Llama 4 官方 GitHub — Meta, 2025
- Groq 官方文档 - Llama 4 支持说明 — Groq, 2025
- Ollama 官方文档 — Ollama, 2025