☁️ 云端 AI 用得好好的,为什么还要本地跑?
用 ChatGPT 或 Claude 很舒服——打开网页就能聊,何必折腾本地部署?
直到你遇到这几个场景:
| 场景 | 云端 AI 的痛 | 本地 Ollama 的解法 |
|---|---|---|
| 处理公司内部文件 | 数据上传到外部服务器,合规风险 | 数据一步都不出本机 |
| 每天大量调用 API | 按 token 计费,月账单很贵 | 只用电费,跑多少都行 |
| 网络不稳定的环境 | 断网就用不了 | 离线照样运行 |
| 想试试不同开源模型 | 选择受限,且收费 | 150+ 模型一条命令切换 |
Ollama 是一款开源免费的本地大模型管理工具,让你像安装普通软件一样安装和运行 AI 模型。它在 GitHub 上拥有超过 165,000 颗星,2026 年 3 月最新版本为 0.17.7,支持超过 150 个开源大模型。
🖥️ 准备工作:确认你的电脑能跑
运行大模型对硬件有一定要求,按你的情况对号入座:
| 模型规模 | 推荐显存(GPU) | 或内存(纯 CPU) | 适合场景 |
|---|---|---|---|
| 1B–3B 小模型 | 2GB+ | 8GB+ | 快速问答、简单任务 |
| 7B 模型(推荐入门) | 8GB+ | 16GB+ | 日常对话、写作、代码 |
| 14B–32B 模型 | 16GB+ | 32GB+ | 复杂推理、长文档 |
Apple M1/M2/M3/M4 芯片的统一内存架构让 Ollama 运行效率极高。一台 16GB M2 MacBook Air 跑 7B 模型的速度接近入门级 GPU 机器,不需要独立显卡。
没有独立显卡也没关系,Ollama 会自动退回 CPU 模式,运行 1B–7B 量化模型(Q4 格式),速度约 5–15 tokens/秒,够用来测试和学习。
🚀 Step by Step:4 步跑起你的第一个本地 AI
下载并安装 Ollama
打开 ollama.com,网站会自动识别你的操作系统并显示对应的下载按钮。点击下载,按提示安装,整个过程和装普通软件一样。
打开终端,粘贴这一行,等它自动安装:
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,打开终端(Windows 用 PowerShell 或 CMD),输入以下命令验证:
ollama --version
如果看到版本号(如 ollama version 0.17.7),说明安装成功。
终端显示
ollama version 0.x.x,说明 Ollama 已经安装好了,后台服务已自动启动。
下载并运行第一个模型
终端里输入一条命令,Ollama 会自动下载模型并启动对话。选一个适合你的:
| 推荐模型 | 大小 | 特点 | 命令 |
|---|---|---|---|
| DeepSeek-R1:7b | ~4.7 GB | 推理能力强,中文友好 | ollama run deepseek-r1:7b |
| Qwen2.5:7b | ~4.7 GB | 阿里出品,中文极佳 | ollama run qwen2.5:7b |
| Llama3.2:3b | ~2 GB | 小巧快速,入门首选 | ollama run llama3.2:3b |
以 DeepSeek-R1 为例,在终端输入:
ollama run deepseek-r1:7b
终端显示下载进度条(第一次需要下载几 GB,视网速约 2–10 分钟)。下载完成后自动进入交互界面,出现
>>> 提示符,直接打字就能聊了。
模型从 Ollama 官方服务器下载,国内网络有时较慢。建议在网络条件好的环境(如公司宽带)下载,或先挂 VPN 再执行命令。模型下载一次后缓存在本地,下次运行秒开,不需要重新下载。
掌握几条常用命令
Ollama 的命令很简单,记住这几条就够日常使用:
| 命令 | 作用 |
|---|---|
ollama run <模型名> | 运行模型(没有则自动下载) |
ollama pull <模型名> | 只下载,不进入对话 |
ollama list | 查看本地已下载的模型 |
ollama ps | 查看当前正在运行的模型 |
ollama stop <模型名> | 停止运行中的模型 |
ollama rm <模型名> | 删除本地模型(释放硬盘空间) |
想看看 Ollama 支持哪些模型?访问 ollama.com/library,搜索你感兴趣的模型名,复制命令就能用。
在
>>> 提示符下输入 /bye 或按 Ctrl+D 可以退出对话,回到普通终端。模型会停留在内存中待机,下次对话响应更快。
(可选)安装 Open WebUI——给本地 AI 装上 ChatGPT 式界面
终端对话有点朴素?Open WebUI 是专门为 Ollama 设计的开源前端,安装后用浏览器打开,界面和 ChatGPT 几乎一模一样,支持对话历史、文件上传、模型切换,GitHub 星标已超过 90,000。
最简单的安装方式(需要 Python 3.11+):
pip install open-webui
open-webui serve
安装完成后,浏览器打开 http://localhost:3000,首次访问创建一个本地账号(数据只在你的电脑上,不发到任何服务器),即可使用。
如果
open-webui 命令提示找不到,关闭终端重新打开,或者用这条命令代替:python -m open_webui serve
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main然后打开
http://localhost:3000 即可。
🤖 2026 热门模型速查表
不知道该跑哪个模型?按需求选:
| 需求 | 推荐模型 | 下载命令 |
|---|---|---|
| 中文对话 / 写作 | Qwen2.5:7b | ollama run qwen2.5:7b |
| 逻辑推理 / 数学 | DeepSeek-R1:7b | ollama run deepseek-r1:7b |
| 代码生成 | DeepSeek-Coder-V2 | ollama run deepseek-coder-v2 |
| 英文通用 / 低配机器 | Llama3.2:3b | ollama run llama3.2:3b |
| 高配机器,性能优先 | Qwen2.5:14b | ollama run qwen2.5:14b |
qwen2.5:7b 中的 7b 是指模型有 70 亿个参数,参数越多,模型越聪明,但需要的显存 / 内存也越多。没有特别需求的话,从 7b 开始是最好的入门选择。
🔌 进阶:把 Ollama 接入 AI Agent 工作流
Ollama 跑起来只是第一步。它最强的玩法是作为本地"大脑",接入各种 Agent 工具:
- 接 Dify:在 AI Agent 搭建平台里,Dify 支持添加自定义模型,把 Ollama 的 API 地址(
http://localhost:11434)填进去,就能用本地模型跑工作流,数据完全不出网。 - 接 MCP:Ollama 提供 OpenAI 兼容的 API,任何支持 MCP 协议的工具都能对接 Ollama,把工具调用能力叠加到本地模型上。
- 接 Open WebUI:上面 Step 4 里已经介绍,是最直接的可视化方式,支持文件上传、联网搜索、RAG 知识库。
✅ 效果验证清单
- 终端运行
ollama --version看到版本号 ✓ - 执行
ollama run qwen2.5:7b(或其他模型)模型下载并启动 ✓ - 在
>>>提示符后输入问题,AI 正常回复 ✓ - (可选)浏览器打开
localhost:3000看到 Open WebUI 登录界面 ✓
❓ 常见问题
ollama stop <模型名> 释放内存。~/.ollama/models/,Windows 存在 C:\Users\你的用户名\.ollama\models\。删除模型用命令 ollama rm <模型名>,或直接删除对应文件夹释放磁盘空间。