☁️ 云端 AI 用得好好的,为什么还要本地跑?

用 ChatGPT 或 Claude 很舒服——打开网页就能聊,何必折腾本地部署?

直到你遇到这几个场景:

场景云端 AI 的痛本地 Ollama 的解法
处理公司内部文件 数据上传到外部服务器,合规风险 数据一步都不出本机
每天大量调用 API 按 token 计费,月账单很贵 只用电费,跑多少都行
网络不稳定的环境 断网就用不了 离线照样运行
想试试不同开源模型 选择受限,且收费 150+ 模型一条命令切换
ℹ️
Ollama 是什么?
Ollama 是一款开源免费的本地大模型管理工具,让你像安装普通软件一样安装和运行 AI 模型。它在 GitHub 上拥有超过 165,000 颗星,2026 年 3 月最新版本为 0.17.7,支持超过 150 个开源大模型。

🖥️ 准备工作:确认你的电脑能跑

运行大模型对硬件有一定要求,按你的情况对号入座:

模型规模推荐显存(GPU)或内存(纯 CPU)适合场景
1B–3B 小模型 2GB+ 8GB+ 快速问答、简单任务
7B 模型(推荐入门) 8GB+ 16GB+ 日常对话、写作、代码
14B–32B 模型 16GB+ 32GB+ 复杂推理、长文档
💡
Mac 用户有惊喜
Apple M1/M2/M3/M4 芯片的统一内存架构让 Ollama 运行效率极高。一台 16GB M2 MacBook Air 跑 7B 模型的速度接近入门级 GPU 机器,不需要独立显卡。
⚠️
纯 CPU 也能跑,但会慢
没有独立显卡也没关系,Ollama 会自动退回 CPU 模式,运行 1B–7B 量化模型(Q4 格式),速度约 5–15 tokens/秒,够用来测试和学习。

🚀 Step by Step:4 步跑起你的第一个本地 AI

1

下载并安装 Ollama

打开 ollama.com,网站会自动识别你的操作系统并显示对应的下载按钮。点击下载,按提示安装,整个过程和装普通软件一样。

🖼️Ollama 官网首页 — 下载按钮(Windows/macOS/Linux 自动识别)
💡
Linux 用户一条命令搞定
打开终端,粘贴这一行,等它自动安装:
curl -fsSL https://ollama.com/install.sh | sh

安装完成后,打开终端(Windows 用 PowerShell 或 CMD),输入以下命令验证:

ollama --version

如果看到版本号(如 ollama version 0.17.7),说明安装成功。

ℹ️
此时你应该看到
终端显示 ollama version 0.x.x,说明 Ollama 已经安装好了,后台服务已自动启动。
2

下载并运行第一个模型

终端里输入一条命令,Ollama 会自动下载模型并启动对话。选一个适合你的:

推荐模型大小特点命令
DeepSeek-R1:7b ~4.7 GB 推理能力强,中文友好 ollama run deepseek-r1:7b
Qwen2.5:7b ~4.7 GB 阿里出品,中文极佳 ollama run qwen2.5:7b
Llama3.2:3b ~2 GB 小巧快速,入门首选 ollama run llama3.2:3b

以 DeepSeek-R1 为例,在终端输入:

ollama run deepseek-r1:7b
🖼️终端运行 ollama run 命令 — 显示下载进度条
ℹ️
此时你应该看到
终端显示下载进度条(第一次需要下载几 GB,视网速约 2–10 分钟)。下载完成后自动进入交互界面,出现 >>> 提示符,直接打字就能聊了。
⚠️
下载速度慢怎么办?
模型从 Ollama 官方服务器下载,国内网络有时较慢。建议在网络条件好的环境(如公司宽带)下载,或先挂 VPN 再执行命令。模型下载一次后缓存在本地,下次运行秒开,不需要重新下载。
3

掌握几条常用命令

Ollama 的命令很简单,记住这几条就够日常使用:

命令作用
ollama run <模型名>运行模型(没有则自动下载)
ollama pull <模型名>只下载,不进入对话
ollama list查看本地已下载的模型
ollama ps查看当前正在运行的模型
ollama stop <模型名>停止运行中的模型
ollama rm <模型名>删除本地模型(释放硬盘空间)

想看看 Ollama 支持哪些模型?访问 ollama.com/library,搜索你感兴趣的模型名,复制命令就能用。

💡
在对话中退出
>>> 提示符下输入 /bye 或按 Ctrl+D 可以退出对话,回到普通终端。模型会停留在内存中待机,下次对话响应更快。
4

(可选)安装 Open WebUI——给本地 AI 装上 ChatGPT 式界面

终端对话有点朴素?Open WebUI 是专门为 Ollama 设计的开源前端,安装后用浏览器打开,界面和 ChatGPT 几乎一模一样,支持对话历史、文件上传、模型切换,GitHub 星标已超过 90,000。

🖼️Open WebUI 界面 — ChatGPT 风格的本地 AI 对话界面

最简单的安装方式(需要 Python 3.11+):

pip install open-webui
open-webui serve

安装完成后,浏览器打开 http://localhost:3000,首次访问创建一个本地账号(数据只在你的电脑上,不发到任何服务器),即可使用。

ℹ️
Windows 用户注意
如果 open-webui 命令提示找不到,关闭终端重新打开,或者用这条命令代替:
python -m open_webui serve
💡
有 Docker 的用户,一条命令搞定
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
然后打开 http://localhost:3000 即可。

🤖 2026 热门模型速查表

不知道该跑哪个模型?按需求选:

需求推荐模型下载命令
中文对话 / 写作 Qwen2.5:7b ollama run qwen2.5:7b
逻辑推理 / 数学 DeepSeek-R1:7b ollama run deepseek-r1:7b
代码生成 DeepSeek-Coder-V2 ollama run deepseek-coder-v2
英文通用 / 低配机器 Llama3.2:3b ollama run llama3.2:3b
高配机器,性能优先 Qwen2.5:14b ollama run qwen2.5:14b
💡
模型名后面的数字是什么意思?
qwen2.5:7b 中的 7b 是指模型有 70 亿个参数,参数越多,模型越聪明,但需要的显存 / 内存也越多。没有特别需求的话,从 7b 开始是最好的入门选择。

🔌 进阶:把 Ollama 接入 AI Agent 工作流

Ollama 跑起来只是第一步。它最强的玩法是作为本地"大脑",接入各种 Agent 工具:

✅ 效果验证清单

  • 终端运行 ollama --version 看到版本号 ✓
  • 执行 ollama run qwen2.5:7b(或其他模型)模型下载并启动 ✓
  • >>> 提示符后输入问题,AI 正常回复 ✓
  • (可选)浏览器打开 localhost:3000 看到 Open WebUI 登录界面 ✓

❓ 常见问题

本地运行的模型效果和 ChatGPT/Claude 差多少?
7B 量化模型在日常对话、写作、简单代码任务上能达到 GPT-3.5 的水准,复杂推理略弱。如果使用 14B+ 模型,差距进一步缩小。关键是:本地模型完全免费、零延迟、隐私有保障,用来处理日常任务完全够用。
没有独立显卡也能用吗?
可以,Ollama 会自动检测硬件,没有独立显卡就用 CPU 运行。速度会慢(每秒 5–15 个字),但功能完整。Mac M 系列芯片例外——由于统一内存架构,性能接近独显水平。
运行模型后电脑会很卡吗?
模型运行时会占用显存 / 内存,但不影响 CPU 使用率。你可以在模型运行的同时正常使用其他软件。如果觉得系统变慢,运行 ollama stop <模型名> 释放内存。
模型下载到哪里了,怎么删除?
macOS 存在 ~/.ollama/models/,Windows 存在 C:\Users\你的用户名\.ollama\models\。删除模型用命令 ollama rm <模型名>,或直接删除对应文件夹释放磁盘空间。
Ollama 和 LM Studio 有什么区别?
两者都是本地运行大模型的工具。LM Studio 有图形界面,上手更直观;Ollama 是命令行工具,更适合开发者和自动化场景,API 兼容性更好,更容易与其他工具集成。如果你只是想聊天,两个都可以;如果你想接入 Dify / Open WebUI / 自己写代码调用,Ollama 是更好的选择。

🔗 学完 Ollama,下一步可以试试

  • 搭一个本地知识库:把公司文档喂给 Ollama + Open WebUI,实现私有数据问答,数据完全不出网
  • 接入 Dify 工作流:用 Ollama 作为本地大脑,搭建自动化 Agent,这篇平台横评有 Dify 的详细入门教程
  • 探索 MCP 工具调用:给本地模型装上"手",通过 MCP 协议让它能读文件、查数据库、调外部 API