免费在本地跑 AI 大模型！Ollama 保姆级入门教程（2026 最新版）

☁️ 云端 AI 用得好好的，为什么还要本地跑？

用 ChatGPT 或 Claude 很舒服——打开网页就能聊，何必折腾本地部署？

直到你遇到这几个场景：

场景	云端 AI 的痛	本地 Ollama 的解法
处理公司内部文件	数据上传到外部服务器，合规风险	数据一步都不出本机
每天大量调用 API	按 token 计费，月账单很贵	只用电费，跑多少都行
网络不稳定的环境	断网就用不了	离线照样运行
想试试不同开源模型	选择受限，且收费	150+ 模型一条命令切换

ℹ️

Ollama 是什么？
Ollama 是一款开源免费的本地大模型管理工具，让你像安装普通软件一样安装和运行 AI 模型。它在 GitHub 上拥有超过 165,000 颗星，2026 年 3 月最新版本为 0.17.7，支持超过 150 个开源大模型。

🖥️ 准备工作：确认你的电脑能跑

运行大模型对硬件有一定要求，按你的情况对号入座：

模型规模	推荐显存（GPU）	或内存（纯 CPU）	适合场景
1B–3B 小模型	2GB+	8GB+	快速问答、简单任务
7B 模型（推荐入门）	8GB+	16GB+	日常对话、写作、代码
14B–32B 模型	16GB+	32GB+	复杂推理、长文档

💡

Mac 用户有惊喜
Apple M1/M2/M3/M4 芯片的统一内存架构让 Ollama 运行效率极高。一台 16GB M2 MacBook Air 跑 7B 模型的速度接近入门级 GPU 机器，不需要独立显卡。

⚠️

纯 CPU 也能跑，但会慢
没有独立显卡也没关系，Ollama 会自动退回 CPU 模式，运行 1B–7B 量化模型（Q4 格式），速度约 5–15 tokens/秒，够用来测试和学习。

🚀 Step by Step：4 步跑起你的第一个本地 AI

下载并安装 Ollama

打开 ollama.com，网站会自动识别你的操作系统并显示对应的下载按钮。点击下载，按提示安装，整个过程和装普通软件一样。

🖼️Ollama 官网首页 — 下载按钮（Windows/macOS/Linux 自动识别）

💡

Linux 用户一条命令搞定
打开终端，粘贴这一行，等它自动安装：
curl -fsSL https://ollama.com/install.sh | sh

安装完成后，打开终端（Windows 用 PowerShell 或 CMD），输入以下命令验证：

ollama --version

如果看到版本号（如 ollama version 0.17.7），说明安装成功。

ℹ️

此时你应该看到
终端显示 ollama version 0.x.x，说明 Ollama 已经安装好了，后台服务已自动启动。

下载并运行第一个模型

终端里输入一条命令，Ollama 会自动下载模型并启动对话。选一个适合你的：

推荐模型	大小	特点	命令
DeepSeek-R1:7b	~4.7 GB	推理能力强，中文友好	`ollama run deepseek-r1:7b`
Qwen2.5:7b	~4.7 GB	阿里出品，中文极佳	`ollama run qwen2.5:7b`
Llama3.2:3b	~2 GB	小巧快速，入门首选	`ollama run llama3.2:3b`

以 DeepSeek-R1 为例，在终端输入：

ollama run deepseek-r1:7b

🖼️终端运行 ollama run 命令 — 显示下载进度条

ℹ️

此时你应该看到
终端显示下载进度条（第一次需要下载几 GB，视网速约 2–10 分钟）。下载完成后自动进入交互界面，出现 >>> 提示符，直接打字就能聊了。

⚠️

下载速度慢怎么办？
模型从 Ollama 官方服务器下载，国内网络有时较慢。建议在网络条件好的环境（如公司宽带）下载，或先挂 VPN 再执行命令。模型下载一次后缓存在本地，下次运行秒开，不需要重新下载。

掌握几条常用命令

Ollama 的命令很简单，记住这几条就够日常使用：

命令	作用
`ollama run <模型名>`	运行模型（没有则自动下载）
`ollama pull <模型名>`	只下载，不进入对话
`ollama list`	查看本地已下载的模型
`ollama ps`	查看当前正在运行的模型
`ollama stop <模型名>`	停止运行中的模型
`ollama rm <模型名>`	删除本地模型（释放硬盘空间）

想看看 Ollama 支持哪些模型？访问 ollama.com/library，搜索你感兴趣的模型名，复制命令就能用。

💡

在对话中退出
在 >>> 提示符下输入 /bye 或按 Ctrl+D 可以退出对话，回到普通终端。模型会停留在内存中待机，下次对话响应更快。

（可选）安装 Open WebUI——给本地 AI 装上 ChatGPT 式界面

终端对话有点朴素？Open WebUI 是专门为 Ollama 设计的开源前端，安装后用浏览器打开，界面和 ChatGPT 几乎一模一样，支持对话历史、文件上传、模型切换，GitHub 星标已超过 90,000。

🖼️Open WebUI 界面 — ChatGPT 风格的本地 AI 对话界面

最简单的安装方式（需要 Python 3.11+）：

pip install open-webui
open-webui serve

安装完成后，浏览器打开 http://localhost:3000，首次访问创建一个本地账号（数据只在你的电脑上，不发到任何服务器），即可使用。

ℹ️

Windows 用户注意
如果 open-webui 命令提示找不到，关闭终端重新打开，或者用这条命令代替：
python -m open_webui serve

💡

有 Docker 的用户，一条命令搞定

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

然后打开 http://localhost:3000 即可。

🤖 2026 热门模型速查表

不知道该跑哪个模型？按需求选：

需求	推荐模型	下载命令
中文对话 / 写作	Qwen2.5:7b	`ollama run qwen2.5:7b`
逻辑推理 / 数学	DeepSeek-R1:7b	`ollama run deepseek-r1:7b`
代码生成	DeepSeek-Coder-V2	`ollama run deepseek-coder-v2`
英文通用 / 低配机器	Llama3.2:3b	`ollama run llama3.2:3b`
高配机器，性能优先	Qwen2.5:14b	`ollama run qwen2.5:14b`

💡

模型名后面的数字是什么意思？
qwen2.5:7b 中的 7b 是指模型有 70 亿个参数，参数越多，模型越聪明，但需要的显存 / 内存也越多。没有特别需求的话，从 7b 开始是最好的入门选择。

🔌 进阶：把 Ollama 接入 AI Agent 工作流

Ollama 跑起来只是第一步。它最强的玩法是作为本地"大脑"，接入各种 Agent 工具：

接 Dify：在 AI Agent 搭建平台里，Dify 支持添加自定义模型，把 Ollama 的 API 地址（http://localhost:11434）填进去，就能用本地模型跑工作流，数据完全不出网。
接 MCP：Ollama 提供 OpenAI 兼容的 API，任何支持 MCP 协议的工具都能对接 Ollama，把工具调用能力叠加到本地模型上。
接 Open WebUI：上面 Step 4 里已经介绍，是最直接的可视化方式，支持文件上传、联网搜索、RAG 知识库。

✅ 效果验证清单

终端运行 ollama --version 看到版本号 ✓
执行 ollama run qwen2.5:7b（或其他模型）模型下载并启动 ✓
在 >>> 提示符后输入问题，AI 正常回复 ✓
（可选）浏览器打开 localhost:3000 看到 Open WebUI 登录界面 ✓

❓ 常见问题

本地运行的模型效果和 ChatGPT/Claude 差多少？

7B 量化模型在日常对话、写作、简单代码任务上能达到 GPT-3.5 的水准，复杂推理略弱。如果使用 14B+ 模型，差距进一步缩小。关键是：本地模型完全免费、零延迟、隐私有保障，用来处理日常任务完全够用。

没有独立显卡也能用吗？

可以，Ollama 会自动检测硬件，没有独立显卡就用 CPU 运行。速度会慢（每秒 5–15 个字），但功能完整。Mac M 系列芯片例外——由于统一内存架构，性能接近独显水平。

运行模型后电脑会很卡吗？

模型运行时会占用显存 / 内存，但不影响 CPU 使用率。你可以在模型运行的同时正常使用其他软件。如果觉得系统变慢，运行 ollama stop <模型名> 释放内存。

模型下载到哪里了，怎么删除？

macOS 存在 ~/.ollama/models/，Windows 存在 C:\Users\你的用户名\.ollama\models\。删除模型用命令 ollama rm <模型名>，或直接删除对应文件夹释放磁盘空间。

Ollama 和 LM Studio 有什么区别？

两者都是本地运行大模型的工具。LM Studio 有图形界面，上手更直观；Ollama 是命令行工具，更适合开发者和自动化场景，API 兼容性更好，更容易与其他工具集成。如果你只是想聊天，两个都可以；如果你想接入 Dify / Open WebUI / 自己写代码调用，Ollama 是更好的选择。

🔗 学完 Ollama，下一步可以试试

搭一个本地知识库：把公司文档喂给 Ollama + Open WebUI，实现私有数据问答，数据完全不出网
接入 Dify 工作流：用 Ollama 作为本地大脑，搭建自动化 Agent，这篇平台横评有 Dify 的详细入门教程
探索 MCP 工具调用：给本地模型装上"手"，通过 MCP 协议让它能读文件、查数据库、调外部 API