下面给你一份2026-05-15、新手友好、可直接复制粘贴的教程:
Ubuntu 算力盒子(带 NVIDIA GPU)用 Docker + Ollama / vLLM 部署本地大模型,全程只敲命令,不绕弯。

一、环境准备(Ubuntu 22.04/24.04)
1. 先确认显卡驱动 & CUDA 可用
nvidia-smi
能看到 GPU、CUDA Version ≥ 12.x 即可。
没装驱动:先装 NVIDIA 驱动 + CUDA(算力盒子一般已预装)。
2. 安装 Docker
sudo apt update
sudo apt install -y docker.io containerd.io
sudo systemctl start docker
sudo systemctl enable docker
sudo docker --version
3. 安装 NVIDIA Container Toolkit(关键!Docker 能用 GPU)
# 1) 加源 & 密钥
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \
| sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
| sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \
| sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
# 2) 安装
sudo apt update
sudo apt install -y nvidia-container-toolkit
# 3) 配置 Docker 运行时
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
# 4) 验证:容器能看到 GPU
sudo docker run --rm --gpus all nvidia/cuda:12.1.0-base-ubuntu22.04 nvidia-smi
出现显卡信息 → 环境就绪 ✅
方案 A:新手首选 — Docker + Ollama(一行命令跑模型)
1. 拉取 Ollama 镜像
# 官方
docker pull ollama/ollama:latest
# 国内加速(推荐)
docker pull dhub.kubesre.xyz/ollama/ollama:latest
2. 启动 Ollama 容器(永久后台运行)
mkdir -p ~/ollama
cd ~/ollama
docker run -d \
--name ollama \
--gpus all \
--restart=always \
-p 11434:11434 \
-v $(pwd):/root/.ollama \
ollama/ollama
3. 拉模型并运行(直接在主机执行)
# 通义千问 1.8B(小模型,16G 内存就能跑)
docker exec -it ollama ollama run qwen:1.8b
# 或 LLaMA3 8B
# docker exec -it ollama ollama run llama3:8b
第一次会自动下载模型(几百 MB~几 GB)
看到 >>>即可聊天,Ctrl+D 退出
4. 浏览器 WebUI(可选,更像 ChatGPT)
# 启动 open-webui(自动连本地 ollama:11434)
docker run -d \
--name open-webui \
--restart=always \
-p 3000:3000 \
-v open-webui:/app/backend/data \
--add-host=host.docker.internal:host-gateway \
ghcr.io/open-webui/open-webui:main
浏览器打开:
http://算力盒子IP:3000
注册 / 登录 → 直接选模型聊天 ✅
方案 B:高性能 — Docker + vLLM(生产级推理,支持 OpenAI 接口)
适合:7B/13B 模型、多并发、需要 API 调用
1. 准备本地模型(示例:Qwen2-7B-Instruct)
mkdir -p ~/models
cd ~/models
# 把 GGUF / HF 模型文件放到这里
2. 启动 vLLM 容器
cd ~/models
docker run -d \
--name vllm-qwen2 \
--gpus all \
--ipc=host \
-p 8000:8000 \
-v $(pwd):/app/models \
vllm/vllm-openai:latest \
--model /app/models/Qwen2-7B-Instruct \
--host 0.0.0.0 \
--port 8000 \
--dtype auto \
--max-model-len 4096
3. 测试 API(主机执行)
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen2-7B-Instruct",
"messages": [{"role":"user","content":"你好"}]
}'
返回 JSON 回答 → 部署成功 ✅
常见问题(新手必看)
1. docker: error response from daemon: could not select device driver
→ 没装 nvidia-container-toolkit 或没重启 Docker,回到上面第 3 步重做。
2. Ollama 下载慢
→ 用国内镜像:dhub.kubesre.xyz/ollama/ollama:latest
3. 显存不够(7B 模型)
至少 10GB 显存(推荐 16GB+)
Ollama 自动量化,vLLM 可加 --quantization awq
4. 想开机自启
上面 docker run 已加 --restart=always,重启系统自动恢复。
✅ 新手推荐组合
最快上手:Docker + Ollama + qwen:1.8b(16G 内存即可)
更好用界面:加一个 open-webui(3000 端口)
要 API / 高并发:改用 vLLM(8000 端口)
需求留言: