华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
软件算法咨询:18982151213(刘先生)

联系我们
产品咨询

Ubuntu 算力盒子:Docker + Ollama / vLLM 部署本地大模型教程

作者:万物纵横
发布时间:2026-05-15 10:00
阅读量:

下面给你一份2026-05-15、新手友好、可直接复制粘贴的教程:


Ubuntu 算力盒子(带 NVIDIA GPU)用 Docker + Ollama / vLLM 部署本地大模型,全程只敲命令,不绕弯。


Ubuntu 算力盒子:Docker + Ollama / vLLM 部署本地大模型教程(图1)


一、环境准备(Ubuntu 22.04/24.04)


1. 先确认显卡驱动 & CUDA 可用


nvidia-smi


能看到 GPU、CUDA Version ≥ 12.x 即可。

没装驱动:先装 NVIDIA 驱动 + CUDA(算力盒子一般已预装)。


2. 安装 Docker


sudo apt update

sudo apt install -y docker.io containerd.io

sudo systemctl start docker

sudo systemctl enable docker

sudo docker --version


3. 安装 NVIDIA Container Toolkit(关键!Docker 能用 GPU)


# 1) 加源 & 密钥

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \

| sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg


curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \

| sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \

| sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list


# 2) 安装

sudo apt update

sudo apt install -y nvidia-container-toolkit


# 3) 配置 Docker 运行时

sudo nvidia-ctk runtime configure --runtime=docker

sudo systemctl restart docker


# 4) 验证:容器能看到 GPU

sudo docker run --rm --gpus all nvidia/cuda:12.1.0-base-ubuntu22.04 nvidia-smi


出现显卡信息 → 环境就绪 ✅


方案 A:新手首选 — Docker + Ollama(一行命令跑模型)


1. 拉取 Ollama 镜像


# 官方

docker pull ollama/ollama:latest


# 国内加速(推荐)

docker pull dhub.kubesre.xyz/ollama/ollama:latest


2. 启动 Ollama 容器(永久后台运行)


mkdir -p ~/ollama

cd ~/ollama


docker run -d \

--name ollama \

--gpus all \

--restart=always \

-p 11434:11434 \

-v $(pwd):/root/.ollama \

ollama/ollama


3. 拉模型并运行(直接在主机执行)


# 通义千问 1.8B(小模型,16G 内存就能跑)

docker exec -it ollama ollama run qwen:1.8b


# 或 LLaMA3 8B

# docker exec -it ollama ollama run llama3:8b


第一次会自动下载模型(几百 MB~几 GB)


看到 >>>即可聊天,Ctrl+D 退出


4. 浏览器 WebUI(可选,更像 ChatGPT)


# 启动 open-webui(自动连本地 ollama:11434)

docker run -d \

--name open-webui \

--restart=always \

-p 3000:3000 \

-v open-webui:/app/backend/data \

--add-host=host.docker.internal:host-gateway \

ghcr.io/open-webui/open-webui:main


浏览器打开:


http://算力盒子IP:3000


注册 / 登录 → 直接选模型聊天 ✅


方案 B:高性能 — Docker + vLLM(生产级推理,支持 OpenAI 接口)


适合:7B/13B 模型、多并发、需要 API 调用


1. 准备本地模型(示例:Qwen2-7B-Instruct)


mkdir -p ~/models

cd ~/models

# 把 GGUF / HF 模型文件放到这里


2. 启动 vLLM 容器


cd ~/models


docker run -d \

--name vllm-qwen2 \

--gpus all \

--ipc=host \

-p 8000:8000 \

-v $(pwd):/app/models \

vllm/vllm-openai:latest \

--model /app/models/Qwen2-7B-Instruct \

--host 0.0.0.0 \

--port 8000 \

--dtype auto \

--max-model-len 4096


3. 测试 API(主机执行)


curl http://localhost:8000/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model": "Qwen2-7B-Instruct",

"messages": [{"role":"user","content":"你好"}]

}'


返回 JSON 回答 → 部署成功 ✅


常见问题(新手必看)


1. docker: error response from daemon: could not select device driver


→ 没装 nvidia-container-toolkit 或没重启 Docker,回到上面第 3 步重做。


2. Ollama 下载慢


→ 用国内镜像:dhub.kubesre.xyz/ollama/ollama:latest


3. 显存不够(7B 模型)


至少 10GB 显存(推荐 16GB+)


Ollama 自动量化,vLLM 可加 --quantization awq


4. 想开机自启


上面 docker run 已加 --restart=always,重启系统自动恢复。


✅ 新手推荐组合


最快上手:Docker + Ollama + qwen:1.8b(16G 内存即可)


更好用界面:加一个 open-webui(3000 端口)


要 API / 高并发:改用 vLLM(8000 端口)

- END -
分享:
留言 留言 试用申请
产品咨询 产品咨询 硬件设备咨询
华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
技术咨询 技术咨询 软件算法咨询
18982151213(刘先生)
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *