首页> 新闻动态> 行业资讯> Ubuntu 算力盒子：Docker + Ollama / vLLM 部署本地大模型教程

Ubuntu 算力盒子：Docker + Ollama / vLLM 部署本地大模型教程

作者：万物纵横

发布时间：2026-05-15 10:00

阅读量：

下面给你一份2026-05-15、新手友好、可直接复制粘贴的教程：

Ubuntu 算力盒子（带 NVIDIA GPU）用 Docker + Ollama / vLLM 部署本地大模型，全程只敲命令，不绕弯。

Ubuntu 算力盒子：Docker + Ollama / vLLM 部署本地大模型教程(图1)

一、环境准备（Ubuntu 22.04/24.04）

1. 先确认显卡驱动 & CUDA 可用

nvidia-smi

能看到 GPU、CUDA Version ≥ 12.x 即可。

没装驱动：先装 NVIDIA 驱动 + CUDA（算力盒子一般已预装）。

2. 安装 Docker

sudo apt update

sudo apt install -y docker.io containerd.io

sudo systemctl start docker

sudo systemctl enable docker

sudo docker --version

3. 安装 NVIDIA Container Toolkit（关键！Docker 能用 GPU）

# 1) 加源 & 密钥

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \

| sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg

curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \

| sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \

| sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

# 2) 安装

sudo apt update

sudo apt install -y nvidia-container-toolkit

# 3) 配置 Docker 运行时

sudo nvidia-ctk runtime configure --runtime=docker

sudo systemctl restart docker

# 4) 验证：容器能看到 GPU

sudo docker run --rm --gpus all nvidia/cuda:12.1.0-base-ubuntu22.04 nvidia-smi

出现显卡信息 → 环境就绪 ✅

方案 A：新手首选 — Docker + Ollama（一行命令跑模型）

1. 拉取 Ollama 镜像

# 官方

docker pull ollama/ollama:latest

# 国内加速（推荐）

docker pull dhub.kubesre.xyz/ollama/ollama:latest

2. 启动 Ollama 容器（永久后台运行）

mkdir -p ~/ollama

cd ~/ollama

docker run -d \

--name ollama \

--gpus all \

--restart=always \

-p 11434:11434 \

-v $(pwd):/root/.ollama \

ollama/ollama

3. 拉模型并运行（直接在主机执行）

# 通义千问 1.8B（小模型，16G 内存就能跑）

docker ｅｘｅｃ -it ollama ollama run qwen:1.8b

# 或 LLaMA3 8B

# docker ｅｘｅｃ -it ollama ollama run llama3:8b

第一次会自动下载模型（几百 MB～几 GB）

看到 >>>即可聊天，Ctrl+D 退出

4. 浏览器 WebUI（可选，更像 ChatGPT）

# 启动 open-webui（自动连本地 ollama:11434）

docker run -d \

--name open-webui \

--restart=always \

-p 3000:3000 \

-v open-webui:/app/backend/data \

--add-host=host.docker.internal:host-gateway \

ghcr.io/open-webui/open-webui:main

浏览器打开：

http://算力盒子IP:3000

注册 / 登录 → 直接选模型聊天 ✅

方案 B：高性能 — Docker + vLLM（生产级推理，支持 OpenAI 接口）

适合：7B/13B 模型、多并发、需要 API 调用

1. 准备本地模型（示例：Qwen2-7B-Instruct）

mkdir -p ~/models

cd ~/models

# 把 GGUF / HF 模型文件放到这里

2. 启动 vLLM 容器

cd ~/models

docker run -d \

--name vllm-qwen2 \

--gpus all \

--ipc=host \

-p 8000:8000 \

-v $(pwd):/app/models \

vllm/vllm-openai:latest \

--model /app/models/Qwen2-7B-Instruct \

--host 0.0.0.0 \

--port 8000 \

--dtype auto \

--max-model-len 4096

3. 测试 API（主机执行）

curl http://localhost:8000/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model": "Qwen2-7B-Instruct",

"messages": [{"role":"user","content":"你好"}]

}'

返回 JSON 回答 → 部署成功 ✅

常见问题（新手必看）

1. docker: error response from daemon: could not select device driver

→ 没装 nvidia-container-toolkit 或没重启 Docker，回到上面第 3 步重做。

2. Ollama 下载慢

→ 用国内镜像：dhub.kubesre.xyz/ollama/ollama:latest

3. 显存不够（7B 模型）

至少 10GB 显存（推荐 16GB+）

Ollama 自动量化，vLLM 可加 --quantization awq

4. 想开机自启

上面 docker run 已加 --restart=always，重启系统自动恢复。

✅ 新手推荐组合

最快上手：Docker + Ollama + qwen:1.8b（16G 内存即可）

更好用界面：加一个 open-webui（3000 端口）

要 API / 高并发：改用 vLLM（8000 端口）

- END -

分享：

上一篇：边缘大模型推理，为什么更需要后摩力擎™LQ50 M.2卡这样的硬件？返回列表下一篇：Ubuntu AI 盒子对比：RK3588 vs BM1688 vs Jetson，实测差距

需求留言:

热门文章

6TOPS vs 16TOPS vs 32TOPS：Ubuntu 算力盒怎么选不浪费

Ubuntu AI 盒子对比：RK3588 vs BM1688 vs Jetson，实测差距

Ubuntu 算力盒子：Docker + Ollama / vLLM 部署本地大模型教程

边缘大模型推理，为什么更需要后摩力擎™LQ50 M.2卡这样的硬件？

工业 / 机器人 / AI Stick 通用：力擎 LQ50 160TOPS M.2 卡全场景适配

AI边缘计算盒子咨询

瑞芯微算力盒子相关内容

5 款 32TOPS 边缘算力盒子深度对比：算能 BM1684X（万物纵横 DA320S）vs 海思 vs 瑞芯微

瑞芯微算力盒子凭什么火遍AIoT圈？8K 解码+全场景适配是关键

WiFi 6+双千兆网口，瑞芯微算力盒子让边缘计算速度起飞

旧设备秒变智能终端？瑞芯微算力盒子让传统监控升级不费钱

热门标签

yolo检测结果分析

mec边缘计算

AI目标检测算法

工业 ai边缘智能盒子

人员离岗检测算法

消防通道堵塞检测演示

领先的边缘智能产品与解决方案提供商

立即体验

高性能AI边缘计算盒子

AIoT 智能设备

大模型一体机AI边缘大模型一体机 AI边缘盒子AI边缘计算盒子 AI服务器AI边缘服务器 AI模组AI智算模组 AI智算卡AI智算卡

AIoT 智能平台

AIoT物联智能平台 IoT物联网平台

AI边缘计算盒子方案 AI智算服务器方案 ThingSense平台方案云边端一体化方案

服务与支持

AI产品资料中心售后服务产品定制

万物公众号二维码

华北地区负责人：17340067106（毛经理）

华东地区负责人：17358670739（甘经理）

华南、华西地区负责人：19113907060（耿女士）

软件算法咨询：18982151213（刘先生）

四川省成都市武侯区天府五街花漾锦江JR大厦B座7层（总部）

Copyright © 2025 万物纵横版权所有

蜀ICP备2023003916号-1 网站地图技术支持物联网资讯边缘计算热门资讯家具维修培训

试用申请

硬件设备咨询

华北地区负责人：17340067106（毛经理）

华东地区负责人：17358670739（甘经理）

华南、华西地区负责人：19113907060（耿女士）

软件算法咨询

18982151213（刘先生）

在线客服

回到顶部

产品订购

*
*
*
*

点击更换
*