首页> 新闻动态> 产品技术> 算能 BM1688 Ubuntu AI 盒子本地部署通义千问实测

算能 BM1688 Ubuntu AI 盒子本地部署通义千问实测

作者：万物纵横

发布时间：2026-05-15 09:42

阅读量：

算能 BM1688 Ubuntu AI 盒子本地部署通义千问实测（可直接照做），从硬件 / 系统、环境准备、模型选择、部署步骤、性能数据、踩坑与优化，全部实测整理。

算能 BM1688 Ubuntu AI 盒子本地部署通义千问实测(图1)

一、实测环境（BM1688 官方 AI 盒子）

芯片：SOPHGO BM1688（32TOPS@INT4 / 16TOPS@INT8）

系统：Ubuntu 22.04 LTS（官方原厂镜像）

内存 / 存储：16GB DDR4、128GB SSD

网络：千兆内网（用于测试 API & WebUI）

部署方式：LLM-TPU + 官方 bmodel（Qwen3.5-4B/9B），并附 OpenClaw 一键部署对比

结论：BM1688 原生支持 Qwen3.5（2B/4B/9B），无需 GPU，纯 TPU 推理，4B 最稳、9B 可用、2B 极速。

二、模型选择（实测推荐）

通义千问（Qwen3.5）在 BM1688 上适配情况：

模型	大小（bmodel）	内存占用	速度（tokens/s）	稳定性	推荐场景
Qwen3.5-2B-Chat	~1.2GB	<4GB	35–45	★★★★★	轻量对话、嵌入式
Qwen3.5-4B-Chat	~2.3GB	6–8GB	20–28	★★★★★	日常主力（首选）
Qwen3.5-9B-Chat	~4.8GB	12–14GB	8–12	★★★★☆	复杂推理、多模态

全部为 INT4/INT8 量化 bmodel，直接跑，不用自己编译。

多模态（图文）：Qwen3.5VL-4B/9B 同样可用，速度略降 15% 左右。

三、部署步骤（实测可复现）

1）基础环境（Ubuntu 22.04）

sudo apt update && sudo apt upgrade -y

sudo apt install git python3-pip python3-venv

2）安装算能 TPU 驱动 & LLM-TPU

# 克隆官方 LLM-TPU（BM1684X/BM1688 推理框架）

git clone https://github.com/sophgo/LLM-TPU.git

cd LLM-TPU

按官方文档安装 sophon-driver / sophon-runtime / tpu-mlir（盒子原厂系统一般已预装，直接跳过驱动安装）。

3）下载 Qwen3.5 bmodel（直接用，不用编译）

进入 LLM-TPU 对应目录：

# 例如 Qwen3.5-4B

cd models/qwen3_5_4b

# 下载官方预编译 bmodel（约2.3GB）

# 实测：国内推荐用 sophgo 社区网盘/镜像，速度 5–10MB/s

实测：不要自己用 MLIR 编译，直接用官方 bmodel，省 3 小时 +、无精度损失。

4）启动本地推理（命令行）

# 启动 Qwen3.5-4B 对话

python3 chat.py --model_path ./qwen3_5_4b.bmodel --dev_id 0

首次加载：4B 约 40 秒、9B 约 90 秒

加载完成后直接在终端对话，流式输出。

5）一键部署（OpenClaw + Skill，推荐懒人）

# 1. 安装 openclaw

pip3 install openclaw

# 2. 添加 qwen3_5-bmodel skill

git clone https://github.com/baifengbai/skill_hub.git

ln -s "$(pwd)/skill_hub/skills/qwen3_5-bmodel" ~/.Openclaw/skills/qwen3_5-bmodel

# 3. 自然语言部署（自动完成：拉代码→下模型→启Web）

openclaw

# 输入：帮我在 BM1688 上部署 Qwen3.5-4B 并启动 Web 服务

实测：全程 5 分钟、零代码、自动配端口、支持 WebUI+API。

四、性能实测（2026-05-15，BM1688）

1）Qwen3.5-4B（最均衡）

输入：100 token → 输出：300 token

平均速度：24 tokens/s

延迟：首字 1.8–2.5s，后续流式 ≈40ms/token

内存峰值：7.2GB

TPU 占用：75–85%

2）Qwen3.5-9B（重负载）

速度：10 tokens/s

首字延迟：4–5s

内存：13.5GB（16GB 盒子刚好够）

3）对比（与 RTX 3060 8GB）

BM1688（4B）：24 tokens/s、低功耗（≈20W）、无风扇静音

RTX3060（4B-GGUF Q4）：28 tokens/s、功耗 120W、需风扇

BM1688 优势：边缘私有化、低功耗、7×24 稳定、无云端依赖。

五、WebUI & API（实测可用）

1）内置 WebUI（LLM-TPU）

启动后默认：http://<盒子 IP>:7860

支持：对话历史、参数调节（temperature/max_len）、多模态上传图片

2）OpenAI 兼容 API（实测）

# 启动 API 服务（默认 8000 端口）

python3 api_server.py --model_path qwen3_5_4b.bmodel

调用示例：

curl http://localhost:8000/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{"model":"qwen3.5-4b","messages":[{"role":"user","content":"介绍一下BM1688"}]}'

实测：兼容 OpenAI 格式，可直接接入现有工具 / 客户端。

六、踩坑 & 避坑（实测高频）

1. 内存不足（9B 模型）

解决：关闭后台服务、swap 设 4GB、优先用 4B

2. 首次加载慢

正常：4B≈40 秒，耐心等待，不要中断

3. TPU 报错 “device not found”

解决：重启盒子、重新插拔电源、确认 sophon-runtime 正常

4. 中文乱码 / 输出异常

解决：用官方 bmodel、不要自己转模型、更新 LLM-TPU 到最新版

七、结论（2026-05-15 实测）

✅ BM1688 完全胜任 Qwen3.5 本地私有化部署

✅ 4B 是最佳选择：速度 24 token/s、内存 7GB、稳定 7×24

✅ 支持纯离线、无云端、数据不出本地

✅ 适合：工业边缘、智能终端、私有 AI 中台、低功耗场景

- END -

上一篇：瑞芯微RK3588 Ubuntu算力盒子性能测试与功耗分析返回列表下一篇：深度解析：Ubuntu 系统 AI 算力盒子的 NPU/CPU/ 内存怎么配

算能 BM1688 Ubuntu AI 盒子本地部署通义千问实测

需求留言: