算能 BM1688 Ubuntu AI 盒子本地部署通义千问实测(可直接照做),从硬件 / 系统、环境准备、模型选择、部署步骤、性能数据、踩坑与优化,全部实测整理。

一、实测环境(BM1688 官方 AI 盒子)
芯片:SOPHGO BM1688(32TOPS@INT4 / 16TOPS@INT8)
系统:Ubuntu 22.04 LTS(官方原厂镜像)
内存 / 存储:16GB DDR4、128GB SSD
网络:千兆内网(用于测试 API & WebUI)
部署方式:LLM-TPU + 官方 bmodel(Qwen3.5-4B/9B),并附 OpenClaw 一键部署对比
结论:BM1688 原生支持 Qwen3.5(2B/4B/9B),无需 GPU,纯 TPU 推理,4B 最稳、9B 可用、2B 极速。
二、模型选择(实测推荐)
通义千问(Qwen3.5)在 BM1688 上适配情况:
模型 | 大小(bmodel) | 内存占用 | 速度(tokens/s) | 稳定性 | 推荐场景 |
Qwen3.5-2B-Chat | ~1.2GB | <4GB | 35–45 | ★★★★★ | 轻量对话、嵌入式 |
Qwen3.5-4B-Chat | ~2.3GB | 6–8GB | 20–28 | ★★★★★ | 日常主力(首选) |
Qwen3.5-9B-Chat | ~4.8GB | 12–14GB | 8–12 | ★★★★☆ | 复杂推理、多模态 |
全部为 INT4/INT8 量化 bmodel,直接跑,不用自己编译。
多模态(图文):Qwen3.5VL-4B/9B 同样可用,速度略降 15% 左右。
三、部署步骤(实测可复现)
1)基础环境(Ubuntu 22.04)
sudo apt update && sudo apt upgrade -y
sudo apt install git python3-pip python3-venv
2)安装算能 TPU 驱动 & LLM-TPU
# 克隆官方 LLM-TPU(BM1684X/BM1688 推理框架)
git clone https://github.com/sophgo/LLM-TPU.git
cd LLM-TPU
按官方文档安装 sophon-driver / sophon-runtime / tpu-mlir(盒子原厂系统一般已预装,直接跳过驱动安装)。
3)下载 Qwen3.5 bmodel(直接用,不用编译)
进入 LLM-TPU 对应目录:
# 例如 Qwen3.5-4B
cd models/qwen3_5_4b
# 下载官方预编译 bmodel(约2.3GB)
# 实测:国内推荐用 sophgo 社区网盘/镜像,速度 5–10MB/s
实测:不要自己用 MLIR 编译,直接用官方 bmodel,省 3 小时 +、无精度损失。
4)启动本地推理(命令行)
# 启动 Qwen3.5-4B 对话
python3 chat.py --model_path ./qwen3_5_4b.bmodel --dev_id 0
首次加载:4B 约 40 秒、9B 约 90 秒
加载完成后直接在终端对话,流式输出。
5)一键部署(OpenClaw + Skill,推荐懒人)
# 1. 安装 openclaw
pip3 install openclaw
# 2. 添加 qwen3_5-bmodel skill
git clone https://github.com/baifengbai/skill_hub.git
ln -s "$(pwd)/skill_hub/skills/qwen3_5-bmodel" ~/.Openclaw/skills/qwen3_5-bmodel
# 3. 自然语言部署(自动完成:拉代码→下模型→启Web)
openclaw
# 输入:帮我在 BM1688 上部署 Qwen3.5-4B 并启动 Web 服务
实测:全程 5 分钟、零代码、自动配端口、支持 WebUI+API。
四、性能实测(2026-05-15,BM1688)
1)Qwen3.5-4B(最均衡)
输入:100 token → 输出:300 token
平均速度:24 tokens/s
延迟:首字 1.8–2.5s,后续流式 ≈40ms/token
内存峰值:7.2GB
TPU 占用:75–85%
2)Qwen3.5-9B(重负载)
速度:10 tokens/s
首字延迟:4–5s
内存:13.5GB(16GB 盒子刚好够)
3)对比(与 RTX 3060 8GB)
BM1688(4B):24 tokens/s、低功耗(≈20W)、无风扇静音
RTX3060(4B-GGUF Q4):28 tokens/s、功耗 120W、需风扇
BM1688 优势:边缘私有化、低功耗、7×24 稳定、无云端依赖。
五、WebUI & API(实测可用)
1)内置 WebUI(LLM-TPU)
启动后默认:http://<盒子 IP>:7860
支持:对话历史、参数调节(temperature/max_len)、多模态上传图片
2)OpenAI 兼容 API(实测)
# 启动 API 服务(默认 8000 端口)
python3 api_server.py --model_path qwen3_5_4b.bmodel
调用示例:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"qwen3.5-4b","messages":[{"role":"user","content":"介绍一下BM1688"}]}'
实测:兼容 OpenAI 格式,可直接接入现有工具 / 客户端。
六、踩坑 & 避坑(实测高频)
1. 内存不足(9B 模型)
解决:关闭后台服务、swap 设 4GB、优先用 4B
2. 首次加载慢
正常:4B≈40 秒,耐心等待,不要中断
3. TPU 报错 “device not found”
解决:重启盒子、重新插拔电源、确认 sophon-runtime 正常
4. 中文乱码 / 输出异常
解决:用 官方 bmodel、不要自己转模型、更新 LLM-TPU 到最新版
七、结论(2026-05-15 实测)
✅ BM1688 完全胜任 Qwen3.5 本地私有化部署
✅ 4B 是最佳选择:速度 24 token/s、内存 7GB、稳定 7×24
✅ 支持 纯离线、无云端、数据不出本地
✅ 适合:工业边缘、智能终端、私有 AI 中台、低功耗场景
需求留言: