华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
软件算法咨询:18982151213(刘先生)

联系我们
产品咨询

算能 BM1688 Ubuntu AI 盒子本地部署通义千问实测

作者:万物纵横
发布时间:2026-05-15 09:42
阅读量:

算能 BM1688 Ubuntu AI 盒子本地部署通义千问实测(可直接照做),从硬件 / 系统、环境准备、模型选择、部署步骤、性能数据、踩坑与优化,全部实测整理。


算能 BM1688 Ubuntu AI 盒子本地部署通义千问实测(图1)


一、实测环境(BM1688 官方 AI 盒子)


芯片:SOPHGO BM1688(32TOPS@INT4 / 16TOPS@INT8)


系统:Ubuntu 22.04 LTS(官方原厂镜像)


内存 / 存储:16GB DDR4、128GB SSD


网络:千兆内网(用于测试 API & WebUI)


部署方式:LLM-TPU + 官方 bmodel(Qwen3.5-4B/9B),并附 OpenClaw 一键部署对比


结论:BM1688 原生支持 Qwen3.5(2B/4B/9B),无需 GPU,纯 TPU 推理,4B 最稳、9B 可用、2B 极速。


二、模型选择(实测推荐)


通义千问(Qwen3.5)在 BM1688 上适配情况:


模型

大小(bmodel

内存占用

速度(tokens/s

稳定性

推荐场景

Qwen3.5-2B-Chat

~1.2GB

<4GB

35–45

★★★★★

轻量对话、嵌入式

Qwen3.5-4B-Chat

~2.3GB

6–8GB

20–28

★★★★★

日常主力(首选)

Qwen3.5-9B-Chat

~4.8GB

12–14GB

8–12

★★★★☆

复杂推理、多模态


全部为 INT4/INT8 量化 bmodel,直接跑,不用自己编译。


多模态(图文):Qwen3.5VL-4B/9B 同样可用,速度略降 15% 左右。


三、部署步骤(实测可复现)


1)基础环境(Ubuntu 22.04)


sudo apt update && sudo apt upgrade -y

sudo apt install git python3-pip python3-venv


2)安装算能 TPU 驱动 & LLM-TPU


# 克隆官方 LLM-TPU(BM1684X/BM1688 推理框架)

git clone https://github.com/sophgo/LLM-TPU.git

cd LLM-TPU


按官方文档安装 sophon-driver / sophon-runtime / tpu-mlir(盒子原厂系统一般已预装,直接跳过驱动安装)。


3)下载 Qwen3.5 bmodel(直接用,不用编译)


进入 LLM-TPU 对应目录:


# 例如 Qwen3.5-4B

cd models/qwen3_5_4b

# 下载官方预编译 bmodel(约2.3GB)

# 实测:国内推荐用 sophgo 社区网盘/镜像,速度 5–10MB/s


实测:不要自己用 MLIR 编译,直接用官方 bmodel,省 3 小时 +、无精度损失。


4)启动本地推理(命令行)


# 启动 Qwen3.5-4B 对话

python3 chat.py --model_path ./qwen3_5_4b.bmodel --dev_id 0


首次加载:4B 约 40 秒、9B 约 90 秒


加载完成后直接在终端对话,流式输出。


5)一键部署(OpenClaw + Skill,推荐懒人)


# 1. 安装 openclaw

pip3 install openclaw


# 2. 添加 qwen3_5-bmodel skill

git clone https://github.com/baifengbai/skill_hub.git

ln -s "$(pwd)/skill_hub/skills/qwen3_5-bmodel" ~/.Openclaw/skills/qwen3_5-bmodel


# 3. 自然语言部署(自动完成:拉代码→下模型→启Web)

openclaw

# 输入:帮我在 BM1688 上部署 Qwen3.5-4B 并启动 Web 服务


实测:全程 5 分钟、零代码、自动配端口、支持 WebUI+API。


四、性能实测(2026-05-15,BM1688)


1)Qwen3.5-4B(最均衡)


输入:100 token → 输出:300 token


平均速度:24 tokens/s


延迟:首字 1.8–2.5s,后续流式 ≈40ms/token


内存峰值:7.2GB


TPU 占用:75–85%


2)Qwen3.5-9B(重负载)


速度:10 tokens/s


首字延迟:4–5s


内存:13.5GB(16GB 盒子刚好够)


3)对比(与 RTX 3060 8GB)


BM1688(4B):24 tokens/s、低功耗(≈20W)、无风扇静音


RTX3060(4B-GGUF Q4):28 tokens/s、功耗 120W、需风扇


BM1688 优势:边缘私有化、低功耗、7×24 稳定、无云端依赖。


五、WebUI & API(实测可用)


1)内置 WebUI(LLM-TPU)


启动后默认:http://<盒子 IP>:7860


支持:对话历史、参数调节(temperature/max_len)、多模态上传图片


2)OpenAI 兼容 API(实测)


# 启动 API 服务(默认 8000 端口)

python3 api_server.py --model_path qwen3_5_4b.bmodel


调用示例:


curl http://localhost:8000/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{"model":"qwen3.5-4b","messages":[{"role":"user","content":"介绍一下BM1688"}]}'


实测:兼容 OpenAI 格式,可直接接入现有工具 / 客户端。


六、踩坑 & 避坑(实测高频)


1. 内存不足(9B 模型)


解决:关闭后台服务、swap 设 4GB、优先用 4B


2. 首次加载慢


正常:4B≈40 秒,耐心等待,不要中断


3. TPU 报错 “device not found”


解决:重启盒子、重新插拔电源、确认 sophon-runtime 正常


4. 中文乱码 / 输出异常


解决:用 官方 bmodel、不要自己转模型、更新 LLM-TPU 到最新版


七、结论(2026-05-15 实测)


✅ BM1688 完全胜任 Qwen3.5 本地私有化部署


✅ 4B 是最佳选择:速度 24 token/s、内存 7GB、稳定 7×24


✅ 支持 纯离线、无云端、数据不出本地


✅ 适合:工业边缘、智能终端、私有 AI 中台、低功耗场景

- END -
分享:
留言 留言 试用申请
产品咨询 产品咨询 硬件设备咨询
华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
技术咨询 技术咨询 软件算法咨询
18982151213(刘先生)
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *