首页> 新闻动态> 产品技术> 大模型本地部署实战：国产算力盒子部署 Llama 3、Qwen2 全流程

大模型本地部署实战：国产算力盒子部署 Llama 3、Qwen2 全流程

作者：万物纵横

发布时间：2026-05-19 09:50

阅读量：

国产算力盒子本地部署 Llama 3、Qwen2 完全可行，关键是：选对硬件→用 GGUF 量化→llama.cpp 或 RKLLM/NPU 部署→API/UI 调用。下面给你一套可直接照着做的全流程（以主流国产盒 RK3588 / BM1684X 为例）。

大模型本地部署实战：国产算力盒子部署 Llama 3、Qwen2 全流程(图1)

一、硬件选型（直接能跑 7B 模型）

优先选 8GB+ 内存、NPU≥6TOPS、Ubuntu 22.04 的国产算力盒：

瑞芯微 RK3588 盒子（万物纵横DA060R、DA600、Airbox）

8 核 A76+A55，6TOPS NPU，8GB/16GB RAM，M.2 SSD

算能 BM1684X 盒子（万物纵横DA320S、SE50）

32TOPS INT8，16GB RAM，64GB eMMC

华为 Atlas 500（工业级）

昇腾 310，20TOPS，8GB RAM

最低配置建议：7B 模型 ≥8GB RAM；4B 模型 ≥4GB RAM。

二、系统与环境准备（Ubuntu 22.04）

1. 基础环境

sudo apt update && sudo apt upgrade -y

sudo apt install git build-essential cmake python3-pip

2. 安装 llama.cpp（通用，支持 CPU/NPU/GPU）

git clone https://github.com/ggml-org/llama.cpp

cd llama.cpp

# RK3588 用 NPU 加速（需瑞芯微 RKLLM 工具链）

# BM1684X 用 sophon-mlir 编译

# 先编译基础版（CPU 也能跑）

make clean && make -j4

3. （推荐）安装 Ollama（一行命令跑模型）

curl -fsSL https://ollama.com/install.sh | sh

ollama --version

三、模型准备（Llama 3、Qwen2，GGUF 量化）

1. 模型选择（7B 最均衡）

Llama 3.1-7B-Instruct（英文强，中文一般）

Qwen2-7B-Instruct（中文强，开源免费）

量化格式：GGUF Q4_K_M（平衡速度 / 质量 / 显存）

2. 下载 GGUF 权重（二选一）

方式 A：Ollama 一键下载（最简单）

ollama run llama3.1:7b-instruct-q4_K_M

ollama run qwen2:7b-instruct-q4_K_M

方式 B：手动下载（适合离线）

推荐仓库：TheBloke（Hugging Face）、魔搭社区

示例：Qwen2-7B-Instruct-Q4_K_M.gguf（约 4GB）

传到盒子：scp qwen2-7b.gguf user@box-ip:/home/user/models/

四、部署实战（3 种方案，从易到难）

✅ 方案 1：Ollama（最快，推荐新手）

# 启动 Qwen2-7B

ollama run qwen2:7b-instruct-q4_K_M

# 启动 Llama 3.1-7B

ollama run llama3.1:7b-instruct-q4_K_M

自动下载、自动量化、自动适配硬件

内置 API：http://localhost:11434

适合：快速验证、个人使用

✅ 方案 2：llama.cpp（性能最强，推荐生产）

# 进入 llama.cpp 目录

cd ~/llama.cpp

# 启动 Qwen2-7B（NPU/CPU 自动优化）

./llama-server \

-m /home/user/models/qwen2-7b-instruct-q4_K_M.gguf \

-c 32768 \

--n-gpu-layers 999 \

--host 0.0.0.0 \

--port 8080

# 启动 Llama 3.1-7B

./llama-server \

-m /home/user/models/llama3.1-7b-instruct-q4_K_M.gguf \

-c 32768 \

--n-gpu-layers 999 \

--host 0.0.0.0

--n-gpu-layers 999：尽可能用 NPU 加速

API 地址：http://box-ip:8080/v1

适合：高并发、低延迟、私有化部署

✅ 方案 3：RK3588 NPU 原生部署（性能最优）

1. 安装瑞芯微 RKLLM 工具链

2. 转换模型为 RKNN 格式

# 转换 Qwen2-7B

rkllm_convert \

--model_name qwen2 \

--model_path ./qwen2-7b.gguf \

--output_path ./qwen2-7b.rknn \

--quant int4

3. 启动 NPU 推理

rkllm_server --model ./qwen2-7b.rknn --port 8080

全程 NPU 运行，内存占用稳定，速度比 llama.cpp 快 20%+

五、Web UI 可视化（Open WebUI）

# Docker 一键部署

docker run -d \

--name open-webui \

-p 3000:8080 \

-e OPENAI_API_BASE_URL=http://localhost:8080/v1 \

-e OPENAI_API_KEY=sk-local \

--restart unless-stopped \

ghcr.io/open-webui/open-webui:main

访问：http://box-ip:3000，即可聊天、切换模型、保存对话。

六、性能参考（RK3588 8GB）

Qwen2-7B-Q4_K_M：12–18 tokens/s，内存占用 5–6GB

Llama 3.1-7B-Q4_K_M：10–15 tokens/s，内存占用 5–6GB

Qwen2-1.5B-Q4_K_M：30–40 tokens/s，内存占用 2–3GB

七、常见问题与避坑

1. 内存不足

用 Q4_K_M 量化；关闭后台程序；加 swap（临时）

2. NPU 不工作

RK3588：安装 RKLLM 驱动；BM1684X：用 sophon-mlir 编译

3. 推理速度慢

优先用 llama.cpp 或 RKLLM；开启 --n-gpu-layers 999

4. 中文乱码 / 理解差

选 Qwen2 系列；避免用 Llama 3 原生版（中文弱）

八、下一步

部署 Qwen2-VL（多模态，图文理解）

对接本地知识库（RAG）

做边缘智能应用（工业质检、本地客服）

家具美容培训

家具维修培训

- END -

分享：

上一篇：Docker 镜像存储优化：从清理到构建的全面指南返回列表下一篇：边缘计算盒子中 YOLOv8 的完整部署实操

需求留言:

热门文章

瑞芯微RV1126B 核心板 RKNN 轻量化大模型本地推理完整部署教程

RK1828 + RKNN3 Toolkit 适配PyTorch模型完整部署流程

全网最硬核实测：RK3588 跑 YOLO 目标检测，NPU 性能摸底

YOLOv5 部署 RK3588 全流程踩坑汇总（从模型导出→RKNN 量化→板端推理全阶段）

YOLOv5模型→RKNN量化部署瑞芯微RK3588开发板完整流程

AI边缘计算盒子咨询

ai边缘计算盒子是什么?相关内容

BM1684X 边缘计算盒子一键部署 YOLOv8 新手教程（全流程）

ai边缘计算盒子从硬件选型到模型部署配置指南

热门标签

mask r-cnn pytorch

出口网关地址和入口地址一样

智慧农业物联网系统

打架斗殴算法

边缘计算实现了什么模式

pcdn设备搭建全教程

视觉大模型训推一体机

领先的边缘智能产品与解决方案提供商

立即体验

高性能AI边缘计算盒子

AIoT 智能设备

大模型一体机 AI边缘盒子 AI服务器 AI 核心板 AI智算卡

AIoT 智能平台

AIoT物联智能平台 IoT物联网平台

AI边缘计算盒子方案 AI智算服务器方案 ThingSense平台方案云边端一体化方案

服务与支持

AI产品资料中心售后服务产品定制

万物公众号二维码

华北地区负责人：17340067106（毛经理）

华东地区负责人：17358670739（甘经理）

华南、华西地区负责人：19113907060（耿女士）

软件算法咨询：18982151213（刘先生）

四川省成都市武侯区天府五街花漾锦江JR大厦B座7层（总部）

Copyright © 2025 万物纵横版权所有

蜀ICP备2023003916号-1 网站地图技术支持物联网资讯边缘计算热门资讯家具维修培训

试用申请

硬件设备咨询

华北地区负责人：17340067106（毛经理）

华东地区负责人：17358670739（甘经理）

华南、华西地区负责人：19113907060（耿女士）

软件算法咨询

18982151213（刘先生）

在线客服

回到顶部

产品订购

*
*
*
*

点击更换
*