华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
软件算法咨询:18982151213(刘先生)

联系我们
产品咨询

大模型本地部署实战:国产算力盒子部署 Llama 3、Qwen2 全流程

作者:万物纵横
发布时间:2026-05-19 09:50
阅读量:

国产算力盒子本地部署 Llama 3、Qwen2 完全可行,关键是:选对硬件→用 GGUF 量化→llama.cpp 或 RKLLM/NPU 部署→API/UI 调用。下面给你一套可直接照着做的全流程(以主流国产盒 RK3588 / BM1684X 为例)。


大模型本地部署实战:国产算力盒子部署 Llama 3、Qwen2 全流程(图1)


一、硬件选型(直接能跑 7B 模型)


优先选 8GB+ 内存、NPU≥6TOPS、Ubuntu 22.04 的国产算力盒:


瑞芯微 RK3588 盒子(万物纵横DA060R、DA600、Airbox)


8 核 A76+A55,6TOPS NPU,8GB/16GB RAM,M.2 SSD


算能 BM1684X 盒子(万物纵横DA320S、SE50)


32TOPS INT8,16GB RAM,64GB eMMC


华为 Atlas 500(工业级)


昇腾 310,20TOPS,8GB RAM


最低配置建议:7B 模型 ≥8GB RAM;4B 模型 ≥4GB RAM。


二、系统与环境准备(Ubuntu 22.04)


1. 基础环境


sudo apt update && sudo apt upgrade -y

sudo apt install git build-essential cmake python3-pip


2. 安装 llama.cpp(通用,支持 CPU/NPU/GPU)


git clone https://github.com/ggml-org/llama.cpp

cd llama.cpp

# RK3588 用 NPU 加速(需瑞芯微 RKLLM 工具链)

# BM1684X 用 sophon-mlir 编译

# 先编译基础版(CPU 也能跑)

make clean && make -j4


3. (推荐)安装 Ollama(一行命令跑模型)


curl -fsSL https://ollama.com/install.sh | sh

ollama --version


三、模型准备(Llama 3、Qwen2,GGUF 量化)


1. 模型选择(7B 最均衡)


Llama 3.1-7B-Instruct(英文强,中文一般)


Qwen2-7B-Instruct(中文强,开源免费)


量化格式:GGUF Q4_K_M(平衡速度 / 质量 / 显存)


2. 下载 GGUF 权重(二选一)


方式 A:Ollama 一键下载(最简单)


ollama run llama3.1:7b-instruct-q4_K_M

ollama run qwen2:7b-instruct-q4_K_M


方式 B:手动下载(适合离线)


推荐仓库:TheBloke(Hugging Face)、魔搭社区


示例:Qwen2-7B-Instruct-Q4_K_M.gguf(约 4GB)


传到盒子:scp qwen2-7b.gguf user@box-ip:/home/user/models/


四、部署实战(3 种方案,从易到难)


✅ 方案 1:Ollama(最快,推荐新手)


# 启动 Qwen2-7B

ollama run qwen2:7b-instruct-q4_K_M


# 启动 Llama 3.1-7B

ollama run llama3.1:7b-instruct-q4_K_M


自动下载、自动量化、自动适配硬件


内置 API:http://localhost:11434


适合:快速验证、个人使用


✅ 方案 2:llama.cpp(性能最强,推荐生产)


# 进入 llama.cpp 目录

cd ~/llama.cpp


# 启动 Qwen2-7B(NPU/CPU 自动优化)

./llama-server \

-m /home/user/models/qwen2-7b-instruct-q4_K_M.gguf \

-c 32768 \

--n-gpu-layers 999 \

--host 0.0.0.0 \

--port 8080


# 启动 Llama 3.1-7B

./llama-server \

-m /home/user/models/llama3.1-7b-instruct-q4_K_M.gguf \

-c 32768 \

--n-gpu-layers 999 \

--host 0.0.0.0


--n-gpu-layers 999:尽可能用 NPU 加速


API 地址:http://box-ip:8080/v1


适合:高并发、低延迟、私有化部署


✅ 方案 3:RK3588 NPU 原生部署(性能最优)


1. 安装瑞芯微 RKLLM 工具链


2. 转换模型为 RKNN 格式


# 转换 Qwen2-7B

rkllm_convert \

--model_name qwen2 \

--model_path ./qwen2-7b.gguf \

--output_path ./qwen2-7b.rknn \

--quant int4


3. 启动 NPU 推理


rkllm_server --model ./qwen2-7b.rknn --port 8080


全程 NPU 运行,内存占用稳定,速度比 llama.cpp 快 20%+


五、Web UI 可视化(Open WebUI)


# Docker 一键部署

docker run -d \

--name open-webui \

-p 3000:8080 \

-e OPENAI_API_BASE_URL=http://localhost:8080/v1 \

-e OPENAI_API_KEY=sk-local \

--restart unless-stopped \

ghcr.io/open-webui/open-webui:main


访问:http://box-ip:3000,即可聊天、切换模型、保存对话。


六、性能参考(RK3588 8GB)


Qwen2-7B-Q4_K_M:12–18 tokens/s,内存占用 5–6GB


Llama 3.1-7B-Q4_K_M:10–15 tokens/s,内存占用 5–6GB


Qwen2-1.5B-Q4_K_M:30–40 tokens/s,内存占用 2–3GB


七、常见问题与避坑


1. 内存不足


用 Q4_K_M 量化;关闭后台程序;加 swap(临时)


2. NPU 不工作


RK3588:安装 RKLLM 驱动;BM1684X:用 sophon-mlir 编译


3. 推理速度慢


优先用 llama.cpp 或 RKLLM;开启 --n-gpu-layers 999


4. 中文乱码 / 理解差


选 Qwen2 系列;避免用 Llama 3 原生版(中文弱)


八、下一步


部署 Qwen2-VL(多模态,图文理解)


对接 本地知识库(RAG)


做 边缘智能应用(工业质检、本地客服)

- END -
分享:
留言 留言 试用申请
产品咨询 产品咨询 硬件设备咨询
华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
技术咨询 技术咨询 软件算法咨询
18982151213(刘先生)
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *