华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
软件算法咨询:18982151213(刘先生)

联系我们
产品咨询

160TOPS M.2 卡是什么水平?力擎 LQ50 实测:25tokens/s 推理

作者:万物纵横
发布时间:2026-05-14 09:49
阅读量:

一、160TOPS M.2 卡是什么水平


结论:在 M.2 形态 AI 加速卡里,160TOPS(INT8)属于顶级端侧算力,能效(≤13W)与推理速度(7B/8B 模型 25+tokens/s)领先同类,是国产存算一体方案的标杆。


160TOPS M.2 卡是什么水平?力擎 LQ50 实测:25tokens/s 推理(图1)


1. 核心定位(力擎 LQ50)


型号:后摩智能 力擎 LQ50 M.2 卡(M-Key 2280)


算力:160TOPS@INT8;100TFLOPS@bFP16


功耗:典型≤13W(无风扇)


内存:12GB LPDDR5(可扩 48GB),带宽153.6GB/s


推理性能:Llama 2 7B/8B ≈25tokens/s(实测)


2. 横向对比(M.2 AI 加速卡)


力擎 LQ50(后摩 M50):160TOPS,13W,25tokens/s(7B),存算一体


Hailo-8:26TOPS,2.5W,≈5tokens/s(7B)


Google Coral:4TOPS,2W,≈1tokens/s(7B)


沐曦 N100(PCIe):160TOPS,75W,≈20tokens/s(7B)


总结:160TOPS/13W的 M.2 卡,是当前端侧大模型推理的性能 / 功耗双冠王,能效比传统 GPU 高5–10 倍。


二、25tokens/s 推理是什么体验


速度体感:25tokens/s ≈ 18–20 汉字 / 秒(1token≈0.75 汉字),接近人正常语速,实时对话无卡顿。


模型适配:原生支持7B/8B(Llama 2、Qwen、DeepSeek),可跑14B/32B(LQ50 Duo 双芯,320TOPS),最大支持70B模型(需模型并行)。


典型场景:AI PC 离线助手、本地知识库、隐私聊天机器人、边缘视频分析(32 路)。


三、适合人群与选购建议


✅ 适合:AI PC 用户、开发者、中小企业私有化部署、追求低功耗 + 高性能 + 隐私的端侧 AI 玩家。


❌ 不适合:云端大规模训练、超高并发推理(选 A100/H100)、预算极低(选 Hailo-8)。


四、总结


力擎 LQ50(160TOPS M.2)是端侧 AI 的 “六边形战士”:13W 功耗、25tokens/s 推理、即插即用、离线隐私,国产存算一体标杆。

- END -
分享:
留言 留言 试用申请
产品咨询 产品咨询 硬件设备咨询
华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
技术咨询 技术咨询 软件算法咨询
18982151213(刘先生)
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *