随着开源大模型全面普及,企业与行业用户愈发倾向本地私有化部署,规避 API 调用成本、保障数据隐私,而传统硬件往往面临算力固定、无法适配不同参数量大模型的痛点。DS-35R (J) AI 推理服务器依托 2 路 M.2 PCIe 高速扩展接口,推出三款差异化算力模组,实现算力按需弹性升级,异构算力最高可达 326TOPS@INT8,全面覆盖 3B 至 35B 全量级 LLM、VLM 大模型推理场景。

三款专用算力模组精准定位不同应用层级,形成完整算力梯度布局。DS-35R (J)-R182X 主打高性价比,提供 20 TOPS@INT8 算力,采用 3D 堆叠 DRAM + 八核 NPU 近存计算架构,显存带宽达 1TB/s+,适配 Qwen2.5-3B、ChatGLM3-6B 等 3B-7B 轻量化大模型,同声传译场景功耗低至 6W,整体功耗≤15W,驱动零开发、部署延迟低至 0.1s,是轻量化 AI 场景性价比首选。
中端主力型号 DS-35R (J)-HM50,搭载第二代 “天璇” IPU,拥有 160 TOPS@INT8、100 FLOPS@bFP16 算力,配备最高 48GB LPDDR5 大显存,192-bit 位宽保障数据吞吐效率,能效比高达 16 T/W。可完美适配 LlaMa2-7B、Qwen3.5、ChatGLM 等 7B-35B 主流大模型,支持多芯扩容,全系统兼容,适合智慧园区、政企办公、行业知识库等中端大模型落地场景。
工业级高性能款 DS-35R (J)-DL20,基于 Minsky 异构计算架构,拥有 60 TOPS@INT8、120 TOPS@INT4、30TFLOPS@BF16/FP16 超强算力,支持 - 20℃~70℃宽温工作,具备 32 路视频解码能力,可 7×24 小时不间断稳定运行。适配 DeepSeek、InternVL 等 7B-13B 多模态大模型,专为工业质检、智能交通多模态分析、复杂场景 AI 推理等高可靠需求打造。
实测性能表现亮眼,截止 2026 年官方测试数据显示,搭配 R182X 模组时,Qwen2.5-7B 模型 Decode TPS 可达 70.26,多模态模型 Qwen2.5-VL-7B 端到端推理流畅稳定;搭载 HM50 模组后,Qwen3.5-35B-A3B 百亿级模型可流畅推理,Prefill 吞吐、生成解码速率表现优异,多轮对话、长文本处理、图文理解毫无压力。
这种 “通用主控 + 专用 AI 算力” 的组合模式,打破了传统服务器算力固化瓶颈,用户可根据业务规模从小模型轻量化部署,平滑升级到大参数量大模型应用,无需更换整机硬件,大幅降低迭代升级成本,是行业私有化大模型部署的最优解之一。
需求留言: