LQ50 是标准 M.2 2280(22mm×80mm)小卡,靠M50 第二代 SRAM-CIM 存内计算 + 天璇 IPU 架构 + 板级紧凑设计 + 全栈软件优化四大维度,在口香糖体积突破传统 NPU/GPU 面积瓶颈,用≤13W 功耗跑出 160TOPS 算力。

一、底层:第二代 SRAM-CIM 存算一体,从架构砍掉数据搬运损耗(核心)
传统冯诺依曼架构:计算核与存储分离,权重 / 特征数据反复在片上 SRAM→片外 DDR 来回搬运,70% 以上功耗浪费在数据传输,挤占芯片面积、限制算力密度。
M50 采用深度改造 SRAM 阵列的 CIM 存内计算(非近存):
1. 存储单元内置乘法累加电路:权重直接存在 SRAM 存储位里,在存储阵列内部完成矩阵乘加运算,数据不用搬出存储区,数据搬运量下降 90%+,同等芯片面积算力密度提升 5~10 倍;
2. 双端口并行架构:权重加载、矩阵计算两个动作同步进行,不用串行等待数据载入,硬件利用率翻倍,同等硅面积跑出更高峰值 TOPS;
3. SRAM 存算 + 外置 LPDDR5 分层:高频算子常驻片上 CIM-SRAM,大模型权重放板载 LPDDR5(LQ50 标配 12GB、最大扩容 48GB,192bit 位宽、153.6GB/s 带宽),兼顾瞬时算力与超大参数存储,不用占用昂贵芯片裸片面积。
M50 裸片仅 20×23mm,算力密度远超同尺寸传统 ASIC,天然适配 M.2 狭小 PCB 空间。
二、算力内核:自研天璇第二代 IPU 弹性计算架构,拉高峰值算力上限
1. 比特级弹性稀疏加速:传统 GPU 需要整块数据全零才能稀疏提速;M50 按单个 bit 零值自适应跳过无效运算,大模型稀疏场景最高额外 + 160% 算力增益,轻松摸到 160TOPS 峰值;
2. 多精度原生硬件通路:硬件原生支持 INT8/INT16/bFP16/FP32 混合运算,INT8 专门对齐 160TOPS 标称算力,bFP16 可达 100TFLOPS 浮点,不用额外硬件电路堆砌多精度单元,节省芯片面积;
3. 分级功耗域设计:多电源轨分区供电,算力模块、内存、接口分区独立调压,峰值瞬间拉满 160TOPS、常态 10W 典型功耗,M.2 狭小散热空间无需大功率散热方案。
三、LQ50 M.2 板卡硬件紧凑化设计,小尺寸塞下全套算力
M.2 2280 板型(厚 3.3mm)极限布局优化:
1. M50 芯片居中贴装:取消冗余电源 / 占位元器件,LPDDR5 颗粒紧贴芯片左右排布,缩短内存走线、降低信号损耗,在 22mm 宽度内放下主控 + 多颗 DDR;
2. PCIe4.0×4 M-key 精简接口:只用高速 PCIe4.0 做主机互联,省去多余外设总线,PCB 腾出空间布置电源与散热铜皮;
3. 被动 / 超薄定制散热:得益于 M50 典型功耗仅 10W、满载≤13W,M.2 狭小空间靠超薄金属散热片即可控温,不用风扇挤占板卡体积。
四、软件:后摩大道全栈编译器,硬件算力全额释放
1. 算子架构专属编译:编译器自动匹配 CIM 存算排布规则,把模型权重按 SRAM 阵列粒度切分,最大化利用存内计算单元,避免硬件算力闲置;
2. 模型自动量化 + 权重压缩:自动优化 INT8 量化、权重稀疏,不用人工调参,让硬件稳定跑满 160TOPS 额定算力;
3. 大模型显存调度优化:自动拆分超大模型至片上 CIM + 板载 LPDDR,小卡也能本地跑 7B~35B 大模型,硬件资源利用率拉满。
补充:算力换算逻辑(160TOPS 由来)
TOPS = 每秒 INT8 乘加运算次数,M50 靠 CIM 并行阵列 + 弹性加速,单芯片 INT8 峰值运算 = 160 万亿次 / 秒,完整落地在 LQ50 M.2 2280 小体积规格内,实现同尺寸传统 NPU(普遍 10~30TOPS)5 倍以上算力密度。
需求留言: