异构优化

充分发挥各处理器的计算优势,从而提升整体
计算性能。

模型深度定制

结合模型算法特点及硬件特点,对模型数据及
算法进行改造。

技术原理

合理分拆计算任务,并根据GPU/NPU的计算特点和计算能
力分配任务,使得各处理器高效地并行计算。

针对各硬件架构(NPU/GPU)的运算能力和指令集特点,重
构计算图,对算子进行合理的合并和分拆。同时,在指令层
面采用提升Cache命中率、单周期多指令并行执行和高效指
令流水等手段,提升运算效率。

用户感知

用户在使用大语言模型相关应用时,能体验到更快的文本
生成速度。
当前POC收益(与QNN相比):
    功耗:单位token20%以上的降幅;
    性能:Decoding阶段有30%以上的提升。

*数据来自联想实验室,功能效果仅为示意,请以实际体验为
准​。
*功耗性能数据来自联想实验室,测试机型为YOGA Pad
Pro AI
元启版,基于Qwen2-7b模型,使用同样测试集,
对自研推理引擎和基 于QNN的推理引擎进行性能和功耗
对比测试,具体以实际为准。