异构优化
充分发挥各处理器的计算优势,从而提升整体
计算性能。
模型深度定制
结合模型算法特点及硬件特点,对模型数据及
算法进行改造。
技术原理
合理分拆计算任务,并根据GPU/NPU的计算特点和计算能
力分配任务,使得各处理器高效地并行计算。
针对各硬件架构(NPU/GPU)的运算能力和指令集特点,重
构计算图,对算子进行合理的合并和分拆。同时,在指令层
面采用提升Cache命中率、单周期多指令并行执行和高效指
令流水等手段,提升运算效率。
用户感知
用户在使用大语言模型相关应用时,能体验到更快的文本
生成速度。
当前POC收益(与QNN相比):
功耗:单位token有20%以上的降幅;
性能:Decoding阶段有30%以上的提升。