应用介绍
然而,随着DeepSeek热潮,华为更希望把AI基础设施做好。据悉,DeepSeek模型已经在华为昇腾上进行了高效推理。通过对模型算子权重进行Int4量化优化,显著降低现存占用,首次实现单台华为8卡服务器上的DeepDeek-R1的推理,同时在DeepSeek V2推理性能比vLLM昇腾版本在不同请求下平均提升88%以上。
然而,随着DeepSeek热潮,华为更希望把AI基础设施做好。据悉,DeepSeek模型已经在华为昇腾上进行了高效推理。通过对模型算子权重进行Int4量化优化,显著降低现存占用,首次实现单台华为8卡服务器上的DeepDeek-R1的推理,同时在DeepSeek V2推理性能比vLLM昇腾版本在不同请求下平均提升88%以上。