AXCL NPU Benchmark

目录

6. AXCL NPU Benchmark#

Benchmark 是了解硬件平台网络模型运行速度的最佳途径。以下数据基于 Raspberry Pi 5 Host 进行测试获取，仅供社区参考，不代表商业交付最终性能。

6.1. 工况说明#

更新时间：2024.11.22
工具链版本：Pulsar2 3.2-patch2
测试工具：axcl_run_model
Batch Size：1 或 8
单位：IPS（Image/Second）

由于不同 Host 其 memcopy、pcie 性能差异，因此 axcl_run_model 只统计网络模型在 Device 上的推理耗时

6.2. Vision Model#

Models	Input Size	Batch 1(IPS)	Batch 8(IPS)
Inceptionv1	224	1073	2494
Inceptionv3	224	478	702
MobileNetv1	224	1508	4854
MobileNetv2	224	1366	5073
ResNet18	224	1066	2254
ResNet50	224	576	1045
SqueezeNet11	224	1560	5961
Swin-T	224	342	507
ViT-B/16	224	162	207
YOLOv5s	640	326	394
YOLOv6s	640	282	322
YOLOv8s	640	248	279
YOLOv9s	640	237
YOLOv10s	640	298
YOLOv11n	640	860
YOLOv11s	640	305
YOLOv11m	640	114
YOLOv11l	640	87
YOLOv11x	640	41

6.3. Audio Model#

Models	RTF
Whisper-Tiny	0.03
Whisper-Small	0.18
MeloTTS	0.04

6.4. LLM#

Models	Prompt length（tokens）	TTFT（ms）	Generate（tokens/s)
Qwen2.5-0.5B	128	188	28

6.5. VLM#

Models	Input Image	Image Encoder（ms）	Prompt length（tokens）	TTFT（ms）	Generate（tokens/s)
InternVL2-1B	448*448	4200	320	425	29