6. AXCL NPU Benchmark#
Benchmark 是了解硬件平台网络模型运行速度的最佳途径。以下数据基于 Raspberry Pi 5 Host 进行测试获取,仅供社区参考,不代表商业交付最终性能。
6.1. 工况说明#
更新时间:2024.11.22
工具链版本:Pulsar2 3.2-patch2
测试工具:axcl_run_model
Batch Size:1 或 8
单位:IPS(Image/Second)
由于不同 Host 其 memcopy、pcie 性能差异,因此 axcl_run_model 只统计网络模型在 Device 上的推理耗时
6.2. Vision Model#
Models |
Input Size |
Batch 1(IPS) |
Batch 8(IPS) |
|---|---|---|---|
Inceptionv1 |
224 |
1073 |
2494 |
Inceptionv3 |
224 |
478 |
702 |
MobileNetv1 |
224 |
1508 |
4854 |
MobileNetv2 |
224 |
1366 |
5073 |
ResNet18 |
224 |
1066 |
2254 |
ResNet50 |
224 |
576 |
1045 |
SqueezeNet11 |
224 |
1560 |
5961 |
Swin-T |
224 |
342 |
507 |
ViT-B/16 |
224 |
162 |
207 |
YOLOv5s |
640 |
326 |
394 |
YOLOv6s |
640 |
282 |
322 |
YOLOv8s |
640 |
248 |
279 |
YOLOv9s |
640 |
237 |
|
YOLOv10s |
640 |
298 |
|
YOLOv11n |
640 |
860 |
|
YOLOv11s |
640 |
305 |
|
YOLOv11m |
640 |
114 |
|
YOLOv11l |
640 |
87 |
|
YOLOv11x |
640 |
41 |
6.3. Audio Model#
Models |
RTF |
|---|---|
Whisper-Tiny |
0.03 |
Whisper-Small |
0.18 |
MeloTTS |
0.04 |
6.4. LLM#
Models |
Prompt length(tokens) |
TTFT(ms) |
Generate(tokens/s) |
|---|---|---|---|
Qwen2.5-0.5B |
128 |
188 |
28 |
6.5. VLM#
Models |
Input Image |
Image Encoder(ms) |
Prompt length(tokens) |
TTFT(ms) |
Generate(tokens/s) |
|---|---|---|---|---|---|
InternVL2-1B |
448*448 |
4200 |
320 |
425 |
29 |