常见网络性能分析数据

1 前言

1.1 读者对象

本文档(本指南)主要适用于以下人员:

• 技术支持工程师

• 软件开发工程师

• AI 应用案客户

2 正文

2.1 NPU 开发简介

• 支持int8/uint8/int16 量化精度,运算性能可达1TOPS.

• 相较于GPU 作为AI 运算单元的大型芯片方案,功耗不到GPU 所需要的1%.

• 可直接导入Caffe, TensorFlow, Onnx, TFLite,Keras, Darknet, pyTorch 等模型格式.

• 提供AI 开发工具:支持模型快速转换、支持开发板端侧转换API、支持TensorFlow, TF Lite, Caffe, ONNX, Darknet, pyTorch 等模型.

• 提供AI 应用开发接口:提供NPU 跨平台API.

2.2 开发流程

NPU 开发完整的流程如下图所示:

image-20221208105235547

图2-1: npu_1.png

2.3 常见网络benchmark

image-20221208105336553

图2-2: NPU benchmark

以上数据是裸机程序跑网络的数据,并未考虑到方案中的其它应用。

2.4 内存分析数据

方案应用场景中的内存消耗数据分析.

代码和数据部分的占用,包括KMD 和UMD 本身占用的空间大小, 大约180k.

表2-1: code 占用大小
textdatabss总计
内核态5516492038856472
用户态99739+22656604+484388+72123943
总计99739+22656+55164=177559608+484+920=2008388+72+388=848180415

Yolov3 模型的内存数据统计,运行时消耗约48M 内存。

表2-2: yolov3 内存统计
total video memorytotal system memoryviplite driver code sizetotal
大小484600328150018041548721947
占比99.46%0.17%0.37%100%

yolov3-tiny 模型的内存数据统计,运行时消耗月6.8M 内存。

表2-3: yolov3-tiny 内存统计
total viedo memorytotal system memoryviplite driver code sizetotal
大小6710784205961804156911795
占比97.092%0.307%2.61%100%

帧率,带宽等数据待补充.