计算平台各IP算力评估方法具体如下:
1、CPU算力
计算公式:内核数量 * 主频 * DMIPS/MHz
例如:六核A55架构,主频1.6GHz,IPC性能2.7DMIPS/MHz,算力DMIPS = 6 * 1660MHz * 2.7DMIPS/MHz = 26892 DMIPS = 27K DMIPS
FLOPS计算公式:核数 * 单核主频 * 单个周期浮点计算值
单个周期浮点计算值(双精度64位)= FMA数量 * 2(同时加法和乘法)* 512/64
例如:Tesla P100双精度理论峰值 = FP64 Cores * GPU Boost Clock * 2 = 1792 * 1.48GHz * 2 = 5.3 TFlops
以Intel Cascade Lake架构的Xeon Platinum 8280为例,28个核心,主频2.7GHz,支持AVX512指令集。单个核心峰值浮点运算能力 = 32 FLOPS/Cycle * 2.7 GHz,单CPU算力 = 28 cores * 单个CPU核心的峰值浮点运算能力 = 2.4192 TFLOPS。
2、GPU算力
计算公式:MAC矩阵行 * MAC矩阵列 * 主频 * 2
例如:Tesla P100的理论双精度浮点性能 = 1792Core * 1.328GHZ * 2FLOPs/Cycle = 4759.552GFLOPs = 4.7TFLOPs
以NVIDIA Volta架构的V100为例,2560个双精度浮点核心(FP64 cores),主频1.530GHz,单个GPU核心峰值浮点运算能力 = 2 FLOPS/Cycle * 1.530 GHz,单GPU算力 = 2560 cores * 单个GPU核心的峰值浮点运算能力 = 7833 GFLOPS = 7.833 TFLOPS。
3、NPU算力
8位精度下的MAC数量在FP16精度下等于减少了一半。NPU使用MAC阵列作为神经网络加速的核心,许多运算可以分解为数个MAC指令,因此可以提高效率。计算公式:TOPS = MAC矩阵行 * MAC矩阵列 * 2 * 主频。
例如:特斯拉自动驾驶FSD芯片的计算能力 = 96 * 96 * 2 * 2G = 36.864 TOPS(单核)。
4、DSP算力
虽然主频不如CPU,但DSP芯片胜在乘法器多,运算能力比CPU强。计算方法与NPU相似,MIPS、MOPS、MFLOPTS、BOPS等性能指标用于衡量。
DMIPS/MHz和CoreMark®/MHz是评估处理器性能的指标。DMIPS/MHz表示每秒执行的Dhrystone百万条指令数,而MHz表示处理器的时钟频率。CoreMark是一种用于评估嵌入式处理器性能的基准测试程序。
不同计算平台的算力评估方法各异,但核心思路在于衡量其执行指令、浮点运算、神经网络加速和特定算法硬件加速的能力。
本文如未解决您的问题请添加抖音号:51dongshi(抖音搜索懂视),直接咨询即可。