NPUbench测试结果–英特尔至强处理器 E5-2630

图1英特尔® 至强® 处理器

至强处理器 E5-2630 v4是英特尔公司的一款处理器,主要供服务器使用。它采用14nm工艺制造,处理器基本频率2.20GHZ,最大睿频频率为3.10GHZ,采用25M高速缓存,包含了10个独立中央处理核心,总线速度为8 GT/s QPI。我们把NPUbench部署到该CPU上来测试其性能并观察其cache命中率的情况。

图2 英特尔® 至强® 处理器 E5-2630 v4使用各神经网络模型时的前向推理时间构成图

图2是NPUbench在该处理器上使用不同神经网络模型时前向推理时间的构成情况。不难看出LeNet-5执行一次分类的时间要远小于其他神经网络,仅使用了1.14458ms。而消耗时间最长的则是ResNet-152这一神经网络模型,共使用了1395.53 ms,这其中执行卷积层所使用的时间占总时间的85%。类似的,在其他网络模型上也可以看到,卷积操作占用了相当大部分的执行时间,可见CPU在计算卷积运算时效率较低。

图3 英特尔® 至强® 处理器 E5-2630 v4执行各神经网络模型时的cache命中情况和机器指令执行情况

图2是NPUbench在该处理器上运行不同神经网络模型时的cache命中、未命中的次数组成图,以及机器指令数目/处理器时钟数这一比值的曲线,这一比值越大说明该神经网络模型更能够充分利用处理器的性能。在各网络模型中,命中率最高的是GoogLeNet,命中率为92%,命中率最低的则是Sequence to Sequence,命中率为82.4%,其他网络模型的命中率普遍在88.8%左右。在处理器性能利用方面,各神经网络的表现都很相近,比值一般都在2.4左右,其中表现最差的是LeNet-5,机器指令数目/处理器时钟数比值为1.36,最高的是SqueezeNet,比值为2.77,其次为Deep Hand、Inception-BN network。