淘客熙熙

主题:【原创】GPU作超级计算,有那么美好吗? -- Highway

共:💬48 🌺77
全看分页树展 · 主题 跟帖
家园 不同意

最简单的,你可以试试矩阵乘法(向量化)的性能,乘法规模10240*10240。

给定市场上目前主流配置的CPU和GPU,我做过测试,结论有两条:

(1)非向量化指令下CPU的矩阵乘法一般比向量化指令下的CPU矩阵乘法慢10-200倍(Intel SSEx系列向量化指令,双核Intel P8600,4G DDRII DUAL Channel)。上述规模乘法,前者约4小时(约240分钟)占用2G内存,后者6分钟(5分钟54秒)占用同样内存。

(2)GPU向量化并行计算还比CPU向量化快2-20倍(NVIDIA CUDA, Quadro NVS 160M 512MB)。上述规模乘法,约1分钟(53秒,考虑到数据的预先交换和初始化,真正计算时间只是这个时间的一部分),有显存存在,不过还是占了2G内存。

我的系统平台是Ubuntu GNU/Linxu AMD 64

一般情况下,GPU矩阵乘法性能比CPU快几十到上百倍。更况且上面我的机器还都不太强。这对于科学计算的意义是巨大的,对于工程应用和控制来说可能就不太有什么意义了。毕竟,天河一号是AMD/ATI堆砌起来的嘛。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河