安全提示:即将离开云搜,1秒后自动跳转...
有没有什么比tpu更好的实现矩阵乘法的脉动阵列?
一、tpu-like脉动阵列由sync fifo所引入的弊端 相比于reduce tree,systolic array实现矩阵乘法可以有比reduce tree更低的延迟和更高的并行能力,例如64 x 64的脉动阵列
立即访问