fast.cu:一个高性能CUDA内核库,包含从零开始编写的超高效GPU计算内核,其矩阵乘法性能超过cuBLAS(在4096×4096矩阵上达到763 TFLOPs),求和规约性能达到3240GB/s

  • 爱可可-爱生活
  • 2024-12-07 14:59:59
【fast.cu:一个高性能CUDA内核库,包含从零开始编写的超高效GPU计算内核,其矩阵乘法性能超过cuBLAS(在4096×4096矩阵上达到763 TFLOPs),求和规约性能达到3240GB/s,展示了极致的GPU计算优化】

'Fastest kernels written from scratch'

GitHub: github.com/pranjalssh/fast.cu

CUDA优化 高性能计算 GPU编程 并行计算
fast.cu:一个高性能CUDA内核库,包含从零开始编写的超高效GPU计算内核,其矩阵乘法性能超过cuBLAS(在4096×4096矩阵上达到763 TFLOPs),求和规约性能达到3240GB/s,展示了极致的GPU计算优化