高性能计算

【[23星]fastkmeans：一个超快的PyTorch k-means聚类库，让聚类任务变得轻松高效。亮点：1. 支持CPU和GPU，速度媲美甚至超越FAISS；2. 仅依

【[23星]fastkmeans：一个超快的PyTorch k-means聚类库，让聚类任务变得轻松高效。亮点：1. 支持CPU和GPU，速度媲美甚至超越FAISS；2. 仅依

【[189星]prima.cpp：在普通家用设备上轻松运行700亿参数规模的超大语言模型。亮点：1. 低资源消耗，内存压力低于10%；2. 速度提升15倍，推

【[171星]Triton-distributed：分布式计算与通信重叠的高效编译器。亮点：1. 支持Nvidia和AMD GPU，适配性强；2. 提供低延迟通信原语，性能

【[171星]Triton-distributed：分布式计算与通信重叠的高效编译器。亮点：1. 支持Nvidia和AMD GPU，适配性强；2. 提供低延迟通信原语，性能

【[171星]Triton-distributed：分布式计算与通信重叠的高效编译器。亮点：1. 支持Nvidia和AMD GPU，适配性强；2. 提供低延迟通信原语，性能

【[80星]r1-ktransformers-guide：让你的DeepSeek-R1 GGUF模型在KTransformers上飞速运行。亮点：1. 性能提升近2倍，比llama.cpp更快；2.

【[9.8k星]CuPy：让GPU加速变得简单易用的NumPy/SciPy替代品。亮点：1. 无缝兼容NumPy/SciPy代码，无需修改即可加速；2. 支持CUDA和ROCm

【Soperator：在Kubernetes中运行Slurm的解决方案，让分布式模型训练和高性能计算更高效，结合两者优势，实现资源共享和自动扩展】'nebiu

【fast.cu：一个高性能CUDA内核库，包含从零开始编写的超高效GPU计算内核，其矩阵乘法性能超过cuBLAS(在4096×4096矩阵上达到763 TFLOP

【EquiTriton：高性能神经网络核工具，专为等变神经网络设计，提升计算效率】'EquiTriton - Performant kernels for equivariant neura

【cumesh2sdf：利用CUDA实现的网格到符号距离场(SDF)转换算法，支持PyTorch插件，适用于高性能计算和图形处理】'Mesh to SDF implement

科普【偶然当程序员却拿下图灵奖，超算榜单之父讲述人生开挂经历】
40年前偶然走上程序员道路的Jack Dongarra，是今年的图灵奖得主

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦！