[23星]fastkmeans:一个超快的PyTorch k-means聚类库,让聚类任务变得轻松高效。亮点:1. 支持CPU和GPU,速度媲美甚至超越FAISS;2. 仅依赖PyTorch和NumP

[23星]fastkmeans:一个超快的PyTorch k-means聚类库,让聚类任务变得轻松高效。亮点:1. 支持CPU和GPU,速度媲美甚至超越FAISS;2. 仅依赖PyTorch和NumP

【[23星]fastkmeans:一个超快的PyTorch k-means聚类库,让聚类任务变得轻松高效。亮点:1. 支持CPU和GPU,速度媲美甚至超越FAISS;2. 仅依

2025-04-21浏览详情

[23星]fastkmeans:一个超快的PyTorch k-means聚类库,让聚类任务变得轻松高效。亮点:1. 支持CPU和GPU,速度媲美甚至超越FAISS;2. 仅依赖PyTorch和NumP

[23星]fastkmeans:一个超快的PyTorch k-means聚类库,让聚类任务变得轻松高效。亮点:1. 支持CPU和GPU,速度媲美甚至超越FAISS;2. 仅依赖PyTorch和NumP

【[23星]fastkmeans:一个超快的PyTorch k-means聚类库,让聚类任务变得轻松高效。亮点:1. 支持CPU和GPU,速度媲美甚至超越FAISS;2. 仅依

2025-04-20浏览详情

[189星]prima.cpp:在普通家用设备上轻松运行700亿参数规模的超大语言模型。亮点:1. 低资源消耗,内存压力低于10%;2. 速度提升15倍,推理速度可达每秒1.5个token;3. 支持

[189星]prima.cpp:在普通家用设备上轻松运行700亿参数规模的超大语言模型。亮点:1. 低资源消耗,内存压力低于10%;2. 速度提升15倍,推理速度可达每秒1.5个token;3. 支持

【[189星]prima.cpp:在普通家用设备上轻松运行700亿参数规模的超大语言模型。亮点:1. 低资源消耗,内存压力低于10%;2. 速度提升15倍,推

2025-04-19浏览详情

[171星]Triton-distributed:分布式计算与通信重叠的高效编译器。亮点:1. 支持Nvidia和AMD GPU,适配性强;2. 提供低延迟通信原语,性能卓越;3. 代码开源,易于扩展

[171星]Triton-distributed:分布式计算与通信重叠的高效编译器。亮点:1. 支持Nvidia和AMD GPU,适配性强;2. 提供低延迟通信原语,性能卓越;3. 代码开源,易于扩展

【[171星]Triton-distributed:分布式计算与通信重叠的高效编译器。亮点:1. 支持Nvidia和AMD GPU,适配性强;2. 提供低延迟通信原语,性能

2025-04-09浏览详情

[171星]Triton-distributed:分布式计算与通信重叠的高效编译器。亮点:1. 支持Nvidia和AMD GPU,适配性强;2. 提供低延迟通信原语,性能卓越;3. 代码开源,易于扩展

[171星]Triton-distributed:分布式计算与通信重叠的高效编译器。亮点:1. 支持Nvidia和AMD GPU,适配性强;2. 提供低延迟通信原语,性能卓越;3. 代码开源,易于扩展

【[171星]Triton-distributed:分布式计算与通信重叠的高效编译器。亮点:1. 支持Nvidia和AMD GPU,适配性强;2. 提供低延迟通信原语,性能

2025-04-08浏览详情

[171星]Triton-distributed:分布式计算与通信重叠的高效编译器。亮点:1. 支持Nvidia和AMD GPU,适配性强;2. 提供低延迟通信原语,性能卓越;3. 代码开源,易于扩展

[171星]Triton-distributed:分布式计算与通信重叠的高效编译器。亮点:1. 支持Nvidia和AMD GPU,适配性强;2. 提供低延迟通信原语,性能卓越;3. 代码开源,易于扩展

【[171星]Triton-distributed:分布式计算与通信重叠的高效编译器。亮点:1. 支持Nvidia和AMD GPU,适配性强;2. 提供低延迟通信原语,性能

2025-04-07浏览详情

[80星]r1-ktransformers-guide:让你的DeepSeek-R1 GGUF模型在KTransformers上飞速运行。亮点:1. 性能提升近2倍,比llama.cpp更快;2. 支

[80星]r1-ktransformers-guide:让你的DeepSeek-R1 GGUF模型在KTransformers上飞速运行。亮点:1. 性能提升近2倍,比llama.cpp更快;2. 支

【[80星]r1-ktransformers-guide:让你的DeepSeek-R1 GGUF模型在KTransformers上飞速运行。亮点:1. 性能提升近2倍,比llama.cpp更快;2.

2025-02-24浏览详情

[9.8k星]CuPy:让GPU加速变得简单易用的NumPy/SciPy替代品。亮点:1. 无缝兼容NumPy/SciPy代码,无需修改即可加速;2. 支持CUDA和ROCm平台,适配多种GPU环境;

[9.8k星]CuPy:让GPU加速变得简单易用的NumPy/SciPy替代品。亮点:1. 无缝兼容NumPy/SciPy代码,无需修改即可加速;2. 支持CUDA和ROCm平台,适配多种GPU环境;

【[9.8k星]CuPy:让GPU加速变得简单易用的NumPy/SciPy替代品。亮点:1. 无缝兼容NumPy/SciPy代码,无需修改即可加速;2. 支持CUDA和ROCm

2025-02-10浏览详情

Soperator:在Kubernetes中运行Slurm的解决方案,让分布式模型训练和高性能计算更高效,结合两者优势,实现资源共享和自动扩展

Soperator:在Kubernetes中运行Slurm的解决方案,让分布式模型训练和高性能计算更高效,结合两者优势,实现资源共享和自动扩展

【Soperator:在Kubernetes中运行Slurm的解决方案,让分布式模型训练和高性能计算更高效,结合两者优势,实现资源共享和自动扩展】'nebiu

2024-12-19浏览详情

fast.cu:一个高性能CUDA内核库,包含从零开始编写的超高效GPU计算内核,其矩阵乘法性能超过cuBLAS(在4096×4096矩阵上达到763 TFLOPs),求和规约性能达到3240GB/s

fast.cu:一个高性能CUDA内核库,包含从零开始编写的超高效GPU计算内核,其矩阵乘法性能超过cuBLAS(在4096×4096矩阵上达到763 TFLOPs),求和规约性能达到3240GB/s

【fast.cu:一个高性能CUDA内核库,包含从零开始编写的超高效GPU计算内核,其矩阵乘法性能超过cuBLAS(在4096×4096矩阵上达到763 TFLOP

2024-12-07浏览详情

EquiTriton:高性能神经网络核工具,专为等变神经网络设计,提升计算效率

EquiTriton:高性能神经网络核工具,专为等变神经网络设计,提升计算效率

【EquiTriton:高性能神经网络核工具,专为等变神经网络设计,提升计算效率】'EquiTriton - Performant kernels for equivariant neura

2024-11-16浏览详情

cumesh2sdf:利用CUDA实现的网格到符号距离场(SDF)转换算法,支持PyTorch插件,适用于高性能计算和图形处理

cumesh2sdf:利用CUDA实现的网格到符号距离场(SDF)转换算法,支持PyTorch插件,适用于高性能计算和图形处理

【cumesh2sdf:利用CUDA实现的网格到符号距离场(SDF)转换算法,支持PyTorch插件,适用于高性能计算和图形处理】'Mesh to SDF implement

2024-09-13浏览详情

偶然当程序员却拿下图灵奖,超算榜单之父讲述人生开挂经历

偶然当程序员却拿下图灵奖,超算榜单之父讲述人生开挂经历

科普 【偶然当程序员却拿下图灵奖,超算榜单之父讲述人生开挂经历】
40年前偶然走上程序员道路的Jack Dongarra,是今年的图灵奖 得主

2022-12-19浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦!