同样的模型qwen3-30B-3A...

Transformer-周
2025-05-06 09:06:06

同样的模型qwen3-30B-3A，A100什么都不开就单卡，2nodes， 4+4 T4 开TP+EP（tpsize=ep），每T4卡一个expert，按理说8T4 是128G显存，A100只有80G，但是8T4连 64 tokens out 的100并发都接受不了（可能跟模型有点关系，3A有可能不EPLB ，结果都走一个卡上去了，直接打死），但是单卡A100 64 out的 1000并发也撑得住（8000多TPS），1500也撑得住（1500TPS左右），长下文（1024的，并发100,能到2000多TPS）也撑的住，所以别说prefill没有用了，T4显存多，还是因为算不过来,没活到decode的kv优势就活活憋死，直接crash。可能也有moe的一小部分问题，但是关了ep，试了一下，也没什么提升