同样的模型qwen3-30B-3A...
- Transformer-周
- 2025-05-06 09:06:06
同样的模型qwen3-30B-3A,A100什么都不开就单卡,2nodes, 4+4 T4 开TP+EP(tpsize=ep),每T4卡一个expert,按理说8T4 是128G显存,A100只有80G,但是8T4连 64 tokens out 的100并发都接受不了(可能跟模型有点关系,3A有可能不EPLB ,结果都走一个卡上去了,直接打死),但是单卡A100 64 out的 1000并发也撑得住(8000多TPS),1500也撑得住(1500TPS左右),长下文(1024的,并发100,能到2000多TPS)也撑的住,所以别说prefill没有用了,T4显存多,还是因为算不过来,没活到decode的kv优势就活活憋死,直接crash
。可能也有moe的一小部分问题,但是关了ep,试了一下,也没什么提升
