LLM API 的 Batch 批处理一般可以...

agentzh
2024-12-27 19:49:52

LLM API 的 Batch 批处理一般可以节约一半的费用，至少 OpenAI、Anthropic 和 Google 的大模型 API 都是如此。之前我们用 100 个很简单的 batch 任务测试了一下这三家的较小的模型，分别是 gpt-4o-mini、claude-3.5-haiku 和 gemini-1.5-flash。每个 batch 任务只放一两个请求。
结果发现 OpenAI 的 batch 平均 e2e 处理时间（从提交 batch 到 batch 完成）是 74 秒。而 Anthropic 最快，只有 44 秒。Google 最慢，平均需要近 9 分钟。
Google 的批处理任务并发看起来最低，只有 4，而且即使真正开始跑了，最快也需要 165 秒，感觉他们故意限制了 batch 的资源使用。批处理 API AI创造营