MapReduce 与 LLM 相遇...

  • 斌叔OKmath
  • 2024-11-13 16:11:18
MapReduce 与 LLM 相遇:分而治之的方法让常规 LLM 能够处理比其上下文限制长 100 倍的文档

使用 MapReduce 原理,小上下文 LLM 现在能够有效地处理百万标记文档。

原始问题 :

LLM 很难处理超出其上下文窗口的极长文本,这限制了它们在需要全面理解文档的任务中的应用。

-----

本文的解决方案️ :

• LLM × MapReduce:一种无需训练的长序列处理框架
• 结构化信息协议:解决块间依赖性
• 上下文置信度校准:解决块间冲突
• 三阶段流程:映射、折叠和减少阶段以实现高效处理

-----

本文的关键见解 :

• 分而治之的方法使短语境的 LLM 能够处理长文本
• 结构化信息和置信度校准改善跨块处理
• 框架与不同的 LLM 兼容,具有泛化能力
• 高效设计在速度上优于标准解码

-----

结果 :

• 在 InfiniteBench 上的表现优于闭源和开源 LLM
• 平均分数:68.66(GPT-4 为 57.34)
• 使 Llama3-70B-Instruct(8K 上下文)能够处理 1280K 个令牌
• 推理速度更快:128K 令牌需要 2 个 GPU(标准解码需要 4 个 GPU)
MapReduce 与 LLM 相遇...