[LG]《Flow-DPO: Improving...

爱可可-爱生活
2024-11-04 12:56:38

[LG]《Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning》Y Deng, P Mineiro [University of California, Los Angeles & Microsoft Research] (2024) 机器学习人工智能论文