【BALROG:一个创新的基准测试框架,专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流A
2024-11-27浏览详情
【Preference Proxy Evaluations (PPE):一个用于评估奖励模型和LLM裁判的基准测试,帮助在大规模LLM训练和评估中复制人类偏好,包含真
2024-10-30浏览详情
正在拼命加载中
我是有底线的
没有更多的页面可以加载啦!