[99星]Awesome_Think_With_Images:开启视觉与语言模型的深度思考之旅。核心价值在于系统性地整理和推动LVLMs真正通过图像进行思考与推理。亮点:1. 涵盖多种前沿方法,包括基

[99星]Awesome_Think_With_Images:开启视觉与语言模型的深度思考之旅。核心价值在于系统性地整理和推动LVLMs真正通过图像进行思考与推理。亮点:1. 涵盖多种前沿方法,包括基

【[99星]Awesome_Think_With_Images:开启视觉与语言模型的深度思考之旅。核心价值在于系统性地整理和推动LVLMs真正通过图像进行思

2025-06-05浏览详情

[173星]all-rl-algorithms:一站式学习强化学习算法的开源宝库。亮点:1. 18种经典强化学习算法实现,覆盖从基础到前沿;2. 配套Jupyter Notebook,交互式学习,边学

[173星]all-rl-algorithms:一站式学习强化学习算法的开源宝库。亮点:1. 18种经典强化学习算法实现,覆盖从基础到前沿;2. 配套Jupyter Notebook,交互式学习,边学

【[173星]all-rl-algorithms:一站式学习强化学习算法的开源宝库。亮点:1. 18种经典强化学习算法实现,覆盖从基础到前沿;2. 配套Jupyte

2025-04-04浏览详情

[209星]X-R1:低成本训练0.5B R1-Zero模型的高效框架。亮点:1. 仅需4张3090/4090显卡,1小时训练成本不到7美元;2. 10分钟内即可输出“aha moment”,加速模型

[209星]X-R1:低成本训练0.5B R1-Zero模型的高效框架。亮点:1. 仅需4张3090/4090显卡,1小时训练成本不到7美元;2. 10分钟内即可输出“aha moment”,加速模型

【[209星]X-R1:低成本训练0.5B R1-Zero模型的高效框架。亮点:1. 仅需4张3090/4090显卡,1小时训练成本不到7美元;2. 10分钟内即可输出

2025-02-16浏览详情

DeepSeek R1 训练过程概览

DeepSeek R1 训练过程概览

【DeepSeek R1 训练过程概览】
DeepSeek R1 通过创新的纯强化学习方法 (R1-Zero) 和多阶段训练流程 (R1),在不依赖大规模监督数据

2025-01-30浏览详情

[68星]RLLoggingBoard:一款助力强化学习训练的可视化工具,能让训练过程更易懂、调试更轻松,就像给复杂的训练流程装上了一扇透明的观察窗

[68星]RLLoggingBoard:一款助力强化学习训练的可视化工具,能让训练过程更易懂、调试更轻松,就像给复杂的训练流程装上了一扇透明的观察窗

【[68星]RLLoggingBoard:一款助力强化学习训练的可视化工具,能让训练过程更易懂、调试更轻松,就像给复杂的训练流程装上了一扇透明的

2025-01-11浏览详情

Syllabus:为强化学习代理设计的课程学习API,让复杂的课程学习方法更易于研究者使用,支持多进程环境同步课程

Syllabus:为强化学习代理设计的课程学习API,让复杂的课程学习方法更易于研究者使用,支持多进程环境同步课程

【Syllabus:为强化学习代理设计的课程学习API,让复杂的课程学习方法更易于研究者使用,支持多进程环境同步课程】'Syllabus: Synchron

2024-12-19浏览详情

BALROG:一个创新的基准测试框架,专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流AI API集成,提供完整的评估工具集,可用于测试模型在长

BALROG:一个创新的基准测试框架,专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流AI API集成,提供完整的评估工具集,可用于测试模型在长

【BALROG:一个创新的基准测试框架,专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流A

2024-11-27浏览详情

OGBench:一个用于测试和比较离线目标导向强化学习算法的基准测试平台,提供多种环境和数据集,支持像素级和状态级观察,拥有清晰的参考实现和易于使用的API

OGBench:一个用于测试和比较离线目标导向强化学习算法的基准测试平台,提供多种环境和数据集,支持像素级和状态级观察,拥有清晰的参考实现和易于使用的API

【OGBench:一个用于测试和比较离线目标导向强化学习算法的基准测试平台,提供多种环境和数据集,支持像素级和状态级观察,拥有清晰的参

2024-11-01浏览详情

AgibotTech agibot_x1_train:智元灵犀X1所使用的强化学习训练代码,可配合智元灵犀X1配套的推理软件进行真机和仿真的行走调试,或导入其他机器人模型进行训练。智元灵犀X1 是由智

AgibotTech agibot_x1_train:智元灵犀X1所使用的强化学习训练代码,可配合智元灵犀X1配套的推理软件进行真机和仿真的行走调试,或导入其他机器人模型进行训练。智元灵犀X1 是由智

【AgibotTech agibot_x1_train:智元灵犀X1所使用的强化学习训练代码,可配合智元灵犀X1配套的推理软件进行真机和仿真的行走调试,或导

2024-10-27浏览详情

DeepSeek-Prover-V1.5:基于强化学习和蒙特卡洛树搜索的证明助手,专为Lean 4定理证明设计,优化了训练和推理过程

DeepSeek-Prover-V1.5:基于强化学习和蒙特卡洛树搜索的证明助手,专为Lean 4定理证明设计,优化了训练和推理过程

【DeepSeek-Prover-V1.5:基于强化学习和蒙特卡洛树搜索的证明助手,专为Lean 4定理证明设计,优化了训练和推理过程】'DeepSeek-Prover

2024-08-21浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦!