rlhf
| 话题 | 回复 | 浏览量 | 活动 | |
|---|---|---|---|---|
| 将强化学习重新引入 RLHF |
|
0 | 161 | 2024 年6 月 19 日 |
| 使用 PPO 算法进行 RLHF 的 N 步实现细节 |
|
0 | 1056 | 2023 年11 月 16 日 |
| TRL 正式推出,来训练你的首个 RLHF 模型吧! |
|
0 | 1274 | 2023 年8 月 10 日 |
| “StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程 |
|
0 | 2013 | 2023 年5 月 5 日 |
| 在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs |
|
0 | 1130 | 2023 年3 月 23 日 |