rlhf
Topic | Replies | Views | Activity | |
---|---|---|---|---|
将强化学习重新引入 RLHF |
![]() |
0 | 160 | June 19, 2024 |
使用 PPO 算法进行 RLHF 的 N 步实现细节 |
![]() |
0 | 1032 | November 16, 2023 |
TRL 正式推出,来训练你的首个 RLHF 模型吧! |
![]() |
0 | 1260 | August 10, 2023 |
“StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程 |
![]() |
0 | 1997 | May 5, 2023 |
在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs |
![]() |
0 | 1127 | March 23, 2023 |