槁 RLHF - 搜索 News

36氪23 天

清华、智谱团队：探索 RLHF 的 scaling laws

RLHF 的 scaling 效率要低于预训练。基于人类反馈的强化学习（RLHF）是优化大语言模型（LLM）行为的关键技术，能够让模型更符合人类偏好和需求 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果