搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按时间排序
按相关度排序
51CTO
20 天
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
本文提出了 GRAPE,一种即插即用的 VLA 模型对齐框架,在多种机器人任务场景下均能使用,能够基于轨迹偏好提升机器人策略的泛化能力,并支持将模型对齐到指定目标。 论文一作为北卡罗来纳大学教堂山分校张子健,指导老师为北卡罗来纳大学教堂山分校助理 ...
新浪网
20 天
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室 ...
36氪
22 天
OpenAI被曝自研人形机器人,4年前因缺数据解散团队,如今要用机器人 ...
实际上是在2020年10月,OpenAI就决定不再进行机器人研究,称发现例如RLHF方法可以取得更快的进展。 如今看来,RLHF方法催生了ChatGPT,确实是一个正确 ...
澎湃新闻
23 天
清华、智谱团队:探索RLHF的scaling laws
基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求,提升生成质量。 然而,目前关于 RLHF 的 scaling(扩展)潜力研究仍然相对缺乏,尤其是在模型大小、数据组成和推理预算等关键因素上的影响尚未被 ...
36氪
23 天
清华、智谱团队:探索 RLHF 的 scaling laws
RLHF 的 scaling 效率要低于预训练。 基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求 ...
腾讯网
1 个月
OpenAI前资深算法负责人江旭创建「亮源新创」,打造具身智能陪伴 ...
江旭曾在OpenAI担任资深算法负责人,是ChatGPT最重要训练算法RLHF的发明人之一,曾参与开发理解和执行人类指令的模型InstructGPT,以及强化学习方法 ...
腾讯网
1 个月
离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞
随着语言模型在许多任务上的泛化能力不断提升,以及RLHF逐渐成为对齐训练的默认方法,奖励欺骗在语言模型的RL训练中已经成为一个关键的实践性 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈