English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 30 天
时间不限
过去 1 小时
过去 24 小时
过去 7 天
按时间排序
按相关度排序
51CTO
20 天
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
本文提出了 GRAPE,一种即插即用的 VLA 模型对齐框架,在多种机器人任务场景下均能使用,能够基于轨迹偏好提升机器人策略的泛化能力,并支持将模型对齐到指定目标。 论文一作为北卡罗来纳大学教堂山分校张子健,指导老师为北卡罗来纳大学教堂山分校助理 ...
新浪网
20 天
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室 ...
36氪
22 天
OpenAI被曝自研人形机器人,4年前因缺数据解散团队,如今要用机器人 ...
实际上是在2020年10月,OpenAI就决定不再进行机器人研究,称发现例如RLHF方法可以取得更快的进展。 如今看来,RLHF方法催生了ChatGPT,确实是一个正确 ...
澎湃新闻
23 天
清华、智谱团队:探索RLHF的scaling laws
基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求,提升生成质量。 然而,目前关于 RLHF 的 scaling(扩展)潜力研究仍然相对缺乏,尤其是在模型大小、数据组成和推理预算等关键因素上的影响尚未被 ...
36氪
23 天
清华、智谱团队:探索 RLHF 的 scaling laws
RLHF 的 scaling 效率要低于预训练。 基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈