梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI DeepSeek版o1,有消息了。 还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。
作为一个AI老博士,个人愚见:大模型技术的市场热度,可能会逐步走入冷静期。 为什么我会这么说呢?在开始解释之前,容我先抛出“Gartner技术成熟度曲线(Gartner Hype Cycle)”这个概念,来方便我们更清晰地理解。
现在国内友商也开始验证 RNN 的 scaling,很欣慰。 我说过很多次,RNN 的 scaling 比 GPT 强。 因为现在的新型 RNN 在扩大后,state 也随之扩大,这是额外的收益。 例如 headsz64 的 1B 的 state 是 24x2048x64 = 3145728 维。 而 headsz64 的 7B 的 state 是 ...
1、合成数据的优势涵盖可以大规模生成,可定制,可避开敏感信息,适应多模态学习和可帮助 AI Alignment 等。但这种看似美好的期许下,模型崩溃风险仍是阻止该技术广泛使用的最大障碍。
DeepSeek版o1,有消息了。 还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。 注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview ...
多模态能力的融合正在改写 AI 发展路径。语音、视觉与自然语言处理的边界日益模糊,以 Transformer 为代表的通用解决方案,正在重塑传统技术领域。
论文中,来自微软亚研院的全华人团队,提出了全新算法rStar-Math,证明了SLM无需从高级模型蒸馏,就能在数学推理上,媲美甚至一举超越o1。 论文链接:https://arxiv.org/pdf/2501.04519 ...