目前现有的长上下文语言模型(long-context language models)的评估基准主要集中在长上下文回忆任务上,这些任务要求模型在处理大量无关信息的同时生成简短的响应,没有充分评估模型在整合分散信息和生成长输出方面的能力。
很多大模型的官方参数都声称自己可以输出长达32K tokens的内容,但这数字实际上是存在水分的?? 最近,陈丹琦团队提出了一个全新的基准测试工具LONGPROC,专门用于检测长上下文模型处理复杂信息并生成回复的能力。 实验结果有点令人意外,团队发现 ...
近日,卡尔加里大学(University of Calgary)获得了一笔高达2680万加元的资助,这笔资助将为改善家庭纠纷的解决方式、减轻冲突对儿童的危害而推出一系列创新举措。这项倡议由阿尔伯塔省法律基金会(Alberta Law Foundation)资助,旨在通过设立研究主席和转型中心,推动家庭司法系统的根本性变革。