今年以来,Best-of-N (BoN) 方法火爆 LLM 圈子,例如 Google DeepMind 提出 BoND (Distillation) 做 RLHF、DeepMind 提出改进 BoN 的 GenRM 算法、斯坦福和剑桥大学联合推出的“无限猴子定理”、ETH 提出的 BoN Alignment... 就在最近,Anthropic 尝试在越狱问题上使用 BoN,推出了 ...
近期,人工智能安全领域的一项新研究引发了广泛关注。据404 Media报道,人工智能公司Anthropic联合牛津大学、斯坦福大学和MATS的研究人员,共同揭示了大型语言模型(LLM)的安全防护措施存在的显著脆弱性。令人担忧的是,这些防护措施不仅容易被绕过,而且绕过过程甚至可以自动化。
标题:Anthropic研究发现:打错字可助攻解锁GPT-4等AI模型秘密 ...