bon - 搜索 News

Anthropic 发现了一种 AI 越狱方法，安全护栏崩塌，文本视觉语音全部沦陷

今年以来，Best-of-N (BoN) 方法火爆 LLM 圈子，例如 Google DeepMind 提出 BoND (Distillation) 做 RLHF、DeepMind 提出改进 BoN 的 GenRM 算法、斯坦福和剑桥大学联合推出的“无限猴子定理”、ETH 提出的 BoN Alignment... 就在最近，Anthropic 尝试在越狱问题上使用 BoN，推出了 ...

1 天on MSN

AI安全防护存漏洞，改变提示词就能“越狱”GPT-4等模型？

近期，人工智能安全领域的一项新研究引发了广泛关注。据404 Media报道，人工智能公司Anthropic联合牛津大学、斯坦福大学和MATS的研究人员，共同揭示了大型语言模型（LLM）的安全防护措施存在的显著脆弱性。令人担忧的是，这些防护措施不仅容易被绕过，而且绕过过程甚至可以自动化。

来自MSN1 天

Anthropic研究发现：打错字可助攻解锁GPT-4等AI模型秘密

标题：Anthropic研究发现：打错字可助攻解锁GPT-4等AI模型秘密 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点