Anthropic发布AI安全策略更新

芝能-芯芯
2024-10-19 10:44:10

Anthropic发布AI安全策略更新
Anthropic 发布了最新的 AI 安全策略更新，明确定义了 ASL-3 和 ASL-4 的部分能力。这一更新引发了关于 Claude 3.5 Opus 和 GPT-4.5 是否即将发布的猜测。目前，所有模型均符合 ASL-2 标准，该标准反映了当前行业的最佳实践。
关键能力阈值
如果一个模型能够独立执行通常需要人类专家参与的复杂人工智能研究任务，并有可能以不可预测的方式显著加速 AI 的发展，那么需要更高的安全标准（可能是 ASL-4 或更高等级的标准）以及额外的安全措施。这旨在避免 AI 发展速度超过我们应对新风险的能力。
如果一个模型能够帮助具有一定技术背景的人员制造或部署 CBRN 武器，需要加强安全和部署措施（ASL-3 标准）。
内部访问控制：加强对模型权限的保护，确保只有授权人员能够访问和修改模型。
多层次的部署风险防范：
实时和异步监控
快速响应协议
彻底的预部署红队测试

这些措施旨在确保模型在部署过程中不会被滥用，特别是在涉及化学、生物、放射和核（CBRN）武器的情况下。这些严格的措施解释了为什么许多公司选择将高级模型存储在高度安全的地下设施中，以防止被盗用和模型自我越狱。这不仅是为了保护公司的知识产权，也是为了确保社会的安全。
未来的高级模型

未来的更高级模型（如 ASL-3 和 ASL-4 标准的模型）将成为公司或政府用于保持自身竞争优势的原生资产。公众可能很难接触到这些能力强大的新模型，因为它们将受到严格的安全和访问控制。

Anthropic 的最新 AI 安全策略更新反映了公司在确保 AI 技术安全性和可控性方面的坚定承诺。虽然这可能意味着公众接触不到最强大的 AI 模型，但这也是为了保护社会免受潜在的风险。未来，随着技术的不断发展，安全标准和措施也会持续演进

芝能日报微博新知