AI2 Safety Tool：用于生成语言模型和安全分类器的简单安全评估工具，主要功能包括对生成语言模型在多个安全基准测试上的表现进行评估，以及对安全分类器在检测提示有害性、响应有害性和响应拒绝等任

爱可可-爱生活
2024-09-02 05:18:10

【AI2 Safety Tool：用于生成语言模型和安全分类器的简单安全评估工具，主要功能包括对生成语言模型在多个安全基准测试上的表现进行评估，以及对安全分类器在检测提示有害性、响应有害性和响应拒绝等任务上的性能进行评价】'safety-eval - A simple evaluation of generative language models and safety classifiers.' GitHub: github.com/allenai/safety-eval AI安全评估语言模型安全分类器