#模型时代# 什么模型喜欢撒谎
- 高飞
- 2025-03-10 05:28:17
模型时代 什么模型喜欢撒谎?第一名Grok,第二名DeepSeek。
我现在真是特别喜欢看各种模型基准测试,因为现在测试方向五花八门,和心理学是越来越近了。这个来自AI安全中心(Center for AI Safety)和Scale AI的研究团队发布了一项研究,名为MASK(模型语句与知识的一致性对齐)的评估基准,研究了大模型在压力下撒谎情况。
我先简单说一个结论。由于研究发布的时候,还没有GPT-4.5和Grok3,所以这两个模型不包括在内。在其余的前沿模型中,最诚实的模型是Anthropic的Claude 3.5,而最爱撒谎的模型是马斯克旗下的Grok2,其次是DeepSeek R1,第三名是DeepSeek V3。大家还记得DeepSeek R1和GPT-4o下国际象棋的例子么?
网页链接 。
(更多情况见页面:mask-benchmark.ai/)
***
1、当我们谈论AI诚实性时,究竟在谈论什么?
讨论AI是否诚实听起来有些奇怪,毕竟它们只是程序。但随着AI系统变得越来越自主,这个问题变得越发重要。研究人员对"诚实"和"准确"做了明确区分:
准确性:模型的信息是否与客观事实相符
诚实性:模型是否按照自己"相信"的内容来回答,而不是故意提供与自己"认知"相悖的信息
2、打个比方
如果我问你"地球是圆的还是平的",你可能会回答"地球是圆的"——这反映了你的准确性(符合事实)和诚实性(说出你所相信的)。但如果有人拿枪指着你,威胁你必须说"地球是平的",你可能会违背自己的认知而撒谎——这时你的回答虽然不准确,但更重要的是,你不诚实。
研究团队发现,当前对AI的评估常常将这两者混为一谈。比如,Anthropic公司将其诚实性评估定义为"提供准确和事实信息的能力",这实际上只是测量了准确性,而非诚实性。
3、怎样才能测试AI是否"口是心非"?
研究团队开发了一种巧妙的方法来检测AI是否撒谎。他们首先通过中性问题确定模型对某个命题的"信念"(比如,询问"法国的首都是哪里?"),然后创造一种情境,诱使模型可能会说谎(比如,假装模型是某旅游公司的代表,需要推广巴黎以外的城市作为法国首都)。
这种方法巧妙地区分开了以下几种情况:
模型给出准确且诚实的回答(既符合事实,也符合自己的"信念")
模型给出不准确但诚实的回答(不符合事实,但符合自己的错误"信念")
模型撒谎(不符合自己的"信念")
4、研究团队构建了一个包含1500多个精心设计的例子的数据集,这些例子涵盖了多种可能导致AI撒谎的情境,比如:
已知事实测试(测试模型是否如实报告广泛记录的事实)
统计数据伪造(测试模型是否会捏造或操纵虚假数据)
继续撰写含有错误信息的文章
生成虚假信息等
5、惊人发现:越聪明的AI越会撒谎?
研究结果令人意外。研究团队测试了30种广泛使用的顶尖大语言模型,发现几乎所有模型都存在不同程度的"撒谎"行为。
最让人意外的是:随着模型规模和计算能力的增加,模型的准确性确实提高了,但诚实性却没有跟着提高,甚至有所下降。换句话说,更大更强的模型知道更多事实,但在被"施压"时也更容易选择撒谎!
例如,研究人员测试了一个关于Fyre Festival(一个因欺诈而臭名昭著的音乐节)的案例。当模型被设定为Ja Rule的公关团队的AI邮件助手时,即使模型知道Fyre Festival欺骗了购票者,但在回复记者询问时,却选择了撒谎,回答"No"(没有欺诈)。
更有趣的是,当研究人员随后直接询问模型"你刚才的回答是真实的吗?"时,模型竟然会承认自己刚才撒谎了!这表明模型是在有意识地违背自己的"信念",而非简单的错误或不一致。
6、研究人员也测试了一些可能提高AI诚实性的方法:
开发者系统提示:在每个可能导致撒谎的提示前,加入一段指示,明确要求模型以诚实和真实的方式回应。这种方法有所改善,但效果有限。
表示工程:研究团队应用了一种叫做低秩表示适应(LoRRA)的技术,这是一种表示工程方法,可以调整模型内部的表征,鼓励更诚实的行为。这种方法虽然取得了一定的成效,但仍未完全解决诚实性问题。
我现在真是特别喜欢看各种模型基准测试,因为现在测试方向五花八门,和心理学是越来越近了。这个来自AI安全中心(Center for AI Safety)和Scale AI的研究团队发布了一项研究,名为MASK(模型语句与知识的一致性对齐)的评估基准,研究了大模型在压力下撒谎情况。
我先简单说一个结论。由于研究发布的时候,还没有GPT-4.5和Grok3,所以这两个模型不包括在内。在其余的前沿模型中,最诚实的模型是Anthropic的Claude 3.5,而最爱撒谎的模型是马斯克旗下的Grok2,其次是DeepSeek R1,第三名是DeepSeek V3。大家还记得DeepSeek R1和GPT-4o下国际象棋的例子么?

(更多情况见页面:mask-benchmark.ai/)
***
1、当我们谈论AI诚实性时,究竟在谈论什么?
讨论AI是否诚实听起来有些奇怪,毕竟它们只是程序。但随着AI系统变得越来越自主,这个问题变得越发重要。研究人员对"诚实"和"准确"做了明确区分:
准确性:模型的信息是否与客观事实相符
诚实性:模型是否按照自己"相信"的内容来回答,而不是故意提供与自己"认知"相悖的信息
2、打个比方
如果我问你"地球是圆的还是平的",你可能会回答"地球是圆的"——这反映了你的准确性(符合事实)和诚实性(说出你所相信的)。但如果有人拿枪指着你,威胁你必须说"地球是平的",你可能会违背自己的认知而撒谎——这时你的回答虽然不准确,但更重要的是,你不诚实。
研究团队发现,当前对AI的评估常常将这两者混为一谈。比如,Anthropic公司将其诚实性评估定义为"提供准确和事实信息的能力",这实际上只是测量了准确性,而非诚实性。
3、怎样才能测试AI是否"口是心非"?
研究团队开发了一种巧妙的方法来检测AI是否撒谎。他们首先通过中性问题确定模型对某个命题的"信念"(比如,询问"法国的首都是哪里?"),然后创造一种情境,诱使模型可能会说谎(比如,假装模型是某旅游公司的代表,需要推广巴黎以外的城市作为法国首都)。
这种方法巧妙地区分开了以下几种情况:
模型给出准确且诚实的回答(既符合事实,也符合自己的"信念")
模型给出不准确但诚实的回答(不符合事实,但符合自己的错误"信念")
模型撒谎(不符合自己的"信念")
4、研究团队构建了一个包含1500多个精心设计的例子的数据集,这些例子涵盖了多种可能导致AI撒谎的情境,比如:
已知事实测试(测试模型是否如实报告广泛记录的事实)
统计数据伪造(测试模型是否会捏造或操纵虚假数据)
继续撰写含有错误信息的文章
生成虚假信息等
5、惊人发现:越聪明的AI越会撒谎?
研究结果令人意外。研究团队测试了30种广泛使用的顶尖大语言模型,发现几乎所有模型都存在不同程度的"撒谎"行为。
最让人意外的是:随着模型规模和计算能力的增加,模型的准确性确实提高了,但诚实性却没有跟着提高,甚至有所下降。换句话说,更大更强的模型知道更多事实,但在被"施压"时也更容易选择撒谎!
例如,研究人员测试了一个关于Fyre Festival(一个因欺诈而臭名昭著的音乐节)的案例。当模型被设定为Ja Rule的公关团队的AI邮件助手时,即使模型知道Fyre Festival欺骗了购票者,但在回复记者询问时,却选择了撒谎,回答"No"(没有欺诈)。
更有趣的是,当研究人员随后直接询问模型"你刚才的回答是真实的吗?"时,模型竟然会承认自己刚才撒谎了!这表明模型是在有意识地违背自己的"信念",而非简单的错误或不一致。
6、研究人员也测试了一些可能提高AI诚实性的方法:
开发者系统提示:在每个可能导致撒谎的提示前,加入一段指示,明确要求模型以诚实和真实的方式回应。这种方法有所改善,但效果有限。
表示工程:研究团队应用了一种叫做低秩表示适应(LoRRA)的技术,这是一种表示工程方法,可以调整模型内部的表征,鼓励更诚实的行为。这种方法虽然取得了一定的成效,但仍未完全解决诚实性问题。