Anthropic模型评估建议

量子位
2024-11-21 13:48:13

Anthropic模型评估建议

如何在AI模型的评估过程中，确保评测结果准确、可靠？

Anthropic的新研究给出了五点建议，帮助研究者更精确地判断模型的真实能力。

1. 使用中心极限定理：确保评测结果具有统计稳健性，不受特定问题集的偶然性影响。

由于评测中通常会使用成百上千个不同类型的问题，如MMLU（多任务语言理解评估）涵盖了从科学知识到编程问题的各种题目。

为了得到一个总体的评估分数，研究人员会对每个问题单独打分，然后取这些分数的平均值。

然而，这个“观察到的平均值”只是基于特定一组问题的表现，可能受到所选问题的偶然性影响。

中心极限定理（Central Limit Theorem）指出，当我们有大量独立且分布相似的问题时，这些问题的平均得分会趋近于一个正态分布。

利用这一理论，我们不只关注到了当前评测的平均分，还可以推断出模型在整个“问题宇宙”中的平均表现。

2. 聚类标准误（Cluster standard errors）：处理相关性高的问题，避免低估得分的真实波动。

在实际评测中，许多问题并不是完全独立的，而是存在一定的相关性。

例如，在阅读理解评测中，多个问题可能基于同一篇文章。

这种情况下，模型在回答这些相关问题时，其表现可能会受到相同信息源的影响，导致这些问题的得分之间存在关联。

如果忽略这种关联，直接应用中心极限定理来计算标准误差，可能会低估得分的真实波动范围。

因此，推荐使用聚类标准误（Clustered Standard Errors），将相关性高的问题归为一组（例如，同一篇文章的所有问题），并在统计分析中按这些组进行聚类。

研究表明，应用聚类标准误后，常见评测的标准误差可能会比未聚类时大三倍以上。

3. 减少问题内的方差：多次采样或概率计算，提高评测的精确度。

在评测过程中，模型在回答同一个问题时可能会有不同的表现，导致得分存在随机波动。

这种波动增加了整体评测的方差，使得我们对模型真实能力的估计变得不够精确。

为了提高评测的精确度，建议采取以下两种策略来减少这种随机波动：

1）多次采样（适用于链式思考推理的评测）：对于使用链式思考（Chain-of-Thought, CoT）推理的评测，可以多次让模型回答同一个问题，然后取这些回答的平均得分作为最终得分。

2）使用下一个词概率（适用于非链式思考的评测）：对于不依赖链式思考的评测，可以利用模型生成特定答案的概率来确定得分。这种方法消除了随机波动，因为概率是确定性的，不会因为每次回答的不同而变化。

4. 配对差异分析：消除问题难度的干扰，更准确地评估模型差异。

我们单纯地比较模型的平均得分，可能会受到具体问题选择的影响。

例如，如果评测中的问题刚好更适合某个模型的优势，那么这个模型的表现可能会显得更好，但这不一定反映其整体能力的真实差异。

为了解决这个问题，推荐使用**配对差异分析**（Paired Differences Test）。

具体来说，我们在同一组问题上同时评测两个模型，然后比较它们在每个问题上的得分差异。

这种方法的优势在于，它消除了每个问题本身难度的影响，因为每个问题对于两个模型都是相同的。

这意味着，当一个模型在某个问题上表现良好时，另一个模型也有较大的可能性表现良好。

配对差异分析利用了这一点，通过比较同一问题上的表现差异，进一步减少了得分波动的影响，从而更准确地评估模型间的真实差异。

5. 使用统计功效分析：确保评测设计具有足够的敏感度，能够检测到预期的模型差异。

在统计分析中，统计功效（Statistical Power）指的是在真实存在差异的情况下，正确检测到这种差异的能力。

如果评测中的问题数量不足，即使两个模型之间存在实际差异，评测结果也可能无法显现出来。

这不仅会导致遗漏有价值的性能提升，还可能让我们误以为两个模型的表现相当，从而错过优化的机会。

为了避免这种情况，建议在设计评测时进行功效分析（Power Analysis）。

功效分析帮助我们确定需要多少个问题才能在特定的置信水平下，检测到预期的模型差异。

具体来说，研究人员可以根据以下因素进行计算：

• 预期的效应大小（Effect Size）：即我们希望检测到的两个模型之间的性能差异。例如，我们可能希望检测到两个模型之间3个百分点的得分差异。

• 假设检验的显著性水平（Alpha）：通常设定为0.05，表示我们愿意接受5%的误判概率。

• 功效（Power）：通常设定为80%或90%，表示我们希望有80%或90%的概率检测到真实存在的差异。

感兴趣的小伙伴可以阅读：网页链接