#Google# 研究人员推出大模型新基准BIG-Bench，442位作者提出204项任务，可测量模型行为并完成需求预测

麻省理工科技评论
2022-06-19 12:12:39

【Google 研究人员推出大模型新基准BIG-Bench，442位作者提出204项任务，可测量模型行为并完成需求预测】

如果我们仔细思考一下从量子场论到原子物理学、化学、生物学，再到生态学这一系列学科的逻辑递进和层次结构，就会发现一个有意思的现象，即在科学领域：规模的扩大往往会得到新的规律或发现，甚至创造全新的领域。

从此学科到彼学科，每个关卡都展示出了新的行为，也构成了一个丰富的学科主题。所以，或许我们可以得出这样一个结论：数量本身也有质量，数量的大量增加往往会给系统注入具有定性意义的新行为。

在计算机领域也有类似的现象，当语言模型的规模扩大时，也会在性质上表现出新的行为。比如，尽管语言模型目前拥有的所有能力，都不如只在有限领域拥有一定知识的人类，但其已经在语言翻译、编写代码、诊疗疾病等方面发挥了突破性的作用。研究人员可以观察到这些能力的变化，但在新突破发生时，却无法可靠预测规模的变化。

如果语言模型逐渐增大，其数量和质量方面的变化也会拥有潜在的变革性。大型语言模型可能支持更高级的应用程序，也可能会取代人类完成以文本响应为框架的广泛任务。

如果不对其进行适当的控制，它们还可能吸收更多的社会偏见，并反映在技术堆栈和相应的决策过程中。

所以，研究人员必须了解语言模型本身的能力和局限，以及随着模型的演进，这些能力和局限会如何变化。这既有利于推动新技术的发展，又有利于预测模型行为是否偏离人类意图，以便及时采取措施减轻那些潜在的对社会的有害影响，还有利于研究人员将研究精力聚焦到最有前途的方向，避免不当投入研究资源。

戳链接查看详情：Google研究人员推出大模型新基准BIG-Bench，442位作者提出204项任务，可测量模型行为并完成需求预测