#Google# 研究人员推出大模型新基准BIG-Bench,442位作者提出204项任务,可测量模型行为并完成需求预测

  • 麻省理工科技评论
  • 2022-06-19 12:12:39
Google 研究人员推出大模型新基准BIG-Bench,442位作者提出204项任务,可测量模型行为并完成需求预测】

如果我们仔细思考一下从量子场论到原子物理学、化学、生物学,再到生态学这一系列学科的逻辑递进和层次结构,就会发现一个有意思的现象,即在科学领域:规模的扩大往往会得到新的规律或发现,甚至创造全新的领域。

从此学科到彼学科,每个关卡都展示出了新的行为,也构成了一个丰富的学科主题。所以,或许我们可以得出这样一个结论:数量本身也有质量,数量的大量增加往往会给系统注入具有定性意义的新行为。

计算机 领域也有类似的现象,当语言模型的规模扩大时,也会在性质上表现出新的行为。比如,尽管语言模型目前拥有的所有能力,都不如只在有限领域拥有一定知识的人类,但其已经在语言翻译、编写代码、诊疗疾病等方面发挥了突破性的作用。研究人员可以观察到这些能力的变化,但在新突破发生时,却无法可靠预测规模的变化。

如果语言模型逐渐增大,其数量和质量方面的变化也会拥有潜在的变革性。大型语言模型可能支持更高级的应用程序,也可能会取代人类完成以文本响应为框架的广泛任务。

如果不对其进行适当的控制,它们还可能吸收更多的社会偏见,并反映在技术堆栈和相应的决策过程中。

所以,研究人员必须了解语言模型本身的能力和局限,以及随着模型的演进,这些能力和局限会如何变化。这既有利于推动新技术的发展,又有利于预测模型行为是否偏离人类意图,以便及时采取措施减轻那些潜在的对社会的有害影响,还有利于研究人员将研究精力聚焦到最有前途的方向,避免不当投入研究资源。

戳链接查看详情:Google研究人员推出大模型新基准BIG-Bench,442位作者提出204项任务,可测量模型行为并完成需求预测
#Google# 研究人员推出大模型新基准BIG-Bench,442位作者提出204项任务,可测量模型行为并完成需求预测#Google# 研究人员推出大模型新基准BIG-Bench,442位作者提出204项任务,可测量模型行为并完成需求预测#Google# 研究人员推出大模型新基准BIG-Bench,442位作者提出204项任务,可测量模型行为并完成需求预测