训练AI语言模型的数据,或在2026年耗尽?

  • 麻省理工科技评论
  • 2022-12-07 11:55:28
预训练语言模型 【训练AI语言模型的数据,或在2026年耗尽?】

大型语言模型 是目前人工智能 研究中最热门的领域之一,各公司竞相发布 GPT-3 一类的模型,他们可以写出令人印象深刻的连贯文章,甚至是计算机代码。

但根据一个人工智能预测团队的说法,一个严峻的问题即将出现:我们未来可能没有足够的数据来训练他们。

大型语言模型是使用维基百科、新闻文章、科学论文和书籍等文本内容进行训练的。

近年来,相关研究的趋势是利用越来越多的数据来训练这些模型,以期望它们更准确、更通用。

问题是,最适合用于训练语言模型 的数据类型可能在不久的将来耗尽。人工智能研究和预测组织 Epoch 在一篇未经同行评审的论文中指出,数据耗尽最早可能出现于 2026 年。

这个问题源于这样一个事实,即随着研究人员建立更强大、能力更多样的模型,他们必须找到更多的文本来训练他们。

“大型语言模型研究人员越来越担心他们会耗尽这类数据,”人工智能公司 Hugging Face 的研究员泰文·斯考(Teven Le Scao)表示。他没有参与 Epoch 的工作。

另一个可能导致问题的事实是,语言人工智能研究人员将他们用于训练模型的数据为两类:高质量和低质量。

但论文的第一作者,Epoch 研究员巴勃罗·维拉洛博斯(Pablo Villalobos)指出,这两种类型之间的界限是十分模糊的。

戳链接查看详情:网页链接
训练AI语言模型的数据,或在2026年耗尽?