训练AI语言模型的数据，或在2026年耗尽？

麻省理工科技评论
2022-12-07 11:55:28

预训练语言模型【训练AI语言模型的数据，或在2026年耗尽？】

大型语言模型是目前人工智能研究中最热门的领域之一，各公司竞相发布 GPT-3 一类的模型，他们可以写出令人印象深刻的连贯文章，甚至是计算机代码。

但根据一个人工智能预测团队的说法，一个严峻的问题即将出现：我们未来可能没有足够的数据来训练他们。

大型语言模型是使用维基百科、新闻文章、科学论文和书籍等文本内容进行训练的。

近年来，相关研究的趋势是利用越来越多的数据来训练这些模型，以期望它们更准确、更通用。

问题是，最适合用于训练语言模型的数据类型可能在不久的将来耗尽。人工智能研究和预测组织 Epoch 在一篇未经同行评审的论文中指出，数据耗尽最早可能出现于 2026 年。

这个问题源于这样一个事实，即随着研究人员建立更强大、能力更多样的模型，他们必须找到更多的文本来训练他们。

“大型语言模型研究人员越来越担心他们会耗尽这类数据，”人工智能公司 Hugging Face 的研究员泰文·斯考（Teven Le Scao）表示。他没有参与 Epoch 的工作。

另一个可能导致问题的事实是，语言人工智能研究人员将他们用于训练模型的数据为两类：高质量和低质量。

但论文的第一作者，Epoch 研究员巴勃罗·维拉洛博斯（Pablo Villalobos）指出，这两种类型之间的界限是十分模糊的。

戳链接查看详情：网页链接