发布两月俘获1亿用户，ChatGPT起源竟要从40年前说起？

麻省理工科技评论
2023-02-11 15:40:20

微软正式将chatgpt引入必应【发布两月俘获1亿用户，ChatGPT起源竟要从40年前说起？】

ChatGPT 已经无处不在。2022 年 12 月，总部位于美国旧金山的初创公司 OpenAI 发布了这款网页应用，它几乎在一夜之间成为了热门话题。据估计，这是有史以来用户增长最快的互联网服务，在发布两个月后就捕获了 1 亿用户。我的家人甚至都在讨论 ChatGPT。

很快，微软与 OpenAI 达成了价值 100 亿美元的多年合作，这项技术现在正被内置到 Office 软件和必应搜索引擎中。搜索引擎霸主谷歌感受到了威胁并迅速作出了应对，它推出了自己的人工智能聊天机器人 Bard，由 LaMDA 模型驱动。

但 OpenAI 的突破并不是凭空而来的，ChatGPT，是迄今为止历经多年的一系列大型语言模型中最完善的迭代。

ChatGPT 是基于 GPT-3 模型的、一个由 OpenAI 开发的大型语言模型。语言模型是一种神经网络，它使用了海量的文本进行训练。

因为文本是由不同长度的字母和单词序列组成的，所以语言模型需要一种能够理解这类数据的神经网络。1980 年代发明的递归神经网络可以处理单词序列，但它们的训练速度很慢，而且会忘记序列前面的单词。

1997 年，计算机科学家塞普·霍克雷特（Sepp Hochreiter）和尤尔根·施米德杜伯尔（Jürgen Schmidhuber）发明了 LTSM（长短期记忆，Long Short-Term Memory）网络，解决了这个问题。这是一种具有特殊组件的递归神经网络，允许将序列前面的数据保留更长的时间。LTSM 可以处理数百个字长的文本串，但它们的语言技能有限。

今天新一代大型语言模型背后的突破在于，谷歌的研究人员发明了 Transformers，这也是一种神经网络，可以跟踪每个单词或短语在序列中出现的位置。

单词的确切含义通常取决于在它之前或之后的其他单词的意思。通过跟踪这些上下文信息，Transformers 可以处理更长的文本字符串，并更准确地得出单词的真实含义。例如，“千层”在句子“一石激起千层浪”和“我爱吃千层蛋糕”中的意思是截然不同的。

戳链接查看详情：发布两月俘获1亿用户，ChatGPT起源竟要从40年前说起？