微软高管称即将发布GPT-4，或实现文本、图像、语音等多模态运行

麻省理工科技评论
2023-03-15 12:24:14

gpt-4下周发布【微软高管称即将发布GPT-4，或实现文本、图像、语音等多模态运行】

据悉，近日，微软德国首席技术官安德烈亚斯·布劳恩（Andreas Braun）对媒体表示：“我们即将推出 GPT-4，届时我们将推出多种模态的模型，提供完全不同的可能性，例如视频。”

即将发布的 GPT-4 ，是 OpenAI 创建的预训练生成模型（Generative Pre-trained Transformer，GPT）的最新版本。作为一种深度学习技术，该系列的模型将通过人工神经网络实现对包括文章生成、代码编写等在内的诸多复杂的自然语言任务的处理。

聊天机器人 ChatGPT 基于 GPT-3.5 架构开发，自推出以来已迅速风靡全球。从理论上说，GPT-4 在技术上将会比 ChatGPT 更进一步。

在大型语言模型中，模态指的是模型能够处理的输入类型，包括文本、语音、图像、视频等多种输入源。多模态大型语言模型，意味着其能够从各种类型的输入源中获取信息并正常运行。

相较于基于文本的以 ChatGPT 为主的单模态大型语言模型，大大增加了从图像、视频等内容中获取信息的可能性。

据了解，多模态大型语言模型 GPT-4 或将支持文本、图像、声音和视频等四种模态。但由于目前官方尚未公布 GPT-4 的具体细节，因此还不清楚布劳恩在活动上分享的是 GPT-4 特有的多模态，还是其他的多模态。

在微软德国业务战略总监霍尔格·肯恩（Holger Kenn）看来，多模态人工智能“不仅可以将文本转换成相应的图像，还可以将文本转换成音乐和视频”。

经媒体证实，GPT-4 将能够支持基本上任何一种语言。这也就是说，那些用英语提出问题的使用者，可能会得到日本语的回答。

这听起来似乎非常奇怪。毕竟使用英语发问的人，怎么会希望得到日本语的回答呢？这中间的关键在于，该模型实现了跨越不同语言进行知识的传播。

戳链接查看详情：网页链接