微软高管称即将发布GPT-4,或实现文本、图像、语音等多模态运行

  • 麻省理工科技评论
  • 2023-03-15 12:24:14
gpt-4下周发布 【微软高管称即将发布GPT-4,或实现文本、图像、语音等多模态运行】

据悉,近日,微软 德国首席技术官安德烈亚斯·布劳恩(Andreas Braun)对媒体表示:“我们即将推出 GPT-4,届时我们将推出多种模态的模型,提供完全不同的可能性,例如视频。”

即将发布的 GPT-4 ,是 OpenAI 创建的预训练生成模型(Generative Pre-trained Transformer,GPT)的最新版本。作为一种深度学习技术,该系列的模型将通过人工神经网络 实现对包括文章生成、代码编写等在内的诸多复杂的自然语言任务的处理。

聊天机器人 ChatGPT 基于 GPT-3.5 架构开发,自推出以来已迅速风靡全球。从理论上说,GPT-4 在技术上将会比 ChatGPT 更进一步。

大型语言模型 中,模态指的是模型能够处理的输入类型,包括文本、语音、图像、视频等多种输入源。多模态大型语言模型,意味着其能够从各种类型的输入源中获取信息并正常运行。

相较于基于文本的以 ChatGPT 为主的单模态大型语言模型,大大增加了从图像、视频等内容中获取信息的可能性。

据了解,多模态大型语言模型 GPT-4 或将支持文本、图像、声音和视频等四种模态。但由于目前官方尚未公布 GPT-4 的具体细节,因此还不清楚布劳恩在活动上分享的是 GPT-4 特有的多模态,还是其他的多模态。

在微软德国业务战略总监霍尔格·肯恩(Holger Kenn)看来,多模态人工智能“不仅可以将文本转换成相应的图像,还可以将文本转换成音乐和视频”。

经媒体证实,GPT-4 将能够支持基本上任何一种语言。这也就是说,那些用英语提出问题的使用者,可能会得到日本语的回答。

这听起来似乎非常奇怪。毕竟使用英语发问的人,怎么会希望得到日本语的回答呢?这中间的关键在于,该模型实现了跨越不同语言进行知识的传播。

戳链接查看详情:网页链接
微软高管称即将发布GPT-4,或实现文本、图像、语音等多模态运行微软高管称即将发布GPT-4,或实现文本、图像、语音等多模态运行