Meta 的第一个开源多模态语言模型...

  • i陆三金
  • 2024-10-22 13:40:07
Meta 的第一个开源多模态语言模型居然是文本、语音多模态,Meta Spirit LM。

传统由 LLM 构建的语音管道中,语音首先通过自动语音识别(ASR)转录为文本,然后由 LLM 生成文本,最终通过文本转语音(TTS)技术将其转换回语音,但这些方法损害了语音的表达能力。

Meta Spirit LM 采用了一种词级交错训练方法,使用语音和文本数据集,能够实现跨模态生成。Meta 开发了两个版本的 Spirit LM,以展示文本模型的生成语义能力和语音模型的表现力。Spirit LM Base 使用音素 Token 对语音进行建模,而 Spirit LM Expressive 则使用音高和风格 Token 来捕捉语气信息,例如兴奋、愤怒或惊讶等情绪,并生成反映该语气的语音。

Spirit LM 让人们能够生成更自然的语音,并且它具有跨模态学习新任务的能力,例如自动语音识别、文本转语音和语音分类。

另外,Meta FAIR 还分享了新研究、模型和数据集,包括 SAM 2.1 等,链接:网页链接
Meta 的第一个开源多模态语言模型...Meta 的第一个开源多模态语言模型...