大模型自动优化视觉语言提示词

  • 量子位
  • 2024-11-10 09:49:30
大模型自动优化视觉语言提示词

视觉语言模型(如 GPT-4o、DALL-E 3)通常拥有数十亿参数,且模型权重不公开,使得传统的白盒优化方法(如反向传播)难以实施。

那么,有没有更轻松的优化方法呢?

就在最近,卡内基梅隆大学(CMU)的研究团队对于这个问题提出了一种创新的“黑盒优化”策略——

通过大语言模型自动调整自然语言提示词,使视觉语言模型在文生图、视觉识别等多个下游任务中获得更好的表现。

这一方法不仅无需触及模型内部参数,还大幅提升了优化的灵活性与速度,让用户即使没有技术背景也能轻松提升模型性能。

该研究已被 CVPR 2024 接收。更多详情可见:无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24
大模型自动优化视觉语言提示词