大模型自动优化视觉语言提示词

量子位
2024-11-10 09:49:30

大模型自动优化视觉语言提示词

视觉语言模型（如 GPT-4o、DALL-E 3）通常拥有数十亿参数，且模型权重不公开，使得传统的白盒优化方法（如反向传播）难以实施。

那么，有没有更轻松的优化方法呢？

就在最近，卡内基梅隆大学（CMU）的研究团队对于这个问题提出了一种创新的“黑盒优化”策略——

通过大语言模型自动调整自然语言提示词，使视觉语言模型在文生图、视觉识别等多个下游任务中获得更好的表现。

这一方法不仅无需触及模型内部参数，还大幅提升了优化的灵活性与速度，让用户即使没有技术背景也能轻松提升模型性能。

该研究已被 CVPR 2024 接收。更多详情可见：无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24