Show Lab和微软开源的一个基于Qwen...

斌叔OKmath
2024-12-01 22:33:30

Show Lab和微软开源的一个基于Qwen2VL架构开发的视觉-语言-动作多模态AI模型：ShowUI，它可以识别和理解用户界面元素，执行比如，点击、输入、选择、滚动等操作，实现GUI自动化

能"看"屏幕、"懂"指令、会"操作"，可以帮你自动操作电脑或手机，不需要写代码，用自然语言即可

不依赖源代码，它直接通过截图理解界面，自动识别和删减冗余信息，减少33%冗余视觉token，性能提升了1.4倍，零样本界面定位准确率为75.1%

支持网页和手机界面

github：网页链接