Show Lab和微软开源的一个基于Qwen...
- 斌叔OKmath
- 2024-12-01 22:33:30
Show Lab和微软开源的一个基于Qwen2VL架构开发的视觉-语言-动作多模态AI模型:ShowUI,它可以识别和理解用户界面元素,执行比如,点击、输入、选择、滚动等操作,实现GUI自动化
能"看"屏幕、"懂"指令、会"操作",可以帮你自动操作电脑或手机,不需要写代码,用自然语言即可
不依赖源代码,它直接通过截图理解界面,自动识别和删减冗余信息,减少33%冗余视觉token,性能提升了1.4倍,零样本界面定位准确率为75.1%
支持网页和手机界面
github:
网页链接
能"看"屏幕、"懂"指令、会"操作",可以帮你自动操作电脑或手机,不需要写代码,用自然语言即可
不依赖源代码,它直接通过截图理解界面,自动识别和删减冗余信息,减少33%冗余视觉token,性能提升了1.4倍,零样本界面定位准确率为75.1%
支持网页和手机界面
github:
