AI自动化操作浏览器

  • 量子位
  • 2024-10-28 12:18:26
AI自动化操作浏览器

你想自动化浏览器工作流吗,推荐这款AI操纵浏览器工具:Skyvern,它目前在GitHub上已揽获6.3k Star。

先来展示一波实用案例:

- 【图1】自动化简历网申信息
- 【图2】自动化采购物品
- 【图3】自动填写联络表格
- 【图4】检索保险商报价

与传统的DOM解析和XPath交互方式不同的是,传统方法一旦网站更新或是布局发生变化,脚本就会中断,需要经常更新维护。

而Skyvern则使用计算机视觉和LLMs,能够实时解析和操作浏览器中的各类元素,并且适应不同网站的变化。

“计算机视觉”意味着,Skyvern能利用视觉元素,在之前从未见过的网站上运行;

“解析各类元素”意思是,像【图5】中的各类按钮、文本框、选项卡、下拉列表等元素,Skyvern都能轻松应对。

如此神奇的工具,我们来看看它的工作原理——Skyvern由多个Agent构成,流程可分为六大步【图6】:

1. 绘制页面元素的边界框
2. 解析HTML并提取图像
3. 提取可交互的元素,如按钮和文本框
4. 调用一个LLM,来规划如何在网页上执行任务
5. 执行计划好的动作
6. 重复以上步骤,直到完成整个任务

感兴趣的小伙伴可以点击:网页链接
AI自动化操作浏览器AI自动化操作浏览器AI自动化操作浏览器AI自动化操作浏览器AI自动化操作浏览器AI自动化操作浏览器