浏览器智能体崛起：Convergence Proxy为何会碾压OpenAI Operator？-51CTO.COM

一股新的AI浏览器智能体浪潮正改变企业与网络的互动。

一股新的AI驱动的浏览器智能体浪潮正在兴起，有望改变企业与网络的互动方式。这些智能体能够自主浏览网站、检索信息，甚至完成交易——但早期测试显示，其承诺的性能与实际表现之间存在显著差距。

虽然OpenAI的新浏览器智能体Operator提供的消费者示例(如订购披萨或购买游戏门票)已抢占新闻头条，但问题在于，主要的开发者和企业用例在哪里?“我们不知道的是，杀手级应用会是什么，”开发AI智能体的Red Dragon公司联合创始人Sam Witteveen表示，“我猜想，它会是那些你在网上花费时间但并不真正享受的事情。”这包括上网搜索某款产品的最低价或预订最佳酒店住宿等。更有可能的是，它将与其他工具(如Deep Research)结合使用，这样公司就可以在网上进行更复杂的研究并执行任务。

随着老牌企业和初创公司采取不同的方法来解决自主浏览挑战，企业需要谨慎评估这一快速变化的格局。

浏览器智能体领域的关键参与者

这一领域迅速吸引了众多大型科技公司和创新型初创企业的加入：

• OpenAI的Operator(2025年1月推出)——ChatGPT Pro订阅用户(每月200美元)可用，专注于用户友好的网络自动化

• Convergence的Proxy(2024年12月推出)——一家英国初创公司，提供免费有限使用(每天5次会话)或每月20美元的无限制访问

• 谷歌的Project Mariner——目前处于预览测试阶段，需排队等候访问

• Anthropic的Computer Use(2024年10月推出)——预计不久将发布更新

• 微软的OmniParser V2(2025年2月)——一个开源项目，用于将用户界面截图转换为结构化数据，使大型语言模型(LLM)能够解释并与网站互动

• 字节跳动的UI-TARS——需要更深层次的系统访问权限，可能引发安全担忧

• Browser-Use——一个面向开发者的工具，允许选择AI模型，包括谷歌的Gemini 2.0 Flash

在消费者友好度和即开即用方面，Operator和Proxy是最先进的。其他许多智能体似乎更多地定位于开发者或企业使用。例如，Y-Combinator初创公司Browser Use允许用户自定义与智能体一起使用的模型。这让你能更好地控制智能体的工作方式，包括使用本地机器上的模型，但这无疑更加复杂。

上述其他智能体提供了不同程度的功能以及与本地机器资源的交互能力。我决定暂时不测试字节跳动的UI-TARS，因为它要求访问我机器的安全和隐私功能的较低层级(如果我进行测试，我一定会使用备用电脑)。

测试揭示推理挑战

因此，最容易测试的是OpenAI的Operator和Convergence的Proxy。在我们的测试中，结果突显了推理能力比原始自动化功能更为重要的观点。特别是Operator，存在更多缺陷。

例如，我要求智能体找到并总结VentureBeat上最受欢迎的五篇文章。这是一项模糊的任务，因为VentureBeat并没有一个明确的“最受欢迎”板块。Operator在此任务上遇到了困难。它首先在搜索“最受欢迎”文章时陷入了无限滚动循环，需要手动干预。在另一次尝试中，它找到了一篇三年前的文章，标题为“本周五大热门文章”。相比之下，Proxy通过识别主页上最显眼的五篇文章作为受欢迎程度的实际代表，展示了更好的推理能力，并且给出了准确的总结。

在实际任务中，这种区别变得更加明显。我要求智能体在加州纳帕的一家浪漫餐厅预订中午的座位。Operator线性地处理任务——先找到一家浪漫餐厅，然后检查中午是否有空位。当没有空位时，它就陷入了僵局。Proxy则展示了更复杂的推理能力，它先从OpenTable开始，寻找既浪漫又在所需时间有空位的餐厅。它甚至找到了一家评分略高的餐厅。

即使在看似简单的任务中，也揭示了重要的差异。在亚马逊上搜索“YubiKey 5C NFC价格”时，Proxy比Operator更快地找到了商品。

OpenAI并未透露太多关于其用于训练Operator智能体的技术细节，只是表示其模型是在浏览器使用任务上进行训练的，然而，Convergence提供了更多细节：其智能体使用了一种称为生成树搜索的技术来“利用网络世界模型，预测采取拟议行动后网络的状态。这些模型是递归生成的，以产生一棵可能的未来之树，然后在这棵树上进行搜索，以选择下一个最优行动，这是由我们的价值模型排名的。我们的网络世界模型还可以用于在假设情况下训练代理，而无需生成大量昂贵的数据。”

基准测试目前可能无用

从纸面上看，这些工具似乎势均力敌。Convergence的Proxy在WebVoyager基准测试中达到了88%的准确率，该基准测试在亚马逊和Booking.com等15个热门网站上的643项真实世界任务中评估了网络智能体。OpenAI的Operator得分为87%，而Browser-Use表示其得分达到了89%，但承认这是在稍微修改了WebVoyager代码库后实现的，“符合我们的需求”。

然而，这些基准测试得分应谨慎对待，因为它们可能被操纵。真正的测试在于实际用例中的实用效果。目前还处于非常早期的阶段，这一领域正在迅速变化，这些产品几乎每天都在更新。结果将更多地取决于你试图完成的具体工作，而你可能更愿意依赖在使用不同产品时获得的直观感受。

对企业的影响

对企业自动化而言，其影响是显著的。正如Witteveen在我们关于这一主题的视频播客对话中指出的那样(我们在其中深入探讨了浏览器使用趋势)，许多公司目前正在为真人操作的虚拟助手支付费用，以处理基本的网络研究和数据收集任务。这些浏览器智能体可能会极大地改变这一状况。

“如果AI接管了这一工作，”Witteveen指出，“那将是最早一批因此失去工作的人。这种情况会在这些事情中体现出来。”

这可能会推动机器人流程自动化(RPA)趋势的发展，其中浏览器使用只是公司自动化更多任务的另一个工具。如前所述，更强大的用例将是当智能体将浏览器使用与其他工具(包括Deep Research等工具)结合使用时，其中由LLM驱动的代理使用搜索工具加浏览器使用来完成更复杂的工作。

成本动态推动创新

推动快速发展的另一个关键因素是强大开源推理模型(如DeepSeek-R1)的可用性。这使得构建这些浏览器智能体的公司能够通过利用这些模型而不是自建模型，来有效地与大型企业竞争。

定价压力已经显现。虽然OpenAI要求每月200美元的ChatGPT Pro订阅才能访问Operator，但Convergence提供免费有限使用(每天最多五次)和每月20美元的无限制计划。这种竞争态势应会加速企业的采用，尽管明确的用例仍在涌现。

安全和集成挑战

在广泛的企业采用之前，仍存在几个障碍。一些网站积极阻止自动化浏览，而其他网站则要求进行CAPTCHA验证。虽然OpenAI和Convergence都有工具可以绕过CAPTCHA，但它们让用户接管任务来填写——而不是直接完成，因为CAPTCHA的整个目的就是确保另一端是人类。像字节跳动的UI-TARS这样的工具要求深层次的系统访问权限，这给企业部署带来了安全担忧。

此外，与网站合作的方式各不相同。OpenAI已与Instacart、Priceline、DoorDash和Etsy等特定合作伙伴合作，而其他公司则尝试浏览任何网站。这种不一致性可能会影响企业用例的可靠性。当然，每当智能体访问需要登录详情的网站时，都会减慢速度——因为代理会将任务交给你来填写这些详情。

展望未来

对于评估这些工具的企业而言，应重点关注自主网络交互能够提供明确价值的特定用例——无论是在研究、客户服务还是流程自动化方面。这项技术正在迅速发展，但成功将取决于将能力与具体业务需求相匹配。

随着这一领域的不断发展，预计将会看到更多以企业为中心的功能，以及可能针对特定行业或任务的专门智能体。老牌企业与创新型初创公司之间的竞争应会推动技术进步和具有竞争力的定价，使2025年成为企业浏览器智能体采用的关键一年。