AI 浏览器:前景广阔,但尚未超越传统

人工智能
AI browsers: promising, but not yet better
新型 AI 驱动的浏览器承诺可以代用户浏览网页,但测试和专家意见表明,在真正取代日常浏览体验之前,它们仍需要大量的提示引导、人工监督以及更完善的基础设施。

一项充满希望但陷入混乱中期的技术

本周,几家公司推出或演示了其高管称之为“下一代浏览器”的版本:这些聊天驱动的界面要么位于常规标签栏旁边,要么用一个智能体 (agent) 取代搜索框,该智能体可以阅读页面、总结文档,并且在获得许可的情况下,执行诸如将商品添加到购物车之类的操作。这种宣传极具吸引力:告诉 AI 你的需求,剩下的交由它处理。这听起来像是对现代生活的“开挂”。在实践中,对六个左右的智能体进行的实际测试表明,现实情况比营销宣传的更繁琐、更拟人化,而且远非想象中那样无需干预。

深入观察:哪些功能行之有效

当被要求执行明确且有界限的任务时——例如总结法律段落、从产品页面提取可用于表格的规格信息,或者列出长篇 PDF 中的页面——AI 助手通常能提高效率。它们作为页内副驾驶 (copilots) 非常有用:突出显示医学研究中密集的条款,模型将用更浅显的语言对其进行改写;打开十几个手机对比标签页,助手会将电池、重量和尺寸汇总到一个简短的表格中。这正是新一代浏览器的即时价值所在。它们减少了在标签页之间来回切换的麻烦,降低了在不同来源之间浏览的阻力。

但 AI 浏览器的难点在于那些能让它们产生真正变革意义的事情:涉及信任、语境和优先级判断的复杂、开放式任务。让模型按紧急程度和相关性对收件箱进行排序,它会乐于将关键词密集的营销推销排在人类会标记的微妙线索之前。让它去买一双必须满足许多个人限制的特定鞋子,你最终需要通过许多澄清性提示来指导助手,然后它才能产生与经验丰富的购物者在极短时间内挑选出的结果相媲美的东西。

为什么智能体仍需“保姆”

还有其他的失效模式。智能体将关键词密度等同于事实,提升了那些使用正确流行语但来源不可靠的页面的权重。它们对网站约束(版权或技术封锁)的遵守并不一致:有时以版权为由拒绝提取 YouTube 转录文本,有时又将全文粘贴到聊天框中。即使当智能体可以执行操作(如将商品添加到购物车)时,将完全控制权交给软件的信任门槛依然很高。在电子商务、日程安排或账户访问方面的错误会产生现实世界的后果。

设计、标准与技术栈中的权力

这些问题不仅是技术性的,也是架构和经济层面的。如果智能体要进行大规模的浏览和行动,网络需要更明确的规则,规定谁可以抓取什么数据,以及基于什么条款。如今的手段是东拼西凑的:内容分发网络 (CDN) 可以限制爬虫,而商业交易则将访问权限限制在 API 密钥或付费墙之后。这造成了不对称:少数基础设施公司和平台拥有决定 AI 是否可以提取所需数据以及成本几何的杠杆。

一些技术专家认为,答案在于标准和互操作性——数据钱包、具备智能体感知能力的支付轨道以及机器可读的策略,这将允许网站表达爬虫何时以及如何使用其内容。另一些人则表示市场会强制推行解决方案:如果 AI 消除了商业中的中间环节,新的微支付流或 API 协议将会出现,以补偿出版商和服务商。 But 历史警示我们,市场激励并不一定会自动产生公平。

大公司,不同的赌注

并非所有浏览器构建者都在尝试做同样的事情。一些厂商在熟悉的 Chrome 或 Edge 外壳中添加聊天机器人,以便 Copilot 可以打开标签页并朗读它们;另一些厂商则构建了取代搜索栏的 AI 优先界面。策略至关重要。运行在云端的 AI 可以访问更多算力和模型,但它会集中收集更多用户凭据和数据。更侧重本地优先的方法将个人数据保留在设备上,但受限于本地计算能力。

主要平台公司的高管将这些选择描述为在便利性、隐私和控制权之间的权衡。有人设想未来你的个人智能体将在私人存储中保存你的偏好和个人历史,然后代表你与服务进行协商。这需要安全数据钱包的技术原语以及为智能体设计的商业层。这还需要平台所有者之间的自愿合作,或者监管部门的推动,使互操作性成为标准而非选项。

业内声音

领先的网络架构师和浏览器构建者既看到了威胁,也看到了机遇。万维网的发明者主张建立开放、互操作的系统,以便智能体能够为了用户的利益行事,而不仅仅是为了平台所有者的利益。与此同时,主要浏览器厂商的 AI 团队谈论一种“智能体化” (agentic) 的浏览器,它使用与人类相同的工具——地址栏、标签页、表单——但将重复性任务自动化。这种紧张局势显而易见:开放网络的支持者想要标准和用户主权;而平台公司正竞相将智能体植入自己的技术栈。

适应过程也有人性化的一面。依赖辅助技术的人们经常拼凑设备和技巧,让系统为他们服务。这种务实的创造力同样将影响普通用户如何接受智能体化浏览:有些人会欢迎像管家一样的助手来处理繁重的调研工作;而另一些人则更喜欢细粒度的控制和透明的活动日志。

务实路线图:小目标,大变革

为了让 AI 浏览器在“冲浪”方面真正优于人类,行业需要在多个方面取得进展。首先,模型在跨多个来源判断可信度和验证事实方面必须变得更加一致——这需要更好的检索和溯源工具。其次,网络基础设施应提供更清晰、机器可读的数据使用和成本信号,以便智能体可以在不破坏出版商商业模式的情况下协商访问。第三,注重隐私的架构——本地推理、数据钱包和具备智能体感知能力的支付轨道——必须从实验性演示转向普遍实践。

这是一个很长的清单。但目前的这一批 AI 浏览器,尽管还很混乱,却是重要的实验。它们突显了助手可以减少的现代浏览中的杂务和认知工作——汇总表格、改写密集的段落、在长篇 PDF 中寻找正确的页面。它们也暴露了差距:当助手必须做出判断时,仍然需要人类的关注。

对普通用户意味着什么

如果你希望启动一个 AI 浏览器,说几句话就再也不碰键盘,那一天还没有到来。目前,AI 浏览器最好被视为庞大浏览器工具箱中的专用工具:擅长缩小范围和解释复杂内容,但尚未可靠到足以完全接管你的在线生活。它们将改变我们的在线工作方式——但这种改变将是循序渐进的,是工程师、出版商、监管机构和用户之间关于数据、价值和信任如何在网络上流动的博弈。

换句话说:充满希望并不等同于规定。未来的浏览器在某些形式的冲浪方面可能确实比我们更强——但首先,它们必须学会在倾听、解释以及与网络的其余部分公平竞争方面做得更好。

Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q AI驱动的浏览器目前提供哪些功能,其价值体现在哪里?
A 它们能快速处理明确且有界限的任务,例如总结法律段落、从产品页面提取可直接用于表格的规格参数,或者将多个打开的标签页整理成精简的表格。在实践中,它们充当页面内的副驾驶(copilots),减少了在查阅不同来源时频繁切换标签页的繁琐和阻力,而非提供完全自主的浏览体验。
Q 阻碍AI浏览器彻底改变浏览体验的主要局限和失效模式是什么?
A 它们难以处理需要对信任、语境和优先级进行判断的开放式任务;它们可能会提升关键词密集但来源质量较差的页面;有时会忽略网站限制,或在聊天窗口输出冗长文本;即使它们具备执行操作的能力,实现全自动化所需的置信度要求依然很高;在电子商务、日程安排或账户访问方面的错误会产生现实世界的后果。
Q 哪些基础设施和标准有助于AI浏览器的规模化和公平发展?
A 文章主张针对数据抓取、数据使用许可和成本制定更明确的规则;它指出由CDN和付费墙构成的碎片化访问壁垒;并提倡使用数据钱包、代理感知支付、机器可读政策以及互操作性标准,以便AI代理能在不损害出版商利益的前提下协商访问权限和溯源。
Q 不同厂商的方法如何影响隐私、控制权和可用性,其体现了哪些权衡?
A 一些厂商在熟悉的浏览器外壳中加入聊天机器人,另一些则直接取代了搜索栏;基于云的代理提供更强的算力但使数据集中化,而本地优先的端侧方法保护了隐私但限制了速度和能力;高管们将权衡点放在便利性、隐私和控制权上,并呼吁建立安全的数据钱包和受监管的互操作性。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!