ИИ-браузеры: перспективно, но пока не лучше обычных

AI browsers: promising, but not yet better
Новые браузеры на базе ИИ обещают выполнять веб-серфинг за вас, однако тесты и мнения экспертов показывают, что им все еще требуются детальные промпты, контроль со стороны человека и более совершенная инфраструктура, прежде чем они смогут заменить привычные инструменты.

Многообещающая технология, застрявшая в «неопрятной» переходной фазе

На этой неделе несколько компаний представили или продемонстрировали версии того, что их руководители называют «браузером следующего поколения». Это интерфейсы на базе чатов, которые либо соседствуют с обычной панелью вкладок, либо заменяют поле поиска агентом, способным читать страницы, резюмировать документы и — при наличии разрешения — выполнять действия, например, добавлять товары в корзину. Обещание звучит заманчиво: скажите ИИ, чего вы хотите, и позвольте ему сделать всё остальное. Это похоже на «чит-код» для современной жизни. На практике же тесты более полудюжины агентов показывают, что реальность более суетлива, более «человечна» и гораздо менее автономна, чем предполагает маркетинг.

Более детальный взгляд на то, что работает

Когда ИИ-помощников просят выполнить четкие, ограниченные задачи — резюмировать юридический абзац, извлечь характеристики продукта со страницы в таблицу или перечислить страницы в длинном PDF-файле — они часто ускоряют процесс. Они полезны как внутристраничные помощники (copilots): выделите сложный пункт в медицинском исследовании, и модель перефразирует его более простым языком; откройте дюжину вкладок со сравнениями телефонов, и ассистент соберет данные об аккумуляторе, весе и размере в короткую таблицу. Именно здесь новые браузеры приносят немедленную пользу. Они избавляют от жонглирования вкладками и упрощают переключение между источниками.

Однако ИИ-браузеры пасуют перед тем, что сделало бы их по-настоящему революционными: перед сложными, открытыми задачами, требующими оценки доверия, контекста и приоритетов. Попросите модель отсортировать почту по срочности и релевантности, и она с радостью отдаст приоритет перенасыщенным ключевыми словами маркетинговым предложениям, пропустив тонкие нюансы переписки, которые сразу бы заметил человек. Попросите её купить очень специфическую пару обуви, которая должна соответствовать множеству личных ограничений, и в итоге вы потратите кучу времени на уточняющие подсказки, прежде чем агент выдаст результат, сравнимый с тем, что опытный покупатель выбрал бы за долю этого времени.

Почему агентам всё еще нужны няньки

Существуют и другие сценарии сбоев. Агенты путают плотность ключевых слов с истиной, продвигая страницы из сомнительных источников, в которых используются правильные модные словечки. Они лишь непоследовательно соблюдают произвольные ограничения сайтов — авторские права или технические блокировки: иногда отказываются извлекать транскрипцию YouTube, ссылаясь на авторское право, а иногда вставляют весь текст целиком в чат. И даже когда агент может совершать действия, такие как добавление товаров в корзину, порог доверия для передачи полного контроля программному обеспечению очень высок. Ошибки в электронной коммерции, планировании или доступе к аккаунту имеют вполне реальные последствия в физическом мире.

Дизайн, стандарты и власть в технологическом стеке

Эти проблемы не только технические. Они носят архитектурный и экономический характер. Чтобы агенты могли просматривать страницы и действовать в масштабах всей сети, вебу нужны более четкие правила о том, кто, какие данные и на каких условиях может собирать. Сегодня эти инструменты представляют собой лоскутное одеяло: сети доставки контента (CDN), которые могут блокировать краулеры, и коммерческие сделки, закрывающие доступ за API-ключами или пейволлами. Это создает асимметрию: горстка инфраструктурных компаний и платформ обладает рычагами влияния, позволяющими решать, может ли ИИ извлекать необходимые ему данные и по какой цене.

Некоторые технологи утверждают, что решением являются стандарты и операционная совместимость — кошельки данных, платежные каналы, адаптированные для агентов, и машиночитаемые правила, которые позволят сайту указывать, когда и как краулер может использовать его контент. Другие говорят, что рынок сам навяжет решения: если ИИ устранит посредников в коммерции, появятся новые потоки микроплатежей или соглашения по API для вознаграждения издателей и сервисов. Но история предупреждает, что рыночные стимулы не создают справедливость автоматически.

Крупные компании, разные ставки

Не все разработчики браузеров пытаются сделать одно и то же. Некоторые вендоры добавляют чат-бота в привычную оболочку Chrome или Edge, чтобы Copilot мог открывать вкладки и зачитывать их вслух; другие создают интерфейс, ориентированный прежде всего на ИИ, который заменяет строку поиска. Стратегии имеют значение. ИИ, работающий в облаке, имеет доступ к большим вычислительным мощностям и моделям, но он собирает больше учетных данных и данных пользователей централизованно. Подход с приоритетом локальных вычислений сохраняет личные данные на устройстве, но ограничен локальной вычислительной мощностью.

Руководители крупных платформ описывают этот выбор как компромисс между удобством, приватностью и контролем. Некоторые представляют будущее, в котором ваш персональный агент хранит ваши предпочтения и личную историю в приватном хранилище, а затем ведет переговоры с сервисами от вашего имени. Это требует технических примитивов для защищенных кошельков данных и коммерческого уровня, разработанного для агентов. Это также требует либо добровольного сотрудничества между владельцами платформ, либо регуляторных мер, чтобы сделать совместимость стандартом, а не опцией.

Голоса из отрасли

Ведущие веб-архитекторы и разработчики браузеров видят в этом как угрозу, так и возможность. Изобретатель веба выступает за открытые, совместимые системы, чтобы агенты могли действовать в интересах пользователей, а не только ради выгоды владельцев платформ. Между тем, команды ИИ в крупных компаниях-разработчиках браузеров говорят об «агентном» браузере, который использует те же инструменты, что и человек — адресную строку, вкладки, формы, — но автоматизирует повторяющиеся задачи. Напряжение очевидно: сторонники открытого веба хотят стандартов и суверенитета пользователей; компании-платформы спешат встроить агентов в свои собственные стеки.

Есть и человеческая сторона адаптации. Люди, использующие вспомогательные технологии, часто комбинируют устройства и хаки, чтобы заставить системы работать на себя. Эта же прагматичная креативность будет определять то, как обычные пользователи осваивают агентный браузинг: кто-то будет рад помощнику-консьержу, который выполняет трудоемкие исследования; другие предпочтут детальный контроль и прозрачные журналы активности.

Практическая дорожная карта: скромные цели, большие перемены

Чтобы ИИ-браузеры действительно стали лучше людей в «серфинге» по сети, индустрии необходим прогресс по нескольким фронтам. Во-первых, модели должны стать более последовательными в оценке достоверности и проверке фактов по нескольким источникам — для этого потребуются лучшие инструменты извлечения данных и подтверждения их происхождения. Во-вторых, инфраструктура веба должна предлагать более четкие, машиночитаемые сигналы об использовании данных и стоимости, чтобы агенты могли договариваться о доступе, не разрушая бизнес-модели издателей. В-третьих, архитектуры, ориентированные на конфиденциальность — локальное исполнение моделей, кошельки данных и платежные каналы для агентов — должны превратиться из экспериментальных демо-версий в общепринятую практику.

Это длинный список. Но нынешнее поколение ИИ-браузеров, какими бы несовершенными они ни были, является важным экспериментом. Они подсвечивают рутинные и когнитивные задачи современного браузинга, которые помощник может облегчить — составление таблиц, перефразирование сложных отрывков, поиск нужной страницы в длинном PDF. Они также обнажают пробелы: когда ассистенту приходится принимать субъективное решение, человеческое участие по-прежнему необходимо.

Что это означает для обычных пользователей

Если вы надеялись запустить ИИ-браузер, произнести пару слов и больше никогда не прикасаться к клавиатуре, то этот день еще не настал. На данный момент к ИИ-браузерам лучше относиться как к специализированным инструментам внутри большого набора инструментов браузера: они отлично справляются с сужением круга поиска и объяснением сложных вещей, но пока недостаточно надежны, чтобы полностью взять под контроль вашу жизнь в сети. Они изменят то, как мы работаем в интернете, но эти изменения будут итеративными — это будет процесс переговоров между инженерами, издателями, регуляторами и пользователями о том, как данные, ценность и доверие распределяются в сети.

Иными словами: многообещающий — не значит готовый к безусловному использованию. Браузеры будущего вполне могут превзойти нас в некоторых формах веб-серфинга, но сначала им нужно научиться лучше слушать, объяснять и играть по честным правилам с остальной частью интернета.

Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Какие текущие возможности предлагают браузеры на базе ИИ и в чем заключается их ценность?
A Они быстро справляются с четкими, ограниченными задачами, такими как резюмирование юридического абзаца, извлечение технических характеристик для таблицы со страницы продукта или составление компактной таблицы из нескольких открытых вкладок. На практике они работают как встроенные помощники (копилоты), уменьшая количество переключений между вкладками и трение при изучении источников, а не обеспечивают полностью автономный просмотр веб-страниц.
Q Каковы основные ограничения и типы сбоев, мешающие ИИ-браузерам трансформировать процесс работы в интернете?
A Они с трудом справляются с открытыми задачами, требующими оценки доверия, контекста и приоритетов; они могут отдавать приоритет страницам, насыщенным ключевыми словами, но имеющим сомнительные источники; иногда они игнорируют ограничения сайтов или выдают слишком длинные тексты в чат; даже когда они способны выполнять действия, уверенность в полной автоматизации остается низкой; ошибки в электронной коммерции, планировании или доступе к аккаунтам имеют реальные последствия.
Q Какая инфраструктура и стандарты помогли бы ИИ-браузерам масштабироваться и быть справедливыми?
A В статье приводятся аргументы в пользу более четких правил сбора данных, разрешений на их использование и стоимости; подчеркивается проблема разрозненных сетей доставки контента (CDN) и платных барьеров (paywalls), ограничивающих доступ; предлагается внедрение кошельков данных, платежей с учетом агентов, машиночитаемых политик и стандартов совместимости, чтобы агенты могли договариваться о доступе и происхождении данных без ущерба для издателей.
Q Как различные подходы вендоров влияют на конфиденциальность, контроль и удобство использования, и какие компромиссы они предполагают?
A Некоторые добавляют чат-ботов в привычные интерфейсы, другие заменяют строку поиска; облачные агенты предлагают больше вычислительных мощностей, но централизуют данные, в то время как локальные решения на устройствах защищают конфиденциальность, но ограничивают скорость и возможности; руководители компаний формулируют компромиссы между удобством, приватностью и контролем, призывая к созданию безопасных кошельков данных и регулируемой функциональной совместимости.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!