«Закрытая сеть»: блокировка ИИ-сканеров и доступ агентов
All Posts

«Закрытая сеть»: блокировка ИИ-сканеров и доступ агентов

Ryan Turner
Ryan Turner · Head of Growth

Интернет, который раньше был открыт для анонимных роботов-пауков, становится все более закрытым. Старую модель свободного доступа для всех заменяют автоматическая блокировка и платные торговые площадки. В результате доступ агентов теперь делится на два пути: лицензионный или платный сканирование там, где это возможно, либо посещение сайта в качестве реального пользователя в остальных случаях. Если ваш агент по-прежнему полагает, что может загружать любой общедоступный URL с IP-адреса дата-центра, он строит свои действия на фундаменте, который исчезает у него под ногами.

Основные выводы
  • 1 июля 2025 года компания Cloudflare начала по умолчанию блокировать ИИ-сканеры примерно на 20 % веб-ресурсов и запустила платформу, на которой сканирование предоставляется на условиях оплаты за сканирование (Cloudflare, Cloudflare только что изменила подход к сбору данных в Интернете с помощью ИИ-ботов).
  • Крупнейшие новостные сайты перешли к политике «запрета по умолчанию»: около 79 % блокируют ботов для обучения ИИ, около 49 % запрещают доступ боту GPTBot по имени.
  • Причиной является экономическая составляющая: соотношение между количеством просканированных страниц и количеством переходов по ссылкам достигло ~38 000:1 для одного из крупных сканеров. Сайты теряют трафик, а не получают его.
  • Обучение веб-краулеров и поиск агентов в режиме реального времени попадают под одни и те же ограничения. Агенты, которые продолжают работать, должны либо выглядеть как реальные пользователи из нужного географического региона, либо оплачивать лицензионный доступ.

Что изменилось: в сети вступил в силу принцип «по умолчанию — запрет»

В 2025 году ситуация кардинально изменилась. Самым значительным событием стало решение компании Cloudflare, которая с 1 июля начала по умолчанию блокировать ИИ-сканеры примерно на 20 % веб-сайтов и запустила платформу, предлагающую услуги сканирования по модели «оплата за сканирование» (Cloudflare, Cloudflare только что изменила подход к сканированию Интернета с помощью ИИ-ботов). Оплата за сканирование — это торговая площадка, на которой сайт взимает с ботов плату за доступ, который раньше предоставлялся бесплатно. Фактически, одно изменение в настройках привело к тому, что пятая часть Интернета перешла с режима «отказ по умолчанию» на режим «подписка по желанию».

Это был не просто нишевый сдвиг в политике. На долю ботов уже приходится значительная часть трафика. В 2024 году доля автоматизированных ботов впервые за десятилетие превысила 51 % всего веб-трафика, при этом доля вредоносных ботов составила 37 % (Imperva, Отчет о вредоносных ботах за 2025 год). Поскольку большинство запросов, поступающих на ваш сервер-источник, исходит от компьютеров, блокировка компьютеров по умолчанию перестает выглядеть как агрессивная мера. Напротив, это начинает восприниматься как элементарная мера безопасности.

Первой и наиболее решительно отреагировала индустрия новостей. К 2025 году примерно 79 % крупнейших мировых новостных сайтов заблокировали ботов, используемых для обучения ИИ, а около 49 % прямо запретили использование GPTBot (Press Gazette, В настоящее время восемь из десяти крупнейших новостных сайтов мира блокируют ботов, используемых для обучения искусственного интеллекта). В результате файл robots.txt превратился из вежливой рекомендации в политику «запрет по умолчанию» для категории ИИ. Процесс открытого сканирования не завершился в одночасье. Тем не менее, тенденция очевидна и указывает в одном направлении.

Причины случившегося: обвал показателей переходов из поисковой выдачи

Причина кроется в экономике, а не в идеологии. Старая схема была проста. Поисковые роботы индексировали ваш контент, а поисковая система в ответ направляла к вам посетителей. Искусственный интеллект нарушил этот цикл. В середине 2025 года поисковый робот Anthropic обрабатывал примерно 38 000 страниц на одного привлечённого посетителя, а GPTBot от OpenAI — около 3 700:1 (Cloudflare, Спад числа рефералов). В результате издатели подсчитывают убытки и видят, что контент уходит, а взамен они практически ничего не получают.

Ситуация становится более понятной, если рассмотреть, для чего предназначен сканирование. В случае сканирования с использованием ИИ примерно 80 % времени уходит на обучение, 18 % — на поиск и лишь 2 % — на действия пользователей (Cloudflare, Подробнее об ИИ-краулерах). Четыре пятых этого трафика направляется на обучение модели, которая по замыслу не возвращает никаких рефералов. С точки зрения владельца сайта это, следовательно, является чистой эксплуатацией, и блокировка является рациональной мерой реагирования.

Объем трафика также растет, что повышает ставки. Трафик, генерируемый ИИ и поисковыми роботами, вырос на 18 % в годовом исчислении к 2025 году, а доля запросов от ИИ-роботов GPTBot за год увеличилась с 5 % до 30 %, что соответствует росту общего числа запросов на 305 % (Cloudflare, От Googlebot до GPTBot: кто будет сканировать ваш сайт в 2025 году). Увеличение нагрузки, отсутствие обратного трафика и простота реализации средств для его блокировки. В результате использование политики «по умолчанию — запрет» было неизбежным.

Что это означает для агентов: оказались в одной ловушке

Вот в чем заключается ловушка, в которую попадают инженерные команды. Обучение краулеров и поиск информации агентом в режиме реального времени — это разные вещи. Краулер для обучения сканирует миллионы страниц, чтобы сформировать набор данных. Ваш агент, напротив, загружает три страницы, чтобы прямо сейчас ответить на вопрос одного пользователя. Однако сайт не распознает намерения. Он видит автоматический запрос от известного бота-пользователя или из помеченного диапазона IP-адресов и применяет к обоим одинаковое правило «по умолчанию — запрет». Именно поэтому проблема «закрытия Интернета для ИИ» затрагивает агентов, которые никогда не соприкасаются с обучающими данными. Инфраструктура блокировки не различает агента поиска и скрейпера. Вместо этого она различает людей и ботов, а также все чаще различает известное «безопасное» IP-пространство и диапазоны IP-адресов центров обработки данных. Одним словом, добросовестный агент с облачным IP-адресом выглядит точно так же, как и вредоносный скрейпер.

IP-адреса центров обработки данных Это адреса, принадлежащие поставщикам облачных услуг и хостинга; именно эти диапазоны в первую очередь выделяют антибот-системы, поскольку обычные пользователи с них не заходят. В частности, именно их в первую очередь выделяют современные системы обнаружения ботов в 2026 году, что и является основной причиной сбоев агентов при работе с защищенными целями. Мы рассмотрим механизм этого явления в почему агенты блокируются по IP-адресам центров обработки данных, но если говорить кратко, то даже добросовестный агент, использующий облачный IP-адрес, воспринимается как угроза.

Таким образом, вопрос доступа делится на два направления, и оба имеют право на существование. Если существует лицензионный или платный способ доступа, например, соглашение о платном сканировании или официальный API, воспользуйтесь им. Это наиболее чистый вариант, который по определению устойчив к закрытию веб-ресурсов. Во всех остальных случаях надежным способом является доступ в качестве реального пользователя: запрос, исходящий с домашнего или мобильного устройства в том регионе, который предполагает контент, с отображением страницы так, как это сделал бы браузер человека. Прокси-серверы для частного использования это соединения, проходящие через реальные устройства пользователей, поэтому запрос передается с адресом, присвоенным интернет-провайдером, и сайт рассматривает его как обычного посетителя. Выбор между этими типами сетей — это отдельное решение, которое мы подробно рассмотрим в Прокси-серверы для частных пользователей и прокси-серверы для центров обработки данных.

Именно этот аспект большинство команд недооценивают до тех пор, пока он не приводит к сбоям в рабочей среде. По мере закрытия открытых путей сканирования в работе остаются только те агенты, которые внешне совершенно не похожи на сканеры. По нашему опыту работы с различными рабочими нагрузками агентов, доступ с устройств реальных пользователей, поступающий в виде органического локального посетителя с чистым рендерингом, остается надежным даже в условиях, когда по умолчанию действует политика отказа. Именно в этом заключается концепция сети доступа к устройствам и стека рендеринга Massive: реальные потребительские устройства в более чем 195 странах с геотаргетингом по стране, административному району и городу, возвращающие чистый HTML или Markdown из любого общедоступного источника в любом месте. На основе нашего опыта работы с командами мы видим, что они внедряют эту систему в качестве резервного варианта для целей, которые не сработали, а затем переключают её на основной режим, как только очередь заявок исчезает. Когда самодельный стек из прокси и браузера без интерфейса перестаёт окупаться, следующим шагом обычно становится управляемая инфраструктура, к которой мы переходим в инфраструктура управляемых браузеров.

Чтобы ознакомиться с полной архитектурой предоставления агенту постоянного доступа в режиме реального времени, начните с раздела, посвященного тому, как предоставить ИИ-агентам доступ к веб-ресурсам в режиме реального времени. Эта тенденция является одним из факторов, влияющих на данную концепцию, но не является единственным.

Что делать сейчас: создавайте контент для закрывающегося веб-сайта

Планируйте так, как будто принцип «по умолчанию — запрет» является базовым, ведь в 2025 году он стал таковым. Компания Cloudflare одним махом перевела примерно 20 % веб-ресурсов на режим доступа по согласию (Cloudflare, Cloudflare только что изменила подход к сканированию Интернета с помощью ИИ-ботов), и с каждым годом их число только растет. Поэтому при проектировании уровня доступа исходите из того, что уязвимые точки будут укреплены, а не из того, что открытые сегодня URL-адреса останутся открытыми.

Из этих данных вытекают три практических шага. Во-первых, разделите ваши целевые объекты на две группы: «доступен лицензионный/платный путь» и «необходимо зайти как реальный пользователь», а затем направляйте трафик в соответствующие группы. Во-вторых, прекратите отправлять трафик агентов с необработанных IP-адресов облачных серверов, поскольку система обнаружения помечает их ещё до того, как тело вашего запроса будет прочитано. В-третьих, отдавайте предпочтение чистому выводу в формате Markdown или HTML, а не необработанным дампам страниц, поскольку ваш LLM оплачивает каждый лишний токен, который вы ему подаете. Например, мы протестировали трафик из жилых районов и из центров обработки данных на защищенных сайтах и зафиксировали, что успешность трафика из жилых районов оказалась значительно выше (приблизительные диапазоны: жилые районы ~85–99 % против центров обработки данных ~20–40 %). Рассматривайте это как ориентир от поставщика, а не как результаты независимого исследования. Тем не менее, эта тенденция соответствует прогнозам в области обнаружения.

Источники

Frequently Asked Questions

Действительно ли открытый Интернет становится все более закрытым, или это всего лишь раздутый ажиотаж?

Изменились настройки по умолчанию, и именно это имеет значение. В 2025 году Cloudflare перевела около 20 % веб-сайтов на блокировку ИИ-сканеров по умолчанию, а около 79 % крупных новостных сайтов теперь блокируют ботов, используемых для обучения ИИ (Cloudflare; «Press Gazette»). Открытые URL-адреса по-прежнему существуют. Однако в настоящее время политика «запрет по умолчанию» является скорее нормой, чем исключением.

Мой агент загружает лишь несколько страниц, а не обучающие данные. Почему происходит блокировка?

Поскольку инфраструктура блокировки не способна распознавать намерения. Она помечает пользовательские агенты-боты и диапазоны IP-адресов центров обработки данных, при этом применяя одинаковые правила как к агенту, загружающему три страницы, так и к обучающему краулеру, обрабатывающему миллион страниц. Процесс краулинга с использованием ИИ примерно на 80 % состоит из обучения (Cloudflare). В результате сайты по умолчанию блокируют доступ ко всей категории.

Почему издатели блокируют доступ, а не просто взимают плату?

И то, и другое, причем в растущей степени. Причиной этого является коллапс соотношения «сканирование/переход»: в 2025 году один из крупнейших сканеров достиг показателя ~38 000 просканированных страниц на одного посетителя, перешедшего по ссылке (Cloudflare). Между тем, платформы, работающие по принципу «оплата за индексацию», позволяют сайтам взимать плату за доступ, который раньше предоставлялся бесплатно, что и составляет платную часть новой модели.

Каков в настоящее время постоянный путь доступа для агентов?

Два подхода. Если доступ предоставляется по лицензии или на платной основе, воспользуйтесь им. Во всех остальных случаях подключайтесь как обычный пользователь: отправляйте запрос с домашнего или мобильного устройства, расположенного в ожидаемом регионе, с корректной визуализацией страниц. Таким образом, вы избежите пометки «IP-адрес из дата-центра», которая выдает большинство агентов на защищенных сайтах.