«The Closing Web»: блокировка поисковых роботов на базе ИИ и доступ агентов

Ryan Turner · Head of InnovationJune 5, 2026

Интернет, который ранее был открыт для анонимных роботов-сканеров, становится все более закрытым. Старую модель свободного доступа для всех заменяют механизмы блокировки по умолчанию и платные торговые площадки. В результате доступ агентов теперь делится на два пути: лицензионный или платный сканирование там, где это возможно, либо посещение сайта в качестве реального пользователя в остальных случаях. Если ваш агент по-прежнему исходит из того, что может загружать любой общедоступный URL с IP-адреса центра обработки данных, он строит свои действия на фундаменте, который исчезает у него под ногами.

Основные выводы

1 июля 2025 года компания Cloudflare начала по умолчанию блокировать ИИ-краулеры примерно на 20 % веб-ресурсов и запустила платформу, на которой предоставляются услуги по сканированию веб-ресурсов на условиях оплаты за сканирование (Cloudflare, Cloudflare только что изменила подход к тому, как ИИ-боты сканируют Интернет в целом).
Крупные новостные сайты перешли к политике «запрета по умолчанию»: около 79 % блокируют ботов, используемых для обучения ИИ, а около 49 % запрещают доступ боту GPTBot по имени.
Причиной является экономическая составляющая: соотношение между количеством просканированных страниц и количеством переходов по ссылкам достигло ~38 000:1 для одного из крупных поисковых роботов. С сайтов забирают трафик, а не направляют его на них.
Обучение веб-краулеров и поиск агентов в режиме реального времени попадают под одни и те же ограничения. Агенты, которые продолжают работать, выглядят как реальные пользователи, находящиеся в нужном географическом регионе, либо оплачивают лицензионный доступ.

Что изменилось: в сети стал применяться принцип «по умолчанию — запрет»

В 2025 году настройки по умолчанию изменились. Самым значимым событием стало решение компании Cloudflare, которая с 1 июля начала по умолчанию блокировать ИИ-краулеры примерно на 20 % веб-ресурсов и запустила платформу, предлагающую услуги по сканированию за отдельную плату (Cloudflare, Cloudflare только что изменила подход к сбору данных из Интернета с помощью ИИ-ботов). Оплата за сканирование представляет собой торговую площадку, на которой сайт взимает с ботов плату за доступ, который ранее предоставлялся бесплатно. Фактически, одно изменение в настройках привело к тому, что для одной пятой части Интернета режим доступа сменился с «отказ по умолчанию» на «согласие по умолчанию».

Это не было нишевым изменением политики. На долю ботов уже приходится значительная часть трафика. В 2024 году доля автоматизированных ботов впервые за десятилетие превысила 51 % всего веб-трафика, при этом доля вредоносных ботов составила 37 % (Imperva, Отчет о вредоносных ботах за 2025 год). Поскольку большинство запросов, поступающих на ваш сервер-источник, исходит от компьютеров, блокировка компьютеров по умолчанию перестает восприниматься как агрессивная мера. Напротив, это начинает выглядеть как элементарная мера безопасности.

Первой и наиболее решительно отреагировала индустрия новостей. К 2025 году примерно 79 % крупнейших мировых новостных сайтов заблокировали ботов, используемых для обучения ИИ, а около 49 % прямо запретили использование GPTBot («Press Gazette», В настоящее время восемь из десяти крупнейших новостных сайтов мира блокируют ботов, используемых для обучения искусственного интеллекта). В результате файл robots.txt превратился из вежливой рекомендации в политику «запрет по умолчанию» для категории ИИ. Процесс открытого сканирования не прекратился в одночасье. Тем не менее тенденция очевидна и указывает в одном направлении.

Причины случившегося: обвал показателей «crawl-to-referral»

Причина кроется в экономике, а не в идеологии. Старая схема была проста. Поисковые роботы индексировали ваш контент, а поисковые системы в ответ направляли к вам посетителей. Искусственный интеллект нарушил этот цикл. В середине 2025 года поисковый робот компании Anthropic обрабатывал примерно 38 000 страниц на одного привлечённого посетителя, а GPTBot от OpenAI — примерно 3 700:1 (Cloudflare, Медленное снижение числа рефералов перед их резким падением). В результате издатели проводят расчеты и видят, что контент уходит, а взамен они практически ничего не получают.

Ситуация становится более понятной, если рассмотреть, для чего осуществляется сканирование. В случае сканирования с использованием искусственного интеллекта примерно 80 % времени уходит на обучение, 18 % — на поиск и лишь 2 % — на действия пользователей (Cloudflare, Подробнее об ИИ-краулерах). Четыре пятых этого объема используются для обучения модели, которая по замыслу не возвращает ни одного реферала. Таким образом, с точки зрения владельца сайта это является чистой эксплуатацией, и блокировка является рациональной мерой реагирования.

Объем трафика также растет, что повышает ставки. Трафик, генерируемый ИИ и поисковыми роботами, к 2025 году вырос на 18 % по сравнению с предыдущим годом, а доля запросов от ИИ-роботов GPTBot за год увеличилась с 5 % до 30 %, что соответствует росту общего числа запросов на 305 % (Cloudflare, От Googlebot до GPTBot: кто будет сканировать ваш сайт в 2025 году). Увеличение нагрузки, отсутствие обратного трафика и простота реализации средств для его блокировки. В результате применение политики «по умолчанию — запрет» было неизбежным.

Что это означает для агентов: они оказались в одной ловушке

Вот в чем заключается ловушка, в которую попадают инженерные команды. Обучение краулеров и поиск информации агентом в режиме реального времени — это разные вещи. Краулер для обучения сканирует миллионы страниц, чтобы сформировать набор данных. Ваш агент, напротив, загружает три страницы, чтобы прямо сейчас ответить на вопрос одного пользователя. Однако сайт не распознает намерения. Он видит автоматический запрос от известного бота-пользовательского агента или из помеченного диапазона IP-адресов и применяет к обоим одинаковое правило «по умолчанию — запрет». Именно поэтому проблема «Интернет закрывается для ИИ» затрагивает агентов, которые никогда не соприкасаются с обучающими данными. Инфраструктура блокировки не проводит различия между агентом, осуществляющим поиск информации, и скрейпером. Вместо этого она различает людей и ботов, а также всё чаще — «безопасные» IP-адреса и диапазоны центров обработки данных. Одним словом, добросовестный агент, работающий с облачным IP-адресом, выглядит точно так же, как и вредоносный скрейпер.

IP-адреса центров обработки данных Это адреса, принадлежащие поставщикам облачных услуг и хостинга; именно эти диапазоны в первую очередь выделяются системами защиты от ботов, поскольку обычные пользователи не осуществляют просмотр веб-страниц с таких адресов. В частности, именно их в первую очередь выделяют современные системы обнаружения ботов в 2026 году, что и является основной причиной сбоев в работе агентов при попытках проникновения на защищенные объекты. Мы подробно рассматриваем механизмы этого процесса в Почему агенты блокируются по IP-адресам центров обработки данных, однако, если говорить кратко, то «честный агент», использующий облачный IP-адрес, воспринимается как враждебный.

Таким образом, вопрос доступа делится на два подхода, и оба имеют право на существование. Если существует лицензионный или платный способ доступа, например, соглашение с оплатой за сканирование или официальный API, воспользуйтесь им. Это наиболее чистый вариант, который по определению устойчив к закрытию веб-ресурсов. Во всех остальных случаях надежным способом является доступ в качестве реального пользователя: запрос, исходящий с домашнего или мобильного устройства, расположенного в том регионе, на который рассчитан контент, при этом страница отображается так, как это сделал бы браузер человека. Прокси-серверы для частного использования — это соединения, маршрутизация которых осуществляется через реальные потребительские устройства, поэтому запрос передается с адресом, присвоенным интернет-провайдером, и сайт рассматривает его как обычного посетителя. Выбор между этими типами сетей является самостоятельным решением, которое мы подробно рассматриваем в Прокси-серверы для частных пользователей и прокси-серверы для центров обработки данных.

Именно этот аспект большинство команд недооценивают до тех пор, пока он не приводит к сбоям в рабочей среде. По мере закрытия открытых путей сканирования продолжают работать только те агенты, которые совершенно не похожи на сканеры. По нашему опыту работы с различными рабочими нагрузками агентов, доступ с устройств реальных пользователей — в качестве органического локального посетителя с корректным отображением — остается надежным даже в условиях, когда по умолчанию применяется политика «запрета по умолчанию». Именно в этом заключается концепция сети доступа к устройствам Massive в сочетании со стеком рендеринга: реальные потребительские устройства в более чем 195 странах с геотаргетингом по стране, административному району и городу, возвращающие чистый HTML-код или Markdown из любого общедоступного источника в любом месте. Наблюдая за работой команд, мы видим, что они внедряют эту систему в качестве резервного варианта для целей, доступ к которым был нарушен, а затем переключают её на основной режим, как только очередь заявок исчезает. Когда самодельный стек из прокси и «безголового» браузера перестаёт окупаться, следующим шагом обычно становится управляемая инфраструктура, о которой мы расскажем в инфраструктура управляемых браузеров.

Чтобы ознакомиться с полной архитектурой предоставления агенту постоянного доступа в режиме реального времени, начните с раздела, посвященного тому, как предоставить ИИ-агентам доступ к веб-ресурсам в режиме реального времени. Данная тенденция является одним из факторов, учитываемых при разработке данного проекта, но не является единственным.

Что делать сейчас: создавайте контент для «закрытого» Интернета

Планируйте так, как будто принцип «по умолчанию — запрет» является базовым подходом, поскольку в 2025 году он именно таким и стал. Компания Cloudflare одним махом перевела примерно 20 % веб-ресурсов на режим доступа по согласию (Cloudflare, Cloudflare только что изменила подход к сбору данных из Интернета с помощью ИИ-ботов), и с тех пор их использование только растёт. Поэтому при проектировании уровня доступа исходите из того, что «легкие мишени» будут укреплены, а не из того, что открытые на сегодняшний день URL-адреса останутся открытыми.

Из этих данных вытекают три практических шага. Во-первых, разделите ваши целевые группы на «доступен лицензионный/платный путь» и «необходимо зайти как реальный пользователь», а затем направляйте трафик в соответствии с этим. Во-вторых, прекратите отправлять трафик агентов с необработанных IP-адресов облачных серверов, поскольку система обнаружения помечает их ещё до того, как тело вашего запроса будет прочитано. В-третьих, отдавайте предпочтение чистому выводу в формате Markdown или HTML вместо необработанных дампов страниц, поскольку ваш LLM оплачивает каждый лишний токен, который вы ему предоставляете. Например, мы провели тестирование выхода трафика с частных адресов по сравнению с выходом из центров обработки данных на защищённых сайтах и зафиксировали, что успешность доступа с частных адресов оказалась значительно выше (приблизительные диапазоны: с частных адресов — ~85–99 % против ~20–40 % из центров обработки данных). Рассматривайте эти данные как ориентир от поставщика, а не как результаты независимого исследования. Тем не менее, эта тенденция соответствует прогнозам в области обнаружения.

Источники

Imperva, Отчет о вредоносных ботах за 2025 год, 2025 г. https://www.imperva.com/resources/resource-library/reports/2025-bad-bot-report/
Cloudflare, Cloudflare только что изменила подход к тому, как ИИ-боты сканируют Интернет в целом, 2025 г. https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
Cloudflare, Медленное снижение числа рефералов перед их резким падением, 2025 г. https://blog.cloudflare.com/crawlers-click-ai-bots-training/
Cloudflare, Подробнее об ИИ-краулерах, 2025 г. https://blog.cloudflare.com/ai-crawler-traffic-by-purpose-and-industry/
Cloudflare, От Googlebot до GPTBot: кто будет сканировать ваш сайт в 2025 году, 2025 г. https://blog.cloudflare.com/from-googlebot-to-gptbot-whos-crawling-your-site-in-2025/
«Press Gazette», В настоящее время восемь из десяти крупнейших новостных сайтов мира блокируют ботов, используемых для обучения искусственного интеллекта, 2025 г. https://pressgazette.co.uk/platforms/eight-in-ten-of-worlds-biggest-news-websites-now-block-ai-training-bots/

Часто задаваемые вопросы

Действительно ли открытый Интернет становится все более закрытым, или это всего лишь раздутый ажиотаж?+

Изменились настройки по умолчанию, и именно это имеет значение. В 2025 году компания Cloudflare перевела около 20 % веб-ресурсов на блокировку ИИ-краулеров по умолчанию, а около 79 % крупных новостных сайтов в настоящее время блокируют ботов, используемых для обучения ИИ (Cloudflare; «Press Gazette»). Открытые URL-адреса по-прежнему существуют. Однако в настоящее время политика «запрет по умолчанию» является скорее тенденцией, чем исключением.

Мой агент извлекает лишь несколько страниц, а не обучающие данные. Почему происходит блокировка?+

Поскольку инфраструктура блокировки не способна распознавать намерения. Она помечает пользовательские агенты-боты и диапазоны IP-адресов центров обработки данных, при этом применяя одно и то же правило как к агенту, извлекающему три страницы, так и к обучающему краулеру, обрабатывающему миллион страниц. Процесс краулинга с использованием ИИ примерно на 80 % состоит из обучения (Cloudflare). В связи с этим сайты по умолчанию блокируют доступ ко всей категории.

Почему издатели блокируют доступ, а не просто взимают плату?+

И то, и другое — причём в всё большей степени. Причиной этого является резкое сокращение соотношения «сканирование/переход»: в 2025 году один из крупнейших сканеров достиг показателя ~38 000 просканированных страниц на одного посетителя, перешедшего по ссылке (Cloudflare). Между тем платформы, работающие по модели «оплата за индексацию», позволяют сайтам взимать плату за доступ, который раньше предоставлялся бесплатно, что и составляет платную часть новой модели.

Каков в настоящее время постоянный путь доступа для агентов?+

Два подхода. Если имеется лицензионный или платный доступ, воспользуйтесь им. Во всех остальных случаях подключайтесь как обычный пользователь: отправляйте запрос с домашнего или мобильного устройства, расположенного в ожидаемом географическом регионе, с корректной визуализацией страницы. Таким образом, вы избежите пометки «IP-адрес центра обработки данных», которая выявляет большинство агентов на защищенных сайтах.