Вы проводите выборку вместо поиска. Поскольку сопоставление происходит в отдельном потоке без центра прозрачности, вы повторно запускаете заранее подготовленный набор запросов в подходящих сессиях в США и фиксируете каждое спонсируемое поле (Search Engine Journal, 2026 год). Объем и количество повторений позволяют превратить скрытый показатель охвата аудитории по каждому потоку в измеримый показатель доли впечатлений, за которым можно отслеживать динамику во времени.
Как массово собирать данные из рекламных объявлений ChatGPT: техническая архитектура
Как массово собирать данные из рекламных объявлений ChatGPT: техническая архитектура
9 февраля 2026 года компания OpenAI приступила к тестированию рекламы в ChatGPT для взрослых пользователей из США, авторизовавшихся в системе и пользующихся тарифными планами «Free» и «Go» (OpenAI, «Тестирование рекламных объявлений в ChatGPT»). Общедоступного каталога для запросов не существует, а сопоставление происходит в отдельном потоке. Таким образом, освоение методов извлечения рекламных объявлений из ChatGPT — это не задача синтаксического анализа. Это задача выборки: запустите специально разработанный набор промптов в подходящих сессиях с точной географической привязкой, зафиксируйте каждый рекламный блок и повторяйте процедуру до тех пор, пока показатели не стабилизируются.
Основные выводы
- Реклама показывается только взрослым пользователям из США, авторизовавшимся в системах Free и Go; тарифные планы Pro, Business и Enterprise остаются без рекламы, поэтому сеансы сбора данных должны осуществляться в рамках соответствующего тарифного плана (TechCrunch, «ChatGPT запускает рекламу», 9 февраля 2026 г.).
- Центра прозрачности рекламы не существует, а сопоставление осуществляется для каждого отдельного потока, поэтому единственный способ проанализировать рекламные объявления — запустить множество различных запросов и зафиксировать результаты (Search Engine Journal, 2026 год).
- Для каждого показа вы фиксируете заголовок объявления, описание объявления и конечный URL, а затем рассчитываете долю показов как количество показов, деленное на общее количество показов (Search Engine Land, 2026 год).
- Рекламные кампании запускаются по странам, поэтому сбор точных данных на каждом рынке осуществляется из местных источников (Euronews, 2026 год).
- IP-адреса центров обработки данных быстро блокируются; IP-адреса частных пользователей, предоставленные реальными интернет-провайдерами, выглядят как обычный пользовательский трафик (DataImpulse, «Лучшие прокси-серверы для сбора данных с помощью ИИ в 2026 году»).
Данное руководство по инженерному делу является дополнением к стратегическому руководству по Как отслеживать рекламу ChatGPT. Здесь мы проследим весь рабочий процесс этап за этапом.
[ИЗОБРАЖЕНИЕ: Экран инженера, на котором отображен конвейер данных с очередями запросов, георегионами и таблицей спонсируемой рекламы; темный интерфейс с оранжевыми акцентами — ключевые слова: экран инженера по конвейеру данных, темный]
Почему рекламу ChatGPT так сложно извлечь с помощью скрейпинга?
Рекламные объявления ChatGPT сложно извлечь с помощью скрейпинга, поскольку их отображение является одновременно закрытым, контекстным и региональным. Объявления появляются в блоках с пометкой «Спонсорское» под ответом и подбираются с учетом темы разговора, истории чата и предыдущих взаимодействий с рекламой, а не по точным ключевым словам (StackAdapt, «Как разместить рекламу в ChatGPT»). Два одинаковых запроса могут привести к появлению разных рекламодателей, поэтому одно наблюдение практически ничего не говорит.
Каждое проектное решение определяется тремя ограничениями. Во-первых, реклама отображается только для авторизованных пользователей из США, являющихся совершеннолетними и использующих тарифные планы «Free» или «Go», поэтому ваши сеансы должны соответствовать этим критериям. Во-вторых, сопоставление осуществляется на уровне отдельного частного потока, и каталог для поиска отсутствует (Search Engine Journal, 2026 год). В-третьих, запуск будет осуществляться по странам: сначала в США, затем в Великобритании, Японии, Южной Корее, Канаде, Австралии и Новой Зеландии; в дальнейшем планируется запуск в Мексике и Бразилии (Euronews, 2026 год).
Краткая справка: по результатам тестирования от 9 февраля 2026 года реклама ChatGPT показывается только авторизованным взрослым пользователям из США, использующим тарифные планы «Free» и «Go»; она отображается в блоках с пометкой «Sponsored», подбираемых с учётом контекста каждой отдельной переписки, и не имеет общедоступного каталога, поэтому просматривать её можно только при вводе различных запросов в сессиях, соответствующих критериям отображения (OpenAI, «Тестирование рекламных объявлений в ChatGPT»; Search Engine Journal, 2026 год).
Закрытая поверхность переворачивает привычную экономику веб-парсинга с ног на голову. В классическом веб-парсинге анализ данных обходится недорого, а основные затраты связаны с доступом. В данном случае анализ рекламного блока не представляет сложности, а реальные затраты носят статистический характер: вам предстоит оценить скрытое распределение, поэтому ваша архитектура должна отдавать предпочтение размеру выборки и стабильности условий, а не изощрённым селекторам.
Как полностью собрать данные из рекламных объявлений ChatGPT?
Вы собираете данные о рекламе ChatGPT с помощью восьмиэтапного конвейера, который преобразует набор подсказок в линию тренда. Этапы проходят от разработки до доставки: разработка подсказок, отбор сеансов, распределение по географическим регионам, визуализация, сбор данных, нормализация, расчет доли показов, а затем планирование и хранение. Каждый этап подаёт данные на следующий, и весь цикл повторяется с определённой периодичностью, благодаря чему случайные отклонения, возникающие при однократном запуске, усредняются и превращаются в измеримый сигнал.
Вот в чём заключается роль каждого этапа:
- Разработайте набор подсказок. Создавайте запросы, отражающие этапы пути покупателя («лучшая CRM для небольших команд»), и запросы, связанные с брендом («стоит ли [бренд] своих денег»). От формулировки зависит, какие рекламные объявления будут запускаться, поэтому рассматривайте этот набор как контролируемую переменную. Мы подробно рассказываем о создании таких запросов в составление подсказок для рекламных объявлений ChatGPT.
- Определите тип сеанса. Каждый запуск должен осуществляться авторизованным взрослым пользователем из США, использующим тарифный план «Free» или «Go». В тарифных планах «Pro», «Business» и «Enterprise» реклама не отображается (TechCrunch, 2026 год). Разнообразьте истории сеансов, чтобы один нетипичный поток не повлиял на репрезентативность выборки.
- Распределите по регионам. Поскольку внедрение осуществляется по странам, сбор данных на каждом рынке производится с местных источников. Если рассматривать ситуацию исключительно с точки зрения США, то по мере расширения тестирования из поля зрения ускользают рекламодатели из Великобритании, Японии или Канады.
- Воспроизведите диалог. Отправьте запрос и сохраните полностью отображенный ответ, включая любой спонсорский блок. На данном этапе требуются источники данных реальных пользователей, о которых пойдет речь ниже.
- Займите спонсорскую ячейку. Из сгенерированного результата извлеките заголовок объявления, описание объявления и конечный URL-адрес для каждого спонсируемого размещения (Search Engine Land, 2026 год).
- Проведите синтаксический анализ и нормализацию. Сопоставьте исходные поля стабильной схеме. Нормализуйте названия рекламодателей и конечные URL-адреса, чтобы данные об одном и том же рекламодателе не разбивались по разным строкам.
- Рассчитайте долю показов. Суммарное количество показов в расчете на общее количество просмотров по каждому запросу и рынку. Подробнее о расчетах — чуть позже.
- Планируйте и храните. Запустите набор с фиксированной частотой показов и записывайте строки с отметками времени, чтобы доля показов отражала динамику, а не моментальный срез.
Как запускать запросы в качестве сеансов, соответствующих критериям и обеспечивающих географическую точность?
Вы запускаете запросы в качестве допустимых сеансов, отправляя их с реальных пользовательских адресов на целевом рынке, а затем фиксируете отображаемый диалог. Именно на этом этапе решается, сможете ли вы собирать данные для рекламы с использованием ИИ в больших объемах или вас заблокируют на ранней стадии. Большинство платформ быстро помечают IP-адреса центров обработки данных, в то время как IP-адреса частных пользователей от реальных интернет-провайдеров выглядят как обычный трафик, а результаты работы ИИ отображаются с учетом региона и языка, поэтому для обеспечения точности необходимы локальные IP-адреса на всех рынках (DataImpulse, «Лучшие прокси-серверы для сбора данных с помощью ИИ в 2026 году»). Выбор этой сети — это отдельное решение, которое сравнивается в Прокси-серверы из жилых районов и из центров обработки данных для рекламы с использованием ИИ.
Именно здесь Massive напрямую встраивается в рабочий процесс. Massive — это сеть доступа к устройствам в сочетании со стеком рендеринга, которая возвращает чистый HTML-код или Markdown из любого общедоступного источника, в любом месте, работая на реальных потребительских устройствах в более чем 195 странах. Его Web Render API /ai Эндпойнт возвращает варианты ответов ChatGPT, полученные с устройств реальных пользователей в выбранном вами регионе, в виде HTML-кода полного диалога, HTML-кода запроса, HTML-кода варианта ответа, HTML-кода источников, а также массива подзапросов. В режиме синхронной обработки вариант ответа возвращается напрямую; в асинхронном режиме /ai/варианты завершения Используется алгоритм «очередь-и-извлечение» с геотаргетированием по стране, административному району или городу.
Massive предоставляет необходимые возможности; ваша команда разрабатывает набор подсказок и осуществляет операцию. Что касается сопутствующего конвейера, конечная точка «Browsing» (/браузер) обеспечивает высококачественный вывод в формате Markdown и сохранение сеансов до 12 минут. Каждый IP-адрес подключается через Massive SDK; платформа прошла аудит SOC 2, соответствует требованиям GDPR и имеет сертификат AppEsteem, а также обеспечивает полный аудиторский след.
Цикл управления имеет небольшой объем. Сложные части (допустимые точки отсчёта, географические данные, рендеринг) выполняются после вызова функции рендеринга, поэтому ваш код сосредоточен на выборке и агрегировании:
# Illustrative sampling loop. The render_chatgpt() call abstracts an# eligible, geo-targeted session; see your render provider's docs for# exact endpoint parameters before wiring it up.from collections import Counterdef sample_prompt(prompt, market, runs=25):appearances = Counter()for _ in range(runs):convo = render_chatgpt(prompt=prompt, geo=market) # rendered HTMLfor box in find_sponsored_boxes(convo): # may be zeroad = {"advertiser": normalize(box.title),"description": box.description,"final_url": canonical(box.final_url),"prompt": prompt,"market": market,}store(ad) # stage 8appearances[ad["advertiser"]] += 1# stage 7: impression share = appearances / total runsreturn {a: round(n / runs, 3) for a, n in appearances.items()}
Цикл специально выполнен в упрощённом виде. В производственной версии добавлены повторные попытки, механизм обнаружения спонсорских блоков, учитывающий изменения в макете, проверка, отбрасывающая пустые рендеры, а также планирование с учётом особенностей каждого рынка.
Как рассчитывается доля показов при повторных запусках?
Долю показов рассчитывают, деля количество показов рекламодателя на общее количество показов для данного запроса и рынка. Если рекламодатель появляется в 12 из 25 показов, это означает, что его доля показов для данного запроса и окна составляет 48 % (Search Engine Land, 2026 год). Именно этот единственный коэффициент позволяет преобразовать нестабильные данные по отдельным потокам в числовое значение, которое можно отслеживать и сравнивать.
Размер выборки имеет значение. Несколько запусков дают нестабильную оценку, тогда как десятки запусков на один запрос позволяют получить стабильные результаты. Сохраняйте условия сбора данных неизменными — тот же рынок, тот же уровень и ту же формулировку запроса, — чтобы изменение количества отражало результаты рекламного аукциона, а не настройки вашей системы. Отслеживание конечного URL-адреса наряду с долей также позволяет определить точную целевую страницу, на которую перенаправляет пользователя каждый из конкурентов при каждом взаимодействии.
Краткое пояснение: Доля показов для рекламы ChatGPT равна количеству показов, в которых рекламодатель фигурирует, деленному на общее количество показов для данного запроса и рынка; 12 появлений из 25 показов соответствуют доле показов в 48 % для данного запроса и временного интервала (Search Engine Land, «Что данные о рекламе в ChatGPT раскрывают о ваших конкурентах», 2026 г.).
Как часто следует производить сбор, и куда отправляются отходы?
Вы собираете данные с фиксированной периодичностью и сохраняете каждое наблюдение в виде строки с отметкой времени, поскольку ценность заключается в динамике, а не в моментальном снимке. Еженедельное или ежедневное выполнение одного и того же набора запросов для каждого рынка позволяет сформировать историю данных, которую впоследствии невозможно будет восстановить. Рассматривайте сам график как часть метода: изменение периодичности в ходе работы затрудняет сравнение данных из двух разных периодов.
После того как схема данных станет стабильной, хранение данных не представляет сложности. Для этого подойдёт одна широкая таблица, содержащая следующие поля: запрос, рынок, временная метка запуска, рекламодатель, заголовок объявления, описание объявления, конечный URL. Доля показов в этом случае представляет собой запрос к этой таблице с группировкой по запросу, рынку и временному интервалу. Поскольку вы контролируете условия сбора данных, повторное выполнение того же запроса в следующем месяце даст сопоставимые результаты, что и является основной целью регулярного сбора данных о спонсируемых результатах ИИ.
Примечание относительно терминов «сфера применения» и «платформа»
Собирайте данные исключительно из общедоступных рекламных блоков и не выходите за их пределы. Спонсорский блок, который видит любой пользователь, отвечающий требованиям, является общедоступной информацией, и именно эта граница заслуживает уважения. Не собирайте персональные данные, не пытайтесь обойти аутентификацию за пределами обычной сессии входа в систему и осуществляйте сбор данных с разумной периодичностью, а не перегружая сервис. Соблюдайте условия, установленные каждой платформой, создавайте запросы, специально предназначенные для конкретных целей, а если вы ведёте коммерческую деятельность или работаете в крупных масштабах, обратитесь к юристу для проверки законности вашего конкретного использования. Законодательство в этой сфере варьируется в зависимости от юрисдикции и постоянно меняется.
Что это означает для вас
Сбор данных о рекламе в ChatGPT — это задача, требующая дисциплинированного отбора образцов, а не разработки сложных фильтров. Восьмиэтапный конвейер обеспечивает стабильные условия: заранее разработанный набор подсказок, подходящие сеансы, нужный географический регион и отображение страниц для реальных пользователей, благодаря чему рассчитанные вами показатели доли показов остаются значимыми на протяжении нескольких недель. Создайте цикл один раз, запускайте его с заданной периодичностью и сохраняйте каждую строку.
Решающим фактором является уровень сбора данных: подходящие сеансы с точной географической привязкой, которые выглядят как действия реальных пользователей. Именно в этом заключается преимущество Massive’s /ai Поддержка конечных точек и охват более 195 стран позволяют получать ответы ChatGPT с устройств реальных пользователей на выбранном вами рынке. Начните тестирование прямо сейчас, соблюдайте правила публичной рекламной площадки, и вы получите данные о тенденциях, которые невозможно воссоздать задним числом. Для ознакомления со стратегической концепцией вернитесь к Как отслеживать рекламу ChatGPT.
Часто задаваемые вопросы
IP-адреса центров обработки данных быстро блокируются, тогда как IP-адреса частных пользователей, полученные от реальных интернет-провайдеров, выглядят как обычный пользовательский трафик (DataImpulse, «Лучшие прокси-серверы для сбора данных с помощью ИИ в 2026 году»). Рекламные площадки на базе ИИ также отображаются с учетом региона и языка, а их внедрение осуществляется по странам, поэтому для сбора данных с высокой географической точностью требуются локальные IP-адреса на каждом рынке, который вы хотите отслеживать.
Только тарифные планы «Free» и «Go», и только для взрослых пользователей из США, авторизовавшихся в системе, по состоянию на 9 февраля 2026 года (OpenAI, «Тестирование рекламных объявлений в ChatGPT»). В версиях Pro, Business и Enterprise реклама отсутствует (TechCrunch, 2026 год). В случае сборов, не относящихся к соответствующему уровню, спонсируемые коробки не будут выдаваться вообще.
Запишите название объявления, его описание и конечный URL-адрес для каждого спонсируемого размещения, а также текст подсказки, рынок и временную метку запуска (Search Engine Land, 2026 год). Эти поля позволяют вам систематизировать рекламодателей, отслеживать целевые страницы и рассчитывать долю показов как отношение количества показов к общему количеству показов для каждого запроса и рынка.
Собирайте только общедоступные рекламные блоки, которые видят все пользователи, имеющие на это право; избегайте сбора персональных данных и соблюдайте условия, установленные каждой платформой, а также разумную периодичность. Границами являются общедоступные рекламные площадки. Рассматривайте скрапинг как наблюдение за общедоступными рекламными размещениями, а не как массовый сбор данных, и в случае коммерческого или крупномасштабного использования обязательно проконсультируйтесь с юристами, поскольку правила различаются в зависимости от юрисдикции.
