Схема конвейера, на которой показан поток запросов, поступающих из географически распределенных сеансов реальных пользователей в набор данных о спонсируемой рекламе; тёмная тема с оранжевыми акцентами
Все публикации

Как массово собирать данные из рекламных объявлений ChatGPT: техническая архитектура

Ryan Turner
Ryan Turner · Head of Growth
Открыть markdown

Как массово собирать данные из рекламных объявлений ChatGPT: техническая архитектура

9 февраля 2026 года компания OpenAI приступила к тестированию рекламы в ChatGPT для взрослых пользователей из США, авторизовавшихся в системе и пользующихся тарифными планами «Free» и «Go» (OpenAI, «Тестирование рекламных объявлений в ChatGPT»). Общедоступного каталога для запросов не существует, а сопоставление происходит в отдельном потоке. Таким образом, освоение методов извлечения рекламных объявлений из ChatGPT — это не задача синтаксического анализа. Это задача выборки: запустите специально разработанный набор промптов в подходящих сессиях с точной географической привязкой, зафиксируйте каждый рекламный блок и повторяйте процедуру до тех пор, пока показатели не стабилизируются.

Основные выводы
  • Реклама показывается только взрослым пользователям из США, авторизовавшимся в системах Free и Go; тарифные планы Pro, Business и Enterprise остаются без рекламы, поэтому сеансы сбора данных должны осуществляться в рамках соответствующего тарифного плана (TechCrunch, «ChatGPT запускает рекламу», 9 февраля 2026 г.).
  • Центра прозрачности рекламы не существует, а сопоставление осуществляется для каждого отдельного потока, поэтому единственный способ проанализировать рекламные объявления — запустить множество различных запросов и зафиксировать результаты (Search Engine Journal, 2026 год).
  • Для каждого показа вы фиксируете заголовок объявления, описание объявления и конечный URL, а затем рассчитываете долю показов как количество показов, деленное на общее количество показов (Search Engine Land, 2026 год).
  • Рекламные кампании запускаются по странам, поэтому сбор точных данных на каждом рынке осуществляется из местных источников (Euronews, 2026 год).
  • IP-адреса центров обработки данных быстро блокируются; IP-адреса частных пользователей, предоставленные реальными интернет-провайдерами, выглядят как обычный пользовательский трафик (DataImpulse, «Лучшие прокси-серверы для сбора данных с помощью ИИ в 2026 году»).

Данное руководство по инженерному делу является дополнением к стратегическому руководству по Как отслеживать рекламу ChatGPT. Здесь мы проследим весь рабочий процесс этап за этапом.

[ИЗОБРАЖЕНИЕ: Экран инженера, на котором отображен конвейер данных с очередями запросов, георегионами и таблицей спонсируемой рекламы; темный интерфейс с оранжевыми акцентами — ключевые слова: экран инженера по конвейеру данных, темный]

Почему рекламу ChatGPT так сложно извлечь с помощью скрейпинга?

Рекламные объявления ChatGPT сложно извлечь с помощью скрейпинга, поскольку их отображение является одновременно закрытым, контекстным и региональным. Объявления появляются в блоках с пометкой «Спонсорское» под ответом и подбираются с учетом темы разговора, истории чата и предыдущих взаимодействий с рекламой, а не по точным ключевым словам (StackAdapt, «Как разместить рекламу в ChatGPT»). Два одинаковых запроса могут привести к появлению разных рекламодателей, поэтому одно наблюдение практически ничего не говорит.

Каждое проектное решение определяется тремя ограничениями. Во-первых, реклама отображается только для авторизованных пользователей из США, являющихся совершеннолетними и использующих тарифные планы «Free» или «Go», поэтому ваши сеансы должны соответствовать этим критериям. Во-вторых, сопоставление осуществляется на уровне отдельного частного потока, и каталог для поиска отсутствует (Search Engine Journal, 2026 год). В-третьих, запуск будет осуществляться по странам: сначала в США, затем в Великобритании, Японии, Южной Корее, Канаде, Австралии и Новой Зеландии; в дальнейшем планируется запуск в Мексике и Бразилии (Euronews, 2026 год).

Краткая справка: по результатам тестирования от 9 февраля 2026 года реклама ChatGPT показывается только авторизованным взрослым пользователям из США, использующим тарифные планы «Free» и «Go»; она отображается в блоках с пометкой «Sponsored», подбираемых с учётом контекста каждой отдельной переписки, и не имеет общедоступного каталога, поэтому просматривать её можно только при вводе различных запросов в сессиях, соответствующих критериям отображения (OpenAI, «Тестирование рекламных объявлений в ChatGPT»; Search Engine Journal, 2026 год).

Закрытая поверхность переворачивает привычную экономику веб-парсинга с ног на голову. В классическом веб-парсинге анализ данных обходится недорого, а основные затраты связаны с доступом. В данном случае анализ рекламного блока не представляет сложности, а реальные затраты носят статистический характер: вам предстоит оценить скрытое распределение, поэтому ваша архитектура должна отдавать предпочтение размеру выборки и стабильности условий, а не изощрённым селекторам.

Как полностью собрать данные из рекламных объявлений ChatGPT?

Вы собираете данные о рекламе ChatGPT с помощью восьмиэтапного конвейера, который преобразует набор подсказок в линию тренда. Этапы проходят от разработки до доставки: разработка подсказок, отбор сеансов, распределение по географическим регионам, визуализация, сбор данных, нормализация, расчет доли показов, а затем планирование и хранение. Каждый этап подаёт данные на следующий, и весь цикл повторяется с определённой периодичностью, благодаря чему случайные отклонения, возникающие при однократном запуске, усредняются и превращаются в измеримый сигнал.

Вот в чём заключается роль каждого этапа:

  1. Разработайте набор подсказок. Создавайте запросы, отражающие этапы пути покупателя («лучшая CRM для небольших команд»), и запросы, связанные с брендом («стоит ли [бренд] своих денег»). От формулировки зависит, какие рекламные объявления будут запускаться, поэтому рассматривайте этот набор как контролируемую переменную. Мы подробно рассказываем о создании таких запросов в составление подсказок для рекламных объявлений ChatGPT.
  2. Определите тип сеанса. Каждый запуск должен осуществляться авторизованным взрослым пользователем из США, использующим тарифный план «Free» или «Go». В тарифных планах «Pro», «Business» и «Enterprise» реклама не отображается (TechCrunch, 2026 год). Разнообразьте истории сеансов, чтобы один нетипичный поток не повлиял на репрезентативность выборки.
  3. Распределите по регионам. Поскольку внедрение осуществляется по странам, сбор данных на каждом рынке производится с местных источников. Если рассматривать ситуацию исключительно с точки зрения США, то по мере расширения тестирования из поля зрения ускользают рекламодатели из Великобритании, Японии или Канады.
  4. Воспроизведите диалог. Отправьте запрос и сохраните полностью отображенный ответ, включая любой спонсорский блок. На данном этапе требуются источники данных реальных пользователей, о которых пойдет речь ниже.
  5. Займите спонсорскую ячейку. Из сгенерированного результата извлеките заголовок объявления, описание объявления и конечный URL-адрес для каждого спонсируемого размещения (Search Engine Land, 2026 год).
  6. Проведите синтаксический анализ и нормализацию. Сопоставьте исходные поля стабильной схеме. Нормализуйте названия рекламодателей и конечные URL-адреса, чтобы данные об одном и том же рекламодателе не разбивались по разным строкам.
  7. Рассчитайте долю показов. Суммарное количество показов в расчете на общее количество просмотров по каждому запросу и рынку. Подробнее о расчетах — чуть позже.
  8. Планируйте и храните. Запустите набор с фиксированной частотой показов и записывайте строки с отметками времени, чтобы доля показов отражала динамику, а не моментальный срез.

Как запускать запросы в качестве сеансов, соответствующих критериям и обеспечивающих географическую точность?

Вы запускаете запросы в качестве допустимых сеансов, отправляя их с реальных пользовательских адресов на целевом рынке, а затем фиксируете отображаемый диалог. Именно на этом этапе решается, сможете ли вы собирать данные для рекламы с использованием ИИ в больших объемах или вас заблокируют на ранней стадии. Большинство платформ быстро помечают IP-адреса центров обработки данных, в то время как IP-адреса частных пользователей от реальных интернет-провайдеров выглядят как обычный трафик, а результаты работы ИИ отображаются с учетом региона и языка, поэтому для обеспечения точности необходимы локальные IP-адреса на всех рынках (DataImpulse, «Лучшие прокси-серверы для сбора данных с помощью ИИ в 2026 году»). Выбор этой сети — это отдельное решение, которое сравнивается в Прокси-серверы из жилых районов и из центров обработки данных для рекламы с использованием ИИ.

Именно здесь Massive напрямую встраивается в рабочий процесс. Massive — это сеть доступа к устройствам в сочетании со стеком рендеринга, которая возвращает чистый HTML-код или Markdown из любого общедоступного источника, в любом месте, работая на реальных потребительских устройствах в более чем 195 странах. Его Web Render API /ai Эндпойнт возвращает варианты ответов ChatGPT, полученные с устройств реальных пользователей в выбранном вами регионе, в виде HTML-кода полного диалога, HTML-кода запроса, HTML-кода варианта ответа, HTML-кода источников, а также массива подзапросов. В режиме синхронной обработки вариант ответа возвращается напрямую; в асинхронном режиме /ai/варианты завершения Используется алгоритм «очередь-и-извлечение» с геотаргетированием по стране, административному району или городу.

Massive предоставляет необходимые возможности; ваша команда разрабатывает набор подсказок и осуществляет операцию. Что касается сопутствующего конвейера, конечная точка «Browsing» (/браузер) обеспечивает высококачественный вывод в формате Markdown и сохранение сеансов до 12 минут. Каждый IP-адрес подключается через Massive SDK; платформа прошла аудит SOC 2, соответствует требованиям GDPR и имеет сертификат AppEsteem, а также обеспечивает полный аудиторский след.

Цикл управления имеет небольшой объем. Сложные части (допустимые точки отсчёта, географические данные, рендеринг) выполняются после вызова функции рендеринга, поэтому ваш код сосредоточен на выборке и агрегировании:

python
# Illustrative sampling loop. The render_chatgpt() call abstracts an
# eligible, geo-targeted session; see your render provider's docs for
# exact endpoint parameters before wiring it up.
from collections import Counter
def sample_prompt(prompt, market, runs=25):
appearances = Counter()
for _ in range(runs):
convo = render_chatgpt(prompt=prompt, geo=market) # rendered HTML
for box in find_sponsored_boxes(convo): # may be zero
ad = {
"advertiser": normalize(box.title),
"description": box.description,
"final_url": canonical(box.final_url),
"prompt": prompt,
"market": market,
}
store(ad) # stage 8
appearances[ad["advertiser"]] += 1
# stage 7: impression share = appearances / total runs
return {a: round(n / runs, 3) for a, n in appearances.items()}

Цикл специально выполнен в упрощённом виде. В производственной версии добавлены повторные попытки, механизм обнаружения спонсорских блоков, учитывающий изменения в макете, проверка, отбрасывающая пустые рендеры, а также планирование с учётом особенностей каждого рынка.

Как рассчитывается доля показов при повторных запусках?

Долю показов рассчитывают, деля количество показов рекламодателя на общее количество показов для данного запроса и рынка. Если рекламодатель появляется в 12 из 25 показов, это означает, что его доля показов для данного запроса и окна составляет 48 % (Search Engine Land, 2026 год). Именно этот единственный коэффициент позволяет преобразовать нестабильные данные по отдельным потокам в числовое значение, которое можно отслеживать и сравнивать.

Размер выборки имеет значение. Несколько запусков дают нестабильную оценку, тогда как десятки запусков на один запрос позволяют получить стабильные результаты. Сохраняйте условия сбора данных неизменными — тот же рынок, тот же уровень и ту же формулировку запроса, — чтобы изменение количества отражало результаты рекламного аукциона, а не настройки вашей системы. Отслеживание конечного URL-адреса наряду с долей также позволяет определить точную целевую страницу, на которую перенаправляет пользователя каждый из конкурентов при каждом взаимодействии.

Краткое пояснение: Доля показов для рекламы ChatGPT равна количеству показов, в которых рекламодатель фигурирует, деленному на общее количество показов для данного запроса и рынка; 12 появлений из 25 показов соответствуют доле показов в 48 % для данного запроса и временного интервала (Search Engine Land, «Что данные о рекламе в ChatGPT раскрывают о ваших конкурентах», 2026 г.).

Как часто следует производить сбор, и куда отправляются отходы?

Вы собираете данные с фиксированной периодичностью и сохраняете каждое наблюдение в виде строки с отметкой времени, поскольку ценность заключается в динамике, а не в моментальном снимке. Еженедельное или ежедневное выполнение одного и того же набора запросов для каждого рынка позволяет сформировать историю данных, которую впоследствии невозможно будет восстановить. Рассматривайте сам график как часть метода: изменение периодичности в ходе работы затрудняет сравнение данных из двух разных периодов.

После того как схема данных станет стабильной, хранение данных не представляет сложности. Для этого подойдёт одна широкая таблица, содержащая следующие поля: запрос, рынок, временная метка запуска, рекламодатель, заголовок объявления, описание объявления, конечный URL. Доля показов в этом случае представляет собой запрос к этой таблице с группировкой по запросу, рынку и временному интервалу. Поскольку вы контролируете условия сбора данных, повторное выполнение того же запроса в следующем месяце даст сопоставимые результаты, что и является основной целью регулярного сбора данных о спонсируемых результатах ИИ.

Примечание относительно терминов «сфера применения» и «платформа»

Собирайте данные исключительно из общедоступных рекламных блоков и не выходите за их пределы. Спонсорский блок, который видит любой пользователь, отвечающий требованиям, является общедоступной информацией, и именно эта граница заслуживает уважения. Не собирайте персональные данные, не пытайтесь обойти аутентификацию за пределами обычной сессии входа в систему и осуществляйте сбор данных с разумной периодичностью, а не перегружая сервис. Соблюдайте условия, установленные каждой платформой, создавайте запросы, специально предназначенные для конкретных целей, а если вы ведёте коммерческую деятельность или работаете в крупных масштабах, обратитесь к юристу для проверки законности вашего конкретного использования. Законодательство в этой сфере варьируется в зависимости от юрисдикции и постоянно меняется.

Что это означает для вас

Сбор данных о рекламе в ChatGPT — это задача, требующая дисциплинированного отбора образцов, а не разработки сложных фильтров. Восьмиэтапный конвейер обеспечивает стабильные условия: заранее разработанный набор подсказок, подходящие сеансы, нужный географический регион и отображение страниц для реальных пользователей, благодаря чему рассчитанные вами показатели доли показов остаются значимыми на протяжении нескольких недель. Создайте цикл один раз, запускайте его с заданной периодичностью и сохраняйте каждую строку.

Решающим фактором является уровень сбора данных: подходящие сеансы с точной географической привязкой, которые выглядят как действия реальных пользователей. Именно в этом заключается преимущество Massive’s /ai Поддержка конечных точек и охват более 195 стран позволяют получать ответы ChatGPT с устройств реальных пользователей на выбранном вами рынке. Начните тестирование прямо сейчас, соблюдайте правила публичной рекламной площадки, и вы получите данные о тенденциях, которые невозможно воссоздать задним числом. Для ознакомления со стратегической концепцией вернитесь к Как отслеживать рекламу ChatGPT.

Часто задаваемые вопросы

Как собрать данные о рекламных объявлениях ChatGPT, если общедоступного каталога нет?+

Вы проводите выборку вместо поиска. Поскольку сопоставление происходит в отдельном потоке без центра прозрачности, вы повторно запускаете заранее подготовленный набор запросов в подходящих сессиях в США и фиксируете каждое спонсируемое поле (Search Engine Journal, 2026 год). Объем и количество повторений позволяют превратить скрытый показатель охвата аудитории по каждому потоку в измеримый показатель доли впечатлений, за которым можно отслеживать динамику во времени.

Зачем нужны IP-адреса частных пользователей для сбора данных о рекламе в ChatGPT?+

IP-адреса центров обработки данных быстро блокируются, тогда как IP-адреса частных пользователей, полученные от реальных интернет-провайдеров, выглядят как обычный пользовательский трафик (DataImpulse, «Лучшие прокси-серверы для сбора данных с помощью ИИ в 2026 году»). Рекламные площадки на базе ИИ также отображаются с учетом региона и языка, а их внедрение осуществляется по странам, поэтому для сбора данных с высокой географической точностью требуются локальные IP-адреса на каждом рынке, который вы хотите отслеживать.

В каких тарифных планах ChatGPT действительно показывается реклама?+

Только тарифные планы «Free» и «Go», и только для взрослых пользователей из США, авторизовавшихся в системе, по состоянию на 9 февраля 2026 года (OpenAI, «Тестирование рекламных объявлений в ChatGPT»). В версиях Pro, Business и Enterprise реклама отсутствует (TechCrunch, 2026 год). В случае сборов, не относящихся к соответствующему уровню, спонсируемые коробки не будут выдаваться вообще.

Какие поля следует указывать в каждом объявлении?+

Запишите название объявления, его описание и конечный URL-адрес для каждого спонсируемого размещения, а также текст подсказки, рынок и временную метку запуска (Search Engine Land, 2026 год). Эти поля позволяют вам систематизировать рекламодателей, отслеживать целевые страницы и рассчитывать долю показов как отношение количества показов к общему количеству показов для каждого запроса и рынка.

Разрешено ли извлекать данные из рекламных объявлений ChatGPT?+

Собирайте только общедоступные рекламные блоки, которые видят все пользователи, имеющие на это право; избегайте сбора персональных данных и соблюдайте условия, установленные каждой платформой, а также разумную периодичность. Границами являются общедоступные рекламные площадки. Рассматривайте скрапинг как наблюдение за общедоступными рекламными размещениями, а не как массовый сбор данных, и в случае коммерческого или крупномасштабного использования обязательно проконсультируйтесь с юристами, поскольку правила различаются в зависимости от юрисдикции.