Рейтинги ответов ИИ, измеренные с помощью API, в сравнении с тем, что видят реальные пользователи в приложении Gemini
Все публикации

Являются ли запросы к ИИ на основе API достоверным отражением того, что на самом деле видят ваши пользователи?

Ryan Turner
Ryan Turner · Head of Growth

Если вы используете программу GEO, вы отслеживаете позицию своего бренда в ответах ИИ с помощью API. Ваши клиенты поступают иначе. Они открывают приложение Gemini и вводят текст. Таким образом, вся эта практика основана на одном предположении, которое мало кто проверял: возвращает ли вызов API тот же ответ, который видит реальный человек? Мы провели тестирование по 30 категориям брендов. Результаты API совпадали с рейтингом брендов в рабочей версии приложения в 87 % случаев — примерно так же часто, как приложение согласуется само с собой.

Надежный прокси для Интернета? Да! Результаты совпадают в 87 % случаев

Почему измерение GEO основано на практически не проверенном допущении?

Большая часть отслеживания узнаваемости бренда в ответах ИИ осуществляется через API, однако большинство реальных запросов поступает из потребительских приложений, и лишь немногие проводили анализ разрыва между этими двумя источниками. Этот разрыв имеет важное значение, поскольку панель инструментов GEO отображает конкретные цифры, долю упоминаний, рейтинг и определение лидера, на основании чего бренд принимает соответствующие меры. Если API систематически получает ответ, отличающийся от того, что видят клиенты, то каждый отчёт, построенный на его основе, будет незаметно неверным.

Проблема носит структурный характер, а не связана с леностью. Запуск реальной сессии браузера для обработки тысяч запросов — процесс медленный и нестабильный. API-интерфейсы быстры, позволяют повторять операции и не требуют больших затрат, поэтому именно их и используют инструменты отслеживания. Вопрос никогда не заключался в том, удобны ли API-интерфейсы. Вопрос заключался в том, не приводит ли удобство к потере точности.

Наша концепция: Правильный тест заключается не в том, «возникают ли когда-либо расхождения между API и приложением?». Генеративные модели при повторных запусках дают противоречивые результаты даже сами по себе. Настоящий тест заключается в том, возникают ли расхождения между API и приложением вообще подробнее то приложение уже вступает в противоречие само с собой.

Как проверить, соответствует ли API реальному приложению?

Генеративная модель не возвращает один фиксированный ответ, поэтому тест должен напрямую учитывать эту вариативность. Мы взяли один запрос по ранжированию брендов, пропустили его через оба канала по 30 категориям и запустили по три раза для каждого канала. Каждая тема состояла из целевого бренда и четырёх его ближайших конкурентов; список перемешивался один раз и фиксировался, чтобы оба канала получали идентичный до байта текст.

Задание было намеренно сформулировано лаконично: «Расставьте эти [отраслевые] компании в порядке от лучшей к худшей [пять брендов]. Укажите только 5 компаний в рекомендуемом порядке». Одним из каналов был Massive's /ai конечная точка (модель=gemini, country=us). Другим был сайт gemini.google.com: я вошёл в систему, в настройках выбора модели был выбран тот же Flash 3.5, а для каждого запуска создавался новый диалог.

Ключевым показателем является уровень шума. Каждый канал демонстрирует несоответствие собственным результатам при повторных запусках, и именно это внутреннее несоответствие является объективным критерием оценки. Нельзя ожидать, что два канала будут согласовываться друг с другом в большей степени, чем каждый из них согласуется сам с собой. Поэтому мы измерили и то, и другое: согласованность между каналами и внутриканальную согласованность каждого канала. Затем мы определили, насколько близко первый показатель приближается ко второму.

Мы проанализировали каждую тему как отдельное наблюдение, а не объединили все 270 пар прогонов, поскольку эти пары группируются всего в 30 независимых тем. Их объединение завышает кажущуюся точность. Представление результатов на уровне тем позволяет сохранить достоверность доверительных интервалов, хотя и делает цифры менее впечатляющими.

Совпадает ли API с рабочей версией приложения Gemini?

Да. По 30 категориям API и рабочее приложение сформировали статистически неотличимые рейтинги по 26 из 30 тем (87 %) и назвали один и тот же ведущий бренд в тех же 26 из 30 случаях (Massive эксперимент, 2026 г.). Средний показатель межканального согласия составил коэффициент Кендалла тау равный 0,79 при минимальном значении внутриканального согласия, равном 0,82. При оценке по каждой теме API сохранял 93 % согласия, достигаемого каждым каналом внутри себя (95-процентный доверительный интервал: от 86 % до 98 %).

Agreement on brand rankings (Kendall tau, 0 to 1) Higher is closer. The cross-channel bar nearly reaches the channel's own noise floor. API vs live Gemini app 0.79 Live app vs itself (noise floor) 0.82
Источник: Massive Computing, «Эксперимент: API против реального Gemini», 2026 г.

Согласно результатам эксперимента «Massive» 2026 года, API-запрос к Gemini показал совпадение с реальным потребительским приложением по рейтингу бренда в 26 из 30 категорий, при этом среднее расхождение в результатах не превышало семи процентных пунктов — что соответствует уровню случайных отклонений, характерных для самого приложения при повторных запусках. В контексте отчетности по видимости бренда и определению победителей этот показатель отражает то, что видят клиенты.

Где на самом деле позиционируется ваш бренд

Именно этот показатель фактически фиксирует программа GEO, и он практически не изменился при переходе между каналами. По 13 из 30 тем целевой бренд занял точно такое же место как в API, так и в рабочей версии приложения. По всем 30 целевым брендам среднее отклонение составило 0,32 позиции, и лишь один бренд — Kraft Heinz — сдвинулся более чем на одну позицию.

How far the target brand moved (30 categories) 13 16 Identical rank (13) Drifted under one position (16) Moved more than a position (1) Mean absolute drift across all 30 targets: 0.32 positions.
Источник: Massive Computing, «Эксперимент: API против реального Gemini», 2026 г.

Результат, равный одной трети позиции, находится в пределах погрешности, связанной с «перемещением соседних пар», которая наблюдается в обоих каналах по отдельности. Если на вашей панели инструментов указано, что ваш бренд занимает второе место в категории, то клиент, открывший приложение, с высокой вероятностью также увидит его на втором месте. Отчетность оправдывает себя там, где это действительно важно.

Проведение стресс-тестирования четырёх выбросов в десяти прогонах

Четыре темы выглядели «неправильно» в трёх прогонах, поэтому мы повторили два худших прогона до десяти раз на обоих каналах, и оказалось, что большая часть расхождения объясняется шумом выборки. Tesla, которая при n=3 выглядела как настоящий «разрыв победителя», стала идентичной при n=10: Tesla заняла первое место в 8 из 10 прогонов на обоих каналах, при этом межканальное согласие составило 0,87 при минимальном пороге 0,86. Этот разрыв оказался ложной тревогой.

Компания Kraft Heinz сократила свои показатели, но удержалась на плаву. Её показатель избыточного расхождения снизился с +0,33 при трёх прогонах до +0,12 при десяти, а разрыв между целевым и фактическим рейтингом сократился с 1,85 до 1,0 позиции (Massive эксперимент, 2026 г.). Оба канала демонстрируют значительный уровень шума в сегментах продуктов питания и товаров повседневного спроса, однако в 9 из 10 прогонов они по-прежнему называли Nestlé лидером категории. Речь идет о незначительном, но реальном колебании, характерном для данной категории, а не о предвзятости канала.

Massive испытание с углублённым анализом 2026 года показало, что «смещение» в трёх прогонах является лишь ориентиром для проверки, а не окончательным выводом: из четырёх выделенных тем углублённая выборка полностью исключила одну и сократила другую на две трети. Практический вывод заключается в том, что прокси-показатель API оказывается даже лучше, чем можно было предположить по результатам трёх циклов. Сектор продуктов питания и товаров повседневного спроса (CPG) по своей природе является категорией с высоким уровнем шума на обоих каналах, а не категорией с систематической погрешностью.

Наши выводы: Рассматривайте любое несоответствие, выявленное в ходе одного или трёх прогонов, лишь как предположение, но ни в коем случае не как окончательный вывод. Используйте результаты как минимум трёх прогонов, фиксируйте общий вывод и тщательно анализируйте все явления, которые выглядят систематическими, прежде чем принимать какие-либо меры.

В каких случаях всё же следует проводить выборочную проверку веб-сайтов в режиме реального времени?

В целом API является достоверным источником информации, однако в четырёх конкретных ситуациях всё же следует вручную проверить само приложение. В наших данных остаточные расхождения сгруппировались в предсказуемых местах, поэтому вы можете проводить выборочные проверки, а не подвергать сомнению все данные.

Проверьте работу приложения в режиме реального времени, когда:

  • Категория — «Продукты питания» или «Товары повседневного спроса», либо определяется победитель. Компании «Kraft Heinz», «Mars» и «Tesla» все столкнулись с недовольством со стороны этих наиболее активных кругов.
  • Контекст учетной записи имеет значение. API запускает анонимную сессию Flash. Персонализация или адаптация на основе данных, связанных с авторизацией, могут влиять на то, что видит авторизованный пользователь, и анонимный вызов API не может это воспроизвести.
  • Точное полное упорядочение служит основой для вычисления взвешенной оценки. Лишь половина пар каналов соответствовала полной последовательности из пяти брендов, поскольку именно позиции в конце списка меняются чаще всего. Первая позиция в списке и определение победителя гораздо более стабильны, чем полная последовательность.
  • У вас есть только один шанс. Оба канала часто меняют местами соседние пары. Используйте три или более прогонов и сообщайте консенсусный результат, ни в коем случае не отдельный результат.

Почему измерение GEO на основе API теперь стало практически осуществимым в широких масштабах

Именно результат проверки достоверности превращает измерение GEO из ручной рутинной работы в программу, которую можно реально запускать в широких масштабах. Ввод нескольких сотен запросов через браузер занимает часы и прерывается, когда страница ограничивает скорость автоматического ввода. Такой же объём заполнения данных через API выполняется за считанные минуты с таким же уровнем шума — в этом и заключается разница между отслеживанием пяти категорий вручную и отслеживанием пятисот категорий по расписанию.

География — это второе преимущество. Ответы, сгенерированные ИИ, различаются в зависимости от страны, и клиент из Берлина, Сан-Паулу или Джакарты получает обоснованный ответ, учитывающий местный контекст. Massive’s /ai Этот эндпойнт возвращает результаты генерации LLM, полученные с устройств реальных пользователей из более чем 195 стран, что позволяет вам оценивать узнаваемость бренда с точки зрения реального местного пользователя, а не на основе данных, полученных из одного-единственного дата-центра в Вирджинии.

Причина, по которой он отслеживает запущенное приложение, носит технический характер, и в этом вопросе стоит быть точным. Причина заключается в том, что /ai Конечная точка не использует очищенную модель в песочнице или иную контрольную точку. Она запускает то же потребительское приложение Gemini с реального устройства в выбранном вами регионе, и в ходе данного теста набор моделей в ней совпадал с показателем 3,5 Flash при каждом запросе. Вы измеряете тот же контент, которым пользуются ваши клиенты, и получаете его точно так же, как это делало бы устройство клиента. Именно поэтому результаты совпадают.

Если вы разрабатываете платформу AEO или AI для мониторинга брендов, это инфраструктурный уровень, лежащий в основе вашей аналитики. Вы сохраняете свои информационные панели, системы оценки и отчетность. Вопросы географического покрытия, эмуляции устройств и обработки источников решаются на более ранних этапах. Чтобы проверить систему на прочность с учетом ваших собственных категорий, вы можете проведите тестирование производительности на /ai конечная точка и сравните его с теми показателями, которые вы измеряете сегодня.

Итог

Запросы к ИИ на основе API точно отражают то, что на самом деле видят ваши пользователи. В 30 категориях результаты API совпадали с данными реального приложения Gemini по рейтингу одного и того же бренда в 87 % случаев, в 13 из 30 тем целевой бренд занимал идентичную позицию, а отклонение в среднем составляло треть позиции. Те расхождения, которые все же наблюдаются, примерно соответствуют расхождениям, которые приложение демонстрирует при самопроверке. Доверяйте API в вопросах видимости брендов, определения победителей и анализа тенденций, особенно при одновременном анализе множества категорий и стран. Ручную проверку следует применять только в отношении продуктов питания и товаров повседневного спроса (CPG), спорных результатов и всего, что зависит от сеанса авторизации.

Чтобы оценить наглядность ответов ИИ с точки зрения ваших клиентов в любой стране, ознакомьтесь с Конечный пункт чата с искусственным интеллектом от Massive.

Хотите ознакомиться с подробностями отчета?


Источники

  • Massive Computing, «Являются ли запросы к ИИ на основе API достоверным показателем того, что на самом деле видят ваши пользователи?» (исследование GEO, Web Render API), эксперимент от 17 июня 2026 г., данные получены 18 июня 2026 г. 30 категорий брендов в 18 отраслях, модель Gemini 3.5 Flash, по 3 прогона на каждый канал (n = 10 глубоких прогонов по двум темам), доверительные интервалы методом бутстрепа на уровне тем.

Часто задаваемые вопросы

Возвращает ли вызов API тот же ответ ИИ, который видит реальный пользователь?+

В ходе тестирования 2026 года, охватившего 30 категорий брендов, API, запрашивающий данные у Gemini, совпал с рейтингом брендов в действующем потребительском приложении по 26 из 30 тем (87 %) и с такой же частотой называл одного и того же победителя (Massive эксперимент, 2026). Незначительные остаточные расхождения в основном были обусловлены «шумом» в категории, а не особенностями канала.

Почему степень согласия оценивается относительно «уровня шума»?+

Генеративные модели носят недетерминированный характер, поэтому один и тот же запрос может возвращать разные порядки при повторных запусках. Таким образом, каждый канал не совпадает с самим собой. Это внутреннее несовпадение (0,82 в нашем тесте) является объективным критерием оценки, поскольку степень согласованности между двумя каналами не может превышать степень согласованности каждого канала с самим собой. Согласованность между каналами достигла значения 0,79.

Какие категории наиболее недостоверны при измерении с помощью API?+

В нашем тесте 2026 года наибольшую волатильность продемонстрировали категории «Продукты питания» и «Товары повседневного спроса», а результаты у спорных победителей отклонялись сильнее всего. В этих категориях оба канала демонстрировали больше противоречий в своих данных, поэтому речь идет о внутренней дисперсии, а не о систематической погрешности канала. Проведите выборочную проверку в рабочей версии приложения по этим категориям, а также по любым результатам, зависящим от персонализации при входе в систему.

Сколько циклов должна использовать программа GEO на один запрос?+

Используйте не менее трёх прогонов для каждого запроса и фиксируйте консенсусный результат, ни в коем случае не отдельный прогон. В наших данных как API, так и работающее приложение часто меняли местами соседние пары в ходе одного прогона. Три прогона сгладили эту разницу, а углублённые тесты с десятью прогонами подтвердили, что большинство расхождений, отмеченных одним флагом, являлись шумом выборки.

Может ли система измерения API фиксировать ответы из других стран?+

Да, если API проходит через локальные источники. Massive's /ai Endpoint предоставляет данные о завершении запросов с реальных пользовательских устройств в более чем 195 странах с возможностью таргетинга по стране, региону и городу, что позволяет вам оценить, как бренд воспринимается пользователем на конкретном рынке, а не только с точки зрения местоположения одного центра обработки данных.