Clasificación de las respuestas de IA medidas mediante la API, representada gráficamente en comparación con lo que ven los usuarios reales en la aplicación Gemini
Todas las entradas

¿Son las llamadas de IA basadas en API un buen indicador de lo que ven realmente sus usuarios?

Ryan Turner
Ryan Turner · Head of Growth

Si gestiona un programa GEO, realiza un seguimiento de la posición de su marca en las respuestas de IA a través de una API. Sus clientes hacen algo diferente: abren la aplicación Gemini y escriben. Por lo tanto, toda esta práctica se basa en una hipótesis que pocas personas han comprobado: ¿devuelve una llamada a la API la misma respuesta que ve una persona real? Hemos realizado la prueba en 30 categorías de marcas. La API coincidió con la clasificación de marcas de la aplicación en tiempo real en el 87 % de los casos, aproximadamente con la misma frecuencia con la que la propia aplicación coincide consigo misma.

¿Un proxy fiable para la web? ¡Sí! Resultados similares en el 87 % de los casos

¿Por qué se basa la medición GEO en una hipótesis que apenas se ha comprobado?

La mayor parte del seguimiento de la visibilidad de las marcas en las respuestas de IA se realiza a través de API, aunque la mayoría de las consultas reales tienen lugar dentro de las aplicaciones de los consumidores, y son pocos los que han evaluado la diferencia entre ambas. Esa diferencia es importante porque un panel de control de GEO muestra una cifra, una cuota de voz, una clasificación y una designación de ganador, y la marca actúa en consecuencia. Si la API obtuviera sistemáticamente una respuesta diferente a la que ven los clientes, todos los informes elaborados a partir de ella estarían silenciosamente equivocados.

El problema es estructural, no se debe a la pereza. Gestionar una sesión real en un navegador con miles de solicitudes es lento y poco fiable. Las API son rápidas, repetibles y económicas, por lo que las herramientas de seguimiento las utilizan. La cuestión nunca fue si las API son prácticas, sino si esa comodidad le hace perder precisión.

Nuestro enfoque: La prueba adecuada no es «¿discrepa alguna vez la API con la aplicación?». Los modelos generativos discrepan consigo mismos en ejecuciones repetidas. La prueba fiable consiste en determinar si la API discrepa con la aplicación en algún más la aplicación ya presenta contradicciones internas.

¿Cómo se comprueba si una API se corresponde con la aplicación real?

Un modelo generativo no ofrece una única respuesta fija, por lo que la prueba debe tener en cuenta esa variabilidad de forma directa. Tomamos una consulta de clasificación de marcas, la enviamos a través de ambos canales en 30 categorías y la ejecutamos tres veces por canal. Cada tema consistía en una marca objetivo y sus cuatro competidores más cercanos; se mezclaron una vez y se fijaron para que ambos canales recibieran un texto idéntico al nivel de byte.

La indicación era deliberadamente sencilla: «Ordene estas empresas [del sector] de mejor a peor [cinco marcas]. Responda únicamente con las cinco empresas en el orden recomendado». Uno de los canales era el de Massive: /ai punto final (modelo=gemini, país=ee.uu.). El otro era gemini.google.com, con sesión iniciada, el selector de modelos configurado en la misma versión 3.5 de Flash y una conversación nueva en cada ejecución.

La medida clave es el ruido de fondo. Cada canal presenta discrepancias consigo mismo a lo largo de sus propias repeticiones, y esa discrepancia interna constituye el punto de referencia más adecuado. No cabe esperar que dos canales coincidan más de lo que cada uno de ellos coincide consigo mismo. Por lo tanto, medimos ambos aspectos: la concordancia entre canales y la concordancia intracanales de cada uno de ellos. A continuación, analizamos en qué medida el primero se aproxima al segundo.

Hemos analizado cada tema como una observación independiente, en lugar de agrupar los 270 pares de ejecuciones, ya que dichos pares se agrupan en tan solo 30 temas independientes. Agruparlos exagera la precisión aparente. Presentar los resultados a nivel de tema garantiza la fiabilidad de los intervalos de confianza, aunque ello haga que las cifras parezcan menos impresionantes.

¿Coincide la API con la aplicación Gemini actual?

Sí. En 30 categorías, la API y la aplicación en tiempo real generaron clasificaciones estadísticamente indistinguibles en 26 de los 30 temas (87 %), y señalaron a la misma marca líder en esos mismos 26 de los 30 (Experimento Massive, 2026). La concordancia media entre canales fue un tau de Kendall de 0,79, frente a un mínimo intracanale de 0,82. Medida por tema, la API conservó el 93 % de la concordancia que cada canal mantiene consigo mismo (intervalo de confianza del 95 %: del 86 % al 98 %).

Agreement on brand rankings (Kendall tau, 0 to 1) Higher is closer. The cross-channel bar nearly reaches the channel's own noise floor. API vs live Gemini app 0.79 Live app vs itself (noise floor) 0.82
Fuente: Massive Computing, «Experimento: API frente a Gemini en tiempo real», 2026.

Según el experimento «Massive» de 2026, una consulta a la API de Gemini coincidió con la aplicación de consumo en tiempo real en la misma clasificación de marcas en 26 de las 30 categorías, y la diferencia media en la concordancia se situó dentro de los siete puntos porcentuales del propio margen de variación de la aplicación entre ejecuciones. En lo que respecta a la visibilidad de la marca y a la identificación de los ganadores, se trata de una medición que refleja lo que ven los clientes.

Dónde se posiciona realmente su marca

Esta es la cifra que realmente refleja el programa GEO, y apenas varió entre los distintos canales. En 13 de los 30 temas, la marca en cuestión ocupó exactamente la misma posición tanto en la API como en la aplicación en tiempo real. Entre los 30 objetivos, la variación media fue de 0,32 posiciones, y solo una marca, Kraft Heinz, varió más de un puesto.

How far the target brand moved (30 categories) 13 16 Identical rank (13) Drifted under one position (16) Moved more than a position (1) Mean absolute drift across all 30 targets: 0.32 positions.
Fuente: Massive Computing, «Experimento: API frente a Gemini en tiempo real», 2026.

Un tercio de una posición se encuentra claramente dentro del margen de variación que ambos canales muestran por separado al intercambiar un par adyacente. Si su panel de control indica que su marca ocupa el segundo puesto en una categoría, es muy probable que un cliente que abra la aplicación también la vea en segundo lugar. Los informes son fiables donde realmente importa.

Prueba de resistencia de los cuatro valores atípicos en diez ejecuciones

Cuatro temas parecían «anómalos» en tres ejecuciones, por lo que volvimos a ejecutar los dos peores hasta diez veces en ambos canales, y resultó que la mayor parte de la diferencia se debía al ruido de muestreo. Tesla, que parecía presentar una diferencia clara a favor de la predicción ganadora con n=3, pasó a ser idéntica con n=10: Tesla ocupó el primer puesto en 8 de las 10 ejecuciones en ambos canales, con una concordancia entre canales de 0,87 frente a un umbral mínimo de 0,86. La diferencia resultó ser una falsa alarma.

Kraft Heinz se redujo, pero sobrevivió. Su exceso de desacuerdo descendió de +0,33 en tres ejecuciones a +0,12 en diez, y la diferencia entre el objetivo y la clasificación se redujo de 1,85 a 1,0 posiciones (Experimento Massive, 2026). Ambos canales presentan simplemente un alto nivel de ruido en los sectores de alimentación y productos de gran consumo, y ambos siguieron señalando a Nestlé como ganadora de la categoría en 9 de las 10 simulaciones. Se trata de una oscilación leve, real y específica de la categoría, no de un sesgo del canal.

La prueba exhaustiva «Massive» de 2026 demostró que un «desviación» de tres ejecuciones es un indicio que hay que comprobar, no una conclusión: de los cuatro temas señalados, un muestreo más exhaustivo eliminó uno por completo y redujo otro en dos tercios. La conclusión práctica es que el indicador API es incluso mejor de lo que sugería el titular basado en las tres series de pruebas. El sector de la alimentación y los productos de gran consumo es una categoría intrínsecamente ruidosa en ambos canales, no sesgada.

Nuestra conclusión: Considere cualquier discrepancia observada en una sola ejecución o en tres ejecuciones como una posibilidad, nunca como una conclusión definitiva. Utilice al menos tres ejecuciones, comunique el consenso y analice en profundidad cualquier aspecto que parezca sistemático antes de tomar medidas al respecto.

¿En qué casos conviene seguir realizando comprobaciones puntuales de la web en tiempo real?

En general, la API ofrece una representación fiel, pero hay cuatro situaciones concretas en las que sigue siendo necesario examinar manualmente la aplicación real. En nuestros datos, las discrepancias residuales se concentraban en puntos predecibles, por lo que puede centrar sus comprobaciones puntuales en esos puntos concretos, en lugar de desconfiar de todo.

Consulte la aplicación en tiempo real cuando:

  • La categoría es la de alimentación o productos de gran consumo, o bien el ganador es objeto de controversia. Kraft Heinz, Mars y Tesla basaron su desacuerdo en estas opiniones más ruidosas.
  • El contexto de la cuenta es importante. La API ejecuta una sesión anónima de Flash. La personalización o la adaptación al contexto, propias de un usuario que ha iniciado sesión, pueden modificar lo que ve dicho usuario, y una llamada anónima a la API no puede reproducir ese comportamiento.
  • Una ordenación completa y exacta da lugar a una puntuación ponderada. Solo la mitad de los pares entre canales coincidían con el orden completo de las cinco marcas, ya que las posiciones finales son las que más varían. Las predicciones sobre la primera posición de la lista y la marca ganadora son mucho más estables que la secuencia completa.
  • Solo tiene una oportunidad. Ambos canales intercambian con frecuencia un par adyacente. Utilice tres series o más y comunique el consenso; nunca se base en una sola toma.

Por qué la medición geográfica basada en API resulta ahora viable a gran escala

El resultado de la validez es lo que convierte la medición GEO de una tarea manual en un programa que realmente se puede ejecutar a gran escala. Realizar unos cientos de solicitudes a través del navegador lleva horas y se interrumpe cuando una página limita la entrada automatizada. El mismo volumen de operaciones de autocompletado de la API se completa en cuestión de minutos con el mismo perfil de ruido, lo que supone la diferencia entre realizar el seguimiento de cinco categorías manualmente y hacerlo de quinientas de forma programada.

La geografía es la segunda ventaja. Las respuestas generadas por la IA varían según el país, y un cliente de Berlín, São Paulo o Yakarta recibe una respuesta adaptada al contexto local. Massive's /ai endpoint proporciona resultados generados por modelos de lenguaje grande (LLM) procedentes de dispositivos de usuarios reales en más de 195 países, lo que le permite medir la visibilidad de la marca tal y como la percibe realmente un usuario local, y no desde un único centro de datos situado en Virginia.

El motivo por el que realiza un seguimiento de la aplicación en tiempo real es de carácter técnico, y conviene explicarlo con precisión. El /ai Endpoint no utiliza un modelo de entorno aislado desinfectado ni un punto de control diferente. Ejecuta la misma aplicación Gemini para consumidores desde un dispositivo real situado en la zona geográfica que usted elija y, en esta prueba, su lista de modelos coincidió con 3,5 Flash en cada llamada. Está midiendo la misma interfaz que utilizan sus clientes, a la que se accede de la misma forma en que lo haría el dispositivo de un cliente. Por eso coinciden los resultados.

Si está desarrollando una plataforma de monitorización de marcas basada en AEO o IA, esta es la capa de infraestructura que sustenta sus análisis. Usted se encarga de sus paneles de control, sistemas de puntuación y generación de informes. La cobertura geográfica, la emulación de dispositivos y la gestión de fuentes se resuelven en una fase previa. Para someterla a pruebas de estrés con sus propias categorías, puede ejecutar una prueba de rendimiento en el /ai punto final y compárelo con lo que mida hoy.

En resumen

Las consultas de IA basadas en la API son un fiel reflejo de lo que sus usuarios ven realmente. En 30 categorías, la API coincidió con la aplicación Gemini en tiempo real en la misma clasificación de marcas en el 87 % de los casos, situó a la marca objetivo en la misma posición en 13 de los 30 temas y se desvió una tercera parte de una posición de media. La discrepancia que muestra es más o menos la misma que la propia aplicación presenta consigo misma. Confíe en la API para la visibilidad de las marcas, la determinación de los ganadores y las tendencias, especialmente cuando se analizan muchas categorías y países a la vez. Reserve las comprobaciones manuales para los sectores de alimentación y productos de gran consumo, los ganadores controvertidos y cualquier aspecto que dependa de una sesión de inicio de sesión.

Para medir la visibilidad de las respuestas generadas por IA tal y como la perciben sus clientes en cualquier país, explore Punto de conexión del chat con IA de Massive.

¿Desea consultar los detalles del informe?


Fuentes

  • Massive Computing, «¿Son las llamadas a la IA basadas en API un buen indicador de lo que ven realmente sus usuarios?» (investigación de GEO, Web Render API), experimento con fecha del 17 de junio de 2026, consultado el 18 de junio de 2026. 30 categorías de marcas en 18 sectores, Gemini 3.5 Flash, 3 ejecuciones por canal (n = 10 ejecuciones en profundidad sobre dos temas), intervalos de confianza de bootstrap a nivel de tema.

Preguntas frecuentes

¿Una llamada a la API devuelve la misma respuesta generada por la IA que ve un usuario real?+

En una prueba realizada en 2026 con 30 categorías de marcas, una API que consultaba a Gemini coincidió con la clasificación de marcas de la aplicación para consumidores en tiempo real en 26 de los 30 temas (87 %), y señaló al mismo ganador con la misma frecuencia (Experimento Massive, 2026). Las pequeñas diferencias residuales se debieron principalmente al ruido de la categoría, y no al canal.

¿Por qué se mide la concordancia en relación con un «nivel de ruido de fondo»?+

Los modelos generativos son no deterministas, por lo que una misma indicación puede dar lugar a ordenaciones diferentes en ejecuciones sucesivas. Por lo tanto, cada canal discrepa de sí mismo. Esa discrepancia interna (0,82 en nuestra prueba) constituye el punto de referencia imparcial, ya que dos canales no pueden estar más de acuerdo entre sí de lo que cada uno está de acuerdo consigo mismo. La concordancia entre canales alcanzó un valor de 0,79.

¿Qué categorías son las menos fiables a la hora de medirlas mediante la API?+

Los sectores de alimentación y productos de gran consumo fueron los que presentaron mayor variabilidad en nuestra prueba de 2026, y los ganadores más disputados fueron los que registraron mayores desviaciones. Ambos canales mostraron una mayor discrepancia interna en esas categorías, por lo que se trata de una variación intrínseca y no de un sesgo del canal. Compruebe aleatoriamente la aplicación en tiempo real en estos casos, así como cualquier resultado que dependa de la personalización tras iniciar sesión.

¿Cuántas ejecuciones debería utilizar un programa GEO por consulta?+

Realice al menos tres ejecuciones por consulta y comunique el resultado consensuado; nunca se base en una sola ejecución. En nuestros datos, tanto la API como la aplicación en producción intercambiaban con frecuencia un par adyacente en cualquiera de las ejecuciones. Tres ejecuciones suavizaron esa variación, y las ejecuciones exhaustivas de diez confirmaron que la mayoría de las discrepancias de un solo indicador se debían a ruido de muestreo.

¿Puede la medición de la API recopilar respuestas de otros países?+

Sí, si la API pasa por orígenes locales. La de Massive /ai Endpoint proporciona datos de resultados reales de dispositivos de los usuarios en más de 195 países, con segmentación por país, región y ciudad, lo que le permite evaluar cómo se presenta una marca ante un usuario en un mercado concreto, en lugar de basarse únicamente en la ubicación de un centro de datos.