Esquema de un canal de datos alternativo moderno que utiliza SEC EDGAR, Yahoo Finance y fuentes web públicas
All Posts

Creación de un canal de datos alternativo en 2026: EDGAR de la SEC, Yahoo Finance y otras fuentes

Rachel Hollander
Rachel Hollander · Marketing Comms

Una empresa fintech o un fondo cuantitativo que obtenga datos alternativos en 2026 suele estar pagando por servicios que deberían ser gratuitos. EDGAR de la SEC, Yahoo Finance y una amplia variedad de fuentes públicas siguen siendo las bases más económicas, actualizadas y con mayor claridad jurídica para un canal de datos de mercado.

El problema es que todos ellos aplican límites de uso muy estrictos, y los proveedores de datos con licencia (Bloomberg, LSEG, FactSet) cobran entre cinco y seis cifras al año por usuario por datos que, en su origen, son públicos.

Esta es la guía para hacerlo usted mismo: cómo acceder a SEC EDGAR sin que le limiten el ancho de banda, cómo extraer datos de Yahoo Finance de forma que el sistema no se cuelgue cada trimestre, cómo se compara el coste con las alternativas con licencia, y una arquitectura de referencia que utiliza API de acceso web de Massive para que el proceso siga funcionando cuando las fuentes pongan las cosas más difíciles.

Puntos clave

  • Una licencia de la terminal Bloomberg cuesta 31 980 $ al año para una sola plaza o 28 320 dólares al año por plaza para los clientes con licencias múltiples a partir de las renovaciones de contrato de 2025 (un aumento del 6,5 % con respecto al año anterior).
  • LSEG Workspace (antes Refinitiv Eikon, que dejó de prestarse el 30 de junio de 2025) y FactSet se sitúan en un rango similar de cinco cifras por usuario, en función de los derechos de acceso.
  • Un sistema de procesamiento de datos desarrollado internamente que se alimente de SEC EDGAR, Yahoo Finance y la amplia variedad de fuentes públicas puede funcionar por menos de 100 000 dólares al año, con todos los gastos incluidos, para un equipo pequeño, y la mayor parte del coste corresponde al tiempo de ingeniería, no a la infraestructura.
  • La política de acceso equitativo de EDGAR de la SEC limita el uso a 10 solicitudes por segundo por dirección IP y requiere un User-Agent que identifique a su organización e incluya una dirección de correo electrónico de contacto.
  • Los puntos de conexión no documentados de Yahoo Finance han servido de base para yfinance desde que se retiró la API oficial en 2017. Estos fallan periódicamente; una solución duradera pasa por contar con una capa de red resistente.

Por qué las fuentes públicas siguen siendo las mejores

Si su fondo o empresa fintech necesita el tipo de datos que se utilizan en un backtest, un panel de control o una señal alfa, la información bruta ya es de dominio público:

  • Documentos presentados ante la SEC y anexos
  • Anuncios de la bolsa
  • Datos de cotización y OHLCV de Yahoo Finance
  • Comunicados del banco central
  • Notas de prensa de la empresa y páginas de relaciones con los inversores

Gasto típico en licencias de una empresa de tecnología financiera en fase intermedia (datos extraídos de fuentes públicas de información sobre precios, no de precios de catálogo —los proveedores negocian en profundidad—):

  • Terminal Bloomberg: ~28 000–32 000 dólares al año por plaza (contratos a partir de 2025)
  • Espacio de trabajo de LSEG (antes Refinitiv Eikon): la licencia básica suele costar entre 1.500 y 3.000 dólares por usuario al mes, más los derechos de acceso a los datos
  • FactSet: Entre 4.000 y 50.000 dólares o más por usuario al año, dependiendo de los módulos; los paquetes completos para analistas del lado comprador suelen oscilar entre 24.000 y 36.000 dólares al año

La razón por la que la mayoría de los equipos no desarrollan la alternativa: los límites de velocidad de EDGAR, los puntos de conexión cambiantes de Yahoo y la fragilidad de un canal de datos gestionado por un solo ingeniero. La solución es de carácter estructural: hay que diseñar teniendo en cuenta los límites de velocidad, la rotación de redes y la resiliencia desde el primer momento.

Patrones de acceso al sistema EDGAR de la SEC

La SEC publica directrices de acceso equitativo que definen lo que consideran un uso aceptable.

Reglas básicas

  • 10 solicitudes por segundo por dirección IP es el límite máximo establecido. Superarlo puede provocar una limitación temporal de la velocidad.
  • El campo «User-Agent» debe identificar a su organización e incluir una dirección de correo electrónico de contacto (por ejemplo, Nombre de empresa de ejemplo AdminContact@samplecompany.com).
  • Para trabajos que requieran un gran volumen de datos históricos, utilice directamente los archivos de EDGAR en lugar de extraer la información del sitio web en HTML.

¿Hasta cuándo se remontan los datos?

Es aquí donde la mayoría de los artículos se vuelven imprecisos. Según SEC.gov:

  • Los registros en el EDGAR se remontan a 1994/1995. Los directorios de archivo (/Archives/edgar/full-index/, /Archives/edgar/daily-index/) contienen todos los datos desde el tercer trimestre de 1994 en adelante.
  • Búsqueda de texto completo comienza en 2001.
  • XBRL los datos solo se recogen a partir del Programa de Declarantes Voluntarios en Abril de 2005.

Por lo tanto, «hasta 2001» es el límite válido para la búsqueda de texto completo, no para el archivo en sí.

Estrategia de nivel de producción

  1. Utilice la caché de forma intensiva. Los documentos presentados en EDGAR son inalterables una vez aceptados (salvo en contadas ocasiones en las que se realizan correcciones posteriores a la aceptación); se almacenan en caché por número de registro.
  2. Utilice índices para las inserciones retrospectivas. El directorio /Archives/edgar/full-index/ contiene archivos master.idx por trimestre: descargue el índice y, a continuación, recupere únicamente los documentos que necesite.
  3. Utilice RSS para obtener información casi en tiempo real. Suscríbase a los canales RSS de EDGAR y descargue los documentos únicamente cuando se actualice el canal.
  4. Si alcanza el límite máximo en horas punta, gestione los límites de frecuencia mediante la rotación de direcciones IP. Configure su agente de usuario (User-Agent) de correo electrónico de contacto en cada solicitud, independientemente de la IP desde la que se realice la conexión. La API de acceso web de Massive le permite establecer cualquier agente de usuario (User-Agent) en las solicitudes HTTP salientes, de modo que pueda mantener el cumplimiento de la normativa EDGAR en todo un conjunto de direcciones IP de salida.

Objetivo práctico

Para un único fondo que recopila todos los documentos presentados en EDGAR en un plazo de 24 horas desde su envío, el coste de infraestructura es modesto: según nuestras estimaciones internas, muy por debajo de las cuatro cifras al mes solo en lo que respecta a EDGAR.

Yahoo Finanzas: La historia del gato y el ratón

Yahoo retiró su API oficial de Finanzas en 2017. Desde entonces, la comunidad de código abierto ha llevado a cabo ingeniería inversa de los puntos de conexión v8 no documentados, siendo yfinance el cliente de Python de referencia. Dichos puntos de conexión han cambiado tantas veces que han provocado fallos en yfinance en repetidas ocasiones; cada fallo se ha solucionado con un parche de la comunidad.

A partir de mayo de 2026:

  • El API de citas y gráficos de v8 sin documentar siguen siendo las fuentes más fiables de datos OHLCV y de cotizaciones.
  • Por lo general, se dispone de datos históricos de OHLCV allá por 1970 para los principales índices bursátiles (el índice de referencia que utilizan tanto Yahoo como yfinance).
  • Los puntos finales de noticias, opciones y datos fundamentales son menos estables; los formatos cambian periódicamente.
  • Según informes recientes, Yahoo ha comenzado a restringir el acceso a algunos datos históricos a los usuarios con suscripción premium, por lo que cualquier proceso de producción debe contar con un plan alternativo.

Lo que funciona en la producción

  1. Alternar direcciones IP por lote de códigos bursátiles. Yahoo aplica límites de velocidad por dirección IP y por token de sesión. Las direcciones IP de centros de datos reciben respuestas 429 con rapidez; las direcciones IP residenciales o de dispositivos de voluntarios, que se rotan por lotes, son mucho más resistentes.
  2. Almacenar en caché los datos OHLCV diarios. En el caso de las estrategias intradía, recupere los datos al cierre de la sesión. No agote el límite de solicitudes con consultas intradía que no sean necesarias.
  3. Prevea posibles roturas. Tenga en cuenta que los puntos finales no oficiales pueden cambiar. Mantenga una capa de abstracción de red y un adaptador de Yahoo para poder aplicar parches a un solo componente en lugar de tener que reescribir todo el proceso.
  4. Cuente con una fuente alternativa. Tenga preparada una fuente secundaria de datos OHLCV (otro sitio web público o una API de pago de bajo coste) para poder utilizarla en su lugar.

Volúmenes habituales

Un fondo que realiza una consulta diaria de 10 000 cotizaciones OHLCV supone un gasto de varias decenas de GB al mes en Yahoo. El coste exacto depende de la tarifa por GB que aplique su proveedor de proxies residenciales.

La larga cola: donde reside el alfa

Los datos alternativos más interesantes rara vez se encuentran en EDGAR o Yahoo. Se encuentran en la «cola larga» de fuentes públicas que ningún proveedor importante ha cubierto por completo:

  • Bancos centrales: Calendarios y textos de la Reserva Federal, el BCE y el Banco de Japón
  • Deuda soberana: Anuncios y resultados de las subastas del Tesoro
  • Comunicación corporativa: Notas de prensa, páginas de IR, información similar a la de los formularios 8-K
  • Conferencias sobre resultados: Las transcripciones en los sitios web de las empresas antes de que lleguen a los agregadores
  • Asuntos normativos y de propiedad intelectual: Solicitudes de patente ante la USPTO y la EPO, anuncios de aprobación de la FDA
  • Transporte: Seguimiento de vuelos de aviones corporativos a través de fuentes públicas de ADS-B
  • Trabajo y contratación: Volumen y contenido de las ofertas de empleo en las páginas de empleo de las empresas
  • Demanda de los consumidores: Clasificaciones en las tiendas de aplicaciones, reseñas y frecuencia de actualizaciones

Por separado, cada fuente de datos supone una pequeña tarea de recopilación. En conjunto, conforman una fuente alfa diferenciada. Características comunes:

  • En su mayoría son de acceso público y se puede acceder a ellos sin necesidad de iniciar sesión
  • Limitado por IP o por ASN, pero rara vez de forma tan estricta como EDGAR o Yahoo
  • El reto técnico radica en lograr una recogida constante y fiable, y no en un acceso puntual

Una capa de red sólida (rotación de direcciones IP, segmentación geográfica, retrasos) es lo que convierte a decenas de rastreadores frágiles en un producto de datos duradero.

Arquitectura de referencia

Una tendencia que se observa tanto en EDGAR como en Yahoo y en el «long tail»:

  1. Programador
    • EDGAR: casi continuo, basado en RSS
    • Yahoo OHLCV: empleo al cierre de la jornada
    • Agencias de noticias / Páginas de relaciones con inversores: en tiempo casi real o mediante consultas frecuentes
  2. Plantilla de trabajadores
    • Solicitudes HTTP o automatización del navegador
    • Analizar HTML / JSON / XBRL
    • Enviar registros normalizados a una cola o a un sistema de almacenamiento
  3. Capa de red (API de acceso web de Massive)
    • Direcciones IP residenciales y de dispositivos de voluntarios en más de 195 países
    • Segmentación geográfica para fuentes de noticias específicas de cada región (BCE para direcciones IP de la UE, Banco de Japón para direcciones IP de Japón)
    • Sesiones persistentes (hasta 30 minutos) para sitios web que vinculan el estado a la dirección IP
  4. Lógica de cola y reintentos
    • Cola central (Kafka, SQS, Pub/Sub o Redis Streams)
    • Retraso exponencial + fluctuación en 429/5xx; rotación de direcciones IP en caso de fallos persistentes
    • Cola de mensajes fallidos para todo lo que falle tras N intentos
  5. Capa de normalización
    • Códigos de cotización, CUSIP, ISIN y LEI de diversas fuentes
    • Estandarizar las zonas horarias, las divisas y las operaciones corporativas
    • Generar esquemas versionados para los consumidores posteriores
  6. Almacén
    • Snowflake o BigQuery para equipos más grandes; Postgres o ClickHouse para equipos más pequeños
    • Desglose por fecha y entidad para realizar pruebas retrospectivas de forma eficaz
  7. Capa de acceso
    • API internas, cuadernos de trabajo y herramientas de inteligencia empresarial para analistas
    • Conectores directos para plataformas de investigación y motores estratégicos

La extracción de datos es la parte menos costosa. La mayor parte del coste y la complejidad se concentra en las capas de almacenamiento, normalización y acceso.

Marco de cumplimiento

La extracción de datos públicos en los Estados Unidos viene determinada principalmente por hiQ Labs contra LinkedIn. En la UE, el Reglamento sobre abuso de mercado (MAR) y la Ley de Servicios Digitales (DSA) son de aplicación cuando los datos extraídos se utilizan para la negociación o la toma de decisiones automatizada.

¿Qué? hiQ contra LinkedIn Lo que dice realmente

Es aquí donde la simplificación que se da en la mayoría de los blogs se convierte en un inconveniente. Hay dos resultados posibles:

  • Sentencia sobre la CFAA (Noveno Circuito, abril de 2022): La extracción de datos de acceso público —páginas que no requieren una cuenta— probablemente sí lo hace no incumple el requisito de «sin autorización» de la Ley de Fraude y Abuso Informático. Dicha resolución se mantiene.
  • Sentencia sobre un contrato (Tribunal de Distrito de California del Norte, noviembre-diciembre de 2022): hiQ perdió el incumplimiento de contrato. El tribunal determinó que hiQ infringió el acuerdo de usuario de LinkedIn mediante la extracción automatizada de datos y la contratación de trabajadores a través de plataformas colaborativas para crear perfiles falsos. El caso se resolvió en diciembre de 2022 con un Sentencia de conformidad por valor de 500 000 dólares contra hiQ, una medida cautelar definitiva salvo que se vuelva a rastrear LinkedIn y se dicte una resolución en virtud de la CFAA relacionada específicamente con el acceso a cuentas falsas.

La interpretación práctica para una empresa de tecnología financiera: la extracción de datos de páginas públicas sin iniciar sesión sigue siendo defendible en virtud de la CFAA, pero los términos de servicio de un sitio web pueden seguir siendo vinculantes en virtud del derecho contractual, y eludir los controles de acceso (barreras de inicio de sesión, cuentas falsas) puede constituir, por sí mismo, una infracción de la CFAA.

Líneas claras

  1. No realice el rastreo tras un inicio de sesión.
  2. No eluda las barreras técnicas (CAPTCHAs diseñados para bloquear la automatización, medidas contra el scraping aplicadas expresamente contra usted).
  3. No realice operaciones bursátiles basándose en información privilegiada relevante.
  4. Lleve registros de trazabilidad.

Si su equipo de cumplimiento normativo necesita que se apruebe un memorándum, el equipo de ventas de Massive puede compartir la plantilla que se utiliza con los clientes potenciales corporativos.

Cuánto cuesta realmente

Una estimación representativa de los costes anuales para una empresa fintech o un fondo cuantitativo que utilice este proceso. Estos rangos son estimaciones internas basadas en implementaciones típicas de equipos reducidos; no se trata de presupuestos con precios de catálogo.

  • Red: variable, en función del volumen de datos y del proveedor
  • Informática: unas pocas miles de euros al mes para una flota de vehículos de uso profesional de tamaño modesto
  • Almacenamiento / almacén: depende en gran medida del volumen; suele situarse en unas pocas miles al mes
  • Ingeniería: 0,25–0,5 ETC para el mantenimiento continuo y nuevas fuentes

La variable más importante es el ingeniero. El coste total de un ingeniero de datos de nivel medio constituye la partida más importante.

Comparación con el gasto en licencias (equipo de 5 personas)

Un equipo de cinco personas que adquiere un acceso con licencia suele encontrarse en una situación como esta:

  • 5 puestos de terminal Bloomberg a una tarifa por puesto de unos 28 000 dólares cada uno: aproximadamente 140 000 dólares al año
  • Además, derechos de acceso a LSEG Workspace: supone un gasto de decenas de miles de euros al año, dependiendo de los paquetes de datos
  • Además de FactSet para gestores de carteras: añade Entre 20 000 y 50 000 dólares por asiento ocupado

El coste de una solución desarrollada internamente se mantiene prácticamente estable a medida que se añaden usuarios: una vez que existe, cada analista adicional supone un coste incremental. El coste de los proveedores es lineal por puesto. Ahí es donde se encuentra el punto de equilibrio entre desarrollar y adquirir. El punto exacto de equilibrio depende de lo que cada usuario necesite realmente; para los equipos cuyo trabajo se ajusta a lo que pueden cubrir EDGAR, Yahoo y la «long tail», el punto de equilibrio suele situarse en un pequeño grupo de usuarios.

«Construir o comprar»: resumen

Coste anual (equipo de 5 personas). Una infraestructura de desarrollo propio es, en gran medida, fija: no se adapta al número de usuarios. Una solución con licencia tiene un coste lineal: solo Bloomberg cuesta unos 140 000 dólares por cinco puestos, aplicando tarifas para múltiples usuarios, sin contar LSEG ni FactSet.

Cobertura. Si se crea uno mismo, se tiene acceso a SEC EDGAR, Yahoo Finance y toda una serie de fuentes públicas. Bloomberg, LSEG y FactSet ofrecen fuentes de datos preprocesadas: más amplias en algunos ámbitos, pero menos transparentes en cuanto a las fuentes y la metodología.

Control de esquemas. El desarrollo propio implica un control total sobre los campos, el historial y la forma en que se normalizan los datos. Las soluciones de terceros le obligan a ceñirse a los esquemas definidos por el proveedor y al ritmo de cambios que este establezca.

Situación en materia de cumplimiento normativo. «De desarrollo propio» significa que los registros, las políticas de conservación y el registro de auditoría son suyos. Las plataformas de proveedores le proporcionan sus propios registros y su propio registro de auditoría.

Tiempo de retorno de la inversión. Desarrollar una solución propia requiere entre semanas y meses de trabajo de ingeniería. En cambio, una licencia de Bloomberg se puede habilitar en cuestión de días.

Preguntas frecuentes

P: ¿Cómo puedo obtener datos gratuitos de SEC EDGAR?

SEC EDGAR (sec.gov/edgar) es gratuito y de acceso público. Siga las directrices de acceso justo:

  • Limite las solicitudes a 10 por segundo por dirección IP.
  • Envíe un User-Agent que identifique a su organización e incluya una dirección de correo electrónico de contacto.
  • Para obtener datos históricos en grandes volúmenes, utilice los archivos de EDGAR (índice completo, índice diario) en lugar de extraer la información directamente del sitio web en tiempo real. Los registros se remontan a 1994; la búsqueda de texto completo comienza en 2001; los datos XBRL, en 2005.

P: ¿Seguirá funcionando la API de Yahoo Finance en 2026?

Sí, pero sigue sin ser oficial:

  • Las API de cotizaciones y gráficos de v8 están operativas desde mayo de 2026, con límites de frecuencia por dirección IP y por token de sesión.
  • Los formatos de los puntos finales de datos fundamentales, opciones y noticias cambian periódicamente.
  • Es posible que algunos datos históricos se encuentren ahora en el nivel premium de Yahoo. Los equipos de producción almacenan en caché los datos OHLCV diarios tras el cierre del mercado y mantienen una fuente alternativa.

P: ¿Cuál es la mejor API de datos alternativos?

Depende de su estrategia:

  • Documentos presentados ante la SEC: El propio sistema EDGAR de la SEC es la fuente más económica y directa.
  • OHLCV: Yahoo Finance es la opción más económica a gran escala, siempre y cuando pueda asumir los posibles fallos.
  • Piensos especializados (patentes, autorizaciones de la FDA, ADS-B, ofertas de empleo, clasificaciones de aplicaciones): no existe una única API; hay que crear un pequeño rastreador para cada fuente.
  • Datos totalmente gestionados y de calidad institucional: Bloomberg, LSEG y FactSet siguen siendo las fuentes predeterminadas.

P: ¿Puedo sustituir Bloomberg por fuentes públicas?

En lo que respecta a una parte significativa de los casos de uso de datos cuantitativos y alternativos, sí. La cuestión es que el valor de Bloomberg no reside únicamente en los datos, sino en las herramientas de mensajería, chat, comunidades y gestión de flujos de trabajo que los operadores utilizan a diario. No podrá reproducir todas las funciones de la terminal con fuentes públicas, pero sí podrá cubrir la mayor parte de las necesidades en materia de investigación, pruebas retrospectivas y datos alternativos.

En Estados Unidos, hiQ Labs contra LinkedIn se ha establecido que la extracción de datos públicos (sin necesidad de iniciar sesión ni eludir barreras técnicas) no infringe la CFAA. Sin embargo, hiQ acabó perdiendo el juicio por incumplimiento de contrato — Las condiciones de uso de un sitio web pueden imponerle obligaciones por separado, y la empresa pagó una indemnización de 500 000 dólares y aceptó una orden judicial permanente. En la UE, se aplican el Reglamento sobre el mercado de valores (MAR), el Reglamento General de Protección de Datos (RGPD) y la Ley de Servicios Digitales (DSA) cuando los datos influyen en las operaciones bursátiles o contienen información personal.

Hay dos reglas que siempre se aplican:

  1. No extraiga datos que estén protegidos por un inicio de sesión.
  2. No realice operaciones bursátiles basándose en información privilegiada relevante.

Los datos públicos de Internet, recopilados de conformidad con las condiciones y la legislación aplicables, suelen ser aceptables siempre que vayan acompañados de un riguroso sistema de cumplimiento normativo y registro.

Dónde encaja Massive

  • Auditado según la norma SOC 2, conforme al RGPD y la CCPA, y certificado por AppEsteem
  • Direcciones IP residenciales aportadas por voluntarios en más de 195 países
  • Segmentación geográfica a nivel de ciudad y de ASN para feeds específicos de cada región
  • Sesiones persistentes (hasta 30 minutos) para sitios web que vinculan el estado a la dirección IP
  • Índice de disponibilidad de la infraestructura en EE. UU. del 99,87 %, tiempo de respuesta medio de 0,52 s

Los fondos cuantitativos y las empresas de tecnología financiera utilizan Massive para:

  • SEC EDGAR a gran escala sin superar los límites de frecuencia
  • Yahoo Finance OHLCV y cotizaciones a través de la rotación de direcciones IP residenciales
  • Fuentes públicas de «long tail» (bancos centrales, páginas de relaciones con inversores, bolsas de empleo) que no cuentan con interfaces de integración autorizadas

Para probarlo, Empiece con el plan gratuito para empresas emergentes (1 TB gratis durante 3 meses, sin compromiso de permanencia). Para planes institucionales, envíe un correo electrónico a sales@joinmassive.com.

Conclusión

Los datos alternativos que necesita su fondo son, en su mayoría, de dominio público. Los proveedores autorizados cobran por la recopilación, la fiabilidad y la comodidad, no por los datos brutos en sí mismos.

Con un pequeño equipo de ingeniería y la capa de red adecuada, puede replicar una parte significativa de lo que ofrece una plataforma de Bloomberg + LSEG, a un coste considerablemente menor, con control total del esquema y con trazabilidad de extremo a extremo para el cumplimiento normativo. La decisión de desarrollar o adquirir debe basarse en cifras reales para su equipo y caso de uso específicos, y no en las cifras redondas que los proveedores citan en sus sitios web.

¿Está listo para empezar? Regístrese o concertar una llamada con nosotros.