Construindo um fluxo de dados alternativo em 2026: SEC EDGAR, Yahoo Finance e muito mais
Uma empresa de fintech ou um fundo quant que obtenha dados alternativos em 2026 acaba frequentemente pagando por informações que deveriam ser gratuitas. O EDGAR da SEC, o Yahoo Finance e uma ampla gama de fontes públicas continuam sendo as bases mais baratas, atualizadas e juridicamente mais claras para um fluxo de dados de mercado.
O problema é que cada um deles impõe limites de uso bastante restritivos, e os provedores licenciados (Bloomberg, LSEG, FactSet) cobram valores de cinco a seis dígitos por ano por usuário por dados que são — na fonte — públicos.
Este é o guia para você mesmo: como acessar o SEC EDGAR sem ter o tráfego limitado, como extrair dados do Yahoo Finance de forma que o sistema não trave a cada trimestre, como o custo se compara às alternativas licenciadas e uma arquitetura de referência utilizando API de acesso à Web da Massive para que o fluxo continue funcionando mesmo quando as fontes apertam o cerco.
Pontos principais
- Uma licença do Terminal Bloomberg custa $31.980/ano para um único lugar ou $28.320 por ano por vaga para clientes com licenças múltiplas a partir das renovações de contrato de 2025 (um aumento de 6,5% em relação ao ano anterior).
- O LSEG Workspace (anteriormente Refinitiv Eikon, que foi descontinuado em 30 de junho de 2025) e o FactSet situam-se em uma faixa semelhante de cinco dígitos por usuário, dependendo dos direitos de acesso.
- Um pipeline desenvolvido internamente com base no SEC EDGAR, no Yahoo Finance e em uma ampla variedade de fontes públicas pode ser operado por bem menos de US$ 100 mil por ano, incluindo todos os custos, para uma equipe pequena, sendo que a maior parte do custo se refere ao tempo de engenharia, e não à infraestrutura.
- A política de acesso equitativo do EDGAR da SEC limita o uso a 10 solicitações por segundo por endereço IP e exige um User-Agent que identifique a sua organização e inclua um e-mail de contato.
- Os endpoints não documentados do Yahoo Finance têm servido de base para o yfinance desde que a API oficial foi descontinuada em 2017. Eles apresentam falhas periodicamente; uma camada de rede resiliente é a solução duradoura.
Por que as fontes públicas continuam a prevalecer
Se o seu fundo ou empresa de fintech precisa do tipo de dados utilizados em um backtest, painel de controle ou sinal de alfa, a matéria-prima já está disponível publicamente:
- Documentos e anexos apresentados à SEC
- Anúncios da bolsa
- Dados OHLCV e de cotação do Yahoo Finance
- Comunicados do Banco Central
- Comunicados de imprensa da empresa e páginas de relações com investidores
Gastos típicos com licenças para uma empresa de fintech em fase intermediária (dados provenientes de análises de preços de mercado, e não de preços de tabela — os fornecedores negociam intensamente):
- Terminal Bloomberg: ~$28.000–$32.000/ano por licença (contratos a partir de 2025)
- Espaço de Trabalho LSEG (antiga Refinitiv Eikon): licença básica geralmente entre US$ 1.500 e US$ 3.000 por usuário por mês, além dos planos de dados
- FactSet: US$ 4.000–US$ 50.000+ por usuário/ano, dependendo dos módulos; pacotes completos para analistas do lado comprador custam normalmente entre US$ 24.000 e US$ 36.000 por ano
A razão pela qual a maioria das equipes não implementa essa alternativa: os limites de taxa do EDGAR, as mudanças constantes nos endpoints do Yahoo e a fragilidade de um pipeline que depende de um único engenheiro. A solução é estrutural — planeje desde o início para lidar com limites de taxa, rotação de redes e resiliência.
Padrões de acesso ao EDGAR da SEC

A SEC publica diretrizes de acesso equitativo que definem o que consideram uso aceitável.
Regras básicas
- 10 solicitações por segundo por endereço IP é o limite máximo publicado. Ultrapassá-lo pode acionar uma limitação temporária da taxa.
- O campo User-Agent deve identificar a sua organização e incluir um e-mail de contato (por exemplo, Nome da Empresa de Exemplo AdminContact@samplecompany.com).
- Para trabalhos que envolvam grandes volumes de dados históricos, utilize diretamente os arquivos do EDGAR, em vez de extrair dados do site HTML ativo.
Até quando remontam os dados
É aqui que a maioria dos artigos se torna imprecisa. Segundo o site SEC.gov:
- Os próprios registros no EDGAR remontam a 1994/1995. Os diretórios de arquivo (/Archives/edgar/full-index/, /Archives/edgar/daily-index/) abrangem todos os dados a partir do terceiro trimestre de 1994.
- Pesquisa de texto completo começa em 2001.
- XBRL os dados só começam a partir do Programa de Declaração Voluntária em Abril de 2005.
Portanto, “retroceder até 2001” é o limite adequado para a pesquisa de texto completo, e não para o próprio arquivo.
Estratégia de nível de produção
- Utilize o cache de forma intensiva. Os registros no EDGAR são imutáveis após a aceitação (com raras correções posteriores); armazenados em cache por número de registro.
- Utilize índices para preenchimentos retroativos. O diretório /Archives/edgar/full-index/ disponibiliza arquivos master.idx por trimestre — baixe o índice e, em seguida, recupere apenas os registros de que necessita.
- Use RSS para obter informações quase em tempo real. Inscreva-se nos feeds RSS do EDGAR e baixe os documentos somente quando o feed for atualizado.
- Lide com os limites de taxa por meio da rotação de IPs caso atinja o limite máximo nos horários de pico. Defina o User-Agent do seu e-mail de contato em todas as solicitações, independentemente do IP pelo qual a chamada seja encaminhada. A API de Acesso à Web da Massive permite definir qualquer User-Agent na solicitação HTTP de saída, para que você possa manter a conformidade com o EDGAR em um conjunto de IPs de saída.
Alvo prático
Para um único fundo que extraia todos os registros do EDGAR dentro de 24 horas após o envio, o custo de infraestrutura é modesto — bem abaixo de quatro dígitos por mês apenas para o EDGAR, segundo nossas estimativas internas.
Yahoo Finance: A história do gato e do rato

O Yahoo descontinuou sua API Finance oficial em 2017. Desde então, a comunidade de código aberto realizou engenharia reversa nos endpoints v8 não documentados, tendo o yfinance como o cliente Python de referência. Esses endpoints sofreram alterações suficientes para causar falhas repetidas no yfinance — cada falha é corrigida por um patch da comunidade.
A partir de maio de 2026:
- O APIs de citações e gráficos da versão 8 não documentadas continuam sendo as fontes mais confiáveis para dados OHLCV e de cotação.
- Os dados históricos de OHLCV estão normalmente disponíveis em 1970 para os principais códigos de ações (o padrão utilizado tanto pelo Yahoo quanto pelo yfinance).
- Os endpoints de notícias, opções e fundamentos são menos estáveis; os formatos mudam periodicamente.
- Relatórios recentes indicam que o Yahoo começou a restringir o acesso a alguns dados históricos, disponibilizando-os apenas para assinantes premium; portanto, qualquer pipeline de produção precisa de um plano alternativo.
O que funciona na produção
- Alternar os endereços IP por lote de tickers. O Yahoo impõe limites de taxa por endereço IP e por token de sessão. Os endereços IP de data centers geram erros 429 rapidamente; os endereços IP residenciais ou de dispositivos de voluntários, alternados por lote, são muito mais resistentes.
- Armazene em cache os dados OHLCV diariamente. Para estratégias diárias, obtenha os dados do final do dia após o fechamento do mercado. Não esgote o limite de consultas com consultas intradiárias desnecessárias.
- Preveja a possibilidade de quebras. Presuma que os pontos de extremidade não oficiais serão alterados. Mantenha uma camada de abstração de rede e um adaptador do Yahoo para que você possa corrigir um componente em vez de reescrever o pipeline.
- Tenha uma fonte alternativa. Tenha à disposição uma fonte secundária de dados OHLCV (outro site público ou uma API paga de baixo custo) para substituir a principal, se necessário.
Volumes típicos
Um fundo que realiza uma consulta diária de 10.000 tickers no OHLCV consome cerca de dezenas de GB por mês no Yahoo. O custo exato depende da tarifa por GB praticada pelo seu provedor de proxy residencial.
A Cauda Longa: Onde Reside o Alfa

Os dados alternativos mais interessantes raramente se encontram no EDGAR ou no Yahoo. Eles estão na "cauda longa" das fontes públicas que nenhum grande fornecedor conseguiu abranger totalmente:
- Bancos centrais: Calendários e textos de divulgação do Federal Reserve, do BCE e do Banco do Japão
- Dívida soberana: Anúncios e resultados dos leilões do Tesouro
- Comunicação corporativa: Agências de notícias, páginas de IR, divulgações do tipo 8-K
- Teleconferências sobre resultados financeiros: Transcrições nos sites das empresas antes de serem publicadas em agregadores
- Regulamentação e Propriedade Intelectual: Pedidos de patente junto ao USPTO/EPO, anúncios de aprovação da FDA
- Transporte: Rastreamento de voos de jatos executivos por meio de feeds públicos de ADS-B
- Trabalho e contratação: Volume e conteúdo das ofertas de emprego nas páginas de carreiras das empresas
- Demanda dos consumidores: Classificações nas lojas de aplicativos, avaliações e frequência de atualizações
Considerados individualmente, cada feed representa uma pequena tarefa de coleta de dados. Juntos, eles formam uma fonte alfa diferenciada. Características comuns:
- Em sua maioria, são públicos e acessíveis sem necessidade de login
- Limitação de taxa por IP ou por ASN, mas raramente de forma tão restritiva quanto o EDGAR ou o Yahoo
- O desafio de engenharia reside na coleta contínua e confiável — e não no acesso pontual
Uma camada de rede robusta (rotação de IPs, segmentação geográfica, backoff) é o que transforma dezenas de scrapers frágeis em um produto de dados durável.
Arquitetura de referência
Um padrão que se mantém no EDGAR, no Yahoo e na cauda longa:
- Agendador
- EDGAR: quase contínuo, baseado em RSS
- Yahoo OHLCV: empregos no final do dia
- Agências de notícias / Páginas de relatórios de resultados: em tempo quase real ou com consultas frequentes
- Banco de candidatos
- Solicitações HTTP ou automação de navegadores
- Analisar HTML / JSON / XBRL
- Enviar registros normalizados para uma fila ou um repositório
- Camada de rede (API de acesso à Web da Massive)
- Endereços IP residenciais e de dispositivos de voluntários em mais de 195 países
- Segmentação geográfica para feeds específicos por região (BCE a partir de endereços IP da UE, BoJ a partir de endereços IP do Japão)
- Sessões persistentes (até 30 minutos) para sites que associam o estado ao endereço IP
- Fila + lógica de repetição
- Fila central (Kafka, SQS, Pub/Sub ou Redis Streams)
- Retardamento exponencial + jitter nos modelos 429/5xx; alternância de endereços IP em caso de falhas persistentes
- Fila de mensagens rejeitadas para tudo o que falhar após N tentativas
- Camada de normalização
- Códigos de cotação, CUSIPs, ISINs e LEIs em diversas fontes
- Padronizar fusos horários, moedas e operações societárias
- Emitir esquemas versionados para consumidores a jusante
- Armazém
- Snowflake ou BigQuery para equipes maiores; Postgres ou ClickHouse para equipes menores
- Segmentação por data e entidade para backtests eficientes
- Camada de acesso
- APIs internas, notebooks e ferramentas de BI para analistas
- Conectores diretos para plataformas de pesquisa e mecanismos de estratégia
A extração de dados é a parte menos onerosa. A maior parte do custo e da complexidade está nas camadas de armazenamento, normalização e acesso.
Estrutura de conformidade

A extração de dados públicos nos EUA é determinada principalmente por hiQ Labs contra LinkedIn. Na UE, o Regulamento relativo ao abuso de mercado (MAR) e a Lei dos Serviços Digitais (DSA) aplicam-se quando os dados obtidos por meio de scraping servem de base para transações comerciais ou para a tomada de decisões automatizadas.
O que hiQ contra LinkedIn Na verdade, diz
É aqui que a simplificação presente na maioria dos blogs se torna um problema. Dois resultados distintos:
- Decisão relativa à CFAA (Nono Circuito, abril de 2022): A coleta de dados acessíveis ao público — páginas que não exigem uma conta — provavelmente não violar o critério de “sem autorização” da Lei de Fraude e Abuso Informático. Essa decisão mantém-se.
- Decisão sobre contrato (Tribunal Distrital da Califórnia do Norte, novembro–dezembro de 2022): A hiQ perdeu em violação contratual. O tribunal considerou que a hiQ violou o contrato de usuário do LinkedIn por meio de sua coleta automatizada de dados e da contratação de colaboradores em regime de crowdsourcing para criar perfis falsos. O caso foi resolvido em dezembro de 2022 com um Acordo judicial no valor de US$ 500.000 contra a hiQ, uma medida cautelar definitiva a menos que haja uma nova coleta de dados do LinkedIn e uma decisão relativa à CFAA especificamente ligada ao acesso à conta falsa.
A interpretação prática para uma empresa de fintech: a extração de dados de páginas públicas sem login continua a ser defensável nos termos da CFAA, mas os termos de serviço de um site ainda podem vinculá-lo nos termos do direito contratual, e a burla dos controles de acesso (barreiras de login, contas falsas) pode, por si só, constituir uma violação da CFAA.
Linhas Claras
- Não faça scraping em páginas protegidas por login.
- Não contorne as barreiras técnicas (CAPTCHAs criados para bloquear a automação, medidas anti-scraping explicitamente aplicadas contra o senhor).
- Não realize transações com base em informações privilegiadas.
- Mantenha registros de rastreabilidade.
Caso sua equipe de conformidade precise de um memorando para aprovação, a equipe de vendas da Massive pode compartilhar o modelo utilizado com os clientes potenciais corporativos.
Quanto custa realmente
Uma estimativa representativa dos custos anuais para uma empresa de fintech ou um fundo quant que utilize este fluxo de trabalho. Esses intervalos são estimativas internas baseadas em implantações típicas de equipes pequenas — não se trata de cotações de preços de tabela.
- Rede: variável, dependendo do volume de dados e do provedor
- Computação: cerca de quatro mil reais por mês para uma frota de veículos de trabalho de tamanho modesto
- Armazenamento / armazém: altamente dependente do volume; normalmente na casa dos quatro dígitos por mês
- Engenharia: 0,25–0,5 ETI para manutenção contínua e novas fontes
A principal variável é o engenheiro. O custo total de um engenheiro de dados de nível médio é o item de maior peso no orçamento.
Compare com os gastos com licenças (equipe de 5 pessoas)
Uma equipe de cinco pessoas encarregada de adquirir acesso licenciado geralmente chega a uma situação como esta:
- 5 postos de trabalho com terminal Bloomberg ao preço por assento de cerca de US$ 28 mil cada: aproximadamente $140.000 por ano
- Além disso, direitos de acesso ao LSEG Workspace: acrescenta dezenas de milhares por ano, dependendo dos pacotes de dados
- Além disso, FactSet para gestores de carteira: adiciona US$ 20 mil a US$ 50 mil por assento ocupado
O custo de um pipeline desenvolvido internamente permanece praticamente estável à medida que se adicionam usuários — uma vez implementado, cada analista adicional representa um custo incremental. O custo do fornecedor é linear por licença. É aí que se situa o ponto de equilíbrio entre desenvolver e adquirir. O ponto de equilíbrio exato depende do que cada usuário realmente precisa; para equipes cujo trabalho se enquadra no que o EDGAR + Yahoo + a cauda longa podem cobrir, o ponto de equilíbrio geralmente ocorre com um pequeno número de usuários.
Construir x Comprar: um resumo
Custo anual (equipe de 5 pessoas). Uma infraestrutura desenvolvida internamente é, em grande parte, fixa — não se adapta ao número de usuários. Uma pilha de soluções licenciadas segue uma estrutura linear: só a Bloomberg custa cerca de US$ 140 mil por 5 licenças, com tarifas para múltiplas licenças, sem contar os custos da LSEG ou da FactSet.
Cobertura. A solução desenvolvida internamente oferece acesso ao SEC EDGAR, ao Yahoo Finance e a uma ampla gama de fontes públicas. A Bloomberg, a LSEG e a FactSet fornecem feeds integrados — mais abrangentes em algumas áreas, mas menos transparentes quanto às fontes e à metodologia.
Controle de esquema. Uma solução desenvolvida internamente significa controle total sobre os campos, o histórico e a forma como os dados são normalizados. As pilhas de soluções de fornecedores prendem você a esquemas definidos por eles e ao ritmo de atualizações que eles determinam.
Situação de conformidade. "Construído internamente" significa que os registros, as políticas de retenção e a trilha de auditoria são de sua responsabilidade. As plataformas de fornecedores oferecem seus próprios registros e sua própria trilha de auditoria.
Tempo de retorno. Uma solução desenvolvida internamente leva semanas ou meses de trabalho de engenharia. Uma licença da Bloomberg pode ser provisionada em poucos dias.
Perguntas frequentes
P: Como posso obter dados gratuitos do SEC EDGAR?
SEC EDGAR (sec.gov/edgar) é gratuito e de acesso público. Siga as diretrizes de acesso justo:
- Limite de 10 solicitações por segundo por endereço IP.
- Envie um User-Agent que identifique a sua organização e inclua um e-mail de contato.
- Para dados históricos em grande volume, utilize os arquivos do EDGAR (índice completo, índice diário) em vez de extrair dados do site HTML em tempo real. Os registros datam de 1994; a pesquisa de texto completo começa em 2001; os dados em XBRL começam em 2005.
P: A API do Yahoo Finance ainda estará em funcionamento em 2026?
Sim, mas ainda não é oficial:
- As APIs de cotação e gráficos do v8 estão em funcionamento desde maio de 2026, com limites de taxa por endereço IP e por token de sessão.
- Os formatos dos endpoints de dados fundamentais, opções e notícias são atualizados periodicamente.
- Alguns dados históricos podem agora estar disponíveis apenas no plano premium do Yahoo. As equipes de produção armazenam em cache os dados OHLCV diariamente após o fechamento do mercado e mantêm uma fonte alternativa.
P: Qual é a melhor API de dados alternativos?
Isso depende da sua estratégia:
- Documentos apresentados à SEC: O próprio SEC EDGAR é a fonte mais econômica e direta.
- OHLCV: O Yahoo Finance é a opção mais econômica em grande escala, desde que você esteja preparado para lidar com possíveis falhas.
- Rações especializadas (patentes, aprovações da FDA, ADS-B, anúncios de emprego, classificações de aplicativos): não existe uma API única; é necessário criar um pequeno scraper para cada fonte.
- Dados totalmente gerenciados e de nível institucional: A Bloomberg, a LSEG e a FactSet continuam sendo as opções padrão.
P: Posso substituir a Bloomberg por fontes públicas?
Para uma parcela significativa dos casos de uso de dados quantitativos e alternativos, sim. O problema é que o valor da Bloomberg não se resume apenas aos dados — trata-se das ferramentas de mensagens, chat, comunidades e fluxo de trabalho que os operadores utilizam diariamente. Não será possível replicar todos os recursos do terminal com fontes públicas, mas é possível atender à maioria das necessidades de pesquisa, backtesting e dados alternativos.
P: É legal coletar dados de mercados públicos?
Nos Estados Unidos, hiQ Labs contra LinkedIn foi estabelecido que a extração de dados públicos (sem login, sem contornar barreiras técnicas) não viola a CFAA. Mas a hiQ acabou por perder o processo por quebra de contrato — os termos de serviço de um site podem vinculá-lo separadamente, e a empresa pagou uma indenização de US$ 500.000 e aceitou uma liminar permanente. Na UE, o MAR, o GDPR e a DSA são aplicáveis sempre que os dados servem de base para transações comerciais ou contêm informações pessoais.
Há duas regras que se aplicam sempre:
- Não extraia dados que estejam protegidos por login.
- Não realize operações com base em informações privilegiadas.
Os dados públicos da web, coletados em conformidade com os termos e a legislação aplicáveis, são geralmente aceitáveis quando acompanhados de procedimentos robustos de conformidade e registro.
Onde o Massive se encaixa
- Auditado pela SOC 2, em conformidade com o GDPR e a CCPA, certificado pela AppEsteem
- Endereços IP residenciais fornecidos por voluntários em mais de 195 países
- Segmentação geográfica por cidade e por ASN para feeds específicos por região
- Sessões persistentes (até 30 minutos) para sites que associam o estado ao endereço IP
- Taxa de sucesso da infraestrutura nos EUA de 99,87%, tempo médio de resposta de 0,52 s
Os fundos quantitativos e as fintechs utilizam o Massive para:
- SEC EDGAR em grande escala sem atingir os limites de taxa
- Yahoo Finance OHLCV e cotações por meio da rotação de IPs residenciais
- Feeds públicos de cauda longa (bancos centrais, páginas de relatórios de resultados, sites de empregos) que não possuem wrappers licenciados
Para experimentar, Comece com o plano gratuito para startups (1 TB grátis por 3 meses, sem compromisso). Para planos institucionais, envie um e-mail sales@joinmassive.com.
Conclusão
Os dados alternativos de que o seu fundo necessita são, em sua maioria, de domínio público. Os fornecedores licenciados cobram pela compilação, confiabilidade e conveniência — e não pelos dados brutos em si.
Com uma equipe de engenharia reduzida e a camada de rede adequada, é possível replicar uma parte significativa do que uma pilha de soluções da Bloomberg + LSEG oferece, a um custo significativamente menor, com controle total do esquema e rastreabilidade de ponta a ponta para fins de conformidade. A decisão entre desenvolver ou adquirir deve basear-se em números reais para sua equipe específica e seu caso de uso — e não nos valores aproximados que os fornecedores citam em seus sites.
Pronto para começar? Inscreva-se ou agendar uma ligação conosco.
