Схема современного конвейера альтернативных данных с использованием базы данных SEC EDGAR, сервиса Yahoo Finance и общедоступных веб-источников
All Posts

Создание альтернативного канала данных в 2026 году: SEC EDGAR, Yahoo Finance и другие источники

Rachel Hollander
Rachel Hollander · Marketing Comms

Финтех-фонд или квантитативный фонд, использующий альтернативные данные в 2026 году, зачастую платит за то, что должно быть бесплатным. Система EDGAR Комиссии по ценным бумагам и биржам (SEC), Yahoo Finance и целый ряд других общедоступных источников по-прежнему остаются самыми дешевыми, актуальными и юридически прозрачными основой для канала рыночных данных.

Но есть одна загвоздка: каждый из них строго ограничивает пропускную способность, а лицензионные провайдеры (Bloomberg, LSEG, FactSet) взимают с каждого пользователя от пяти до шести цифр в год за данные, которые на самом деле являются общедоступными.

Перед вами руководство по самостоятельной реализации: как получить доступ к базе данных SEC EDGAR без ограничений пропускной способности, как осуществлять парсинг данных Yahoo Finance так, чтобы система не выходила из строя каждый квартал, как соотносятся затраты по сравнению с лицензионными альтернативами, а также примерная архитектура с использованием API веб-доступа Massive таким образом, конвейер продолжает работать, даже когда источники усиливают давление.

Основные выводы

  • Стоимость одного рабочего места на терминале Bloomberg составляет 31 980 долларов в год за одно место или 28 320 долларов США в год за одно место для клиентов с несколькими рабочими местами при продлении контрактов в 2025 году (рост на 6,5 % по сравнению с предыдущим годом).
  • Стоимость LSEG Workspace (ранее Refinitiv Eikon, который был снят с производства 30 июня 2025 года) и FactSet составляет примерно ту же сумму в пятизначном диапазоне на одного пользователя в зависимости от набора прав.
  • Самостоятельно созданный конвейер данных, подключенный к базе данных SEC EDGAR, сервису Yahoo Finance и множеству других общедоступных источников, может обходиться небольшой команде менее чем в 100 000 долларов в год (с учетом всех затрат), причем основная часть расходов приходится на оплату труда инженеров, а не на инфраструктуру.
  • Политика справедливого доступа SEC EDGAR ограничивает объем использования 10 запросов в секунду на один IP-адрес и требует указания User-Agent, который идентифицирует вашу организацию и содержит контактный адрес электронной почты.
  • Недокументированные конечные точки Yahoo Finance служат основой для yfinance с момента прекращения поддержки официального API в 2017 году. Они периодически выходят из строя; надежным решением этой проблемы является отказоустойчивый сетевой уровень.

Почему открытые источники по-прежнему остаются лучшими

Если вашему фонду или финтех-компании требуются данные для бэктестинга, информационных панелей или сигналов альфа-доходности, исходные данные уже доступны в открытом доступе:

  • Документы, поданные в Комиссию по ценным бумагам и биржам (SEC), и приложения к ним
  • Объявления биржи
  • Данные по котировкам и OHLCV от Yahoo Finance
  • Сообщения центрального банка
  • Пресс-релизы компании и страницы по связям с инвесторами

Типичные расходы на лицензирование для финтех-компании на средней стадии развития (данные взяты из открытых источников по ценообразованию, а не из прейскурантов — поставщики активно ведут переговоры о ценах):

  • Терминал Bloomberg: ~28 000–32 000 долл. США в год за одно рабочее место (контракты, заключенные с 2025 года)
  • Рабочая среда LSEG (ранее Refinitiv Eikon): стоимость базовой лицензии обычно составляет 1 500–3 000 долларов США за пользователя в месяц, плюс плата за доступ к данным
  • FactSet: 4 000–50 000+ долларов США на пользователя в год в зависимости от модулей; полный пакет услуг для аналитиков со стороны покупателя обычно составляет 24 000–36 000 долларов США в год

Причина, по которой большинство команд не создают альтернативных решений: ограничения по скорости в EDGAR, меняющиеся конечные точки Yahoo и уязвимость конвейера, за который отвечает единственный инженер. Решение носит структурный характер — необходимо с самого начала проектировать систему с учетом ограничений по скорости, ротации сетевых подключений и отказоустойчивости.

Модели доступа к базе данных EDGAR Комиссии по ценным бумагам и биржам США

Комиссия по ценным бумагам и биржам (SEC) публикует руководство по обеспечению равного доступа которые определяют, что они считают допустимым использованием.

Основные правила

  • 10 запросов в секунду на один IP-адрес — это установленный предельный показатель. Его превышение может привести к временному ограничению скорости.
  • В поле «User-Agent» необходимо указать название вашей организации и контактный адрес электронной почты (например, «Название примерной компании» AdminContact@samplecompany.com).
  • Для работы с большими объёмами исторических данных рекомендуется использовать непосредственно архивы EDGAR, а не извлекать данные с действующего HTML-сайта.

На какой период назад охватывают данные

Именно в этом месте большинство статей становятся неточными. Согласно сайту SEC.gov:

  • Сами отчеты, поданные в систему EDGAR, датируются 1994–1995 годами. Архивные каталоги (/Archives/edgar/full-index/, /Archives/edgar/daily-index/) содержат данные, начиная с третьего квартала 1994 года.
  • Полнотекстовый поиск начинается в 2001 год.
  • XBRL данные начинают собираться только с момента запуска Программы добровольной подачи отчетности в Апрель 2005 года.

Таким образом, «начиная с 2001 года» — это граница, установленная для полнотекстового поиска, а не для самого архива.

Стратегия для производственной среды

  1. Активно используйте кэширование. Документы, поданные в систему EDGAR, после принятия не подлежат изменению (за исключением редких исправлений, вносимых после принятия); кэшируйте по регистрационному номеру.
  2. Используйте индексы для заполнения пробелов. В каталоге /Archives/edgar/full-index/ хранятся файлы master.idx по кварталам — загрузите индекс, а затем выберите только те документы, которые вам нужны.
  3. Используйте RSS для получения информации практически в режиме реального времени. Подпишитесь на RSS-каналы EDGAR и загружайте документы только при обновлении канала.
  4. Если в часы пиковой нагрузки вы достигли лимита, используйте ротацию IP-адресов. Устанавливайте в качестве User-Agent адрес вашей контактной электронной почты в каждом запросе, независимо от того, через какой IP-адрес проходит запрос. API веб-доступа Massive позволяет задавать любой User-Agent в исходящих HTTP-запросах, что обеспечивает соответствие требованиям EDGAR при использовании пула выходных IP-адресов.

Практическая цель

Для одного фонда, который извлекает все документы, поданные в систему EDGAR, в течение 24 часов с момента подачи, затраты на инфраструктуру являются умеренными — по нашим внутренним оценкам, они составляют значительно менее четырехзначной суммы в месяц только на обслуживание системы EDGAR.

Yahoo Finance: История игры в кошки-мышки

В 2017 году компания Yahoo прекратила поддержку своего официального финансового API. С тех пор сообщество разработчиков с открытым исходным кодом провело обратную разработку недокументированных конечных точек v8, в результате чего в качестве стандартного клиента на Python стал использоваться yfinance. Эти конечные точки менялись настолько часто, что yfinance неоднократно переставал работать — каждый раз проблема решалась с помощью патча, разработанного сообществом.

По состоянию на май 2026 года:

  • Этот недокументированные API для работы с цитатами и диаграммами в V8 по-прежнему остаются наиболее достоверными источниками данных OHLCV и котировок.
  • Исторические данные по OHLCV, как правило, доступны еще в 1970 году для основных котировок (стандартный формат, используемый как Yahoo, так и yfinance).
  • Конечные точки для новостей, опционов и фундаментальных данных менее стабильны; их форматы периодически меняются.
  • По последним данным, компания Yahoo начала ограничивать доступ к некоторым историческим данным, сделав их доступными только для пользователей с премиум-подпиской, поэтому любой производственный конвейер должен иметь резервный вариант.

Что работает в производстве

  1. Сменять IP-адреса для каждой партии тикеров. Yahoo ограничивает количество запросов как по IP-адресу, так и по токену сеанса. IP-адреса центров обработки данных быстро приводят к получению кода 429; IP-адреса частных пользователей или устройств волонтеров, которые меняются партиями, гораздо более устойчивы.
  2. Сохраняйте данные OHLCV за каждый день. Для дневных стратегий запрашивайте данные на конец дня после закрытия торгов. Не тратьте лимит запросов на ненужные внутридневные опросы.
  3. Будьте готовы к поломкам. Предполагайте, что неофициальные конечные точки могут измениться. Обеспечьте наличие уровня абстракции сети и адаптера Yahoo, чтобы в случае необходимости можно было обновить один компонент, а не переписывать весь конвейер.
  4. Имейте запасной источник. Держите наготове запасной источник данных OHLCV (другой общедоступный сайт или недорогой платный API) на случай необходимости переключения.

Типичные объемы

Фонд, осуществляющий ежедневный запрос OHLCV по 10 000 тикеров, потребляет для Yahoo около десятков гигабайт трафика в месяц. Точная стоимость зависит от тарифов вашего провайдера прокси-серверов для частных пользователей за 1 ГБ.

«Длинный хвост»: где обитает альфа

Наиболее интересные альтернативные данные редко можно найти в EDGAR или Yahoo. Они сосредоточены в «длинном хвосте» открытых источников, которые ни один крупный поставщик не охватил в полной мере:

  • Центральные банки: Календари и тексты публикаций Федеральной резервной системы, ЕЦБ и Банка Японии
  • Государственный долг: Объявления и результаты аукционов по продаже казначейских облигаций
  • Корпоративные коммуникации: Пресс-релизы, страницы IR, раскрытие информации в формате 8-K
  • Конференц-звонки по финансовым результатам: Транскрипты на сайтах компаний до их появления в агрегаторах
  • Нормативно-правовое регулирование и интеллектуальная собственность: Заявки на патенты в USPTO/EPO, сообщения об одобрении FDA
  • Транспорт: Отслеживание полетов корпоративных самолетов с помощью общедоступных каналов ADS-B
  • Трудовые отношения и найм: Объем и содержание объявлений о вакансиях на страницах карьеры компаний
  • Потребительский спрос: Рейтинги в магазинах приложений, отзывы и частота обновлений

Каждый канал по отдельности представляет собой небольшой источник данных. В совокупности они образуют дифференцированный источник альфа-данных. Общие черты:

  • В основном общедоступные и доступные без входа в систему
  • Ограничение пропускной способности на IP-адрес или ASN, однако редко настолько строго, как в случае с EDGAR или Yahoo
  • Основная инженерная задача заключается в обеспечении непрерывного и надежного сбора данных, а не в разовом доступе

Надежный сетевой уровень (ротация IP-адресов, геотаргетинг, алгоритм отсрочки) — вот что превращает десятки неустойчивых скрейперов в надежный продукт для сбора данных.

Эталонная архитектура

Закономерность, наблюдаемая в системах EDGAR, Yahoo и в сегменте «длинного хвоста»:

  1. Планировщик
    • EDGAR: практически непрерывный, на основе RSS
    • Yahoo OHLCV: данные по занятости на конец дня
    • Информационные агентства / страницы IR: в режиме, близком к реальному времени, или с частым опросом
  2. Кадровый резерв
    • HTTP-запросы или автоматизация работы браузера
    • Анализ HTML / JSON / XBRL
    • Отправлять нормализованные записи в очередь или хранилище
  3. Сетевой уровень (API веб-доступа Massive)
    • IP-адреса частных пользователей и устройств волонтеров из более чем 195 стран
    • Географическая таргетировка для новостных лент с учетом региональных особенностей (ЕЦБ — для IP-адресов из стран ЕС, Банк Японии — для IP-адресов из Японии)
    • Сеансы с сохранением состояния (до 30 минут) для сайтов, привязывающих состояние к IP-адресу
  4. Очередь + алгоритм повторных попыток
    • Центральная очередь (Kafka, SQS, Pub/Sub или потоки Redis)
    • Экспоненциальный откат + джиттер на моделях 429/5xx; ротация IP-адресов при постоянных сбоях
    • Очередь неудачных запросов для всех операций, завершившихся сбоем после N попыток
  5. Слой нормализации
    • Коды ценных бумаг, коды CUSIP, коды ISIN и коды LEI из различных источников
    • Унифицировать часовые пояса, валюты и корпоративные действия
    • Предоставлять версионированные схемы для последующих потребителей
  6. Склад
    • Snowflake или BigQuery для крупных команд; Postgres или ClickHouse для небольших
    • Разделение по дате и объекту для эффективного тестирования на исторических данных
  7. Уровень доступа
    • Внутренние API, рабочие тетради, инструменты бизнес-аналитики для аналитиков
    • Прямые интерфейсы для исследовательских платформ и механизмов разработки стратегий

Сбор данных — это самая недорогая часть. Основная часть затрат и сложности приходится на уровни хранения, нормализации и доступа.

Система обеспечения соответствия

На сбор данных из открытых источников в США влияют в первую очередь hiQ Labs против LinkedIn. В ЕС Регламент о злоупотреблении рыночным положением (MAR) и Закон о цифровых услугах (DSA) применяются в тех случаях, когда данные, полученные с помощью скрапинга, используются для принятия торговых решений или автоматизированного принятия решений.

Что hiQ против LinkedIn На самом деле говорит

Именно здесь упрощение, характерное для большинства блогов, становится помехой. Возможны два различных исхода:

  • Решение по делу о нарушении Закона о компьютерных мошенничестве и злоупотреблениях (CFAA) (Девятый окружной апелляционный суд, апрель 2022 г.): Сбор данных из общедоступных источников — с веб-страниц, для просмотра которых не требуется учетная запись — скорее всего, не нарушают положение Закона о компьютерном мошенничестве и злоупотреблении, касающееся «несанкционированного доступа». Данное заключение остается в силе.
  • Решение по делу о договоре (Окружной суд Северной Калифорнии, ноябрь–декабрь 2022 г.): Компания hiQ понесла убытки нарушение договора. Суд признал, что компания hiQ нарушила пользовательское соглашение LinkedIn, осуществляя автоматический сбор данных и нанимая работников на основе краудсорсинга для создания фальшивых профилей. Дело было урегулировано в декабре 2022 года путем Судебное решение по соглашению сторон на сумму 500 000 долларов против hiQ, постоянный судебный запрет если не будет произведено дальнейшее сбора данных с LinkedIn и не будет вынесено решение по закону о компьютерном мошенничестве и злоумышленности (CFAA), непосредственно связанное с доступом к поддельным учетным записям.

Практические выводы для финтех-компаний: сбор данных с общедоступных страниц без входа в систему по-прежнему считается допустимым в соответствии с Законом о компьютерных мошенничестве и злоупотреблениях (CFAA), однако Условия предоставления услуг сайта по-прежнему могут иметь для вас обязательную силу в соответствии с договорным правом, а также обход средств контроля доступа (страниц входа в систему, использование поддельных учетных записей) может сам по себе являться нарушением Закона о компьютерных мошенничестве и злоупотреблениях (CFAA).

Четкие границы

  1. Не собирайте данные за пределами страницы входа в систему.
  2. Не обходите технические барьеры (CAPTCHA, предназначенные для блокировки автоматизации, а также меры по защите от сбора данных, явно направленные против вас).
  3. Не совершайте торговые операции на основе существенной непубличной информации.
  4. Ведите журналы отслеживания.

Если вашей службе по обеспечению нормативно-правового соответствия требуется утвердить служебную записку, отдел продаж компании Massive может предоставить шаблон, который используется при работе с потенциальными корпоративными клиентами.

Сколько это на самом деле стоит

Примерная годовая структура затрат для финтех-компании или квантитативного фонда, использующего данный конвейер. Указанные диапазоны представляют собой внутренние оценки, основанные на типичных сценариях внедрения в небольших командах, а не на официальных ценах.

  • Сеть: зависит от объема данных и оператора связи
  • Вычисления: несколько тысяч долларов в месяц для небольшого парка рабочих машин
  • Хранение / склад: в значительной степени зависит от объема; как правило, несколько тысяч в месяц
  • Инженерия: 0,25–0,5 полной ставки на текущее обслуживание и поиск новых источников

Самым значительным фактором является инженер. Затраты на оплату труда инженера по обработке данных среднего звена составляют самую крупную статью расходов.

Сравнение с расходами на лицензию (команда из 5 человек)

Команда из пяти человек, приобретающая лицензионный доступ, обычно сталкивается с примерно следующей ситуацией:

  • 5 рабочих мест с терминалами Bloomberg по тарифу для нескольких мест, составляющему около 28 000 долларов за каждое: примерно 140 000 долларов в год
  • Плюс права доступа к LSEG Workspace: добавляет десятки тысяч в год, в зависимости от тарифных планов
  • Plus FactSet для управляющих портфелями: добавляет 20–50 тысяч долларов за одно место

Стоимость самостоятельно созданного конвейера данных практически не меняется при увеличении числа пользователей — после его внедрения каждый дополнительный аналитик приносит лишь незначительный прирост затрат. Стоимость решений сторонних поставщиков растет линейно в расчете на одно рабочее место. Именно в этом и заключается точка пересечения между вариантами «создать самостоятельно» и «приобрести». Точная точка пересечения зависит от того, что на самом деле требуется каждому пользователю; для команд, чья работа укладывается в рамки того, что могут охватить EDGAR + Yahoo + «длинный хвост», точка пересечения часто приходится на небольшую группу пользователей.

Краткий обзор: «Сделать самому» или «Купить»

Годовая стоимость (команда из 5 человек). Самостоятельно созданная система в основном имеет фиксированную стоимость — она не зависит от количества пользователей. Стоимость лицензионного стека растёт линейно: только Bloomberg обходится примерно в 140 000 долларов за 5 рабочих мест по тарифам для нескольких пользователей, и это без учета расходов на LSEG или FactSet.

Объем покрытия. Самостоятельно созданные решения предоставляют вам доступ к базе данных SEC EDGAR, сервису Yahoo Finance и обширному спектру открытых источников. Bloomberg, LSEG и FactSet предлагают вам готовые информационные потоки — в некоторых областях они более обширны, но при этом менее прозрачны в отношении источников и методологии.

Управление схемой. Самостоятельная разработка означает полный контроль над полями, историей данных и способом их нормализации. Использование готовых решений привязывает вас к схемам, определённым поставщиком, и к тем темпам обновления, которые он сам устанавливает.

Состояние соблюдения нормативных требований. «Самостоятельная разработка» означает, что вы сами ведете журналы, определяете политики хранения данных и формируете контрольный журнал. При использовании решений поставщиков вы получаете их журналы и их контрольный журнал.

Срок окупаемости. Разработка собственного решения занимает от нескольких недель до нескольких месяцев. А рабочее место Bloomberg можно подготовить за считанные дни.

Часто задаваемые вопросы

Вопрос: Как получить бесплатные данные из системы EDGAR Комиссии по ценным бумагам и биржам (SEC)?

Система EDGAR Комиссии по ценным бумагам и биржам (sec.gov/edgar) является бесплатным и общедоступным. Соблюдайте правила справедливого доступа:

  • Ограничьте количество запросов до 10 в секунду на один IP-адрес.
  • Укажите в поле «User-Agent» информацию, идентифицирующую вашу организацию, а также адрес электронной почты для связи.
  • Для получения больших объемов исторических данных используйте архивы EDGAR (полный индекс, ежедневный индекс) вместо сбора данных с действующего HTML-сайта. Документы хранятся с 1994 года; полнотекстовый поиск доступен с 2001 года; данные в формате XBRL — с 2005 года.

Вопрос: Будет ли API Yahoo Finance работать в 2026 году?

Да, но это пока не является официальной информацией:

  • API-интерфейсы для запроса котировок и графиков v8 будут доступны с мая 2026 года с ограничениями на количество запросов как по IP-адресу, так и по сеансовому токену.
  • Форматы конечных точек для данных о фундаментальных показателях, опционах и новостях периодически меняются.
  • Некоторые исторические данные теперь могут быть доступны только в рамках премиум-тарифного плана Yahoo. Производственные команды ежедневно после закрытия рынка сохраняют в кэше данные OHLCV и поддерживают резервный источник.

Вопрос: Какой API для альтернативных данных является лучшим?

Это зависит от вашей стратегии:

  • Документы, поданные в Комиссию по ценным бумагам и биржам: Сама система EDGAR Комиссии по ценным бумагам и биржам (SEC) является наиболее доступным и прямым источником информации.
  • OHLCV: Yahoo Finance — самый экономичный вариант при работе с большими объёмами данных, если вы готовы мириться с возможными сбоями.
  • Специализированные корма (патенты, разрешения FDA, ADS-B, объявления о вакансиях, рейтинги приложений): единого API не существует; для каждого источника приходится создавать небольшой скрейпер.
  • Полностью управляемые данные институционального уровня: Bloomberg, LSEG и FactSet по-прежнему являются стандартными источниками.

Вопрос: Можно ли заменить Bloomberg открытыми источниками?

В отношении значительной части сценариев использования количественных и альтернативных данных — да. Но дело в том, что ценность Bloomberg заключается не только в данных — это еще и системы обмена сообщениями, чаты, сообщества и инструменты для организации рабочего процесса, которыми трейдеры пользуются ежедневно. С помощью общедоступных источников вам не удастся полностью воспроизвести все функции терминала, однако вы сможете удовлетворить большинство потребностей в области аналитики, бэктестинга и альтернативных данных.

Вопрос: Является ли сбор данных с открытых рынков законным?

В США, hiQ Labs против LinkedIn было установлено, что сбор данных из открытых источников (без входа в систему и без обхода технических барьеров) не нарушает Закон о компьютерном мошенничестве и злоупотреблении (CFAA). Однако в конечном итоге компания hiQ проиграла дело о нарушении договора — условия предоставления услуг веб-сайта могут облагать вас отдельными обязательствами; кроме того, компания выплатила штраф в размере 500 000 долларов и согласилась с постоянным судебным запретом. В ЕС применимы все три нормативных акта — MAR, GDPR и DSA — в тех случаях, когда данные используются для принятия торговых решений или содержат персональные данные.

Действуют два непреложных правила:

  1. Не извлекайте данные, доступ к которым ограничен авторизацией.
  2. Не совершайте торговые операции на основе существенной непубличной информации.

Открытые веб-данные, собранные в соответствии с действующими условиями и законодательством, как правило, считаются допустимыми при условии наличия надлежащих механизмов обеспечения соответствия требованиям и ведения журналов.

Где подходит Massive

  • Прошел аудит SOC 2, соответствует требованиям GDPR и CCPA, сертифицирован AppEsteem
  • IP-адреса частных сетей, предоставленные добровольцами из более чем 195 стран
  • Геотаргетинг на уровне городов и ASN для новостных лент, ориентированных на конкретные регионы
  • Сеансы с сохранением состояния (до 30 минут) для сайтов, привязывающих состояние к IP-адресу
  • Коэффициент безотказной работы инфраструктуры в США — 99,87 %, среднее время отклика — 0,52 с

Квантитативные фонды и финтех-компании используют Massive для:

  • Масштабируемое использование системы EDGAR Комиссии по ценным бумагам и биржам (SEC) без превышения лимитов частоты запросов
  • Yahoo Finance OHLCV и котировки с использованием ротации IP-адресов домашних пользователей
  • Общедоступные каналы с длинным хвостом (центральные банки, страницы с информацией об инвестициях, сайты по поиску работы), не имеющие лицензионных оболочек

Чтобы попробовать это, Начните с бесплатного тарифа для стартапов (1 ТБ бесплатно в течение 3 месяцев, без обязательств). По вопросам корпоративных тарифных планов обращайтесь по электронной почте sales@joinmassive.com.

В заключение

Альтернативные данные, необходимые вашему фонду, в основном являются общедоступными. Лицензированные поставщики взимают плату за их сбор, достоверность и удобство использования, а не за сами исходные данные.

Имея небольшую команду инженеров и подходящий сетевой уровень, вы сможете воссоздать значительную часть функционала, предоставляемого стеком Bloomberg + LSEG, при этом существенно снизив затраты, обеспечив полный контроль над схемой данных и сквозную отслеживаемость для целей соблюдения нормативных требований. Решение о том, создавать ли систему самостоятельно или приобрести готовую, должно основываться на реальных цифрах, характерных для вашей конкретной команды и сценария использования, а не на приблизительных цифрах, которые поставщики указывают на своих веб-сайтах.

Готовы начать? Зарегистрироваться или заказать звонок с нами.