Что такое обучающие данные для моделей LLM?

Обучающие данные для модели LLM — это крупномасштабный текстовый корпус, используемый для предварительного обучения и тонкой настройки крупной языковой модели. Большая его часть взята из общедоступных источников в Интернете и дополнена материалами из книг, репозиториев кода, научных статей и тщательно отобранных наборов данных. Качество, объем и разнообразие этого корпуса напрямую определяют, какими знаниями обладает модель и насколько эффективно она осуществляет логические выводы.

Что на самом деле содержат обучающие данные для моделей LLM?

Современные передовые модели обучаются на огромных объемах текста. Последние модели, информация о которых доступна общественности (DeepSeek v3, Gemma 3, Llama 4, Qwen 3), были обучены на объеме примерно от 14 до 36 триллионов токенов, большую часть которого составляли тексты, извлеченные из Интернета (Common Corpus: крупнейший набор этических данных для предварительного обучения больших языковых моделей, arXiv, 2025). Данные, полученные в результате сканирования веб-ресурсов, занимают доминирующее положение, поскольку охватывают более широкий спектр тем, языков и стилей изложения, чем любой отдельный тщательно отобранный источник.

Помимо исходного HTML, обучающие наборы обычно включают статьи из Википедии, книги, научные статьи, код с GitHub и отфильтрованные обсуждения на форумах. Каждый из этих источников вносит свой вклад в формирование языковых особенностей. Код способствует развитию структурированного мышления; книги формируют навыки построения связных длинных текстов; веб-страницы обеспечивают широту и актуальность знаний.

Как осуществляется сбор и подготовка веб-данных?

Создание обучающего корпуса большого объёма начинается с веб-краулера и заканчивается тщательной дедупликацией и фильтрацией по качеству. FineWeb — это открытый корпус для предварительного обучения объёмом 15 триллионов токенов, сформированный и очищенный от дубликатов на основе 96 снимков Common Crawl, охватывающих веб-данные за период с 2013 года по апрель 2024 года (Hugging Face, набор данных FineWeb, 2024). Данный конвейер удаляет страницы, практически дублирующие друг друга, контент низкого качества и информацию, позволяющую установить личность, до того, как данные поступают на этап обучения.

Этап очистки данных имеет не меньшее значение, чем этап сбора данных. Шумные или дублирующиеся тексты приводят к тому, что модели начинают генерировать неверные результаты, повторять шаблонные фразы или чрезмерно адаптироваться к конкретным шаблонам форматирования. Команды применяют эвристические фильтры, основанные на моделях классификаторы качества и перевзвешивание по предметной области для получения сбалансированного итогового набора данных.

Случаи использования

Разработка моделей искусственного интеллекта: Исследовательские группы и лаборатории по искусственному интеллекту проводят сканирование открытого Интернета для формирования корпусов данных для предварительного обучения. Очищенный и очищенный от дубликатов HTML-код в больших объемах служит исходным материалом для каждого последующего цикла обучения.

Оптимизация конвейеров обработки данных: После предварительного обучения команды собирают тексты, относящиеся к конкретной предметной области (медицинские записи, судебные документы, финансовые отчеты), для специализации базовой модели. Эти более компактные и целенаправленные наборы данных формируются на основе точных и структурированных веб-данных из целевых источников.

Аудит качества данных: Организациям, занимающимся созданием или аудитом процессов подготовки персонала, необходимо проводить выборочную проверку исходных документов на уровне URL-адресов. Программный доступ к актуальному, отображаемому веб-контенту является обязательным условием для выполнения этой работы.

Сеть прокси-серверов Massive для частных пользователей и Web Render API предоставляют командам инженеров по обработке данных возможность в больших объемах собирать веб-контент, пригодный для обучения, в различных регионах мира из источников, которые блокируют IP-адреса центров обработки данных. Конечная точка «Browsing» возвращает отрендеренный HTML-код или чистый Markdown, что сокращает объем предварительной обработки перед токенизацией.

Часто задаваемые вопросы

Данные для предварительного обучения представляют собой обширный корпус в масштабах Интернета, который модель использует для изучения общих языковых закономерностей. Данные для тонкой настройки — это более небольшой набор данных, ориентированный на конкретную задачу, который используется для адаптации базовой модели к определенной области или поведению. Наборы данных для предварительного обучения насчитывают триллионы токенов; наборы данных для тонкой настройки часто состоят из тысяч или миллионов примеров.

Низкокачественный текст вносит «шум», который может приводить к появлению «галлюцинаций», предвзятым результатам или ухудшению качества логических выводов. Фильтрация, удаление дубликатов и тщательная сбалансированность по тематическим областям неизменно дают лучшие результаты, чем простое добавление большего количества необработанных страниц, и именно поэтому такие конвейеры, как FineWeb, уделяют большое внимание показателям качества, выходящим за рамки простого подсчета токенов.

В настоящее время по этому вопросу ведется активная дискуссия в правовой и политической сферах. Допустимость таких действий зависит от условий предоставления услуг исходного сайта, статуса авторских прав на контент и юрисдикции. Многие издатели в настоящее время добавляют директивы в файл robots.txt или llms.txt файлы, определяющие настройки сканирования, а правовые рекомендации продолжают развиваться на фоне текущих судебных разбирательств.

Common Crawl предоставляет бесплатный, общедоступный архив результатов сканирования веб-страниц, начиная с 2008 года. Большинство открытых и коммерческих наборов данных для предварительного обучения больших языковых моделей (LLM), включая FineWeb, создаются на основе моментальных снимков Common Crawl, а затем к этой общей базе применяются собственные алгоритмы фильтрации и удаления дубликатов.