Что такое Markdown, оптимизированный для LLM?

Markdown, готовый для LLM — это веб-контент, преобразованный из исходного HTML в чистый формат Markdown, оптимизированный для контекстных окон крупных языковых моделей (LLM) и конвейеров генерации с использованием данных из поисковых систем (RAG). Удаление навигационных меню, рекламы, скриптов и декоративных тегов оставляет только текст, заголовки, ссылки и таблицы — именно то, что действительно необходимо модели. В результате на каждый токен приходится больше полезного контента, что имеет большое значение, учитывая ограниченный размер контекстных окон, характерный для всех современных LLM.

Почему формат Markdown имеет значение для больших языковых моделей (LLM)?

HTML-страницы структурированы для браузеров, а не для моделей. Типичная страница отправляет сотни токенов шаблонного кода, баннеров с уведомлениями о файлах cookie и встроенных стилей, прежде чем появится хотя бы одно предложение реального содержания. Markdown устраняет эти излишние накладные расходы, а заголовки, абзацы, списки и блоки кода четко соотносятся со структурой, которую модель использует для анализа текста.

Формат также имеет значение для систем RAG, которые перед поиском разбивают документы на фрагменты и индексируют их. Чистые фрагменты в формате Markdown разделяются предсказуемым образом по границам заголовков и списков. Фрагменты с помехами в формате HTML разделяются непредсказуемо: часто предложения обрываются на полуслове или в них попадает нерелевантный текст из боковой панели.

Веб-сервисы рендеринга по запросу генерируют код Markdown, готовый для использования с большими языковыми моделями (LLM). Конечная точка «Browsing» сервиса Massive (/browser) принимает format=markdown параметр и возвращает «чистое» представление в формате Markdown любой общедоступной страницы, обрабатывая рендеринг JavaScript до преобразования.

Часто задаваемые вопросы

Исходный HTML-код содержит всю разметку, предназначенную для браузера: теги, атрибуты, скрипты и таблицы стилей. Формат Markdown, оптимизированный для больших языковых моделей (LLM), сохраняет только структуру контента в виде простого текста с минимальным форматированием. Модель затрачивает гораздо меньше токенов на обработку той же информации.

Web Render API позволяет загружать, отображать и конвертировать страницу за один шаг. Конечная точка «Browsing» сервиса Massive возвращает format=markdown выводить непосредственно, включая страницы, для загрузки содержимого которых требуется JavaScript.

Да. В стандартном Markdown гиперссылки обозначаются следующим образом: [text](url) а также таблицы в виде строк, разделенных символом вертикальной черты. Оба формата сохраняются при преобразовании HTML в Markdown, благодаря чему последующие модели и системы RAG могут отслеживать ссылки и анализировать табличные данные.