Что такое llms.txt?
llms.txt — это файл в формате Markdown, расположенный в корневой папке веб-сайта (/llms.txt), которая предоставляет крупным языковым моделям тщательно отобранную и очищенную карту наиболее важного контента сайта. Предложенная соучредителем Answer.AI Джереми Ховардом в сентябре 2024 года, эта технология существует потому, что контекстные окна LLM слишком малы, чтобы охватить весь веб-сайт, а исходный HTML-код переполнен элементами навигации, рекламой и скриптами, которые скрывают то, что действительно необходимо модели (Answer.AI, 2024 г.). Речь идет о предлагаемой конвенции, а не о ратифицированном стандарте, и её внедрение в системах искусственного интеллекта по-прежнему носит ограниченный характер.
Как работает файл llms.txt
Формат специально разработан таким образом, чтобы быть простым. Правильный файл llms.txt начинается с элемента H1, содержащего название сайта или проекта (это обязательный элемент), за которым следует цитата, кратко описывающая суть сайта, а затем идут необязательные разделы H2, каждый из которых содержит маркированный список ссылок в [name](url): optional note форма (llmstxt.org). Поскольку это обычный Markdown, его могут читать как люди, так и модели без использования специального парсера.
В спецификации также содержится требование, чтобы сайты публиковали «чистую» версию каждой страницы в формате Markdown по тому же URL-адресу с .md добавлено (например, /pricing.html.md), поэтому модель, переходящая по ссылке из файла llms.txt, попадает на страницу с текстом, а не на отрендеренную HTML-страницу (llmstxt.org). Отдельное общественное собрание, /llms-full.txt, объединяет всю документацию сайта в один файл. Это название происходит от таких инструментов и их пользователей, как Mintlify, а не из исходной спецификации Говарда, в которой, напротив, определены контекстные файлы, генерируемые инструментами (Answer.AI, 2024 г.).
Файл llms.txt по сравнению с файлами robots.txt и sitemap.xml
Эти три корневых файла выполняют разные функции. robots.txt регулирует доступ, указывая поисковым роботам, какие страницы они могут загружать, а какие — нет, и основные поисковые роботы с искусственным интеллектом соблюдают эти ограничения. sitemap.xml содержит список всех URL-адресов на сайте, чтобы поисковые системы могли их обнаружить и проиндексировать. Файл llms.txt не выполняет ни одной из этих функций. Это тщательно отобранный набор «чистого» контента, предназначенный для чтения моделью на этапе инференции; он не является ни правилом доступа, ни исчерпывающим индексом (Search Engine Land, 2025 г.).
Случаи использования
- Сайты с документацией. Наиболее подходящий вариант. В документации по инструментам для разработчиков предоставляется файл llms.txt, благодаря чему помощник по программированию может получать точные ссылки на API вместо того, чтобы действовать наугад. Mintlify автоматически генерирует такой файл для размещаемых на своей платформе сайтов с документацией, что является одной из причин, по которой он присутствует во многих инструментах для разработчиков (Ahrefs, 2026 г.).
- Выбор того, что видит модель. Сайт может указывать модели на канонические, актуальные страницы и исключать дубликаты, страницы с недостаточным содержанием или устаревшие URL-адреса.
- Более экономичная загрузка контекста. Обработка одним помощником одного «чистого» файла требует меньшего количества токенов, чем обработка им результатов сканирования отрендеренного HTML-кода.
- Оптимизация поиска и ответов с помощью искусственного интеллекта. Компании внедряют эту технологию в надежде повлиять на то, как виртуальные помощники описывают их бренд, в рамках более широких усилий по оптимизации генеративных моделей.
Передовой опыт
Прежде всего, не стоит строить чрезмерных ожиданий. По состоянию на середину 2026 года llms.txt не является официальным стандартом, и крупные системы искусственного интеллекта не подтвердили его использование. Гари Иллис из Google заявил, что Google «не поддерживает llms.txt и не планирует этого делать» (Search Engine Land, 2025), а Джон Мюллер отметил, что «ни одна система искусственного интеллекта в настоящее время не использует файл llms.txt» (Круглый стол по поисковым системам, 2025 г.). Компания Ahrefs установила, что из примерно 38 000 доменов, на которых имелся действующий файл, 97 % не получили ни одного запроса на него в мае 2026 года (Ahrefs, 2026). Публикуйте контент не потому, что он гарантирует трафик от ИИ, а потому, что это недорого, а качественный контент никогда не помешает.
Когда вы всё-таки напишете его:
- Начните с краткого цитатного резюме и размещайте ссылки только на свои лучшие актуальные страницы.
- Подайте чистую
.mdверсию каждой страницы, на которую ведет ссылка, чтобы при переходе по ссылке отображался текстовый контент, а не оболочка JavaScript. - Следите за тем, чтобы файл синхронизировался с сайтом. Устаревший файл llms.txt хуже, чем его отсутствие.
- Не рассматривайте это как средство контроля доступа. Если вам необходимо разрешить или заблокировать доступ для ИИ-ботов, это по-прежнему следует указывать в файле robots.txt и в правилах User-Agent, а не в файле llms.txt.
Этот основной принцип — что модели работают эффективнее с «чистым» Markdown, чем с необработанным HTML — также объясняет, почему конвейеры извлечения данных всё чаще загружают страницы в формате Markdown, а не анализируют отрендеренный DOM. Web Render API от Massive возвращает любую общедоступную страницу в формате format=markdown Именно по этой причине в документации самой компании Massive публикуется индекс llms.txt, а также данные по каждой странице .md варианты.
Заключение
Файл llms.txt представляет собой недорогую и разумную идею: предоставить моделям чистый, тщательно отредактированный код Markdown вместо того, чтобы заставлять их анализировать весь сайт целиком. Станет ли он несущим элементом, зависит от того, решат ли поставщики ИИ использовать его для чтения, чего большинство из них пока не сделало. Рассматривайте его как надлежащую практику для создания веб-контента, доступного для ИИ, а не как инструмент влияния на ранжирование.
Часто задаваемые вопросы
Нет. Речь идет о предлагаемой конвенции, опубликованной на сайте llmstxt.org Джереми Ховардом из Answer.AI в 2024 году. Ни один орган по стандартизации не утвердил её, и ни один крупный поставщик ИИ официально не принял её (Журнал «Search Engine Journal», 2026 г.).
По состоянию на середину 2026 года это не подтверждено. Компания Google заявляет, что не использует данный файл, а исследование Ahrefs показало, что 97 % доменов с действующим файлом llms.txt не получили ни одного запроса на него в мае 2026 года (Ahrefs, 2026 г.).
Файл robots.txt определяет, какие роботы-сканеры могут получать доступ к каким путям. Файл llms.txt не регулирует доступ вообще. Он указывает моделям на тщательно отобранный набор безопасного контента для чтения, поэтому для разрешения или блокировки ИИ-ботов следует использовать файл robots.txt, а не llms.txt.
Поместите его в корневой каталог вашего домена в виде /llms.txt, написанный на языке Markdown: заголовок H1 с названием сайта, цитата-резюме, а затем разделы с заголовками H2, в которых перечислены ваши основные ссылки (llmstxt.org).
В основном это технологические компании, уделяющие большое внимание документации. Anthropic, Cloudflare, Mintlify и Tinybird публикуют такие документы, а Mintlify автоматически генерирует их для размещаемых на своих серверах сайтов с документацией (Ahrefs, 2026 г.).