Основы LLM с использованием данных из Интернета в реальном времени: практическое руководство
All Posts

Основы LLM с использованием данных из Интернета в реальном времени: практическое руководство

Ryan Turner
Ryan Turner · Head of Growth

Заземление — это метод построения ответа модели на основе актуальных данных, полученных из источников в реальном времени, а не на основе данных, использовавшихся при обучении. Это наиболее надежный способ предотвратить появление «галлюцинаций», поскольку модель перестает строить догадки и начинает приводить проверяемые факты. Использование данных из реального времени в Интернете позволяет пойти еще дальше: вы опираетесь на то, что является правдой именно сейчас, а не на «моментальный снимок», зафиксированный на момент обучения.

В данном руководстве подробно описан практический цикл, который инженер проходит при обучении большого языкового модели (LLM) на свежих веб-данных. Сначала необходимо определить, когда требуются новые данные, затем их загрузить, снабдить информацией о происхождении, сгенерировать результаты с указанием источников и, наконец, провести проверку. Каждый этап описан конкретно, а также указаны типичные ошибки, с которыми команды сталкиваются в производственной среде.

Основные выводы
  • Метод «Grounding» заменяет память модели на извлеченные исходные документы, что является наиболее надежным способом снижения частоты генерации неверных результатов.
  • Свежесть информации важна не меньше, чем её актуальность: устаревшие данные приводят к выводам, основанным на старых фактах, которые кажутся достоверными и правильными.
  • Обеспечьте прослеживаемость источников на всех этапах, чтобы в каждом утверждении указывался источник, который пользователь может проверить.
  • По прогнозам Gartner, к концу 2026 года 40 % корпоративных приложений будут оснащены специализированными ИИ-агентами, поэтому внедрение технологий «граундинг» сегодня является обязательным условием.
  • Выживают те команды, агенты которых остаются надежными; по прогнозам Gartner, к концу 2027 года будет закрыто более 40 % проектов, основанных на использовании агентов.

Что на самом деле означает «основа» в контексте LLM?

Грунтование заставляет модель давать ответы на основе предоставленных доказательств, а не на основе параметрической памяти. На практике вы извлекаете документы, имеющие отношение к запросу, помещаете их в контекстное окно и даете модели указание отвечать исключительно на основе этого материала с указанием источников. Модель становится читателем и составителем резюме, а не оракулом. Именно этот единственный сдвиг в подходе является причиной того, что привязка к контексту, как правило, снижает вероятность появления галлюцинаций в большей степени, чем любые приемы настройки подсказок.

Данные из Интернета в режиме реального времени — это наиболее надежная основа для всего, что зависит от времени: цен, новостей, документации, наличия товаров, нормативных требований. Веса модели устарели на несколько месяцев или лет, но страница, загруженная две секунды назад, — нет. Однако это требует значительных технических затрат. Теперь у вас есть конвейер извлечения данных, и его самое слабое звено определяет предельное качество ответа.

Этот вопрос с каждым кварталом приобретает всё большее значение. По прогнозам компании Gartner, в 2025 году К концу 2026 года 40 % корпоративных приложений будут оснащены специализированными ИИ-агентами, тогда как в 2025 году их доля составляла менее 5 %. Большинство таких агентов будут отвечать на вопросы о текущем состоянии, а агент без привязки к реальности, который с уверенностью выдумывает это состояние, хуже, чем отсутствие агента вообще. Полную архитектуру, связанную с этим, см. предоставить ИИ-агентам доступ к веб-ресурсам в режиме реального времени.

Когда модели LLM требуются свежие данные из Интернета?

Не каждый запрос требует поиска данных, а привязка каждого запроса к базе данных приводит к ненужной задержке и трате токенов. Решение принимается на этапе проверки. Как правило, направляйте запрос на поиск в реальном времени, если ответ зависит от изменяющихся фактов, фактов, не входящих в обучающие данные, или от любой информации, которую пользователь ожидает получить в актуальном виде. Стабильные общие знания могут оставаться непривязанными к базе данных. Хороший маршрутизатор не требует больших затрат и избавляет вас от необходимости искать в Интернете ответ на вопрос «что такое хеш-карта».

На практике сигналы, указывающие на необходимость «немедленного запроса», легко распознать: запрос содержит слова, обозначающие время («сегодня», «последний», «текущий», «на этой неделе»), именованные сущности, которые, вероятно, связаны с недавними событиями, ценами, версиями или количественными показателями, либо относится к сфере, которая, как вам известно, быстро меняется. С этой задачей хорошо справляется небольшой классификатор или подсказка, требующая всего нескольких примеров. Если вы сомневаетесь, лучше выполнить запрос; немного более медленный правильный ответ лучше, чем быстрый неправильный.

Единственная веская причина, по которой это нужно делать правильно, — это выживание: именно надежность отличает тех агентов, которые добиваются успеха, от тех, кто терпит неудачу. В 2025 году компания Gartner предсказала К концу 2027 года более 40 % проектов в области агентного ИИ будут закрыты, зачастую при этом польза от этого остается неясной, а механизмы контроля — слабыми. Опора на свежие данные и есть такой механизм контроля. Судя по тому, что мы наблюдаем в рабочих нагрузках агентов, именно это позволяет сделать ответы агента поддающимися проверке, а не просто правдоподобными.

Как получить актуальные данные для заземления?

Извлечение информации состоит из двух этапов: сначала необходимо найти нужные страницы, а затем преобразовать каждую страницу в чистый текст, который сможет прочитать модель. Этап поиска представляет собой поисковый запрос. На этапе извлечения информация извлекается со страницы и сводится к словам, несущим смысл. Если оба этапа выполнены некачественно, модель будет ориентироваться на навигационные меню и баннеры с уведомлениями о файлах cookie вместо того, чтобы найти ответ.

Чтобы выполнить поиск, отправьте запрос на конечную точку поиска, преобразовав запрос пользователя в поисковую фразу, и получите первые результаты с заголовками и URL-адресами. Для сравнения доступных вариантов см. API веб-поиска для агентов. API веб-рендеринга Massive предоставляет конечную точку Search (/поиск), который возвращает результаты поиска из основных поисковых систем, с возможностью географической настройки, с в ожидании=ai подождать до минуты, пока загрузится обзор ИИ, и в ожидании ответов для блоков «Пользователи также спрашивают».

При запросе данных извлекайте указанные URL-адреса и преобразуйте их в формат Markdown, а не в исходный HTML. Markdown Ниже приведен упрощённый текстовый формат, в котором сохраняются заголовки, списки и ссылки, а разметка, требующая большого количества токенов и затрудняющая работу модели, удаляется. Преобразование HTML в Markdown позволяет существенно сократить количество токенов, используемых агентом, зачастую более чем вдвое (dev.to, Инструменты браузера для ИИ-агентов. Часть 4: Отказ от использования браузера). Конечная точка просмотра Massive (/браузер) возвращает формат=markdown в качестве готового результата, благодаря чему вы получаете текст страницы, готовый для обработки в LLM, за один вызов, вместо того чтобы запускать собственный браузер без графического интерфейса и выполнять проверку на читаемость.

Однако следует учесть одно важное предупреждение: открытый Интернет противостоит автоматическому сбору данных. В 2025 году компания Cloudflare начала блокировка роботов искусственного интеллекта по умолчанию примерно на 20 % веб-сайтов 1 июля и запустила торговую площадку с оплатой за сканирование. Неопытный сканер натыкается на препятствия. Прокси-серверы для частного использования Это соединения, которые проходят через IP-адреса реальных потребительских устройств, а не через диапазоны IP-адресов центров обработки данных, благодаря чему они могут обращаться к страницам, недоступным для IP-адресов центров обработки данных. В ходе наших сравнительных тестов поставщиков показатели успешности подключений с IP-адресов частных пользователей на защищенных сайтах, как правило, значительно превосходят показатели IP-адресов центров обработки данных: примерно 85–99 % против 20–40 %. Рассматривайте это как результаты наших тестов, а не как независимое исследование, однако разница достаточно стабильна, и мы наблюдаем, как команды переходят на использование резидентных источников в тот момент, когда целевой сайт начинает блокировать доступ.

Как добавить информацию о происхождении к извлеченным данным?

При вставке извлеченный текст помещается в запрос с достаточной степенью структурированности, чтобы модель могла как использовать его, так и ссылаться на него. Происхождение — это метаданные, которые сопровождают каждый документ: URL-адрес источника, заголовок и метка времени получения. Обозначьте каждый документ в блоке с соответствующей меткой, содержащей эти метаданные, а затем дайте модели указание отвечать исключительно на основе этих блоков и привязывать метку источника к каждому утверждению. Происхождение — это не просто украшение; именно оно делает ответ поддающимся проверке.

Тщательно отбирайте и сокращайте текст. Размещайте наиболее значимые фрагменты в начале контекста, остальные удаляйте и ни в коем случае не вставляйте текст сайта целиком. Длинный контекст рассеивает внимание и заставляет модель блуждать. Например, лаконичный набор из трёх–пяти тщательно подобранных фрагментов обычно дает лучшие результаты, чем двадцать беспорядочных. Подробности о фрагментации, ранжировании и индексировании см. создание конвейера RAG на основе данных из реального веб-трафика.

Передавайте метку времени извлечения через каждый уровень. Неактуальность данных — это скрытый источник ошибок при формировании выводов: конвейер, извлекающий кэшированную страницу прошлого квартала, будет основывать ответ на устаревших фактах, которые кажутся достоверными и правильными. В результате вам следует маркировать каждый фрагмент датой его получения, отдавать предпочтение свежим источникам и позволять модели видеть дату, чтобы она могла отмечать устаревание, а не скрывать его. По нашему опыту, эта привычка использовать единую временную метку позволяет выявить больше неверных ответов, чем любые формулировки запросов.

Как сформулировать и проверить обоснованный ответ?

Генерация и проверка представляют собой один цикл, а не два отдельных этапа. Попросите модель отвечать строго на основе введенных источников и сопровождать каждое утверждение указанием на источник. Затем проверьте результат, прежде чем он дойдет до пользователя. Сопровождается ли каждое фактическое утверждение указанием на источник? Подтверждает ли указанный источник данное утверждение? Ответ, в котором не указано ни одного источника или указан источник, не подтверждающий утверждение, не проходит проверку обоснованности, даже если он звучит правильно. Это основной тест, и его стоит сформулировать прямо: обоснованный ответ — это тот, в котором каждое утверждение соотносится с найденным источником, который действительно его подтверждает, цитаты присутствуют и доступны для машинного анализа, а рецензент, никогда не видевший исходного запроса, может проследить каждое утверждение до его доказательства. Если какое-либо из этих условий не выполняется, вам следует перегенерировать ответ или отказаться от его предоставления, а не выставлять уверенное предположение.

Проверка может быть недорогой и автоматической. Проанализируйте цитаты, подтвердите, что каждая из них соотносится с найденным фрагментом, и отклоните или перегенерируйте утверждение, если оно не имеет подтверждения. В более ответственных случаях запустите повторный проход модели, которая перечитает каждый источник и оценит, подтверждает ли он данное утверждение. Это позволяет выявить сложные случаи, когда модель делает неточные выводы, используя реальный источник, но утверждая то, чего в источнике не было сказано.

Если же в качестве эталонного значения выступает самый свежий результат модели, то его можно получить напрямую. Конечная точка чата с ИИ от Massive (/ai) предоставляет варианты ответов от ChatGPT, Gemini, Perplexity и Copilot с указанием источников данных с реальных пользовательских устройств в разбивке по регионам, а также источники полезный груз и подзапросы массив. Это полезно, когда вам нужно опираться на текущее состояние общедоступной модели, а не на то, что указано на странице.

Источники

Frequently Asked Questions

Является ли заземление тем же, что и RAG?

RAG — один из распространенных способов реализации принципа «основанности». Цель этого принципа заключается в том, чтобы давать ответы на основе найденных данных, а не на основе памяти. RAG (retrieve, augment, generate — поиск, дополнение, генерация) — это шаблон, который используют большинство команд для достижения этой цели. При этом обеспечить основанность можно и с помощью прямых вызовов инструментов или оперативного запроса данных через API без использования векторного хранилища.

Почему свежесть имеет такое большое значение для заземления?

Ведь уверенный ответ, основанный на устаревших фактах, сложнее распознать, чем очевидное предположение. Поиск по устаревшим данным опирается на информацию, которая когда-то была верной, поэтому результат выглядит достоверным и правильным, хотя на самом деле является ошибочным. Поэтому следует маркировать каждый фрагмент датой получения и отдавать предпочтение свежим источникам.

Помогает ли заземление полностью избавиться от галлюцинаций?

Нет. Основание позволяет значительно уменьшить количество ошибок, но не устраняет их полностью. Модель по-прежнему может неверно интерпретировать источник или заявить о том, чего в источнике не было. Именно для этого и существует этап проверки: он позволяет убедиться, что каждое утверждение соотносится с источником, который действительно его подтверждает, прежде чем выдавать ответ.

Почему бы просто не воспользоваться встроенной функцией просмотра модели?

Встроенный механизм просмотра представляет собой «черный ящик», который невозможно настроить, кэшировать, настроить на географическую ориентацию или проверить. В отличие от этого, владение циклом извлечения данных позволяет вам контролировать актуальность, происхождение, качество источников, а также доступ к страницам, которые блокируют стандартные сканеры. Для производственных агентов такой контроль является залогом разницы между проверяемыми ответами и лишь правдоподобными.