Что такое синтетические данные?

Синтетические данные — это искусственно сгенерированная информация, которая имитирует статистические свойства реальных данных, не будучи при этом полученной из фактических событий или от реальных пользователей. Команды специалистов по искусственному интеллекту создают её для пополнения ограниченных обучающих наборов данных, устранения пробелов, связанных с конфиденциальностью, или проведения масштабных стресс-тестов моделей.

Как создаются синтетические данные?

Синтетические данные генерируются с помощью таких методов, как генеративно-состязательные сети (GAN), вариационные автокодировщики (VAE), статистическое моделирование, а также путем подачи подсказок крупным языковым моделям для генерации помеченных примеров. Результаты могут представлять собой текст, изображения, табличные записи или показания датчиков — в зависимости от потребностей последующей модели.

Темпы внедрения этой технологии стремительно ускорились. По прогнозам компании Gartner, к концу 2024 года доля синтетических данных в общем объеме данных, используемых для обучения моделей искусственного интеллекта, превысит 60 %, тогда как в 2021 году она составляла всего 1 % (Gartner, информация приведена по данным Tech Monitor, 2024 г.). Этот сдвиг отражает давление, испытываемое командами, которые вынуждены действовать оперативно, не дожидаясь завершения трудоемких процессов ручной маркировки.

Синтетические данные и реальные веб-данные

Синтетические данные полезны, но у них есть свои ограничения. Поскольку они получаются на основе существующих данных или допущений модели, они могут усиливать имеющиеся систематические ошибки или упускать крайние случаи, которые встречаются только в реальных условиях. Модель, обученная исключительно на синтетическом тексте, может испытывать трудности с современным сленгом, недавно появившимися названиями продуктов или реальными паттернами поисковых запросов по мере их развития.

Реальные веб-данные привносят свежесть и разнообразие, которые синтетические конвейеры не могут легко воспроизвести. Получение актуального общедоступного веб-контента, отображаемого в том виде, в каком он фактически виден в браузере, позволяет фиксировать языковые паттерны, рыночные сигналы и связи между сущностями в том виде, в каком они существуют на сегодняшний день. Синтетические данные и данные, полученные в режиме реального времени посредством сканирования, часто используются совместно: синтетические выборки восполняют пробелы в охвате, в то время как свежий веб-контент привязывает модель к современной реальности.

Случаи использования

Расширение обучающего набора данных. Команды генерируют синтетические примеры для редких классов, конфиденциальных категорий (медицинские записи, финансовые транзакции) или языков с ограниченными ресурсами, для которых реальных данных мало или их использование регулируется.
Оценка систем искусственного интеллекта и моделирование атак со стороны «красной команды». Синтетические враждебные входные данные позволяют проверить устойчивость модели к крайним случаям, которые было бы сложно или опасно получить от реальных пользователей.
Развитие трубопроводной сети. Пока не будет готов набор реальных данных, синтетические данные позволяют инженерам создавать и проверять конвейеры предварительной обработки и обучения от начала до конца.
Сравнительный анализ веб-данных. Исследователи используют синтетический HTML и структурированный контент для тестирования скрейперов и инструментов извлечения данных в контролируемых условиях, а затем сверяют полученные результаты с реальными веб-страницами.

Часто задаваемые вопросы

Не всегда. Синтетические данные хорошо подходят в тех случаях, когда требуется большой объём данных или метки, не нарушающие конфиденциальность, однако они не могут отразить последние события, сдвиги в предметной области или всю сложность поведения реальных пользователей. В большинстве производственных систем искусственного интеллекта синтетические и реальные данные сочетаются, что позволяет найти баланс между масштабируемостью и точностью.

Наибольший риск заключается в «коллапсе модели»: когда модель обучается на данных, сгенерированных другой моделью, ошибки и систематические отклонения могут накапливаться от поколения к поколению. Кроме того, синтетические данные могут не отражать сдвиги в распределении, в результате чего модель будет демонстрировать низкую эффективность при обработке реальных входных данных, с которыми она ранее не сталкивалась.

Синтетические данные могут обеспечить соблюдение требований конфиденциальности в тех случаях, когда невозможно предоставить реальные записи о пользователях. Поскольку они не привязаны к конкретным лицам, это снижает риск нарушения требований таких нормативных актов, как GDPR и HIPAA. Однако если в процессе генерации в качестве исходного материала используются реальные записи, эти исходные записи по-прежнему должны защищаться в соответствии с теми же правилами.

Они удовлетворяют разные потребности. Свежие веб-данные предоставляют актуальную информацию из реального мира, которой не хватает синтетическим потокам данных. Синтетические данные дополняют набор меченых примеров и охватывают сценарии, которые не всегда надежно отражены в исходном веб-контенте. Сочетание обоих источников, как правило, позволяет создавать более эффективные модели, чем использование только одного из них.