¿Qué son los datos sintéticos?

Datos sintéticos Es información generada artificialmente que imita las propiedades estadísticas de los datos del mundo real sin proceder de acontecimientos o usuarios reales. Los equipos de inteligencia artificial la crean para ampliar los conjuntos de datos de entrenamiento, que suelen ser escasos, subsanar las lagunas relacionadas con la privacidad o someter a los modelos a pruebas de estrés a gran escala.

¿Cómo se crean los datos sintéticos?

Los datos sintéticos se generan mediante técnicas como las redes generativas adversarias (GAN), los autoencodificadores variacionales (VAE), la simulación estadística y el uso de indicaciones para que los grandes modelos de lenguaje generen ejemplos etiquetados. El resultado puede consistir en texto, imágenes, registros tabulares o lecturas de sensores, en función de las necesidades del modelo posterior.

Su adopción se ha acelerado rápidamente. Gartner prevé que los datos sintéticos representarán más del 60 % de los datos utilizados para entrenar modelos de IA a finales de 2024, frente a apenas el 1 % en 2021 (Gartner, según informa Tech Monitor, 2024). Ese cambio refleja la presión a la que se ven sometidos los equipos para actuar con rapidez sin tener que esperar a que concluyan los costosos procesos de etiquetado manual.

Datos sintéticos frente a datos web del mundo real

Los datos sintéticos son útiles, pero tienen sus limitaciones. Dado que se derivan de datos existentes o de supuestos del modelo, pueden amplificar los sesgos ya existentes u omitir casos extremos que solo se dan en el entorno real. Un modelo entrenado exclusivamente con texto sintético puede tener dificultades con la jerga actual, los nombres de productos de nueva creación o los patrones reales de consultas de búsqueda a medida que estos evolucionan.

Los datos web del mundo real aportan frescura y variedad que los procesos sintéticos no pueden replicar fácilmente. La obtención de contenido web público actualizado, tal y como se muestra realmente en un navegador, permite captar los patrones lingüísticos, las señales del mercado y las relaciones entre entidades tal y como existen en la actualidad. Los datos sintéticos y los datos recopilados en tiempo real suelen utilizarse conjuntamente: las muestras sintéticas cubren las lagunas de cobertura, mientras que el contenido web actualizado ancla el modelo a la realidad actual.

Casos de uso

Aumento de datos de entrenamiento. Los equipos generan ejemplos sintéticos para clases poco frecuentes, categorías sensibles (historiales médicos, transacciones financieras) o lenguas con escasos recursos, en las que los datos reales son escasos o están sujetos a regulaciones.
Evaluación de la inteligencia artificial y simulacros de ataque. Las entradas adversarias sintéticas ponen a prueba la robustez del modelo frente a casos extremos que resultarían difíciles o peligrosos de obtener de usuarios reales.
Desarrollo de proyectos de gasoductos. Antes de que se disponga de un conjunto de datos reales, los datos sintéticos permiten a los ingenieros crear y validar los procesos de preprocesamiento y entrenamiento de principio a fin.
Análisis comparativo de datos web. Los investigadores utilizan código HTML sintético y contenido estructurado para poner a prueba los rastreadores y las herramientas de extracción en condiciones controladas; a continuación, validan los resultados comparándolos con páginas reales.

Preguntas frecuentes

No siempre. Los datos sintéticos ofrecen buenos resultados cuando se necesita un gran volumen de datos o etiquetas que respeten la privacidad, pero no pueden reflejar los acontecimientos recientes, los cambios en el ámbito de aplicación ni la complejidad del comportamiento de los usuarios en tiempo real. La mayoría de los sistemas de IA en producción combinan datos sintéticos y reales para lograr un equilibrio entre la escala y la precisión.

El mayor riesgo es el colapso del modelo: cuando un modelo se entrena con datos generados por otro modelo, los errores y sesgos pueden acumularse a lo largo de generaciones sucesivas. Además, los datos sintéticos pueden pasar por alto los cambios en la distribución, lo que hace que el modelo no rinda al máximo con entradas del mundo real con las que no se haya encontrado anteriormente.

Los datos sintéticos pueden cumplir los requisitos de privacidad cuando no es posible compartir registros reales de usuarios. Al no estar vinculados a personas concretas, reducen el riesgo de exposición en el marco de normativas como el RGPD y la HIPAA. No obstante, si el proceso de generación utiliza registros reales como material de origen, dichos registros de origen deben seguir estando protegidos por las mismas normas.

Ambos satisfacen necesidades diferentes. Los datos web recientes proporcionan una señal actual y del mundo real de la que carecen los flujos de datos sintéticos. Los datos sintéticos complementan los ejemplos etiquetados y abarcan situaciones que el contenido web sin procesar no incluye de forma fiable. La combinación de ambos suele dar lugar a modelos más sólidos que si se recurre únicamente a una de las dos fuentes.