O que são dados sintéticos?

Dados sintéticos trata-se de informação gerada artificialmente que imita as propriedades estatísticas dos dados do mundo real, sem ter sido coletada a partir de eventos ou usuários reais. As equipes de IA a criam para ampliar conjuntos de dados de treinamento escassos, preencher lacunas relacionadas à privacidade ou submeter os modelos a testes de estresse em grande escala.

Como são criados os dados sintéticos?

Os dados sintéticos são produzidos por meio de técnicas que incluem redes adversariais generativas (GANs), autoencoders variacionais (VAEs), simulação estatística e o uso de prompts em grandes modelos de linguagem para gerar exemplos rotulados. O resultado pode abranger textos, imagens, registros tabulares ou leituras de sensores, dependendo das necessidades do modelo a jusante.

A adoção tem avançado rapidamente. A Gartner projetou que os dados sintéticos representariam mais de 60% dos dados utilizados para treinar modelos de IA até o final de 2024, contra apenas 1% em 2021 (Gartner, segundo notícia divulgada pelo Tech Monitor, 2024). Essa mudança reflete a pressão sobre as equipes para que ajam rapidamente, sem esperar por processos de rotulagem manual que acarretam altos custos.

Dados sintéticos versus dados da Web do mundo real

Os dados sintéticos são úteis, mas têm suas limitações. Por serem derivados de dados existentes ou de suposições do modelo, eles podem amplificar vieses já existentes ou deixar de identificar casos extremos que só ocorrem na prática. Um modelo treinado exclusivamente com texto sintético pode ter dificuldade em lidar com gírias atuais, nomes de produtos recém-criados ou padrões reais de consultas de busca à medida que estes evoluem.

Os dados da web do mundo real trazem atualidade e variedade que os fluxos de trabalho sintéticos não conseguem replicar facilmente. A obtenção de conteúdo público atual da web, exibido exatamente como aparece no navegador, captura padrões de linguagem, sinais de mercado e relações entre entidades tal como existem hoje. Dados sintéticos e dados rastreados em tempo real costumam ser usados em conjunto: amostras sintéticas preenchem lacunas de cobertura, enquanto o conteúdo atual da web ancora o modelo na realidade presente.

Casos de uso

Aumento de dados de treinamento. As equipes geram exemplos sintéticos para classes raras, categorias sensíveis (prontuários médicos, transações financeiras) ou idiomas com poucos recursos, nos quais os dados reais são escassos ou estão sujeitos a regulamentações.
Avaliação de IA e simulação de ataques (red-teaming). Entradas adversariais sintéticas testam a robustez do modelo diante de casos extremos que seriam difíceis ou perigosos de se obter de usuários reais.
Desenvolvimento de projetos de dutos. Enquanto um conjunto de dados reais ainda não estiver pronto, os dados sintéticos permitem que os engenheiros criem e validem fluxos de pré-processamento e treinamento de ponta a ponta.
Avaliação comparativa de dados da Web. Os pesquisadores utilizam HTML sintético e conteúdo estruturado para testar scrapers e ferramentas de extração em condições controladas e, em seguida, validam os resultados comparando-os com páginas ativas.

Perguntas frequentes

Nem sempre. Os dados sintéticos apresentam bom desempenho quando se precisa de grande volume ou de rótulos que garantam a privacidade, mas não conseguem capturar eventos recentes, mudanças no domínio ou a complexidade do comportamento dos usuários em tempo real. A maioria dos sistemas de IA em produção combina dados sintéticos e reais para equilibrar escala e precisão.

O maior risco é o colapso do modelo: quando um modelo é treinado com dados gerados por outro modelo, erros e vieses podem se acumular ao longo de gerações sucessivas. Os dados sintéticos também podem não refletir mudanças na distribuição, fazendo com que o modelo tenha um desempenho inferior ao processar entradas do mundo real com as quais ainda não tenha se deparado.

Os dados sintéticos podem atender aos requisitos de privacidade quando não é possível compartilhar registros reais de usuários. Por não estarem vinculados a pessoas físicas reais, eles reduzem a exposição em conformidade com regulamentações como o GDPR e a HIPAA. No entanto, se o processo de geração utilizar registros reais como material de origem, esses registros de origem ainda devem ser protegidos de acordo com as mesmas regras.

Ambos atendem a necessidades diferentes. Os dados frescos da web fornecem um sinal atual e do mundo real que falta aos fluxos de dados sintéticos. Os dados sintéticos complementam os exemplos rotulados e abrangem cenários que o conteúdo bruto da web não contém de forma confiável. A combinação de ambos tende a produzir modelos mais robustos do que o uso exclusivo de qualquer uma das fontes.