O que é o Common Crawl?
Common Crawl é um repositório aberto sem fins lucrativos que contém petabytes de dados públicos da web, disponibilizados por meio de um novo rastreamento aproximadamente a cada mês e hospedado gratuitamente na AWS (Common Crawl (visão geral oficial), 2025). Cada instantâneo é disponibilizado em três formatos: conteúdo bruto da página, trechos de metadados e trechos em texto simples. Ele se tornou o corpus fundamental por trás da maioria dos grandes modelos de linguagem treinados atualmente.
Como funciona o Common Crawl
O rastreador automatizado do Common Crawl indexa continuamente bilhões de páginas da web públicas e organiza os resultados em três formatos de arquivo: arquivos WARC brutos (conteúdo completo da página), arquivos WAT (metadados) e arquivos WET (texto extraído). Todos os instantâneos são armazenados no AWS S3 e podem ser baixados gratuitamente. Somente o rastreamento de agosto de 2025 adicionou cerca de 2,42 bilhões de páginas (Common Crawl (visão geral oficial), 2025).
Pesquisadores e empresas utilizam esses instantâneos para construir conjuntos de dados de treinamento, índices de pesquisa e corpora de modelos de linguagem. A escala e o custo zero tornaram-no o ponto de partida padrão para o treinamento de IA. Estima-se que mais de 80% dos tokens de treinamento do GPT-3 tenham sido derivados do Common Crawl, e a maioria dos grandes modelos de linguagem pesquisados entre 2019 e 2023 foi treinada com base nele (Fundação Mozilla, “Dados de treinamento pelo preço de um sanduíche”, 2024).
Limitações: Dados desatualizados e qualidade dos dados
Os instantâneos do Common Crawl são atualizados mensalmente, mas mesmo um rastreamento com um mês de idade pode deixar de capturar notícias de última hora, alterações de preços, pesquisas publicadas recentemente ou conteúdo restrito a usuários cadastrados. O rastreador também captura HTML estático; portanto, páginas com uso intenso de JavaScript frequentemente retornam respostas incompletas ou vazias.
A qualidade é uma segunda preocupação. O corpus inclui conteúdo duplicado, spam e páginas de baixa qualidade em escala enorme. A maioria dos fluxos de treinamento de LLMs realiza etapas substanciais de filtragem e deduplicação antes do uso, o que aumenta o custo de engenharia e ainda deixa ruído residual no conjunto de treinamento final.
Casos de uso
- Pré-treinamento de LLM: O Common Crawl fornece o conjunto de textos de ampla abrangência no qual a maioria dos grandes modelos de linguagem se baseia, abrangendo idiomas, temas e estilos de redação.
- Pesquisa acadêmica: Os pesquisadores utilizam essa ferramenta para estudar a estrutura da web, a distribuição linguística e as tendências de conteúdo sem precisar operar seus próprios rastreadores.
- Inicialização do índice de pesquisa: Os novos mecanismos de busca utilizam o Common Crawl como ponto de partida antes de incorporar dados de rastreamento mais recentes.
- Preenchimento da lacuna de frescor: As equipes que precisam de dados da página atual, preços em tempo real ou conteúdo renderizado costumam combinar dados estáticos do Common Crawl com ferramentas de acesso em tempo real. A Web Render API da Massive recupera a página renderizada em tempo real em qualquer local, preenchendo as lacunas de atualização que um instantâneo mensal não consegue resolver.
Perguntas frequentes
Sim. O Common Crawl disponibiliza todos os dados publicamente no AWS S3, sem nenhum custo. As principais despesas práticas são a largura de banda e a capacidade de computação necessárias para baixar ou processar petabytes de dados, e não as taxas de acesso.
O Common Crawl publica um novo rastreamento aproximadamente a cada mês. Cada lançamento adiciona bilhões de páginas; por exemplo, o rastreamento de agosto de 2025 adicionou cerca de 2,42 bilhões de páginas (Common Crawl (visão geral oficial), 2025). As versões anteriores permanecem disponíveis no S3 por tempo indeterminado.
Escala e custo. Nenhum outro conjunto de dados disponível gratuitamente chega nem perto de sua cobertura. Estima-se que mais de 80% dos tokens de treinamento do GPT-3 tenham vindo do Common Crawl (Fundação Mozilla, “Dados de treinamento pelo preço de um sanduíche”, 2024), e a maioria dos principais modelos treinados até 2023 seguiu o mesmo padrão.
Os dados têm sempre pelo menos algumas semanas e não incluem o conteúdo renderizado por JavaScript. O corpus também contém ruído significativo que requer filtragem. Para aplicações que necessitam de preços atualizados, resultados de pesquisa em tempo real ou conteúdo recém-publicado, um instantâneo estático mensal não é, por si só, suficiente.