¿Qué es Common Crawl?

Common Crawl es un repositorio abierto sin ánimo de lucro que contiene petabytes de datos web públicos, que se publican en forma de un nuevo rastreo aproximadamente cada mes y se alojan de forma gratuita en AWS (Common Crawl (descripción general oficial), 2025). Cada instantánea se ofrece en tres formatos: contenido de página sin procesar, extractos de metadatos y extractos de texto sin formato. Se ha convertido en el corpus fundamental en el que se basan la mayoría de los grandes modelos de lenguaje que se entrenan en la actualidad.

Cómo funciona Common Crawl

El rastreador automatizado de Common Crawl indexa continuamente miles de millones de páginas web públicas y agrupa los resultados en tres formatos de archivo: archivos WARC sin procesar (contenido completo de la página), archivos WAT (metadatos) y archivos WET (texto extraído). Todas las instantáneas se almacenan en AWS S3 y se pueden descargar de forma gratuita. Solo el rastreo de agosto de 2025 añadió unas 2.42 mil millones de páginas (Common Crawl (descripción general oficial), 2025).

Los investigadores y las empresas extraen estas instantáneas para crear conjuntos de datos de entrenamiento, índices de búsqueda y corpus de modelos de lenguaje. Su magnitud y su coste nulo lo han convertido en el punto de partida por excelencia para el entrenamiento de la IA. Se estima que más del 80 % de los tokens de entrenamiento de GPT-3 proceden de Common Crawl, y la mayoría de los grandes modelos lingüísticos analizados entre 2019 y 2023 se entrenaron con él (Fundación Mozilla, «Datos de entrenamiento por el precio de un bocadillo», 2024).

Limitaciones: Antigüedad y calidad de los datos

Las instantáneas de Common Crawl se actualizan mensualmente, pero incluso un rastreo de hace un mes puede pasar por alto noticias de última hora, cambios en los precios, estudios publicados recientemente o contenidos a los que solo se puede acceder tras iniciar sesión. Además, el rastreador captura código HTML estático, por lo que las páginas con gran cantidad de JavaScript suelen devolver respuestas incompletas o vacías.

La calidad es una segunda preocupación. El corpus incluye contenido duplicado, spam y páginas de baja calidad a gran escala. La mayoría de los procesos de entrenamiento de los modelos de lenguaje a gran escala (LLM) realizan importantes pasadas de filtrado y deduplicación antes de su uso, lo que supone un coste de ingeniería adicional y, aun así, deja ruido residual en el conjunto de entrenamiento final.

Casos de uso

  • Entrenamiento previo del modelo LLM: Common Crawl proporciona la señal de texto de amplio alcance en la que se basan la mayoría de los grandes modelos de lenguaje, abarcando distintos idiomas, temas y estilos de redacción.
  • Investigación académica: Los investigadores lo utilizan para estudiar la estructura de la web, la distribución de los idiomas y las tendencias en los contenidos sin necesidad de utilizar sus propios rastreadores.
  • Inicialización del índice de búsqueda: Los nuevos motores de búsqueda utilizan Common Crawl como punto de partida antes de incorporar datos de rastreo más recientes.
  • Cómo subsanar la falta de frescura: Las empresas que necesitan datos de la página actual, precios en tiempo real o contenido renderizado suelen combinar los datos estáticos de Common Crawl con herramientas de acceso en tiempo real. La Web Render API de Massive recupera la página renderizada en tiempo real en cualquier ubicación, cubriendo así las lagunas de actualidad que una instantánea mensual no puede subsanar.

Preguntas frecuentes

Sí. Common Crawl publica todos los datos de forma gratuita en AWS S3. Los principales gastos prácticos son el ancho de banda y la potencia de cálculo necesarios para descargar o procesar petabytes de datos, no las tarifas de acceso.

Common Crawl publica un nuevo rastreo aproximadamente cada mes. Cada publicación añade miles de millones de páginas; por ejemplo, el rastreo de agosto de 2025 añadió unos 2.42 mil millones de páginas (Common Crawl (descripción general oficial), 2025). Las instantáneas más antiguas permanecen disponibles en S3 de forma indefinida.

Envergadura y coste. Ningún otro conjunto de datos de libre acceso se acerca ni remotamente a su cobertura. Se estima que más del 80 % de los tokens utilizados para el entrenamiento de GPT-3 procedían de Common Crawl (Fundación Mozilla, «Datos de entrenamiento por el precio de un bocadillo», 2024), y la mayoría de los modelos más importantes entrenados hasta 2023 siguieron el mismo patrón.

Los datos siempre tienen, como mínimo, varias semanas de antigüedad y no incluyen el contenido generado mediante JavaScript. Además, el corpus contiene una cantidad significativa de ruido que es necesario filtrar. Para aquellas aplicaciones que requieren precios actualizados, resultados de búsqueda en tiempo real o contenido recién publicado, una instantánea estática mensual no resulta suficiente por sí sola.