Fecha

¿Cómo funciona la arquitectura de datos de Google Search?

20 mayo, 2025

Google maneja un sistema muy complejo y organizado por capas para construir su buscador. A grandes rasgos, el proceso pasa por cuatro etapas:

Adquisición de datos
(Acquiring Data)

La base del proceso

Aquí Google recoge toda la información que luego usará para responder a tus búsquedas.

¿De dónde la obtiene?

Datos estructurados de terceros (llamados feeds): son archivos o APIs con información organizada (como catálogos de productos, precios de vuelos, datos de eventos, etc.). Google los recibe directamente de empresas como aerolíneas, tiendas o agencias gubernamentales.
Datos no estructurados de la web: páginas que Google rastrea con su robot (Googlebot), como cualquier sitio HTML común.

Herramienta clave: Multiverse

Es un sistema que guarda cualquier tipo de archivo (páginas, productos, documentos, etc.) y le asigna una identificación única.
Aquí es donde todo el contenido (ya sea de feeds o rastreado por Googlebot) se organiza antes de filtrarse.

Preparación de datos para indexación
(Preparing Data for Indexing)

Limpieza y filtrado

En esta etapa, los datos se procesan para decidir si deben ser indexados (mostrados en resultados) o descartados.

¿Qué tareas se hacen?

Procesamiento de documentos: se extrae el texto visible (incluso si es generado por JavaScript), se detecta el idioma, se eliminan duplicados, se identifican pasajes importantes.
Filtros de calidad y spam (SpamBrain, Q): detectan contenido basura, hackeado, ilegal o de baja calidad.
Se crean señales de calidad: enlaces entrantes (A), contenido interno (B) y comportamiento de usuario (C).
Extracción específica por verticales: como extraer calorías de recetas, vincular productos, o conectar datos con el Knowledge Graph (base de datos de entidades).

Indexación
(Indexing)

Almacenamiento inteligente

Aquí se guardan todos los documentos “aptos” para búsqueda.

¿Cómo se almacenan?

Índices invertidos (TeraGoogle): palabras → lista de documentos en que aparecen.
Índices rápidos (Mustang): versiones ligeras para acelerar búsquedas.
Knowledge Graph: base de datos de entidades (personas, lugares, conceptos) con sus relaciones.
Índices especializados: para imágenes, vídeos, mapas, noticias, etc.

Consulta y entrega de resultados
(Serving & Querying)

Cuando haces una búsqueda, Google lanza este proceso en milisegundos:

Superroot (el “director de orquesta”) pregunta a cada vertical (web, noticias, imágenes…) por candidatos relevantes.
Ranking en etapas:
- Primera pasada: puntuación rápida (con BM25 y señales estáticas como PageRank).
- NavBoost/Glue: reorganiza los resultados según datos de clics reales de usuarios (lo que más se clica para esa búsqueda).
- DeepRank: análisis profundo con IA (tipo BERT) para entender la intención y calidad semántica.
Construcción del resultado (GWS): se genera el HTML y se entrega al usuario.

¿Qué son los feeds y por qué son importantes?

Los feeds son:

Archivos o APIs estructuradas que Google recibe de socios (empresas, gobiernos, etc.).
Contienen datos actualizados y precisos, como:
- Inventarios de productos
- Horarios de vuelos
- Resultados deportivos
- Estadísticas oficiales (población, COVID…)
- Eventos, trabajos, restaurantes, etc.

¿Por qué Google los usa aparte?

Son más rápidos: no hace falta rastrear páginas.
Son fiables y con licencia: Google puede tener acuerdos legales para usarlos.
Tienen formato estructurado: facilitan la validación y el análisis.
Actualización frecuente: por ejemplo, el precio de un vuelo puede cambiar cada hora.

¿Por qué una web normal no es un feed?

Una página normal:

Se descubre rastreando (crawl).
Se analiza con técnicas heurísticas.
Tiene una URL = un documento.

Un feed:

Se recibe automáticamente, según programación.
Tiene un esquema rígido (estructura exacta de datos).
Puede contener miles de elementos (por ejemplo, una fila por producto).
Suele estar bajo contrato (no está disponible libremente en la web).

¿Por qué no todo entra al índice?

Páginas duplicadas, con spam, inseguras o bloqueadas por robots.txt pueden descartarse.
Algunos documentos no se muestran como enlaces azules, sino como tarjetas de conocimiento (por ejemplo, vuelos, resultados deportivos).
Otros se usan para enriquecer la experiencia (resúmenes, gráficas, módulos de información).

Resumen breve:

Google no solo rastrea la web: también recibe datos directamente de empresas en formatos estructurados, como si las empresas le enviaran archivos con información ya organizada.
Estos datos se procesan en un sistema llamado Multiverse, que filtra la información según su calidad antes de decidir si se incluye o no en los resultados de búsqueda.
Un sistema central llamado Superroot organiza la respuesta a cada búsqueda combinando:
- Datos de páginas web
- Información sobre entidades (personas, lugares, cosas)
- Comportamiento de los usuarios (qué resultados funcionan mejor)
La calidad, seguridad y experiencia del usuario son factores clave que Google vigila en todo el proceso.

Rafael Arranz

Marketing & Seo Senior

¿Cómo funciona la arquitectura de datos de Google Search?

Adquisición de datos
(Acquiring Data)

La base del proceso

¿De dónde la obtiene?

Herramienta clave: Multiverse

Preparación de datos para indexación
(Preparing Data for Indexing)

Limpieza y filtrado

¿Qué tareas se hacen?

Indexación
(Indexing)

Almacenamiento inteligente

¿Cómo se almacenan?

Consulta y entrega de resultados
(Serving & Querying)

¿Qué son los feeds y por qué son importantes?

¿Por qué Google los usa aparte?

¿Por qué una web normal no es un feed?

¿Por qué no todo entra al índice?

Resumen breve:

Últimos artículos

Acciones para Posicionarte en las Primeras Posiciones en 2025

Qué es el “Upselling” y cómo puede transformar tu negocio

¿Qué es el “Bundling” y por qué debería importarte?

¿Cómo funciona la arquitectura de datos de Google Search?

Adquisición de datos (Acquiring Data)

La base del proceso

¿De dónde la obtiene?

Herramienta clave: Multiverse

Preparación de datos para indexación (Preparing Data for Indexing)

Limpieza y filtrado

¿Qué tareas se hacen?

Indexación (Indexing)

Almacenamiento inteligente

¿Cómo se almacenan?

Consulta y entrega de resultados (Serving & Querying)

¿Qué son los feeds y por qué son importantes?

¿Por qué Google los usa aparte?

¿Por qué una web normal no es un feed?

¿Por qué no todo entra al índice?

Resumen breve:

Últimos artículos

Acciones para Posicionarte en las Primeras Posiciones en 2025

Qué es el “Upselling” y cómo puede transformar tu negocio

¿Qué es el “Bundling” y por qué debería importarte?

Adquisición de datos
(Acquiring Data)

Preparación de datos para indexación
(Preparing Data for Indexing)

Indexación
(Indexing)

Consulta y entrega de resultados
(Serving & Querying)