La desmedida cuota de mercado que posee Google en Europa, nos lleva a ponernos a sus pies como si este buscador fuera dueño y señor de Internet. Por eso, la aspiración de todo webmaster es manejar sus resultados de búsqueda.
Y es que, aunque Google no deja de ser una herramienta externa que no puedes controlar a tu antojo, hay ciertas cosas que sí puedes hacer. Como por ejemplo eliminar tus páginas de los resultados de Google o añadir nuevas páginas que aún no están en su índice. Eso sí, Google es el que decide cuando y cómo mostrar lo que tiene en dicho índice.
Cómo registrar tu dominio en Google Search Console
Lo primero que te recomiendo que hagas como propietario de un sitio web, es que registres tu sitio en Google Search Console (antiguo Google Webmaster Tools). Todo webmaster que quiera aparecer (o dejar de aparecer) en Google debe hacerlo para manejar lo que el buscador está rastreando e indexando.
1. Inicia sesión
Inicia sesión con una cuenta de Google, típicamente un correo Gmail.
2. Añade la propiedad de tu sitio web
Una vez dentro, añade tu dominio (botón Añadir una propiedad) con el protocolo incluido (https:// o http://).
3. Verifica la propiedad
Se trata de demostrar que es tu página. Lo que puedes hacer por cualquiera de los medios que se ofrecen:
- Subir al directorio raíz de tu sitio web (por FTP), un archivo HTML que te genera Search Console. (Método que yo te recomiendo)
- Insertar una etiqueta HTML en el código fuente
- Confirmar el proveedor donde está registrado tu dominio
- Usar Google Tag Manager
En unos días empezarás a ver todas las estadísticas.
Ahora que ya tienes acceso a una herramienta con un potencial enorme para vigilar y gestionar el proceso de rastreo, indexación y ranking de Google, veamos cómo puedes eliminar las URLs de Google a través de esta herramienta…
¿Cómo eliminar URLs del índice de Google?
Vamos ahora con la pregunta del millón: ¿Cómo eliminar páginas de los resultados de Google?
No sé si lo sabes, pero Google es muy caprichoso a la hora de colocar páginas en su índice. Y basta que no quieras que una página aparezca en sus resultados, para que llegue el tío y la indexe. Esto sucede cuando encuentra un enlace que le lleva a esta página, ya sea desde otra página de tu sitio web, desde otra página externa o desde el mapa de sitio XML que has podido incluir en tu directorio raíz.
El caso es que a veces encuentra páginas que no debería examinar y añadir a su índice.
¿Y por qué motivo no voy a querer que las añada?
Pues puede ser uno de los siguientes:
- Páginas generadas automáticamente por software malicioso con el objetivo de captar tráfico hacia terceras páginas. Son muy comunes los ataques a servidores compartidos.
- Páginas creadas en un momento determinado (ej. para hacer pruebas “Hola Mundo”) que ya no existen o van a dejar de existir y debes eliminar porque el contenido se ha quedado obsoleto.
- Páginas vacías de contenido (ej. URLs de attachment generadas por WordPress), que suponen un pobre contenido (Thin Content) en tu web.
- Páginas que forman parte de un área privada y cada vez que el robot la intente rastrear se va a encontrar con un error, desperdiciando el Crawl Budget.
Vemos qué opciones tienes en este caso para eliminarlas.
Elimina la página o asegúrate de que no vuelve a indexarse
Vale, ahora ya sabes que quieres eliminar esta página o páginas del índice de Google. Pero lo primero que tienes que hacer es asegurarte de esas URLs no se indexan de nuevo.
URLs que no deberían aparecer en tu sitio web
En los 2 primeros casos, lo que tienes son páginas que no quieres que estén en tu sitio web y, por tanto, que no sean rastreadas nuevamente por los robots.
Lo que debes hacer es eliminarlas de tu sitio y realizar la redirección oportuna. El tema de las redirecciones da para mucho, pero te voy a poner los 2 casos principales de redirecciones, de manera muy simple:
- Si la página tiene una nueva URL que sustituya a la antigua: Redirección 301. Para que el robot deje de indexar la antigua y empiece a indexar la nueva.
- Si la página no va a volver a existir y no tiene una nueva URL que la sustituya: Redirección 410. Para que el robot no pierda el tiempo con esa URL, no volviéndola a rastrear y sacándola del índice cuando corresponda.
URLs que sí están en tu sitio, pero no quieres que se indexen
Pero ¿qué ocurre si se trata de páginas que quieres mantener, pero no quieres indexar? Muy sencillo, tienes que indicárselo a los robots de rastreo mediante una etiqueta meta robots NoIndex en tu código fuente.
Esto es algo que podemos configurar muy fácilmente utilizando el Plugin Yoast SEO. Ya sea por tipo de página o individualmente a través de la caja Yoast (diciéndole que no la queremos mostrar en los resultados).
Eso sí, asegúrate de no incluir estas páginas en el Sitemap XML de tu sitio web, porque esto sería una incoherencia y no queremos volver locos a los robots de rastreo. Si lo haces te ganarás una notificación de “Problemas con la cobertura del índice”.
Cómo saber qué páginas están indexadas por Google
Si tienes muchas páginas con este tipo de problemas, tendrás que recopilarlas todas para corregir el error. Para ello tienes 2 opciones:
- Descargar las páginas del informe de Cobertura del índice.
Tienes que estar registrado en Google Search Console. Puedes llegar seleccionar la opción “Probar la Nueva Search Console” del menú lateral izquierdo y hacer clic en “Cobertura del índice”. O bien a través de este enlace. Una vez allí te encontrarás los diferentes tipos de páginas que el robot ha rastreado y ha intentado indexar. Con diferentes estados, de cada estado puedes descargarte la tabla de hasta 1.000 páginas de muestra.
En el siguiente enlace puedes encontrar más información sobre los informes de Cobertura del índice.
- Utilizar el comando site:
También puedes utilizar uno de los comandos de búsqueda avanzada de Google, concretamente “site” con tu nombre de dominio, en el buscador. Ejemplo:
site:luisrevuelto.es
Para poder extraer todas las URLs te recomiendo utilizar la extensión gratuita de SEOQuake, que te permite exportar los resultados de una búsqueda en un archivo CSV.
Como solamente muestra 10 resultados por página, puedes cambiar la Configuración de tus búsquedas para que te muestre hasta 100 por página.
La idea es que recojas todas las URLs en un archivo compatible con Excel para que puedas quedarte fácilmente con las que no quieres indexar, organizar la información y agilizar el proceso en el caso de tener una gran cantidad de URLs.
Desindexar la página de Google manualmente
Vamos con lo más importante del artículo. ¿Dónde puedes eliminar una página del índice de Google?
Bueno, pues esta es una de las razones por las que te he recomendado que te registres en Google Search Console, porque encontrarás una herramienta para Eliminar URLs en la sección índice de Google estando logueado, una vez dentro de las propiedad sobre la que estás trabajando.
Tras introducir la URL y pulsar Continuar, le tendrás que decir que, además de ocultarla temporalmente, quieres que la elimine de su caché.
También puedes acceder a esta función de solicitar la eliminación de contenido de los resultados a través de la siguiente URL, aunque no estés registrado en Gooogle Search Console o no seas el propietario del contenido:
https://www.google.com/webmasters/tools/removals
Pero esta eliminación de URL solamente funcionará si el contenido ya ha sido eliminado del sitio. Como ves en el enlace, si lo que quieres es que alguien elimine contenido donde aparecen tus datos personales de un sitio web, debes hacer otro tipo de reclamación acorde con las Políticas de privacidad. En este caso, creo que te interesa conocer las políticas de Google para retirar contenido.
Desindexar páginas de Google de manera masiva
Bien, ya sabes cómo se elimina una página del índice de Google. Pero ¿qué pasa si quieres eliminar un gran listado de páginas de tu sitio que has extraído como te explico en el punto anterior y no quieres tener que ir una a una? Bien, para esto tienes 2 opciones:
1. Utilizar una extensión de Google Chrome
Puedes recurrir a la extension “Bulk URL Removal Chrome Extension”, que tienes que descargar de Github y proceder como explica José Luis López en este artículo. Este sería el método más rápido, aunque tengo que reconocer que aún no lo he puesto en práctica. Lo que sí te recomiendo es que no bloquees alegremente páginas ya rastreadas por Google en el archivo robots.txt, porque esto causa inconsistencias en la Cobertura del índice.
2. Realizar redirecciones 410 y enviar el nuevo Sitemap
La opción menos drástica es utilizar el archivo de páginas indexadas descargado anteriormente y servirte de nuestro querido amigo Excel para semiautomatizar las redirecciones.
Solo necesitas crear una columna donde todas las celdas tengan la instrucción “Redirect 410”, otra columna donde todas las celdas tengan un espacio, una columna con las URLs que hemos extraído previamente pero sin el dominio (hacemos un «Reemplazar» de todas las celdas donde aparece nuestro dominio ej. https://luisrevuelto.es, nada). Y finalmente utilizar la función “CONCATENAR” de Excel para unir todas estas celdas.
Te pongo un ejemplo con el hipotético caso de que yo quisiera eliminar algunas de las páginas que hay ahora mismo en mi sitio.
Arrastrando la primera celda tendrás todas las URL a eliminar (¡OJO! Solamente las que quieres eliminar), en la columna “Redirecciones” para añadir a tu htaccess como se explica en el enlace que te contaba más arriba (este).
El siguiente paso es enviar el Sitemap XML actualizado a Google, puedes hacerlo en la nueva consola aquí.
Por último, debemos enviar al Google a nuestro sitio a través de la herramienta Fetch de Search Console.
Esta opción seguramente sea más lenta pero más segura que la anterior.
¿Cómo añadir una URL al índice de Google?
Ahora supongamos que tenemos el caso contrario. Queremos que Google encuentre e indexe rápidamente una página de nuestro sitio web.
Para eso tenemos la herramienta que te comentaba en el anterior punto “Explorar como Google”. Donde puedes solicitar que rastree una URL concreta o todo el sitio web.
Haciendo clic en el botón obtener y procesar, conseguiremos que Google examine la página que le indiquemos. Y en cuanto termine de examinarla nos aparecerá un botón en que podemos Solicitar su indexación. Inmediatamente después nos aparece una ventana que indica que se volverá a rastrear para indexar y que si queremos que sean rastreados también sus enlaces internos. Si queremos que examine todo el sitio de nuevo, podemos hacer clic en la segunda opción.
Si te encuentras con páginas que Google no está indexando como debería, puedes utilizar la herramienta “Inspección de URLs” de la nueva Search Console, para obtener más información al respecto.
Todas las dudas sobre el estado de cada URL, las puedes resolver leyendo su enlace de Más Información.
Conclusión
Espero que este artículo haya servido para aclarar tus dudas sobre cómo eliminar contenido de Google. Así como a la hora de acelerar el proceso de rastreo e indexación. Pero si te queda alguna, te espero en los comentarios 😉
Perdón por lo básico que pueda ser la pregunta:
1. ¿Al momento de actualizar el Sitemap XML dejas nada más las que deseas indexar quitando las que estas redireccionando con 410 y cuanto tiempo toma en desindexar con esta opción?
2. Estoy usando Search Console para indexar las urls una por una con la opción googlebot-fetch pero el estado que me reporta no es completado sino que siempre lo deja parcialmente ¿a qué se debe?, aunque si se indexan.
3. A parte de enviar a Google a mi pagina siempre le mando a que rastree el Sitemap XML , esto último también es una opción más que también ayuda a saber cuáles son las páginas que te interesan.
Gracias por compartir un buen contenido.
¡Hola Alex!
Nada que perdonar, te respondo por puntos:
1. Sí, en el Sitemap XML solamente tienen que quedar las URLs que quieres que se indexen. Las que ya no utilizas no tiene sentido que se rastreen. Precisamente el 410 lo que hace es decirle a Google que ya no estarán disponibles para que no vuelva a rastrearlas ni indexarlas. El tiempo en desindexar depende de la autoridad de tu dominio. En un caso práctico que conté hace poco tardo casi 3 semanas en actualizar todas las URLs que tenía indexadas.
2. Si te indica Completada Parcialmente es que no se ha terminado de realizar las operaciones de rastreo porque no ha podido examinar todos los recursos en la operación. Puede que porque el sitio no tenga suficiente autoridad como para emplear tanto presupuesto de rastreo en la operación o porque tengas bloqueado algún recurso en robots.txt.
3. Está bien que envíes el Sitemap XML para que lo vaya actualizando frecuentemente. Mientras tengas en el Sitemap solamente las páginas que te interesa indexar, perfecto 🙂
Muchas gracias a ti por tu comentario. Seguro que tu pregunta sirve a mucha gente.
Un saludo
Hola, necesito algo de ayuda te comento soy diseñador web y quiero des-indexar y eliminar todo el contenido cacheado de mi sitio web. me fui al search console > Indice de Google > Eliminar URLs , luego coloque ley que presionando en ocultar temporalmente y dejando el campo en blanco sin especificar una URL y presionando continuar te elimina por completo todas las URL que se habían rastreado. ahora lo que pretendo es realizar las correcciones de contenido en mi sitio establecer los noindex etc.. y una ves que tenga todo listo volver a indexar todo mi contenido. El problema es que cuando fui a indexar como de costumbre en Rastreo > Explorar como Google, añado la url y no se indexaba. tube que ir de nuevo a Indice de Google > Eliminar URLs
y allí me aparece la solicitud de eliminación antes mensionada y tuve que darle en el botón de volver a incluir en la columna de estado. Con esto consegui que volviera a indexar pero cuando fui a verificar con el comando ejemplo, site:https://sitio.cl me aparecieron de nuevo indexadas todas las url anteriores y lo pero el contenido cacheado viejo. ¿Cual sería la forma correcta de realzar el proceso para eliminar todo incluyendo el contenido cacheado anterior y luego volver a empezar a indexar de nuevo?
¡Hola Carlos! Por lo que he entendido, lo que quieres es actualizar tu sitio por completo y por eso quieres que el contenido que está cacheado por Google no se indexe de momento. ¿Es correcto? Lo optimo es que elimines solamente aquellas páginas que no vas a utilizar más adelante. Porque ya se encargará Google de ir a buscar la página actualizada cuando la hayas cambiado. Las que no vayas a utilizar o no quieras que aparezcan en los resultados de Google, les colocas un Noindex con el Yoast y las que quieras eliminar por completo, te las cargas y les pones una redirección 410 para decirle que ya no estará disponible de nuevo. Y estas páginas que vas a eliminar por completo de tu sitio, son las que puedes enviar a ocular y eliminar de la caché, para acelerar el proceso de desindexado.
No sé si me he explicado correctamente. Espero que te sirva de ayuda.
Saludos
Hola Luis! gran artículo, la verdad que es de gran ayuda.
Te cuento una duda que tengo para saber tu opinión:
Estoy haciendo una migración de Drupal a WordPress, y tengo más de 2000 urls que quiero que desaparezcan porque la web dejará de existir. Las url de valor las redirecciono con 301 a nuevo contenido.
¿Me recomiendas eliminar las más de 2000 urls por Search Console? Aunque etiendo que las elimina temporalmente.
Había pensado hacer redirecciones 410, pero no me parece óptimo dejar 2000 líneas de código en el .htaccess. ¿o te parece que si?
Seguro tu experiencia me servirá de mucho, gracias de antemano.
¡Un fuerte abrazo!
Pablo
Hola Pablo,
Muchas gracias por tu comentario. Lo más importante es que las URLs que sí te interesan tengan su 301. Con respecto a las que quieres eliminar, yo les metería el 410 (cuando veas por Search Console que se han eliminado y no se están volviendo a rastrear, ya puedes quitar las líneas del htaccess). Y puedes ayudar a acelerar el proceso con la eliminación a través de Search Console.
No olvides que vas a perder mucho tráfico al principio. Pero si el resto tienen sus redirecciones y le empiezas a lanzar enlaces a la nueva versión, verás como pronto recuperas tráfico.
¡Un abrazo!
Hola Luis
¿A páginas como «Política de privacidad» y «Aviso Legal» bastaría con colocarlas no-index a través de Yoast para que Google no las indexe?
Saludos
Correcto Luis 😉
Hola Luis, tengo una duda con SEOquake, el índice te da todos los resultados de los ranking como Semrush, Facebook, Bing.
El índice de Google ahora sale en todos los resultados como n/a. Ya no aparecen los resultados indexados por Google. (19/02/2020)
Sabemos que el indice alexa rank desapareció porque lo han hecho de pago.
¿Puedes ayudarnos en esta cuestión?
Hola Hernan,
Te refieres al ranking que da SEOQuake para una URL concreta, ¿verdad? ¿Habéis probado a chequearlo más tarde? A mí el único dato que no me está cogiendo ahora es el ranking de Alexa, que como dices es de pago. Es posible que en el momento no haya podido recoger los datos y si lo intentas de nuevo sí los tengas.
Con respecto al tema de Alexa, aún puedes ver datos (con un límite) para un sitio web concreto si entras en https://www.alexa.com/siteinfo/
Hola Luis,
Primeramente muchas gracias por el esfuerzo al hacer el artículo. Es justo lo que estaba buscando.
Te comento, al hacer site:midominio, me saca más de 150 urls, de las cuales la mayoría ya no existen. Pero me están dando 404, en vez de 410. ¿Cómo las pongo en 410? ¿A través de yoast seo? Es que en el sitemap de mi web no aparecen. Gracias¡¡¡
¡Hola Hamsa!
Gracias a ti por tu comentario. Para ponerlas en 410 tienes que hacer una redirección 410, que se realiza en el htaccess mediante la instrucción
Redirect 410 /url-a-eliminar/
¡Ojo! No edites el archivo htaccess sin hacer previamente una copia de seguridad a través de FTP. Si tienes Yoast Premium (el de pago), puedes hacerlo fácilmente desde el apartado de Redirecciones.
Si tienes más dudas, escríbeme por correo.
Un saludo
Pero lo que no entiendo (es que me ha pasado con otra web también) es de dónde salen esas url que google me pone en las serps al hacer site: . Porque en el sitemap no aparecen por ningún lado.
Estoy usando rankmath, que también da la opción de las redirecciones, pero como te digo, es que esas urls son las encuentro en la search console o haciendo site: