Dopo il mio articolo precedente si è discusso molto su Google+ di come gestire il contenuto duplicato e di quali conseguenze può avere (e anche del come mai per i siti grossi il contenuto duplicato non sembra essere un problema). Voglio a questo punto portare avanti il discorso con un caso pratico di intervento ad ampio spettro su un sito che gestisco per passione e che si ritrovava per una serie di motivi ad avere centinaia di migliaia di pagine di contenuto duplicato all’interno dell’indice. Anche se la situazione poteva sembrare critica, la rimozione dall’indice di Google è avvenuta con successo senza troppo sforzo: ecco com’è andata.
Premesse e Analisi
Il sito oggetto del caso di studio è Il 5°Clone, una community dedicata a Dungeons & Dragons, che per chi non lo conoscesse è forse il più famoso gioco di ruolo fantasy. Nel corso del mese di agosto avevo già pianificato un’attività di sostanziale restyling che ne rinnovasse l’infrastruttura e l’aspetto grafico. Il sito in sè è basato su Joomla, ma utilizza tutta una serie di estensioni e plugin, assieme ad un forum basato su phpBB che con Joomla condivide il database utenti ed il login grazie ad un bridge. Si tratta quindi di un’infrastruttura piuttosto complessa da amministrare.
Questo, assieme al fatto che lo amministro per passione e non sempre ho il tempo per verificare i dettagli, aveva portato rapidamente fuori controllo il contenuto duplicato all’interno dell’indice di Google, in particolar modo a causa del componente che gestiva il calendario eventi. Questo componente generava un URL univoco per ciascun giorno, settimana e mese di ogni anno passato e futuro.
Aveva per fortuna un’opzione per disabilitare l’accesso agli spider tramite l’utilizzo del meta robots, che tuttavia era implementato come segue:
<meta name="robots" content="no-index, no-follow" />
Quando mi sono accorto della cosa era naturalmente troppo tardi: nel corso dei mesi il numero di pagine presenti nell’indice di Google era salito a quasi 400.000, di cui almeno 300.000 facevano riferimento alla sezione /eventi. Ho quindi colto l’occasione dei lavori di restyling per affrontare anche il nodo dei contenuti duplicati.
E’ opportuno infine fare menzione di alcuni dettagli del lavoro di rinnovo in quanto hanno richiesto un’ulteriore gestione di contenuto da rimuovere dall’indice di Google. Per ragioni tecniche ed editoriali infatti hanno cambiato radicalmente struttura degli URL altre due sezioni del sito, per le quali diventava molto complicato effettuare correttamente un redirect 301, in larga parte a causa del fatto che molti contenuti lì presenti non sarebbero stati più presenti. Nella fattispecie le sezioni che avrebbero cambiato URL erano le seguenti:
- www.5clone.com/enciclopedia-dd (a causa di un componente obsoleto non mi era possibile mantenere invariata la struttura degli URL)
- www.5clone.com/coppermine (si trattava del software che gestiva la galleria immagini, non più supportato dalla nuova versione di Joomla. Avevo inoltre intenzione di rimuovere una larga parte del materiale contenuto nella galleria immagini)
Ed ora arriviamo al dunque!
1. Preparazione dell’infrastruttura
Prima di procedere alla rimozione vera e propria è indispensabile preparare accuratamente l’infrastruttura del sito, in modo che i contenuti da rimuovere dall’indice rispondano alle linee guida di Google per la rimozione, ovvero uno a scelta tra i seguenti:
- la pagina da rimuovere deve restituire un errore 403 o 404
- la pagina da rimuovere deve essere bloccata tramite robots.txt
- alla pagina da rimuovere deve essere inibita l’indicizzazione tramite meta robots
Il lavoro che sono quindi andato a svolgere è stato il seguente:
- ho aggiornato il componente di Joomla che gestiva gli eventi. La versione aggiornata fortunatamente gestiva correttamente il meta robots e non è stato necessario modificare manualmente il codice.
- ho cambiato URL alle sezioni del sito le cui versioni precedenti intendevo de-pubblicare da Google (in questo modo qualunque richiamo alle URL sopra citate avrebbe causato un errore 404)
- non ho fatto alcun redirect 301 per le due sezioni in questione, lasciando a Google il compito di individuare le nuove URL ed indicizzare il contenuto in autonomia.
A questo punto il contenuto da rimuovere dall’indice di Google rispettava i criteri necessari secondo le linee guida del motore di ricerca ed ho potuto procedere alla rimozione effettiva dall’indice. Ma quindi arriva ora la parte complicata? Niente affatto…
2. Rimozione del contenuto da Google
Per togliere il contenuto da Google in modo massiccio è sufficiente utilizzare un’opzione disponibile nella funzione di rimozione URL presente negli Strumenti per Webmaster di Google
Tramite la funzione di Rimozione URL non è possibile rimuovere solamente una singola pagina, bensì l’intera directory e tutto il suo contenuto, se rispetta le norme sopra citate. E’ bene notare come la dicitura immediatamente precedente all’invio della richiesta faccia riferimento solo al blocco degli URL tramite file robots.txt, mentre in realtà come visto sopra non è l’unico metodo supportato.
E questo è quanto. Dopo aver inviato la richiesta di rimozione per le 3 directory /enciclopedia-dd, /coppermine ed /eventi mi sono messo ad aspettare i tempi di Google…
3. Risultato
Ero già pronto ad aspettare settimane se non mesi, ma sono rimasto piacevolmente sorpreso: dopo nemmeno 4 giorni il contenuto non era più raggiungibile sull’indice web di Google.
Unica anomalia del processo: le pagine restituite dall’operatore site: effettuato sul dominio radice restituiscono tuttora il numero originario, vicino a 400.000. Questo potrebbe dire qualcosa ai più esperti su come Google gestisce il suo indice… l’idea che mi sono fatto io è andata a confermare quello che già pensavo: il numero totale di pagine mostrato all’interno dei risultati, in caso di grandi numeri, differisce spesso in modo sostanziale dalle pagine effettivamente disponibili all’interno dell’indice, che può essere aggiornato da Google con straordinaria rapidità, a differenza del numero di pagine stimato che è gestito evidentemente da un algoritmo indipendente.
Come ciliegina sulla torta, la nuova sezione /enciclopedia, fino a quel momento sconosciuta, è stata indicizzata in brevissimo tempo: anche in assenza di redirect 301 dopo solo un paio di settimane tutti i contenuti mi risultavano correttamente indicizzati. Nelle settimane successive al restyling Il 5°Clone aveva uno sciame di spider avidi di nuovo contenuto che hanno fatto festa… (ed anche io, finalmente il calzolaio è riuscito a ripararsi le scarpe! :D)
Riepilogando
E’ possibile rimuovere rapidamente anche grandi volumi di contenuto dall’indice di Google, risolvendo quindi con costi ridottissimi tutti i problemi del contenuto duplicato presente sul nostro sito. Inoltre, qualora non sia possibile effettuare correttamente dei redirect 301 in caso di cambio della struttura degli URL, una strada pratica e veloce può essere proprio quella della rimozione degli stessi dall’indice, sotto forma di richiesta di rimozione di una directory, lasciando quindi a Google stesso il compito di indicizzare nuovamente la nuova struttura.
Spero che questo caso pratico possa aver chiarito eventuali dubbi o curiosità relative ad una gestione operativa della rimozione del contenuto da Google. Se avete dei commenti sarò felice di riceverli qua sotto o in alternativa sul mio profilo di Google+.