Creare mappa del sito e robots.txt per il proprio blog

Il corretto utilizzo della mappa del sito (sitemap) e del file robots.txt può aiutare ad aumentare il ranking del proprio blog sui motori di ricerca ed è in generale consigliabile farne uso in quanto migliorano l’indicizzazione della pagine. Benché questo articolo sia incentrato su WordPress i suggerimenti forniti possono essere adattati a qualsiasi piattaforma.

Creare la mappa del sito

La mappa del sito non è altro che un file in formato xml che mostra al motore di ricerca come questo è organizzato, in modo che possa essere indicizzato correttamente. Si tratta di una procedura introdotta da Google ma in rapida diffusione. Se in un primo momento il file doveva essere segnalato attivamente, di recente è stata introdotta la novità di utilizzare il file robots.txt per avvertire i programmi che in automatico visitano le pagine per conto del motore (gli spider). Creare la mappa del proprio blog è semplicissimo se si utilizza WordPress, è sufficiente utilizzare il plugin Google Sitemap Generator che si fa carico di tutta l’operazione.

Il file robots.txt

Il file robots.txt è un semplicissimo file di testo che contiene informazioni destinate ai motori di ricerca. In esso è possibile inserire istruzioni circa le pagine da controllare e quelle da evitare discriminando tra i vari motori di ricerca. È una buona idea farne uso perché in questo modo si può evitare che gli spider cerchino tra pagine che non debbono essere indicizzate e che archivino informazioni doppie. Il formato è molto semplice: ogni riga contiene un’istruzione, ogni gruppo di istruzioni è preceduto dall’indicazione del motore di ricerca al quale ci si rivolge, e le righe che iniziano con “#” sono commenti.

Un piccolo esempio:

User-agent: *
Disallow: /wp-
Disallow: /trackback/

La prima riga come abbiamo già detto indica a quali motori di ricerca sono rivolte le istruzioni che seguono: l’asterisco è una espressione regolare che significa “tutti”, quindi varrà tanto per Google quanto per Yahoo o Altavista. Le righe successive contengono invece le istruzioni vere e proprie, ossia indicano agli spider di non prendere in considerazione le cartelle il cui nome inizia con “/wp-” e la sottocartella “trackback”.

Quali cartelle inserire nel file robots.txt, dunque? Questo sta a chi gestisce il blog stabilirlo, in linea di massima se si utilizza WordPress è utile escludere le seguenti cartelle:

  • Le cartelle che servono per la gestione del blog (quelle che abbiamo visto iniziare con “wp-“);
  • La cartella dei trackback, in quanto farebbe indicizzare pagine vuote;
  • Il feed dei commenti, in quanto riporterebbe informazioni duplicate;

Il contenuto del file potrebbe quindi essere il seguente:

User-agent: *
Disallow: /wp-
Disallow: /comments/feed/
Disallow: /trackback/

A questo punto non resta che aggiungere l’indicazione della sitemap. Per farlo è sufficiente utilizzare la riga seguente:

Sitemap: http://www.example.com/sitemap.xml

Dove al posto dell’indirizzo basta inserire il percorso assoluto della propria mappa. Nel mio caso ad esempio, poiché ho creato la mappa soltanto per il blog contenuto nella sottocartella “/blog/”, questo sarebbe:

http://www.stambugia.com/blog/sitemap.xml

In conclusione ecco la parte relativa alla installazione di WordPress contenuta nel mio file robots.txt attuale:

User-agent: *
Disallow: /blog/wp-
Disallow: /blog/comments/feed/
Disallow: /blog/trackback/
Sitemap: http://www.stambugia.com/blog/sitemap.xml

Ho specificato nel percorso il fatto che le sottocartelle da escludere siano contenute nella cartella “/blog/” ma questo è in linea di massima inutile, a meno di non voler discriminare tra cartelle aventi nomi identici ma percorsi diversi.

Una volta inserite queste informazioni tutto ciò che è necessario fare è salvare il file con il nome robots.txt e caricarlo sul proprio sito. Attenzione che esso deve essere salvato alla radice del sito, non in sottocartelle, ad esempio quella in cui potreste avere installato il blog. Per controllare se tutto è andato per il verso giusto si possono utilizzare gli strumenti per webmaster di Google.

Per saperne di più: