Creare mappa del sito e robots.txt per il proprio blog

Il corretto utilizzo della mappa del sito (sitemap) e del file robots.txt può aiutare ad aumentare il ranking del proprio blog sui motori di ricerca ed è in generale consigliabile farne uso in quanto migliorano l’indicizzazione della pagine. Benché questo articolo sia incentrato su WordPress i suggerimenti forniti possono essere adattati a qualsiasi piattaforma.

Creare la mappa del sito

La mappa del sito non è altro che un file in formato xml che mostra al motore di ricerca come questo è organizzato, in modo che possa essere indicizzato correttamente. Si tratta di una procedura introdotta da Google ma in rapida diffusione. Se in un primo momento il file doveva essere segnalato attivamente, di recente è stata introdotta la novità di utilizzare il file robots.txt per avvertire i programmi che in automatico visitano le pagine per conto del motore (gli spider). Creare la mappa del proprio blog è semplicissimo se si utilizza WordPress, è sufficiente utilizzare il plugin Google Sitemap Generator che si fa carico di tutta l’operazione.

Il file robots.txt

Il file robots.txt è un semplicissimo file di testo che contiene informazioni destinate ai motori di ricerca. In esso è possibile inserire istruzioni circa le pagine da controllare e quelle da evitare discriminando tra i vari motori di ricerca. È una buona idea farne uso perché in questo modo si può evitare che gli spider cerchino tra pagine che non debbono essere indicizzate e che archivino informazioni doppie. Il formato è molto semplice: ogni riga contiene un’istruzione, ogni gruppo di istruzioni è preceduto dall’indicazione del motore di ricerca al quale ci si rivolge, e le righe che iniziano con “#” sono commenti.

Un piccolo esempio:

User-agent: *
Disallow: /wp-
Disallow: /trackback/

La prima riga come abbiamo già detto indica a quali motori di ricerca sono rivolte le istruzioni che seguono: l’asterisco è una espressione regolare che significa “tutti”, quindi varrà tanto per Google quanto per Yahoo o Altavista. Le righe successive contengono invece le istruzioni vere e proprie, ossia indicano agli spider di non prendere in considerazione le cartelle il cui nome inizia con “/wp-” e la sottocartella “trackback”.

Quali cartelle inserire nel file robots.txt, dunque? Questo sta a chi gestisce il blog stabilirlo, in linea di massima se si utilizza WordPress è utile escludere le seguenti cartelle:

  • Le cartelle che servono per la gestione del blog (quelle che abbiamo visto iniziare con “wp-“);
  • La cartella dei trackback, in quanto farebbe indicizzare pagine vuote;
  • Il feed dei commenti, in quanto riporterebbe informazioni duplicate;

Il contenuto del file potrebbe quindi essere il seguente:

User-agent: *
Disallow: /wp-
Disallow: /comments/feed/
Disallow: /trackback/

A questo punto non resta che aggiungere l’indicazione della sitemap. Per farlo è sufficiente utilizzare la riga seguente:

Sitemap: http://www.example.com/sitemap.xml

Dove al posto dell’indirizzo basta inserire il percorso assoluto della propria mappa. Nel mio caso ad esempio, poiché ho creato la mappa soltanto per il blog contenuto nella sottocartella “/blog/”, questo sarebbe:

http://www.stambugia.com/blog/sitemap.xml

In conclusione ecco la parte relativa alla installazione di WordPress contenuta nel mio file robots.txt attuale:

User-agent: *
Disallow: /blog/wp-
Disallow: /blog/comments/feed/
Disallow: /blog/trackback/
Sitemap: http://www.stambugia.com/blog/sitemap.xml

Ho specificato nel percorso il fatto che le sottocartelle da escludere siano contenute nella cartella “/blog/” ma questo è in linea di massima inutile, a meno di non voler discriminare tra cartelle aventi nomi identici ma percorsi diversi.

Una volta inserite queste informazioni tutto ciò che è necessario fare è salvare il file con il nome robots.txt e caricarlo sul proprio sito. Attenzione che esso deve essere salvato alla radice del sito, non in sottocartelle, ad esempio quella in cui potreste avere installato il blog. Per controllare se tutto è andato per il verso giusto si possono utilizzare gli strumenti per webmaster di Google.

Per saperne di più:

Alive and sicking

Xp mi sta portando via più tempo di quanto credessi. Ho passato gli ultimi giorni ad ottimizzare di qua ed aggiornare di là, e ancora non è finita. Il firewall soprattutto mi sta succhiando ore su ore. A parte questo però voglio dire una cosa: spero che chi produce certi scempi informatici abbia una morte lenta e dolorosa nel ricordo di tutte le rotture di palle che ha procurato. Non è possibile che l’installazione dei driver di una misera stampante richieda centinaia di megabyte (anche tolti gli inutili orpelli quali software di fotoritocco che al confronto faccio meglio a disegnare sul monitor con un pennarello), o che un antivirus al quale ho ordinato esplicitamente di non rompere i coglioni non solo installi chiavi nel registro per partire lo stesso all’avvio, ma si infili pure tra i servizi di Windows ciucciando risorse inutilmente. Chi progetta simili delitti deve essere punito, e basta.