Creare una Sitemap

Una Sitemap è un file XML che indica tutte le pagine presenti su un sito e fornisce ai motori di ricerca alcune informazioni su di esse. Lo scopo principale della Sitemap è comunque quello di assicurarsi che i motori di ricerca vedano tutte le pagine esistenti. Infatti non è raro che Google e i suoi colleghi ignorino alcuni link a pagine dinamiche – link con il punto di domanda, per intenderci. Utilizzando una Sitemap, si può essere ragionevolmente sicuri che nessun indirizzo verrà ignorato.
Il formato qui descritto è uno standard de facto, che viene utilizzato da Google, Yahoo, MSN Search e probabilmente anche da altri. Il sito di riferimento per le Sitemap è www.sitemap.org.

La sintassi di base

Il modo migliore per illustrare la sintassi delle Sitemap è fare un esempio:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>http://www.miosito.com/</loc>
      <lastmod>2005-01-01</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.5</priority>
   </url>
   <url>
      <loc>http://www.example.com/pagina1.html</loc>
      <lastmod>2005-01-02</lastmod>
      <changefreq>yearly</changefreq>
      <priority>0.8</priority>
   </url>
</urlset>

La prima riga è l’intestazione del file XML. Il tag <urlset> è la radice e non c’è molto da dire su di esso. Copiatelo e basta. In mezzo invece ci sono due elementi <url>, che sono ciò che più ci interessa. Ognuno di essi rappresenta una pagina. L’unica informazione obbligatoria è LOC (l’indirizzo della pagina). Ma vediale tutte.

Url

Prima di tutto, ovviamente, bisogna specificare l’indirizzo di una pagina. E’ quello che fa l’elemento <loc>:

<loc>http://www.example.com/pagina1.html</loc>

Ultima modifica

La data in cui la pagina è stata modificata per l’ultima volta. Il motore di ricerca non prende per oro colato questa informazione e, anche se lo fa, non è detto che ne tenga conto. Tuttavia è un utile suggerimento. La speranza è che, se il motore non ha scansito la pagina dopo l’ultima modifica che è stata effettuata, lo rifaccia al più presto.

La data si specifica nel seguente formato: AAAA-MM-GG, cioè: anno (4 cifre), mese (2 cifre), giorno (2 cifre). Nell’esempio:

<lastmod>2005-01-01</lastmod>

Frequenza degli aggiornamenti

Forse i motori sono interessati, più che a sapere se conoscono l’ultima versione di una pagina, a sapere ogni quanto tempo viene aggiornata (e quindi ogni quanto tempo andrebbe ricontrollata). Ovviamente non sappiamo se i motori ne terranno conto, però è sempre meglio provarci, fornendo indicazioni il più possibile esatte. Possiamo specificare le seguenti frequenze:

  • always (sempre)
  • hourly (ogni ora)
  • daily (giornalmente)
  • weekly (settimanalmente)
  • monthly (mensilmente)
  • yearly (annualmente)
  • never (mai)

Always andrebbe specificato solo per pagine dinamiche che cambiano ad ogni visita.

Nell’esempio:

<changefreq>monthly</changefreq>

Importanza

Quando più pagine all’interno dello stesso sito corrispondono ai criteri di una ricerca, il motore potrebbe scegliere quella che riveste più importanza. Per quale motivo una pagina sia più importante di un’altra lo sa chi gestisce il sito e non deve essere spiegato qui. Qui invece si spiega come indicarne l’importanza. Possiamo dare un valore che va da 0 a 1, con una sola cifra decimale. Se non viene specificata, l’importanza predefinita è la media, cioè 0.5. Nell’esempio:

<priority>0.8</priority>

Come salvare il file

Il file deve essere falvato con codifica UTF-8. Tutti i programmi moderni, al momento del salvataggio, consentono di impostare la codifica.

Il nome del file consigliato è sitemap.xml, ma non è obbligatorio chiamarlo così.

Per far conoscere la nostra Sitemap ai motori di ricerca si può segnalargliela manualmente. Ad esempio, Google consente di farlo nei “Servizi per webmaster”. Un altro modo è specificare la posizione della Sitemap all’interno del file robots.txt aggiungendo la riga seguente (che naturalmente è un esempio, modificatela in base all’indirizzo del vostro sito):

Sitemap: <http://www.example.com/sitemap.xml>

E’ consigliabile utilizzare anche quest’ultimo metodo, segnalando comunque la Sitemap ai motori di ricerca principali (almeno Google).