Robots.txt disallow, come gestire l’accesso dei crawler al tuo sito

I Bot Crawler sono strumenti molto conosciuti e utilizzati dai web master al fine di stabilire le varie regole e istruzioni ai sistemi di logica usati dai motori di ricerca.

Questi bot vengono istruiti modificando un semplice file di testo, conosciuto come robots.txt.

Tramite le informazioni contenute all’interno del file robots.txt, i Crawler sanno cosa che deve essere mostrato e quello che invece può essere nascosto all’utente.

Quando si avvia una ricerca, la prima operazione svolta dal bot è la lettura del file robots.txt, tramite l’indirizzo example.com/robots.txt, dove risiedono tutte le indicazioni inserite dal web master.

Questa operazione torna molto utile quando all’interno del sito ci sono contenuti duplicati. Questi infatti, potrebbero rallentare i criteri di ricerca e indicizzazione, ritardando la velocità di comunicazione tra sito e utente e quindi, dando la precedenza ad altri siti che rispondono prima. Uno dei metodi più utilizzati prevede l’istruzione tramite il file robots.txt di non consentire ai bot di scansionare una o più pagine di un sito.

File robots.txt: ecco come appare

Il file robots.txt è un semplice file di testo che mostra due semplicissime righe di testo alla prima apertura. Ecco come appare dopo la sua creazione:

User-agent: *
Disallow:

Si tratta di due semplici righe di comando. Nella prima bisogna inserire i vari bot ai quali impartire le istruzioni. Lasciando l’asterisco al posto del nome dei bot, le istruzioni vengono impartite a ognuno di essi.

Nella seconda riga di comando bisogna inserire i contenuti, le pagine o parti di esse che non devono essere interessate dalla scansione. Nel caso dell’esempio non è presente nessuna esclusione e in base alle indicazioni riportate, in questo caso tutti i bot non sono interessati da nessuna esclusione.

Indicare la sitemap nel file robots.txt

Nel file robots.txt può essere indicata anche posizione della sitemap del sito. Per fare ciò bisogna utilizzare la seguente stringa:

Sitemap: https://iltuosito.it/sitemap_location.xml

Ovviamente, al posto dell’esempio, deve essere inserito l’indirizzo esatto della sitemap del proprio sito.

File robots.txt mancante

Qualora il file robots.txt non dovesse essere presente, i bot eseguiranno in automatico la scansione di tutti i contenuti e le pagine presenti nel sito. La stessa situazione si verifica se il file robots.txt è vuoto.

In questo caso bisogna creare un nuovo file robots.txt, semplicemente creando un file di testo nuovo nominandolo ”robots.txt” senza le virgolette. Per funzionare, deve essere creato nella directory principale del server.

Anche il nome è molto importante, infatti, quando si nomina il file è necessario utilizzare solo lettere minuscole e nessun simbolo o carattere eccetto il .txt per l’estensione.

Come indicare gli User_agent nel file robots.txt

Nel primo esempio riportato più sopra, i bot interessati dal comando sono tutti quelli presenti. Se volessimo indicare uno User_agent specifico, basta creare due righe di comando per ogni agent specifico, come in esempio:

User_agent: nomeuseragent#1
Disallow:
User_agent: nomeuseragent#2
Disallow: /directory/

Ovviamente, al posto di ”nomeuseragent#1 o #2” bisogna sostituire il nome del bot, mentre alla voce ”directory” si deve inserire l’indirizzo da escludere.