Cosè il file robots.txt e come lo si deve utilizzare su WordPress

file robots wordpress
Tabella dei Contenuti
Condividi il post
Condividi su whatsapp
Condividi su facebook
Condividi su linkedin
Condividi su twitter

Il file robots.txt serve per poter comunicare con i motori di ricerca. Infatti, oltre Google, tutti i motori di ricerca utilizzano dei crawler, ovvero dei software che analizzano i contenuti della rete e vanno alla ricerca in modo automatico delle pagine da indicizzare.

Il file robots.txt svolge quindi un ruolo decisivo nel posizionamento di un sito web deve essere compilato correttamente. Prima di capire come gestire al meglio questo file per evitare problemi, bisogna capire bene che cos’è il file robots.txt, quando e come utilizzarlo.

Cos’è il file robots.txt

Il file robots.txt è un semplice file di testo, che viene scritto con il classico programma di Windows, Blocco Note, e che va posizionato nella cartella root (radice) del proprio sito web, assicurandosi che abbia la giusta estensione “.txt”. Per cercare e visualizzare questo file basta scrivere l’url del proprio sito seguito dal nome del file.

Ad esempio: www.miositoweb.it/robots.txt.

Il file robots.txt viene utilizzato per comunicare con i motori di ricerca. All’interno del file, infatti, vengono scritte delle indicazioni che i crawler andranno a leggere. In base alle indicazioni fornite attraverso semplici stringhe di testo, i software dei motori di ricerca capiranno se indicizzare quel contenuto o meno.

La possibilità di indicare ai search engine cosa indicizzare e cosa invece lasciare fuori dalla loro scansione permette anche di evitare che il server su cui viene ospitato il sito web venga sovraccaricato. Un sito lento verrebbe penalizzato nell’indicizzazione sui motori di ricerca.

Infatti, e’ possibile anche evitare che alcune pagine ritenute non rilevanti vengano scansionate dai crawler. Se invece si vuole escludere completamente una pagina del sito dall’indicizzazione dei motori di ricerca, rendendola praticamente invisibile, è meglio utilizzare il tag “nofollow” inserendolo nella sezione head della pagina web, in alternativa, impostando questa indicazione nei plugin di WordPress.

Ecco un esempio del tag “noindex” in un file html:

<meta name=”robots” content=”noindex”>

Come compilare correttamente il file robots.txt

La prima parola che andremo ad inserire nel nostro file di testo sarà la dicitura “user-agent”. Questo termine si riferisce, e va a richiamare, il robot utilizzato dal motore di ricerca che va ad analizzare il nostro sito web.

Ogni motore di ricerca ha uno specifico user-agent e, oltre al nome dello specifico crawler, si può anche far in modo che il sito sia considerato da tutti i motori di ricerca o solo da alcuni.

Ecco qualche esempio:

file robots.txt

Nel primo esempio (user-agent: *) si indica che il sito può essere indicizzato da tutti i motori di ricerca; nel secondo, la regola (user-agent: Googlebot) specifica che il file sarà letto solo dal crawler di Google e, nell’ultimo esempio, ci si rivolge solo al robot di Bing (user-agent: bingbot).

Online è possibile consultare la lista dei crawler dei principali motori di ricerca.

La seconda voce che troviamo nel file robots.txt, ovvero “Disallow” indica invece ai crawlers di non scansionare alcune pagine o files presenti nel sito in modo tale da non sovraccaricare eccessivamente il server. Ovviamente, questa indicazione ha più senso se si ha a che fare con siti web di grandi dimensioni.

Ad esempio, basterà scrivere

User-agent: *

Disallow: /foto/

Per indicare al motore di ricerca di non considerare la directory /foto o, ancora, scrivendo

User-agent: *

Disallow: /foto/*jpg

I motori di ricerca sapranno che potranno considerare i files presenti nella cartella foto, ma non quelli con estensione .jpg.

In realtà, sono diverse le sintassi per “Disallow” che possono essere utilizzate e si possono indicare a proprio piacimento in base alle diverse esigenze.

Come posizionare correttamente il file robots.exe

Il file robots.exe va inserito nella directory principale del sito. Come abbiamo accennato prima, infatti, sarà accessible visitando www.miositoweb.it/robots.txt .

Bisogna fare attenzione a dare il giusto nome al file e controllare che l’estensione sia quella giusta. Per verificare che il file robots.txt sia scritto e posizionato correttamente sono utili anche gli strumenti per webmaster messi a disposizione da Google, come la Google Search Console.

Una volta inserito il sito per cui si vuole avviare la verifica del file robots.txt, basta selezionare la voce “Scansione > Tester dei file robots.txt“ dal menu a sinistra.

File robots.txt WordPress

Come utilizzare il file robots.txt su WordPress

Le indicazioni che ti abbiamo fornito finora sono valide in generale per qualunque sito, ma se utilizzi WordPress puoi contare anche su una serie di plugin che ti permettono di gestire ed editare il file robots.txt. Poiché molti di questi add-ons forniscono già delle regole di base, si tratta di una scelta adatta per chi e’ alle prime armi.

In realtà, siccome si tratta di una procedura molto semplice, conviene operare direttamente sul file di testo.

Scrivi un commento

Condividi su whatsapp
Condividi su facebook
Condividi su linkedin
Condividi su twitter
Assistenza per wordpress
Post Popolari:
Carlo Alberto Bello

La mia passione per WordPress mi ha portato negli ultimi 10 anni a voler aiutare sempre più persone a creare blog e siti web in WordPress in completa autonomia. Spero troverai utili le oltre 200 guide WordPress e sulla SEO che ho pubblicato su questo blog. Sono disponibile a fornire una prima consulenza SEO GRATUITA, consigliandoti una strategia seo per posizionare il tuo sito WordPress tra i primi su Google.