Pubblicato:09/10/2021

Aggiornato:09/10/2021

I motori di ricerca riescono ad indicizzare le pagine web dei siti tramite dei robot che scansionano il web e posizionano le pagine sul motore di ricerca in base a molteplici parametri. Ci sono vari robot che eseguono questa operazione.

Lo sai che esiste un modo per avere il controllo completo su chi esegue la scansione e indicizza il tuo sito?

Il modo in cui questo viene fatto è attraverso un file chiamato Robots.txt.

Robots.txt è un semplice file di testo che si trova nella directory principale del tuo sito. Indica ai "robot" (come gli spider dei motori di ricerca) per quali pagine eseguire la scansione e quali pagine ignorare.

Sebbene non sia essenziale, il file Robots.txt ti dà molto controllo su come Google e altri motori di ricerca vedono il tuo sito.

Se usato correttamente, questo può migliorare la scansione e persino avere un impatto sulla SEO.

Ma come si crea esattamente un file Robots.txt efficace? Una volta creato, come lo usi? E quali errori dovresti evitare durante l'utilizzo?

In questo post, condividerò tutto ciò che devi sapere sul file Robots.txt e su come usarlo sul tuo blog.

Che cos'è un file Robots.txt?

Agli albori di Internet, programmatori e ingegneri creavano "robot" o "spider" per scansionare e indicizzare le pagine sul web. Questi robot sono anche conosciuti come "user-agent".

A volte, questi robot si facevano strada su pagine che i proprietari dei siti non volevano indicizzare. Ad esempio, un sito in costruzione o un sito Web privato.

Per risolvere questo problema, Martijn Koster, un ingegnere olandese che ha creato il primo motore di ricerca al mondo (Aliweb), ha proposto una serie di standard a cui ogni robot dovrebbe aderire. Questi standard sono stati proposti per la prima volta nel febbraio 1994.

Il 30 giugno 1994, un certo numero di autori di robot e dei primi pionieri del web raggiunsero un consenso sugli standard.

Questi standard sono stati adottati come “Robots Exclusion Protocol” (REP).

Il file Robots.txt è un'implementazione di questo protocollo.

Il REP definisce una serie di regole che ogni crawler o spider legittimo deve seguire. Se Robots.txt indica ai robot di non indicizzare una pagina web, ogni robot legittimo, da Googlebot a MSNbot, deve seguire le istruzioni.

Nota

Un elenco di crawler legittimi è disponibile qui .

Tieni presente che alcuni robot canaglia - malware, spyware, raccoglitori di e-mail, ecc. - potrebbero non seguire questi protocolli. Questo è il motivo per cui potresti vedere il traffico dei bot sulle pagine che hai bloccato tramite Robots.txt.

Ci sono anche robot che non seguono gli standard REP che non vengono utilizzati per nulla di discutibile.

Puoi vedere il file robots.txt di qualsiasi sito web andando a questo URL: 

https://[dominio_sito web]/robots.txt

Utilizzo di Robots.txt

Robots.txt non è un documento essenziale per un sito web. Il tuo sito può posizionarsi e crescere perfettamente senza questo file.

Tuttavia, l'utilizzo di Robots.txt offre alcuni vantaggi:

  • Scoraggia i bot dalla scansione delle cartelle private: sebbene non sia perfetto, impedire ai bot di eseguire la scansione delle cartelle private ne renderà molto più difficile l'indicizzazione, almeno da parte dei bot legittimi (come gli spider dei motori di ricerca).
  • Controlla l'utilizzo delle risorse: ogni volta che un bot esegue la scansione del tuo sito, usa la larghezza di banda e le risorse del server, risorse che verrebbero spese meglio per i visitatori reali. Per i siti con molti contenuti, questo può aumentare i costi e offrire ai visitatori reali un'esperienza scadente. Puoi utilizzare Robots.txt per bloccare l'accesso a script, immagini non importanti, ecc... per risparmiare risorse.
  • Dai priorità alle pagine importanti: desideri che gli spider dei motori di ricerca eseguano la scansione delle pagine importanti del tuo sito (come le pagine di contenuto), non sprechi risorse scavando attraverso pagine inutili (come i risultati delle query di ricerca). Bloccando queste pagine inutili, puoi dare la priorità alle pagine su cui si concentrano i bot.

Come trovare il tuo file Robots.txt

Come suggerisce il nome, Robots.txt è un semplice file di testo.

Questo file è memorizzato nella directory principale del tuo sito web. Per trovarlo, apri semplicemente il tuo client FTP (File Zilla) e accedi alla directory del tuo sito web in public_html oppure accedi tramite cPanel o sPanel se usi Scala Hosting

Questo è un piccolo file di testo: il mio è poco più di 100 byte.

Per aprirlo, usa un qualsiasi editor di testo, come Notepad++Potresti vedere qualcosa del genere:

È possibile che non vedrai alcun file Robots.txt nella directory principale del tuo sito. In questo caso, dovrai creare tu stesso un file Robots.txt.

Ecco come:

Come creare un file Robot.txt

Poiché Robots.txt è un file di testo di base, crearlo è MOLTO semplice: basta aprire un editor di testo e salvare un file vuoto come robots.txt .

Per caricare questo file sul tuo server, usa il tuo client FTP, o come detto il file manager del tuo hosting,  per accedere al tuo server web. Quindi apri la cartella public_html e apri la directory principale del tuo sito.

A seconda di come è configurato il tuo hosting, la directory principale del tuo sito potrebbe trovarsi direttamente nella cartella public_html. Oppure, potrebbe essere una cartella al suo interno.

Una volta aperta la directory principale del tuo sito, trascina e rilascia il file Robots.txt al suo interno.

In alternativa, puoi creare il file Robots.txt direttamente dal tuo editor FTP.

Per fare ciò, apri la directory principale del tuo sito e fai clic con il tasto destro -> Crea nuovo file.

Nella finestra di dialogo, digita "robots.txt" (senza virgolette) e premi OK.

Dovresti vedere un nuovo file robots.txt all'interno:
Infine, assicurati di aver impostato l'autorizzazione file corretta per il file Robots.txt, dovresti impostare "0644". Basta che fai clic con il pulsante destro del mouse sul file Robots.txt e seleziona "Autorizzazioni file..."
Ecco qua: un file Robots.txt completamente funzionante!

Ma cosa puoi fare effettivamente con questo file?

Ora vedremo alcune istruzioni comuni che puoi utilizzare per controllare l'accesso al tuo sito.

Come usare Robots.txt

Ricorda che Robots.txt controlla essenzialmente il modo in cui i robot interagiscono con il tuo sito.

Vuoi impedire ai motori di ricerca di accedere all'intero sito? Cambia semplicemente le autorizzazioni in Robots.txt.

Vuoi impedire a Bing di indicizzare la tua pagina dei contatti? Puoi farlo.

Di per sé, il file Robots.txt non migliorerà il tuo SEO, ma puoi usarlo per controllare il comportamento del crawler sul tuo sito.

Per aggiungere o modificare il file, aprilo semplicemente nel tuo editor FTP e aggiungi direttamente il testo. Una volta salvato il file, le modifiche verranno applicate immediatamente. Un altro modo per modificarlo è usare SEOPress, plugin per la SEO che mette a disposizione numero funzioni tra cui la gestione del robot.txt 

Ecco alcuni comandi che puoi usare nel tuo file Robots.txt:

1. Blocca tutti i bot dal tuo sito

Vuoi impedire a tutti i robot di eseguire la scansione del tuo sito?

Aggiungi questo codice al tuo file Robots.txt:

User-agent: *
Disallow: /

Questo è l'aspetto che avrebbe nel file effettivo:

Per dirla semplicemente, questo comando dice a ogni user-agent (*) di non accedere a nessun file o cartella sul tuo sito.

Ecco la spiegazione completa di ciò che sta accadendo esattamente qui:

  • Agente utente:* – L'asterisco (*) è un carattere "jolly" che si applica a ogni oggetto (come il nome del file o, in questo caso, bot). Se cerchi "*.txt" sul tuo computer, verranno visualizzati tutti i file con estensione .txt. Qui, l'asterisco significa che il tuo comando si applica a ogni user-agent.
  • Disallow: / – "Disallow" è un comando robots.txt che impedisce a un bot di eseguire la scansione di una cartella. La singola barra (/) significa che stai applicando questo comando alla directory principale.

Nota: questo è l'ideale se gestisci qualsiasi tipo di sito Web privato come un sito di appartenenza. Ma tieni presente che questo impedirà a tutti i bot legittimi come Google di eseguire la scansione del tuo sito. Usare con cautela.

2. Impedisci a tutti i bot di accedere a una cartella specifica

Cosa succede se si desidera impedire ai bot di eseguire la scansione e l'indicizzazione di una cartella specifica?

Ad esempio, la cartella /images?

Usa questo comando:

User-agent: *
Disallow: /[folder_name]/

Se vuoi impedire ai bot di accedere alla cartella /images, ecco come sarebbe il comando:

Questo comando è utile se si dispone di una cartella di risorse che non si desidera sovraccaricare di richieste di robot crawler. Può essere una cartella con script non importanti, immagini obsolete, ecc.

Nota: la cartella /images è puramente un esempio. Non sto dicendo che dovresti impedire ai bot di eseguire la scansione di quella cartella. Dipende da cosa stai cercando di ottenere.

I motori di ricerca in genere disapprovano i webmaster che impediscono ai loro bot di eseguire la scansione di cartelle non di immagini, quindi fai attenzione quando usi questo comando. Di seguito ho elencato alcune alternative a Robots.txt per impedire ai motori di ricerca di indicizzare pagine specifiche.

3. Blocca bot specifici dal tuo sito

E se volessi impedire a un robot specifico, come Googlebot, di accedere al tuo sito?

Ecco il comando per questo:

User-agent: [robot name]
Disallow: /

Ad esempio, se volessi bloccare Googlebot dal tuo sito, questo è quello che useresti:

Ogni bot o agente utente legittimo ha un nome specifico. Lo spider di Google, ad esempio, si chiama semplicemente "Googlebot". Microsoft esegue sia "msnbot" che "bingbot". Il bot di Yahoo si chiama “Yahoo! Slurp”.

Per trovare i nomi esatti dei diversi agenti utente (come Googlebot, bingbot, ecc.) utilizza questa pagina .

Nota: il comando precedente blocca un bot specifico dall'intero sito. Googlebot è usato puramente come esempio. Nella maggior parte dei casi non vorrai mai impedire a Google di eseguire la scansione del tuo sito web.

4. Blocca la scansione di un file specifico

Il protocollo di esclusione robot ti offre un controllo preciso su quali file e cartelle si desidera bloccare l'accesso del robot.

Ecco il comando che puoi usare per impedire che un file venga scansionato da qualsiasi robot:

User-agent: *
Disallow: /[folder_name]/[file_name.extension]

Quindi, se volessi bloccare un file chiamato "img_0001.png" dalla cartella "images", dovresti usare questo comando:

5. Blocca l'accesso a una cartella ma consenti l'indicizzazione di un file

Il comando "Disallow" impedisce ai bot di accedere a una cartella o a un file.

Il comando "Consenti" fa il contrario.

Il comando "Consenti" sostituisce il comando "Disallow" se il primo prende di mira un singolo file.

Ciò significa che puoi bloccare l'accesso a una cartella ma consentire agli agenti utente di accedere comunque a un singolo file all'interno della cartella.

Ecco il formato da utilizzare:

User-agent: *
Disallow: /[folder_name]/
Allow: /[folder_name]/[file_name.extension]/

Ad esempio, se desideri impedire a Google di eseguire la scansione della cartella "immagini" ma desideri comunque consentirle l'accesso al file "img_0001.png" memorizzato in essa, ecco il formato che utilizzeresti:

Per l'esempio sopra, sarebbe simile a questo:

Ciò impedirebbe l'indicizzazione di tutte le pagine nella directory /search/.

E se volessi impedire a tutte le pagine che corrispondono a un'estensione specifica (come ".php" o ".png") di essere indicizzate?

Usa questo:

User-agent: *
Disallow: /*.extension$

Il segno ($) qui indica la fine dell'URL, ovvero l'estensione è l'ultima stringa nell'URL.

Se volessi bloccare tutte le pagine con l'estensione ".js" (per Javascript), ecco cosa useresti:

Questo comando è particolarmente efficace se vuoi impedire ai bot di eseguire la scansione degli script.

6. Impedisci ai bot di eseguire la scansione del tuo sito troppo frequentemente

Negli esempi precedenti, potresti aver visto questo comando:

User-agent: *
Crawl-Delay: 20

Questo comando indica a tutti i bot di attendere un minimo di 20 secondi tra le richieste di scansione.

Il comando Crawl-Delay viene spesso utilizzato su siti di grandi dimensioni con contenuti aggiornati di frequente (come Twitter). Questo comando dice ai bot di attendere un minimo di tempo tra le richieste successive.

Ciò garantisce che il server non sia sopraffatto da troppe richieste contemporaneamente da diversi bot.

Ad esempio, questo è il file Robots.txt di Twitter che indica ai bot di attendere almeno 1 secondo tra le richieste:

File Twitter Robots.txt

Puoi persino controllare il ritardo della scansione per i singoli bot. Ciò garantisce che non ci siano troppi bot che eseguano la scansione del tuo sito contemporaneamente.

Ad esempio, potresti avere una serie di comandi come questo:

Nota: non è necessario usare questo comando a meno che tu non stia gestendo un sito enorme con migliaia di nuove pagine create ogni minuto (come Twitter).

Errori comuni da evitare quando si utilizza Robots.txt

Il file Robots.txt è un potente strumento per controllare il comportamento dei bot sul tuo sito.

Tuttavia, può anche portare a un disastro SEO se non utilizzato correttamente. Non aiuta che ci siano una serie di idee sbagliate su Robots.txt che circolano online.

Ecco alcuni errori che devi evitare quando usi Robots.txt:

Errore n. 1 – Utilizzo di Robots.txt per impedire l'indicizzazione dei contenuti

Se "Disabilita" una cartella nel file Robots.txt, i bot legittimi non la sottoporranno a scansione.

Ma questo significa ancora due cose:

  • I bot eseguiranno la scansione del contenuto della cartella collegata da fonti esterne. Ad esempio, se un altro sito si collega a un file all'interno della cartella bloccata, i bot lo seguiranno e lo indicizzeranno.
  • I bot canaglia – spammer, spyware, malware, ecc. – di solito ignorano le istruzioni di Robots.txt e indicizzano i tuoi contenuti a prescindere.

Ciò rende Robots.txt uno strumento scadente per impedire l'indicizzazione del contenuto.

Ecco cosa dovresti usare invece: usa il tag 'meta noindex'.

Aggiungi il seguente tag nelle pagine che non desideri vengano indicizzate:

<meta name=”robots” content=”noindex”>

Questo è il metodo consigliato e ottimizzato per la SEO per impedire che una pagina venga indicizzata (sebbene continui a non bloccare gli spammer).

Nota: se utilizzi un plug-in di WordPress come Yoast SEO o SEOPresspuoi farlo senza modificare alcun codice. Ad esempio, nel plugin SEOPress puoi aggiungere il tag noindex su base post/pagina in questo modo:

Basta aprire e pubblicare/pagina e andare su Avanzati nella sezione SEO. Quindi spunta l'opzione noindex.

Errore #2 – Usare Robots.txt per proteggere i contenuti privati

Se disponi di contenuti privati, ad esempio PDF per un corso e-mail, il blocco della directory tramite il file Robots.txt aiuterà, ma non è sufficiente.

Ecco perché:

Il tuo contenuto potrebbe comunque essere indicizzato se è collegato da fonti esterne. Inoltre, i bot canaglia continueranno a eseguirne la scansione.

Un metodo migliore è mantenere tutti i contenuti privati dietro un accesso. Ciò garantirà che nessuno, bot legittimi o disonesti, possa accedere ai tuoi contenuti.

Il rovescio della medaglia è che significa che i tuoi visitatori hanno un cerchio in più da attraversare. Ma i tuoi contenuti saranno più sicuri.

Errore n. 3 – Utilizzo di Robots.txt per impedire che i contenuti duplicati vengano indicizzati

I contenuti duplicati sono un grande no-no quando si tratta di SEO.

Tuttavia, l'utilizzo di Robots.txt per impedire l'indicizzazione di questo contenuto non è la soluzione. Ancora una volta, non vi è alcuna garanzia che gli spider dei motori di ricerca non trovino questo contenuto tramite fonti esterne.

Ecco altri 3 modi per consegnare contenuti duplicati:

  • Elimina contenuto duplicato : questo eliminerà completamente il contenuto. Tuttavia, questo significa che stai portando i motori di ricerca a 404 pagine, non l'ideale. Per questo motivo , l' eliminazione non è consigliata .
  • Usa reindirizzamento 301 : un reindirizzamento 301 indica ai motori di ricerca (e ai visitatori) che una pagina è stata spostata in una nuova posizione. Aggiungi semplicemente un reindirizzamento 301 sui contenuti duplicati per portare i visitatori ai tuoi contenuti originali.
  • Aggiungi tag rel=”canonical” – Questo tag è una versione 'meta' del reindirizzamento 301. Il tag "rel=canonical" indica a Google qual è l'URL originale per una pagina specifica. Ad esempio questo codice:
    <link href=" http://example.com/original-page.html ” rel=”canonical” />
    Dice a Google che la pagina – original-page.html – è la versione “originale” di la pagina duplicata. Se utilizzi WordPress, questo tag è facile da aggiungere utilizzando Yoast SEO o SEOPress.

Se vuoi che i visitatori possano accedere al contenuto duplicato, usa il tag rel="canonical" . Se non vuoi che visitatori o bot accedano al contenuto, usa un reindirizzamento 301.

Fai attenzione all'implementazione perché avranno un impatto sul tuo SEO.

Considerazioni Finali

Il file Robots.txt è un utile alleato per gestire il modo in cui gli spider dei motori di ricerca e altri bot interagiscono con il tuo sito. Se usati correttamente, possono avere un effetto positivo sul tuo posizionamento e rendere più facile la scansione del tuo sito.

Usa questa guida per capire come funziona Robots.txt, come è installato e alcuni modi comuni per usarlo. Ed evita gli errori di cui abbiamo discusso sopra.

Fammi sapere cosa ne pensi scrivendomi nei commenti

Se ancora non l'hai fatto seguici sulla nostra pagina Facebook ed iscriviti al gruppo di supporto e al canale YouTube.

Articoli Correlati

Sull'autore

Roberto Delisio

Sono più di 15 anni che lavoro alla realizzazioni di applicativi e siti web. Metto la mia esperienza a disposizione di chi ha necessità di sviluppare o gestire il proprio sito in Wordpress.

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}
>

Scarica l'ebook per evitare e risolvere i 10 errori più comuni su WordPress