Cominciamo con il chiarire una cosa, il file robots.txt serve per
impedire a uno spider d'indicizzare una pagina, non il contrario.
Il file va caricato nella root del sito, lo spider lo cercherà e se lo trova ne trarrà le sue conclusioni.
A cosa serve impedire l'indicizzazione di una pagina ? Presto detto ! Supponiamo di avere un forum come questo, dove abbiamo installato una modifica al codice per riscrivere gli indirizzi da viewforum.php?t=xx a forum-title-fxx.html, avremo due indirizzi per il medesimo contenuto, e questo potrebbe portare a una penalizzazione su google o altri motori di ricerca.
quindi dobbiamo dire allo spider di lasciar perdere il vecchio formato, questo si può fare con il file robots.txt.
vediamo come è strutturato
- Codice: Seleziona tutto
I codici sono visibili solo agli utenti del forum, registrati e avrai pieno accesso alle nostre risorse
con queste due semplici righe io ho dichiarato che tutti gli spider (il carattere * dopo user-agent sta a significare tutti gli spider) non devono indicizzare gli url della mia cartella forum che contegano la dicitura viewtopic.php.
se mi volessi rivolgere solo allo spider di google, dovrei scrivere il codice in questo modo
- Codice: Seleziona tutto
I codici sono visibili solo agli utenti del forum, registrati e avrai pieno accesso alle nostre risorse
ogni url da nascondere va aggiunto di seguito con la stessa sintassi
vi posto il file robots.txt di questo sito come esempio
- Codice: Seleziona tutto
I codici sono visibili solo agli utenti del forum, registrati e avrai pieno accesso alle nostre risorse
come vedete, nell'ultima riga ho messo la locazione della sitemap, per maggiori informazioni a riguardo, leggete [url=http://www.isola-atlantide.com/forum/altre-risorse-f26/seo-sitemap-t624.html]questo topic[/url].