venerdì 28 agosto 2009

Il File Robots.txt

Un file robots.txt è un file che viene usato per dare delle istruzioni precise ai crawler dei motori di ricerca. Principalmente viene utilizzato per non far indicizzare una pagina, un sito, una directory del proprio sito o anche per rimuovere una o più immagini da Google Immagini.
E' possibile creare un file robots.txt

1) Tramite il tool fornito da Google Webmaster Tool andate sotto configurazione sito - accesso crawler-genera file robots.txt
Inserite Disallaw sotto Azione
Inserite Googlebot nell'elenco Robot
In file directory inserite /

Ovviamente tutto a seconda di quello che volete che non venga indicizzato.

Per verificare il vostro file robots.txt potete analizzarlo sempre con Google WebMasterTool.

2)Scrivendolo manualmente
Il file robots.txt utilizza 2 comandi
User-agent: il robot al quale si da l'istruzione
Disallow: l'URL che si desidera bloccare

Aprite il notepad di Windows e scrivete:

Per bloccare l'intero sito

User-agent: *
Disallow: /

Per Bloccare una cartella ad un determinato crawler ad esempio Googlebot

User-Agent: Googlebot
Disallow: /cartella2/

Per bloccare una pagina
User-Agent: *
Disallow: /pagina.html

Per eliminare una immagine da Google Immagini
User-agent: Googlebot-Image
Disallow: /immagini/esempio.jpg

Per eliminare tutte le immagini Google Immagini:

User-agent: Googlebot-Image
Disallow: /

Per Bloccare un file specifico

User-agent: Googlebot
Disallow: /*.pdf$

Specifici comandi per Google

Per bloccare l'accesso a tutte le sottodirectory che iniziano con "prova":

User-agent: Googlebot
Disallow: /privato*/


Per bloccare l'accesso a tutti gli URL che comprendono un punto interrogativo (?)

User-agent: Googlebot
Disallow: /*?

Per bloccare tutti gli URL che terminano con esempio.php:

User-agent: Googlebot
Disallow: /*.php$

Una volta fatto il file robots.txt salvatelo come file di testo (appunto .txt) e inseritelo nella root principale del sito, ovvero dove avete uploadato il sito.

Se non avete accesso alla root potete inserire il comando metatag robot nella parte head dell'HTML del sito.

Per non far indicizzare il vostro sito da tutti i robots

meta name="robots" content="noindex"

Per escludere uno specifico robot

meta name="nome del robot esempio googlebot" content="noindex"

2 commenti:

  1. Grazie per l'info mi stavo proprio chiedendo come non far indicizzare delle pagine :)

    RispondiElimina