Un file robots.txt è un file che viene usato per dare delle istruzioni precise ai crawler dei motori di ricerca. Principalmente viene utilizzato per non far indicizzare una pagina, un sito, una directory del proprio sito o anche per rimuovere una o più immagini da Google Immagini.
E' possibile creare un file robots.txt
1) Tramite il tool fornito da Google Webmaster Tool andate sotto configurazione sito - accesso crawler-genera file robots.txt
Inserite Disallaw sotto Azione
Inserite Googlebot nell'elenco Robot
In file directory inserite /
Ovviamente tutto a seconda di quello che volete che non venga indicizzato.
Per verificare il vostro file robots.txt potete analizzarlo sempre con Google WebMasterTool.
2)Scrivendolo manualmente
Il file robots.txt utilizza 2 comandi
User-agent: il robot al quale si da l'istruzione
Disallow: l'URL che si desidera bloccare
Aprite il notepad di Windows e scrivete:
Per bloccare l'intero sito
User-agent: *
Disallow: /
Per Bloccare una cartella ad un determinato crawler ad esempio Googlebot
User-Agent: Googlebot
Disallow: /cartella2/
Per bloccare una pagina
User-Agent: *
Disallow: /pagina.html
Per eliminare una immagine da Google Immagini
User-agent: Googlebot-Image
Disallow: /immagini/esempio.jpg
Per eliminare tutte le immagini Google Immagini:
User-agent: Googlebot-Image
Disallow: /
Per Bloccare un file specifico
User-agent: Googlebot
Disallow: /*.pdf$
Specifici comandi per Google
Per bloccare l'accesso a tutte le sottodirectory che iniziano con "prova":
User-agent: Googlebot
Disallow: /privato*/
Per bloccare l'accesso a tutti gli URL che comprendono un punto interrogativo (?)
User-agent: Googlebot
Disallow: /*?
Per bloccare tutti gli URL che terminano con esempio.php:
User-agent: Googlebot
Disallow: /*.php$
Una volta fatto il file robots.txt salvatelo come file di testo (appunto .txt) e inseritelo nella root principale del sito, ovvero dove avete uploadato il sito.
Se non avete accesso alla root potete inserire il comando metatag robot nella parte head dell'HTML del sito.
Per non far indicizzare il vostro sito da tutti i robots
meta name="robots" content="noindex"
Per escludere uno specifico robot
meta name="nome del robot esempio googlebot" content="noindex"
Sono un appassionato di Seo e Content Marketing e da piu di 10 anni mi sono dedicato con passione e per passione a questo argomento. Ho viaggiato in Europa, Italia, Svezia, Malta, e per ultimo attualmente Berlino. Mi sono buttato in molti mercati tutti differenti tra loro, turismo, consulenza, gambling, e fashion. Essere flessibili è adattarsi ai cambiamenti è la cosa più imporante in questo lavoro.
venerdì 28 agosto 2009
giovedì 27 agosto 2009
Google Data Center
Fatevi un bel Tour nel Google Data Center
mercoledì 26 agosto 2009
XML Site Map Generator
Un utile strumento che vi consentirà di creare la vostra XML Site Map in breve tempo.
XML Site Map Generator
XML Site Map Generator
martedì 25 agosto 2009
Matt Cutts - Straight from Google: What You Need to Know
L'intervento di Matt Cutts al WordCamp di San Francisco 2009
Potete anche scaricare l'intervento Straight from Google: What You Need to Know in formato power point
Potete anche scaricare l'intervento Straight from Google: What You Need to Know in formato power point
Iscriviti a:
Post (Atom)